メイン コンテンツをスキップする 補完的コンテンツへスキップ

ブロッキングキーを定義

このタスクについて

ブロッキングキーを定義することは必須ではありませんが、定義することを強くお勧めします。ブロッキングキーを使ってブロック内のデータをパーティショニングすると、比較が各ブロック内のレコードペアに限定されるため、検証が必要なレコード数が減ります。ブロッキングカラムを使うと、大型のデータセットを処理する時に非常に便利です。

手順

  1. [Data] (データ)セクションで[Select Blocking Key] (ブロッキングキーを選択)タブをクリックします。
  2. ブロックで処理されたデータをパーティショニングするカラムの名前をクリックします。
    選択されたカラムと同じ名前を持つブロッキングキーが、[Blocking Key] (ブロッキングキー) テーブルにリスト表示されます。
    テーブルでは複数のカラムを定義できますが、生成されて[Data] (データ)テーブルのBLOCK_KEYカラムにリスト表示されるブロッキングキーは1つだけです。
    たとえば、最初の文字が同じであるレコードを処理するようcountryカラムやlnameカラムでアルゴリズムを使用すると、国やラストネームの最初の文字が同じであるデータレコードが同じブロックにグルーピングされます。比較は、各ブロック内のレコードに限定されています。
    [Blocking key] (ブロッキングキー)テーブルからカラムを削除するには、そのカラムを右クリックして[Delete] (削除)を選択するか、[Data] (データ)テーブルでそのカラムの名前をクリックします。
  3. ブロッキングキー用のアルゴリズムを選択し、必要に応じて[Blocking key] (ブロッキングキー)テーブルで他のパラメーターを設定します。
    この例で使用されているブロッキングキーは1つのみです。countryカラムにある各単語の先頭の文字が取得され、BLOCK_KEYカラムにリスト表示されます。
  4. [Chart] (チャート)をクリックし、生成されたキーを計算して[Data] (データ)テーブルでサンプルレコードをグルーピングし、その結果をチャートに表示します。
    このチャートで、ブロック数に関する統計を視覚化し、望んでいる結果に基づいてブロッキングパラメーターを適用させることができます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。