メイン コンテンツをスキップする 補完的コンテンツへスキップ

ブロッキングキーを定義

このタスクについて

ブロッキングキーを定義することは必須ではありませんが、定義することを強くお勧めします。ブロッキングキーを使ってブロック内のデータをパーティショニングすると、比較が各ブロック内のレコードペアに限定されるため、検証が必要なレコード数が減ります。ブロッキングカラムを使うと、大型のデータセットを処理する時に非常に便利です。

手順

  1. [Blocking key] (ブロッキングキー)メニューの[Blocking algorithm] (ブロッキングアルゴリズム)セクションで、[Add new item] (新しい項目を追加)をクリックします。
  2. ブロッキングキー用のアルゴリズムを選択し、必要に応じて[Blocking key] (ブロッキングキー)テーブルで他のパラメーターを設定します。
    この例で使用されているブロッキングキーは1つのみです。countryカラムにある各単語の先頭の文字が取得され、BLOCK_KEYカラムにリスト表示されます。
  3. ブロックで処理されたデータをパーティショニングするカラムの名前をクリックします。
    [Blocking key] (ブロッキングキー)メニューにあるブロッキングキーとそのパラメーターの例。
    テーブルでは複数のカラムを定義できますが、生成されて[Data] (データ)テーブルのBLOCK_KEYカラムにリスト表示されるブロッキングキーは1つだけです。
    たとえば、最初の文字が同じであるレコードを処理するようcountryカラムやlnameカラムでアルゴリズムを使用すると、国やラストネームの最初の文字が同じであるデータレコードが同じブロックにグルーピングされます。比較は、各ブロック内のレコードに限定されています。
    [Blocking key] (ブロッキングキー)テーブルからカラムを削除するには、そのカラムを右クリックして[Delete] (削除)を選択するか、[Data] (データ)テーブルでそのカラムの名前をクリックします。
  4. [Chart] (チャート)をクリックし、生成されたキーを計算して、その結果をチャートに表示させます。
    このチャートで、ブロック数に関する統計を視覚化し、望んでいる結果に基づいてブロッキングパラメーターを適用させることができます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。