ジョブを設定
始める前に
-
tMatchPairingコンポーネントを使用して、疑わしいデータペアを生成しました。
-
また、疑わしいペアの2番目のレコードのとなりに、重複レコードかどうか、または重複の可能性があるかどうかを示すラベルを追加しています:
480060609;DFSS_AgencySiteLies_2012.csv;Catholic Charities of the Archdiocese of Chicago St. Joseph;4800 S. Paulina; st. joseph_1;; 480060609;purple_binder_early_childhood.csv;Catholic Charities Chicago - St. Joseph;4800 S Paulina Street; st. joseph_1;0.8058642705131237;YES 425760624;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS GOLDBLATT, NATHAN R.;4257 W ADAMS; r._20;; 422560653;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS ROBINSON, JACKIE R.;4225 S LAKE PARK AVE; r._20;0.8219437219200757;NO
この例では[YES]または[NO]のラベルを使用していますが、この他にも任意のラベルを使用できます。
手順
- [Palette] (パレット)からtFileInputDelimitedおよびtMatchModelコンポーネントをデザインワークスペースにドロップします。
- リンクを使用してコンポーネントを接続します。
- ソースデータの疑わしいペアと疑わしいサンプルを計算の説明に従ってSparkクラスターへの接続を定義していることを確認します。 ビューで、