Sparkのマッチング
Sparkのマッチングは、サブスクリプションのBig Dataを伴うTalend Platformソリューション、またはTalend Data Fabricにのみ適用されます。
Talend Studioでは、Sparkで機械学習を使って非常に大量のデータをマッチングさせることができます。このフィーチャーは、手作業を最小限にしつつ、大量レコードのマッチングを行うのに役立ちます。
Sparkの機械学習は通常、次の2フェーズになっています: 最初のフェーズでは、履歴データと数学的なヒューリスティックをベースにモデルを計算します(機械に学習させる)。2番目のフェーズでは、新しいデータにモデルを適用します。Talend Studioの最初のフェーズはtMatchPairingコンポーネントとtMatchModelコンポーネントを含む2つのジョブで構成されます。2番目のフェーズはtMatchPredictコンポーネントを含む3番目のジョブになります。
Talend StudioでSparkのマッチングを行う場合、2つのワークフローが可能です。
-
ブロッキングキーの定義をベースにサスペクトレコードのペアを計算する。
-
データセットを代表するサスペクトレコードのサンプルを作成する。
-
オプションで、このサスペクトレコードのサンプルを、Talend Data Stewardshipサーバーで定義したグルーピングキャンペーンに書き込むことができます。
-
ユニークなレコードを完全マッチングレコードから分離する。
-
tMatchPredictで使用するペアリングモデルを生成します。
続いて、Talend Data Stewardshipサーバーで定義したグルーピングキャンペーン内のタスクを解決することで、サスペクトレコードのサンプルを手動でラベル付けできます(推奨する方法)。または、ファイルを手動で編集する方法も使えます。
-
疑いがあるペアのそれぞれにおけるレコード間の類似性を計算する。
-
ランダムフォレストアルゴリズムをベースに分類モデルのトレーニングを行う。
tMatchPredictでは、疑わしいレコードのラベルを自動的に付け、コンポーネントのプロパティに設定されたラベルにマッチする疑わしいレコードをグルーピングします。
-
サスペクトレコードを自動的にラベル付けする。
-
コンポーネントプロパティ内のラベルセットとマッチングするサスペクトレコードをグルーピングする。
-
正確な重複を一意のレコードから分離する。