Sparkのマッチング

Sparkのマッチングは、サブスクリプションのBig Dataを伴うTalend Platformソリューション、またはTalend Data Fabricにのみ適用されます。

Talend Studioでは、Sparkで機械学習を使って非常に大量のデータをマッチングさせることができます。このフィーチャーは、手作業を最小限にしつつ、大量レコードのマッチングを行うのに役立ちます。

Sparkの機械学習は通常、次の2フェーズになっています: 最初のフェーズでは、履歴データと数学的なヒューリスティックをベースにモデルを計算します(機械に学習させる)。2番目のフェーズでは、新しいデータにモデルを適用します。Talend Studioの最初のフェーズはtMatchPairingコンポーネントとtMatchModelコンポーネントを含む2つのジョブで構成されます。2番目のフェーズはtMatchPredictコンポーネントを含む3番目のジョブになります。

Talend StudioでSparkのマッチングを行う場合、2つのワークフローが可能です。

最初のワークフローでは、tMatchPairingで以下の処理を行います。

ブロッキングキーの定義をベースにサスペクトレコードのペアを計算する。
データセットを代表するサスペクトレコードのサンプルを作成する。
オプションで、このサスペクトレコードのサンプルを、Talend Data Stewardshipサーバーで定義したグルーピングキャンペーンに書き込むことができます。
ユニークなレコードを完全マッチングレコードから分離する。
tMatchPredictで使用するペアリングモデルを生成します。

続いて、Talend Data Stewardshipサーバーで定義したグルーピングキャンペーン内のタスクを解決することで、サスペクトレコードのサンプルを手動でラベル付けできます(推奨する方法)。または、ファイルを手動で編集する方法も使えます。

次に、tMatchModelの2番目のジョブでラベルを付けた疑わしいレコードのサンプルを使用できます。ここでtMatchModelは以下の処理を行います。

疑いがあるペアのそれぞれにおけるレコード間の類似性を計算する。
ランダムフォレストアルゴリズムをベースに分類モデルのトレーニングを行う。

tMatchPredictでは、疑わしいレコードのラベルを自動的に付け、コンポーネントのプロパティに設定されたラベルにマッチする疑わしいレコードをグルーピングします。

2番目のワークフローのtMatchPredictでは、tMatchPairingによって生成されたペアリングモデルとtMatchModelによって生成されたマッチングモデルを新しいデータセットで直接使用し、以下の処理を行います。

サスペクトレコードを自動的にラベル付けする。
コンポーネントプロパティ内のラベルセットとマッチングするサスペクトレコードをグルーピングする。
正確な重複を一意なレコードから分離する。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください