tMatchPredictがデータセットでの値を予測する方法
学習モデルがビルドされたら、tMatchPredictコンポーネントは、tMatchModelから受信したモデルを使って、データセット上の値を予測できます。
入力レコードは、ペアリング済みまたは未ペアリングのいずれかになります:
- 入力レコードがペアリング済みである場合、tMatchPredictコンポーネントは、疑わしい重複を自動的にラベル付けします。
- 入力レコードがペアリングされていない場合、tMatchPairingコンポーネントによって生成されるペアリングモデルを使って、疑わしい重複のペアを計算します。
アルゴリズムにクラスタリングステップを追加すると、コンポーネントは、ペアを返す代わりに、相互にマッチングしているレコードのグループを返すこともできます。一般的にはマッチングに対応するラベルであるクラスタリングクラスをていぎできます。
クラスタリングに使用されるアルゴリズムは、各頂点がレコードであるグラフの接続されたコンポーネントを計算します。レコードのペアに正しいラベルが付いていれば、2つの頂点の間に線があります。
たとえば、レコードAがレコードBとマッチングし、レコードBがレコードCとマッチングする場合は、レコードAとレコードCが不一致でも、レコードA、レコードB、レコードCが含まれるグループが作成されます。