tMatchPairing

Sparkでの機械学習のコンテキストで、大量のボリュームを含むソースデータから疑わしい重複のペアを計算できます。

このコンポーネントでは、行ごとにデータセット行を読み取り、個別ファイルのユニーク行および厳密な重複を排除し、ブロッキングキー定義に基づいて疑わしいレコードのペアを計算し、データセットを表す疑わしいレコードのサンプルを作成します。

サスペクトペアを手動でラベル付けしたり、Talend Data Stewardshipで既に定義済みのグルーピングキャンペーンにロードしたりできます。

ローカルモードでは、Apache Spark 2.4.0以降のバージョンがサポートされています。

デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。詳細は、機能マネージャーを使って機能をインストールをご覧ください。

Apache Spark BatchのtMatchPairingプロパティ

これらのプロパティは、[Spark Batch]ジョブのフレームワークで実行されているtMatchPairingを設定するために使われます。

[Spark Batch]のtMatchPairingコンポーネントは、データクオリティファミリーに属しています。

このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで利用できます。

基本設定

[Properties] (プロパティ)	説明
[Define a storage configuration component] (ストレージ設定コンポーネントを定義)	HDFSなどのターゲットファイルシステムへの接続の設定情報を提供するために使用する設定コンポーネントを選択します。このチェックボックスをオフにすると、ターゲットファイルシステムはローカルシステムになります。使用する接続設定は同じジョブ内にあることが必要です。たとえば、tHDFSConfigurationコンポーネントをジョブにドロップした場合は、このコンポーネントを選択して、所定のHDFSシステム内で結果を書き込むことができます。
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。 [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。 [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。 [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。このコンポーネントの出力スキーマには、出力リンクに読み取り専用のカラムがあります: [PAIR_ID]および[SCORE]:[Pairs] (ペア)および[Pairs sample] (ペアのサンプル)出力リンクでのみ使用されます。最初のカラムでは疑わしいペアの識別コードが保持され、2番目のカラムでは各ペアのレコード間の類似点が保持されます。 [LABEL] (ラベル): [Pairs sample] (ペアサンプル)出力リンクでのみ使用されます。このカラムは、tMatchModelコンポーネントを使用してジョブで手動で入力する必要があります。 [COUNT] (カウント): [Exact duplicates] (厳密な重複)出力リンクでのみ使用されます。このカラムには厳密にマッチするレコードの出現回数が示されます。 [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。
[Blocking key] (ブロッキングキー)	ブロッキングキーを構成するカラムを選択します。このブロッキングキーは、レコードをグルーピングするサフィックスを生成するために使用されます。
[Suffix array blocking parameters] (サフィックス配列のブロッキングパラメーター)	[Min suffix length] (最小サフィックス長): 各グループで到達または制限する最低限のサフィックスの長さを設定するために使われます。 [Max block size] (最大ブロックサイズ): 各ブロックに含めるレコードの最大数を設定します。これは、tionやingのように、サフィックスがあまりにも一般的な大量ブロックのフィルタリングに役立ちます。
[Pairing model location] (ペアリングモデルロケーション)	[Folder] (フォルダー): モデルファイルを生成するローカルフォルダーのパスを設定するために使われます。特定のファイルシステム(S3またはHDFSなど)にモデルを保存する場合は、ジョブで対応するコンポーネントを使用し、コンポーネントの基本設定で[Define a storage configuration component] (ストレージ設定コンポーネントの定義)チェックボックスをオンにする必要があります。参照用のボタンはSpark Localモードでは機能しません。お使いのディストリビューションで、Talend Studioがサポートしているその他のSpark Yarnモードを使用している場合は、同じジョブ内の設定コンポーネントで接続を適切に設定したことを確認する必要があります。使用されるファイルシステムに応じて設定コンポーネントを使用します。
[Integration with Data Stewardship] (データスチュワードシップとの統合)	このチェックボックスをオンにすると、Talend Data Stewardshipサーバーの接続パラメーターを設定できます。このチェックボックスをオンにすると、tMatchPairingではグルーピングキャンペーンに疑わしいペアがロードされます。つまり、このコンポーネントは、終了コンポーネントとして使用されます。
[Data Stewardship Configuration] (データスチュワードシップ設定)	[URL]: `http://<server_address>:19999/data-stewardship/`)のように、Talend Data Stewardshipサーバーにアクセスするアドレスに/data-stewardship/というサフィックスを付けて入力します。 Talend Cloud Data Stewardshipで作業している場合は、/data-stewardship/というサフィックスが付いた対応するデータセンターのURLを使ってアプリケーションにアクセスします。たとえばAWS USデータセンターの場合は`https://tds.us.cloud.talend.com/data-stewardship`となります。利用できるデータセンターのURLは、Talend Cloudのアプリケーションにアクセスをご覧ください。 [Username] (ユーザー名)および[Password] (パスワード) Talend Data Stewardshipにログインするための認証情報を入力します。 Talend Cloud Data Stewardshipを使用しており、 SSOが有効な場合は、アクセストークンをフィールドに入力します。 SSOが有効でない場合は、アクセストークンまたはパスワードをフィールドに入力します。 [Campaign] (キャンペーン): 基本設定でキャンペーンを選択すると、そのキャンペーンの技術的な名前を表示します。ただし、フィールド値を変更して、たとえばコンテキストパラメーターに置き換え、ランタイムにコンテキスト変数をジョブにパスできます。この技術的な名前は、ジョブがTalend Data Stewardshipと通信する時に、[Campaign] (キャンペーン)フィールドの値に関係なく、キャンペーンの特定に常に使用されます。 [Find a Campaign] (キャンペーンの検索)をクリックして、[Campaign owner] (キャンペーンの所有者)か、アクセス権のあるサーバーのグルーピングキャンペーンをリスト表示するダイアログボックスを開きます。更新ボタンをクリックして、 Talend Data Stewardship サーバーからキャンペーンの詳細を取得します。 [Assignee] (割り当て先): タスクを作成するキャンペーン参加者を指定します。

詳細設定

[Properties] (プロパティ)	説明
[Filtering threshold] (フィルタリングしきい値)	0.2から0.85までの間の値を入力して、計算されたスコアに基づいて疑わしいレコードのペアをフィルタリングします。この値はあまり類似していないペアを除外するのに役立ちます。デフォルト値は0.3になります。値が大きいほど、レコードの類似性が高くなります。
[Pairs sample] (ペアサンプル)	[Number of pairs] (ペア数): 生成する疑わしいペアのサンプルのサイズを入力します。デフォルト値は10000に設定されています。 [Set a random seed] (ランダムシードの設定): ジョブの異なる実行で同じペアサンプルを使用する場合は、このチェックボックスをオンにし、表示される[Seed] (シード)フィールドで乱数を入力します。シードに異なる値を入力して実行を繰り返すと、異なるペアサンプルが生成されます。ペアのスコアは疑わしいペアの合計数が10000を上回るかどうかによって異なる場合があります。
[Data Stewardship Configuration] (データスチュワードシップ設定)	[Campaign ID] (キャンペーンID): 基本設定でキャンペーンを選択すると、そのキャンペーンの技術的な名前を表示します。ただし、フィールド値を変更して、たとえばコンテキストパラメーターに置き換え、ランタイムにコンテキスト変数をジョブにパスできます。この技術的な名前は、ジョブがTalend Data Stewardshipと通信する時に、[Campaign] (キャンペーン)フィールドの値に関係なく、キャンペーンの特定に常に使用されます。 [Max tasks per commit] (コミットあたりの最大タスク数): パフォーマンスの問題が発生している場合を除き、デフォルト値は変更しないでください。コミットサイズを大きくするとパフォーマンスが向上しますが、高すぎる値を設定すると、ジョブの失敗の原因となる可能性があります。

[Properties] (プロパティ)

説明

[Filtering threshold] (フィルタリングしきい値)

0.2から0.85までの間の値を入力して、計算されたスコアに基づいて疑わしいレコードのペアをフィルタリングします。この値はあまり類似していないペアを除外するのに役立ちます。

デフォルト値は0.3になります。値が大きいほど、レコードの類似性が高くなります。

[Pairs sample] (ペアサンプル)

[Number of pairs] (ペア数): 生成する疑わしいペアのサンプルのサイズを入力します。デフォルト値は10000に設定されています。

[Set a random seed] (ランダムシードの設定): ジョブの異なる実行で同じペアサンプルを使用する場合は、このチェックボックスをオンにし、表示される[Seed] (シード)フィールドで乱数を入力します。シードに異なる値を入力して実行を繰り返すと、異なるペアサンプルが生成されます。ペアのスコアは疑わしいペアの合計数が10000を上回るかどうかによって異なる場合があります。

[Data Stewardship Configuration] (データスチュワードシップ設定)

[Campaign ID] (キャンペーンID):

基本設定でキャンペーンを選択すると、そのキャンペーンの技術的な名前を表示します。ただし、フィールド値を変更して、たとえばコンテキストパラメーターに置き換え、ランタイムにコンテキスト変数をジョブにパスできます。この技術的な名前は、ジョブがTalend Data Stewardshipと通信する時に、[Campaign] (キャンペーン)フィールドの値に関係なく、キャンペーンの特定に常に使用されます。

[Max tasks per commit] (コミットあたりの最大タスク数):

パフォーマンスの問題が発生している場合を除き、デフォルト値は変更しないでください。コミットサイズを大きくするとパフォーマンスが向上しますが、高すぎる値を設定すると、ジョブの失敗の原因となる可能性があります。

使用方法

使用方法のガイダンス	説明
使用ルール	このコンポーネントは中間ステップとして使用されます。このコンポーネントは、所属するSpark Batchコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。
[Spark Batch Connection] (Spark Batch接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 Yarnモード(YarnクライアントまたはYarnクラスター): Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。 [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。この接続は、ジョブごとに有効になります。

使用方法のガイダンス

説明

使用ルール

このコンポーネントは中間ステップとして使用されます。

このコンポーネントは、所属するSpark Batchコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

[Spark Batch Connection] (Spark Batch接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

Yarnモード(YarnクライアントまたはYarnクラスター):
- Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。
- HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
- Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
- オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。
[Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください