Apache Spark BatchのtMatchPairingプロパティ
これらのプロパティは、[Spark Batch]ジョブのフレームワークで実行されているtMatchPairingを設定するために使われます。
[Spark Batch]のtMatchPairingコンポーネントは、データクオリティファミリーに属しています。
このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで使用できます。
基本設定
[Define a storage configuration component] (ストレージ設定コンポーネントを定義) |
HDFSなどのターゲットファイルシステムへの接続の設定情報を提供するために使用する設定コンポーネントを選択します。 このチェックボックスをオフにすると、ターゲットファイルシステムはローカルシステムになります。 使用する接続設定は同じジョブ内にあることが必要です。たとえば、tHDFSConfigurationコンポーネントをジョブにドロップした場合は、このコンポーネントを選択して、所定のHDFSシステム内で結果を書き込むことができます。 |
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
このコンポーネントの出力スキーマには、出力リンクに読み取り専用のカラムがあります: [PAIR_ID]および[SCORE]:[Pairs] (ペア)および[Pairs sample] (ペアのサンプル)出力リンクでのみ使用されます。最初のカラムでは疑わしいペアの識別コードが保持され、2番目のカラムでは各ペアのレコード間の類似点が保持されます。 [LABEL] (ラベル): [Pairs sample] (ペアサンプル)出力リンクでのみ使用されます。このカラムは、tMatchModelコンポーネントを使用してジョブで手動で入力する必要があります。 [COUNT] (カウント): [Exact duplicates] (厳密な重複)出力リンクでのみ使用されます。このカラムには厳密にマッチするレコードの出現回数が示されます。 |
|
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
[Blocking key] (ブロッキングキー) |
ブロッキングキーを構成するカラムを選択します。 このブロッキングキーは、レコードをグルーピングするサフィックスを生成するために使用されます。 |
[Suffix array blocking parameters] (サフィックス配列のブロッキングパラメーター) |
[Min suffix length] (最小サフィックス長): 各グループで到達または制限する最低限のサフィックスの長さを設定するために使われます。 [Max block size] (最大ブロックサイズ): 各ブロックに含めるレコードの最大数を設定するために使われます。これは、tionやingのように、サフィックスがあまりにも一般的な大量ブロックのフィルタリングに役立ちます。 |
[Pairing model location] (ペアリングモデルロケーション) |
[Folder] (フォルダー): モデルファイルを生成するローカルフォルダーのパスを設定するために使われます。 特定のファイルシステム(S3またはHDFSなど)にモデルを保存する場合は、ジョブで対応するコンポーネントを使用し、コンポーネントの基本設定で[Define a storage configuration component] (ストレージ設定コンポーネントの定義)チェックボックスをオンにする必要があります。 参照用のボタンはSpark Localモードでは機能しません。お使いのディストリビューションで、Talend Studioがサポートしているその他のSpark Yarnモードを使用している場合は、同じジョブ内の設定コンポーネントで接続を適切に設定したことを確認する必要があります。使用されるファイルシステムに応じて設定コンポーネントを使用します。 |
[Integration with Data Stewardship] (データスチュワードシップとの統合) |
このチェックボックスをオンにすると、Talend Data Stewardshipサーバーの接続パラメーターを設定できます。 このチェックボックスをオンにすると、tMatchPairingではグルーピングキャンペーンに疑わしいペアがロードされます。つまり、このコンポーネントは、終了コンポーネントとして使用されます。 |
[Data Stewardship Configuration] (データスチュワードシップ設定) |
|
詳細設定
[Filtering threshold] (フィルタリングしきい値) |
0.2から0.85までの間の値を入力して、計算されたスコアに基づいて疑わしいレコードのペアをフィルタリングします。この値はあまり類似していないペアを除外するのに役立ちます。 デフォルト値は0.3になります。値が大きいほど、レコードの類似性が高くなります。 |
[Pairs sample] (ペアサンプル) |
[Number of pairs] (ペア数): 生成する疑わしいペアのサンプルのサイズを入力します。デフォルト値は10000に設定されています。 [Set a random seed] (ランダムシードの設定): ジョブの異なる実行で同じペアサンプルを使用する場合は、このチェックボックスをオンにし、表示される[Seed] (シード)フィールドで乱数を入力します。シードに異なる値を入力して実行を繰り返すと、異なるペアサンプルが生成されます。ペアのスコアは疑わしいペアの合計数が10000を上回るかどうかによって異なる場合があります。 |
[Data Stewardship Configuration] (データスチュワードシップ設定) |
[Campaign ID] (キャンペーンID): 基本設定でキャンペーンを選択すると、そのキャンペーンの技術的な名前を表示します。ただし、フィールド値を変更して、たとえばコンテキストパラメーターに置換し、実行時にコンテキスト変数をジョブにパスできます。この技術的な名前は、ジョブがTalend Data Stewardshipと通信する時に、[Campaign] (キャンペーン)フィールドの値に関係なく、キャンペーンの特定に常に使用されます。 [Max tasks per commit] (コミットあたりの最大タスク数): パフォーマンスの問題が発生している場合を除き、デフォルト値は変更しないでください。コミットサイズを大きくするとパフォーマンスが向上しますが、高すぎる値を設定すると、ジョブの失敗の原因となる可能性があります。 |
使用方法
使用ルール |
このコンポーネントは中間ステップとして使用されます。 このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。 |
[Spark Batch Connection] (Spark Batch接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |