Apache Spark BatchのtGenKeyプロパティ
これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtGenKeyを設定するために使われます。
Spark BatchのtGenKeyコンポーネントは、データクオリティファミリーに属しています。
このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで使用できます。
基本設定
[Schema] (スキーマ)と[Edit schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。 |
|
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
|
定義されてTalend Studioのリポジトリーに保存されているマッチングルールからブロッキングキーをインポートするには、インポートアイコンをクリックします。 インポートアイコンをクリックすると、[Match Rule Selector] (マッチングルールセレクター)ウィザードが開き、Talend Studioのリポジトリーにリスト表示されているマッチングルールからブロッキングキーをインポートして、ジョブに利用できます。 ブロッキングキーは、VSRアルゴリズムで定義され、Talend Studioのリポジトリーに保存されているマッチングルールからのみインポートできます。詳細は、Talend Studioリポジトリーからマッチングルールをインポートをご覧ください。 |
[Column] (カラム) |
機能キーを設定するアルゴリズムを定義するためのメインフローから、カラムを選択します。 情報メモ注: 日付カラムにアルゴリズムやマッチングアルゴリズムを適用すると、日付形式で比較する内容を決定できます。
たとえば、日付の年のみを比較する場合は、コンポーネントスキーマで日付カラムのタイプを[Date]に設定し、[Date Pattern] (日付パターン)フィールドにyyyyと入力します。コンポーネントでは、スキーマで定義されたパターンに基づき、日付形式を文字列に変換してから文字列比較が開始されます。 |
[Pre-algorithm] (プリアルゴリズム): |
必要に応じて、該当する一致アルゴリズムをリストから選択します。 [Remove diacritical marks] (発音区別符号を削除): 発音区別符号があれば削除します。 [Remove diacritical marks and lower case] (発音区別符号の削除と小文字): カラムのコードを生成する前に、発音区別符号を削除し、小文字に変換します。 [Remove diacritical marks and upper case] (発音区別符号の削除と大文字): カラムのコードを生成する前に、発音区別符号を削除し、大文字に変換します。 [Lower case] (小文字): キーアルゴリズムを適用する前に、フィールドを小文字に変換します。 [Upper case] (大文字): キーアルゴリズムを適用する前に、フィールドを大文字に変換します。 [Add left position character] (左位置の文字を追加): カラムの左側に文字を追加できます。 [Add right position character] (右位置の文字を追加): カラムの右側に文字を追加できます。 |
[Value] (値) |
該当する場合は、アルゴリズムの値を設定するために使われます。 |
[Algorithm] (アルゴリズム) |
該当するアルゴリズムをリストから選択します。 [First character of each word] (各語の最初の文字): カラム内の各語の最初の文字を機能キーに含めます。入力データに日本語文字を使用する場合は、入力テキストをトークン化する必要があります。詳細は、tJapaneseTokenizeをご覧ください。 [First N characters of each word] (各語の最初のN文字): カラム内の各語の最初のN文字を機能キーに含めます。入力データに日本語文字を使用する場合は、入力テキストをトークン化する必要があります。詳細は、tJapaneseTokenizeをご覧ください。 [First N characters of the string] (文字列の最初のN文字): 文字列の最初のN文字を機能キーに含めます。 [Last N characters of the string] (文字列の最後のN文字): 文字列の最後のN文字を機能キーに含めます。 [First N consonants of the string] (文字列の最初のN子音): 文字列の最初のN子音を機能キーに含めます。日本語と中国語の文字はサポートされていません。 [First N vowels of the string] (文字列の最初のN母音): 文字列の最初のN母音を機能キーに含めます。日本語と中国語の文字はサポートされていません。 [Pick characters] (文字を選ぶ): 固定位置にある文字を機能キーに含めます(設定したデジタル/範囲に対応)。 [Exact] (完全一致): 完全な文字列を機能キーに含めます。 [Substring(a,b)]: 設定済みのインデックスに従って文字を機能キーに含めます。 [Soundex code] (Soundexコード): 標準英語の音声アルゴリズムに従ってコードを生成します。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。 [Metaphone code] (Metaphoneコード): 文字の発音に従ってコードを生成します。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。 [Double-metaphone code] (Double-metaphoneコード): 新しいバージョンのMetaphone音声アルゴリズムを使用して、文字の発音に従い、コードを生成します。この音声アルゴリズムは、元のアルゴリズムよりも正確な結果を生成します。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。 [Fingerprint key] (指紋キー): 次のシーケンシャルプロセスを使用して、文字列値から機能キーを生成します。
nGramkey: このアルゴリズムは、上記で説明したfingerPrintkey方式と似ています。ただし、空白で区切られたトークンを使用する代わりに、n-gramsが使用されます。nはユーザーが指定します。この方式では、次のシーケンシャルプロセスを使用して、文字列値から機能キーを生成します。
情報メモ注:
nGramkeyアルゴリズムを使用するカラムが、文字数が0または1のみのデータを持つ可能性がある場合は、機能キーを生成する前にこのデータをフィルタリングする必要があります。こうすることで、候補と一致しないレコードが互いに比較される可能性を排除できます。 [Cologne phonetics] (ケルン音声学): ドイツ語向けに最適化されたSoundex音声アルゴリズム。文字列をケルン音声学の値にエンコードします。このコードは、機能キーに含まれる文字列を表します。日本語と中国語の文字はサポートされていません。 |
[Value] (値) |
該当する場合は、アルゴリズムの値を設定するために使われます。 アルゴリズムが必要とする値を設定しないと、ジョブの実行でコンパイルエラーが発生します。 |
[Post-algorithm] (ポストアルゴリズム): |
必要に応じて、該当する一致アルゴリズムをリストから選択します。 [Use default value] (デフォルト値を使用) (文字列): nullデータまたは空のデータを置換する文字列を選択できます。 [Add left position character] (左位置の文字を追加): カラムの左側に文字を追加できます。 [Add right position character] (右位置の文字を追加): カラムの右側に文字を追加できます。 |
[Value] (値) |
該当する場合は、オプションの値を設定するために使われます。 |
[Show help] (ヘルプを表示) |
アルゴリズム/オプションのパラメーターを設定する手順を表示する場合は、このチェックボックスを選択します。 |
グローバル変数
グローバル変数 |
ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。 Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。 フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。 変数の詳細は、コンテキストと変数を使用をご覧ください。 |
使用方法
使用ルール |
このコンポーネントは中間ステップとして使用されます。 このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。 特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。 |
[Spark Connection] (Spark接続) |
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
この接続は、ジョブごとに有効になります。 |