コンポーネントを設定
手順
-
tFixedFlowInputをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
-
[Schema] (スキーマ)フィールドの横にある[Edit schema] (スキーマを編集)ボタンをクリックして[Schema] (スキーマ)ダイアログボックスを開き、カラムを1つ追加してFIRSTNAMEという名前を付けます。続いて、[OK]をクリックして変更を確定し、ダイアログボックスを閉じます。
-
[Mode] (モード)エリアで、[Use Inline Content (delimited file)] (インラインコンテンツを使用: 区切りファイル)オプションを選択し、[Content] (コンテンツ)フィールドに次の名前を入力します。
Kristof Chris Tony Anton
-
tSynonymSearchをダブルクリックして[Basic settings] (基本設定)ビューを開きます。
-
[Sync columns] (カラムを同期)をクリックして、前のコンポーネントのスキーマカラムをtSynonymSearchのデフォルトスキーマカラムに追加します。
プロンプトが表示されたら[Yes] (はい)をクリックして、変更を次のコンポーネントにプロパゲートします。
-
[Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックして[Schema] (スキーマ)ダイアログボックスを開き、出力スキーマに1つのカラムを追加します: matched_fname。
このカラムには、出力フローで一致した参照エントリーが保持されます。続いて、[OK]をクリックして設定を確定し、プロンプトが表示されたら変更の伝播を承諾します。
- [Limit of each group] (各グループの制限)フィールドに5と入力して、デフォルト値を置き換えます。
-
[Columns to search] (検索するカラム)テーブルで[+]ボタンをクリックして1行を追加し、パラメーターを次のように定義します。
-
[Input column] (入力カラム)カラムで、入力カラムのリストからFIRSTNAMEを選択します。
-
[Reference output column] (出力カラムの参照)カラムで、出力カラムのリストからmatched_fnameを選択します。
-
[Index path] (インデックスパス)カラムに、使用するシノニムインデックスへのパスを二重引用符で囲んで入力します。
Sparkの[Local] (ローカル)モードを使う場合は、次のようにローカルフォルダーへのパスを使用します。- Apache Spark 3.1以前のバージョンでは、prefix://file pathまたはfile:///file pathとなります。
- Apache Spark 3.2以降のバージョンでは、file:///file pathとなります。
-
[Search mode] (検索モード)カラムで[Match all fuzzy] (すべてのファジーを一致)を選択します。これにより、入力文字列の各語がインデックス文字列の類似する語と一致します。
-
[Score threshold] (スコアしきい値)カラムに0.9と入力し、結果をフィルタリングして、類似性の高い用語のみをリスト表示します。
-
[Max edits] (最大編集)カラムで、使用が許可される編集距離に1を選択します。
最大編集距離を1にすると、挿入、削除、置換を1回だけ行うことができます。入力データからその編集距離内にあるすべての用語が一致します。
-
[Word distance] (単語距離)カラムは、Match partialモードの場合のみそのままにしておきます。
-
[Limit] (制限)カラムで、デフォルト値5をそのままにしておきます。
-
- tLogRowコンポーネントの[Basic settings] (基本設定)ビューで[Table] (テーブル)オプションを選択して、ジョブ実行結果の読みやすさを向上させることができます。