コンポーネントを設定
手順
-
tFixedFlowInputをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
-
[Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックして[Schema] (スキーマ)ダイアログボックスを開き、前のシナリオで定義したFIRSTNAMEカラムの横に2番目のカラムLASTNAMEを追加します。
次に[OK]をクリックしてこの変更を確定し、ダイアログボックスを閉じます。
- [Mode] (モード)エリアの[Content] (コンテンツ)フィールドにファーストネームとラストネームのデータをさらに追加して、入力データを次のようにします: Kristof;Toum Chris;Toom Tony;Walker Anton;Correia Jim;Correia Jim;Walker
-
tSynonymSearchをダブルクリックして[Basic settings] (基本設定)ビューを開きます。
- [Sync columns] (カラムを同期)をクリックしてこのコンポーネントのカラムを前のカラムと同期し、プロンプトが表示されたら[Yes] (はい)をクリックして、変更を次のコンポーネントにプロパゲートします。
-
[Edit schema] (スキーマを編集)の横にある[...]をクリックして[Schema] (スキーマ)ダイアログボックスを開き、出力スキーマにmatched_fnameおよびmatched_lnameという2つのカラムを追加します。
これらのカラムには、出力フローで一致した参照エントリーが保持されます。続いて、[OK]をクリックして設定を確定し、プロンプトが表示されたら変更の伝播を承諾します。
- [Limit of each group] (各グループの制限)フィールドに10と入力して、前のシナリオで定義したものを置き換えます。
-
[Columns to search] (検索するカラム)テーブルで[+]ボタンをクリックして2番目の行を追加し、パラメーターを次のように定義します。
-
[Input column] (入力カラム)カラムで、ドロップダウンリストからLASTNAMEを選択します。
-
[Reference output column] (出力カラムの参照)カラムで、ドロップダウンリストからmatched_lnameを選択します。
-
[Index path] (インデックスパス)カラムに、ラストネームのエントリーを保持するシノニムインデックスへのパスを二重引用符で囲んで入力します。
Sparkの[Local] (ローカル)モードを使う場合は、次のようにローカルフォルダーへのパスを使用します。- Apache Spark 3.1以前のバージョンでは、prefix://file pathまたはfile:///file pathとなります。
- Apache Spark 3.2以降のバージョンでは、file:///file pathとなります。
-
[Search mode] (検索モード)カラムで、両方の入力カラムに[Match exact] (完全一致)を選択します。これは、正確な入力ワードを正確なインデックスワードと照合します。
-
[Score threshold] (スコアしきい値)カラムに0.9と入力し、結果をフィルタリングして、類似性の高い用語のみをリスト表示します。
-
[Min similarity] (最小類似)カラムと[Word distance] (単語距離)カラムを、それぞれファジーモードとMatch partialモードについてのみそのままにしておきます。
-
この行の[Limit] (制限)カラムで、デフォルト値5をそのままにしておきます。
-