カラム内の値を自動的に標準化
[Standardize value (fuzzy matching)] (値を標準化(ファジーマッチング))を使用すると、カラム内の無効な値に最も近い有効な値を見つけることができます。
この機能では、現在のセマンティックタイプについてカラムに含まれる無効なデータがチェックされ、マッチングしきい値が達成されている場合に正しい数値が取得されます。このファンクションは、セマンティックタイプがデフォルトでTalend Data Preparationに存在するディクショナリーの値に基づいている場合、またはTalend Dictionary Serviceを使用して作成された場合にのみ使用できます。カスタムセマンティックタイプの作成方法、または既存のセマンティックタイプの編集方法については、セマンティックタイプライブラリーをエンリッチ化をご覧ください。
たとえば、米国に拠点がある顧客のさまざまな情報(氏名、メールアドレス、住所の州など)を含むデータセットを操作する必要があるとしましょう。
Stateカラムヘッダーで分かるように、データは米国の州として認識されていますが、クオリティバーに示されているように、一部のエントリーには無効な名前が含まれています。
1回のアクションでこれらの無効な値を修正し、[US State] (米国の州)の完全なリストを含むディクショナリー、またはセマンティックタイプから正しい値に置き換えます。
情報メモ注: Standardize value (fuzzy matching)ファンクションではアジア系文字がサポートされていません。
手順
タスクの結果
これで間違った値が米国の州のディクショナリーを使用して標準化されます。