ディクショナリーを使った値を標準化
オートコンプリートによるセルの値を標準化
セマンティックタイプがディクショナリーまたは複合型に基づいているカラム内のセルを編集する時に、アプリケーションはこのディクショナリーに含まれている値を入力の途中で自動的に提案します。これは、カラム全体が同じ基準に従うようにするためです。
この例では、米国の州コードをはじめとする顧客データが含まれているデータセットで作業しています。Texasの出現に2文字のコードフォーマットで正しく入力されていないものがあるため、Stateカラムでデータの一部が無効と見なされ、クオリティバーに示されます。エラーが含まれている行を隔離し、オートコンプリートでセルの1つを編集し、同一のセルすべてに変更を適用することで、カラム全体を1つの操作で修正します。
Before you begin
Procedure
Results
カラム内の値を自動的に標準化する
[Standardize value (fuzzy matching)] (値を標準化(ファジーマッチング))を使用すると、カラム内の無効な値に最も近い有効な値を見つけることができます。
このファンクションでは、現在のセマンティックタイプについてカラムに含まれる無効なデータがチェックされ、マッチングしきい値が達成されている場合に正しい数値が取得されます。このファンクションは、セマンティックタイプがTalend Data Preparationにデフォルトで存在する値のディクショナリーや複合型に基づいている場合、またはTalend Dictionary Serviceで作成された場合のみ使用できます。カスタムセマンティックタイプの作成方法、または既存のセマンティックタイプの編集方法については、セマンティックタイプライブラリーをエンリッチ化をご覧ください。
たとえば、米国に拠点がある顧客のさまざまな情報(氏名、メールアドレス、住所の州など)を含むデータセットを操作する必要があるとしましょう。
Stateカラムヘッダーで分かるように、データは米国の州として認識されていますが、クオリティバーに示されているように、一部のエントリーには無効な名前が含まれています。
1回のアクションでこれらの無効な値を修正し、[US State] (米国の州)の完全なリストを含むディクショナリー、またはセマンティックタイプから正しい値に置き換えます。
Procedure
Results
これで間違った値が米国の州のディクショナリーを使用して標準化されます。