セマンティックタイプを削除
Talend Dictionary Serviceでセマンティックタイプを削除し、Talend Data Preparationで認識されたデータ型のリストから削除できます。
Talend Data Preparationにデフォルトで存在する各種セマンティックタイプは、ユーザーのビジネスには合わないことがあります。たとえば、5桁の数字はアメリカの郵便番号としても解釈されますが、フランス語またはドイツ語としても解釈される可能性があります。これらは同じフォーマットを共有するためです。
あなたはアメリカの会社に勤務しており、アメリカのクライアントからのデータ(郵便番号など)のみを扱う作業に従事しているとしましょう。ここであなたは認識されたセマンティックタイプのリストにアメリカの郵便番号だけを残したいと考えます。
この例では、データセットのZIPカラムは、少なくとも4つのタイプに一致する可能性があります。
Talend Dictionary Serviceを使用して、5桁の形式に一致する他のセマンティックタイプを削除し、US Postal Codeのみを残します。変更は即座にTalend Data Preparationに移植され、今後、郵便番号はUS Postal Codeセマンティックタイプに対してだけ検証されます。
手順
- Talend Data Preparationホームページの左パネルで[Semantic Types] (セマンティックタイプ)ビューを開きます。
- 既存のセマンティックタイプのリストでFR Postal Codeを探します。
- このセマンティックタイプを削除するには、そのセマンティックタイプの上にマウスを置き、右側に表示されたごみ箱アイコンをクリックします。
- 最後の2つのステップを繰り返して、FR Insee CodeとDE Postal Codeを削除します。
タスクの結果
5桁の数値と互換性がある他のセマンティックタイプを削除しました。今後、新しいデータセットを追加する時は、郵便番号を含んだカラムのセマンティックタイプとしてUS Postal Codeのみが処理されます。
1つ以上のデータセットで使用されているセマンティックタイプを削除する場合、関連するカラムがtextカテゴリーに切り替わります。