新しい正規表現ベースのセマンティックタイプを追加
正規表現に基づくセマンティックタイプをTalend Dictionary Serviceで作成し、Talend Data Preparationで認識されたデータ型のリストに追加できます。
Talend Data Preparationでは現在、すべてのデータ型がいずれかの事前定義済みセマンティックタイプに一致するとは限りません。たとえば、現在のところイタリアの社会保障番号(codice fiscale)は認識されません。
仮に、あなたがイタリアの顧客のみを扱っているイタリアの会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、社会保障番号など)をクリーニングする必要があります。社会保障番号を含むカラムのセマンティックタイプは、デフォルトでtextに設定されます。これでは不十分であり、このデータのタイプが一致するよう新しいカテゴリーを作成する必要があります。この場合はcodice fiscaleセマンティックタイプです。
この新しいセマンティックタイプをTalend Dictionary Serviceで作成すると、自動的にTalend Data Preparationで使用可能になり、データを適切なタイプに一致させることができます。
手順
タスクの結果
これでデータは、Talend Dictionary Serviceで手動で作成したcodice_fiscaleセマンティックタイプと一致するようになります。今後、イタリアの社会保障番号を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。