メイン コンテンツをスキップする 補完的コンテンツへスキップ

新しいディクショナリーベースのセマンティックタイプを追加

クローズド(閉じた)のディクショナリーに基づくセマンティックタイプを[Semantic types] (セマンティックタイプ)メニューで作成し、認識されたデータ型のリストに追加できます。

このアプリケーションでは現在、すべてのデータ型がいずれかの事前定義済みセマンティックタイプに一致するとは限りません。たとえば英国の郡は現在そのような形で認識されません。

ここで、あなたは英国に居住している顧客のみを扱っている英国の会社に勤務しているとしましょう。この例では、一部の顧客データセット(名前、メールアドレス、顧客が住んでいる郡など)を作成しました。郡データを含んだカラムのセマンティックタイプは、cityによってデフォルトの値に設定されます。一部のデータは実際に都市名と一致するかもしれませんが、データにもっと合ったセマンティックタイプを追加する必要があります。この場合は、UK_countiesセマンティックタイプです。

この新しいセマンティックタイプを専用のメニューで作成すると自動的にデータセットで使用可能になるので、データを適切なタイプに一致させることができます。

手順

  1. ホームページの左パネルで[Semantic type] (セマンティックタイプ)ビューを開きます。
    Talend Dictionary Serviceのデフォルトの全セマンティックタイプのリストが開きます。
  2. [Add semantic type] (セマンティックタイプを追加)ボタンをクリックします。
    セマンティックタイプ作成フォームが開きます。
  3. [Name] (名前)フィールドに、セマンティックタイプに付ける名前を入力します。この例ではUK Countiesです。
  4. [Description] (説明)フィールドにList of counties in the United Kingdomと入力します。
  5. [Type] (タイプ)ドロップダウンリストで[Dictionary] (ディクショナリー)を選択します。
    包括的な値のリストに基づいてセマンティックタイプが作成されます。
  6. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、ディクショナリーまたは複合型による検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットサンプルにある各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現またはディクショナリーの値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間のマッチ率が計算されます。

    この例では、スイッチを無効にすると、ディクショナリーはデータの検索のみに使用され、値はいずれも無効と見なされません。

  7. [Validation criterion] (条件の検証)ドロップダウンリストで、[Exact value] (厳密値)など、適用する制限ルールを選択します。
    • [Simplified text] (簡略化テキスト): 句読点、ホワイトスペース、大文字と小文字の区別、アクセスと記号は無視されます。たとえばPâté-en-croûteが参照値の場合、pate-eN-cRouteは有効と見なされますが、Pâté n croûteは有効と見なされません。
    • Ignore case and accents (大文字小文字とアクセントを無視): 検証中、大文字と小文字の区別、アクセント記号は無視されます。たとえばPâté-en-croûteが参照値の場合、pate-en-crouteは有効と見なされますが、pate en crouteは有効と見なされません。
    • [Exact value] (厳密値): 最も厳密な検証ルール。データは、参照値と完全に一致する場合にのみ、有効と見なされます。
  8. [Values] (値)フィールドのUK Countiesセマンティックタイプを構成する郡のリストを追加するには、次の操作を実行します。
    • それぞれの値を手動で追加します。[plus] (プラス)アイコンをクリックして値を入力し、[check] (チェック)アイコンをクリックして変更を検証します。リストに追加する郡ごとに同じ手順を繰り返します。
    • 英国の郡のプレーンテキストリストを含んだファイルをインポートします。[import] (インポート)ボタンをクリックして、アップロードするファイルを選択します。内容がプレーンテキストの場合、ファイル形式は重要ではありません。
      情報メモ注: テナントごとに10MBまでのコンテンツをTalend Dictionary Serviceにアップロードできます。

      dict_uk_counties.zipファイルをダウンロードして抽出します。

      dict_uk_counties.txtファイルのサンプル。

      各値をそれぞれの行に入力します。同じ行にあり、コンマで区切られている値はシノニムと見なされます。

      ファイルからリストをインポートする際、英字以外の値を引用符で囲まないと、ファイルが拒否されます。

    値の重複は許可されません。値を手動で入力すると、チェックが実行されます。ファイルのインポート時に、重複除去ステップが自動的に実行されます。

    これで郡の完全なリストが追加されます。

  9. [Save and publish] (保存して公開)をクリックして新しいセマンティックタイプをTalend Dictionary Serviceサーバーに送信し、Talend Cloud Data Inventoryユーザーが使用できるようにします。

    [Save as draft] (下書きとして保存)をクリックすると、セマンティックタイプはTalend Dictionary Serviceに保存されますが、Talend Cloudアプリケーションにはブロードキャストされません。そのため、セマンティックタイプの公開時期を選ぶことができます。

    UK Countiesタイプは、ステータスが公開済みになっているセマンティックタイプのリストで使用可能になります。

    セマンティックタイプの変更は、新しいデータセットを作成するたびにTalend Cloud Data Inventoryへ即座に反映されます。既存のデータセットの場合は、新しいカテゴリーでクオリティを再計算できるようにサンプルを更新する必要があります。

  10. 郡の名前が含まれているデータセットに戻ります。
  11. [Refresh]​ (更新)ボタンをクリックします。
    データセットの概要からの[更新]ボタンの場所。

タスクの結果

これでデータは、Talend Dictionary Serviceで手動で作成したUK Countiesセマンティックタイプと一致するようになります。
新しいディクショナリーベースのセマンティックタイプが追加された状態。

今後、英国の郡の名前を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。