データ検出クラスを設定
始める前に
手順
- に移動します。
-
プロパティを編集するデータクラスをクリックします。
フィールド 説明 有効化/無効化 [Enable] (有効)を選択すると、次のデータ分類操作にこのデータクラスが含まれるようになります。
[Disable] (無効)を選択すると、次のデータ分類操作にはこのデータクラスが含まれなくなります。情報メモ注: データクラスが無効化されても、インポートオブジェクトから手動で割り当てや割り当て解除できます。[Name] (名前) データクラスの名前を入力します。 [Description] (説明) 説明を入力します。 分類グループ このデータクラスに対して分類グループを1つ(または複数)選択します。 モデルのデータをグループで分類できます。
用語 用語集を選択すると、このデータクラスで分類されたオブジェクトに関連付けることができます。
データクラスに関連付けられたオブジェクトからセマンティック定義をトレースする時に、この用語から名前や説明といった情報が提供されます。
また、その用語からセマンティック用法をトレースする時に、そのデータクラスに関連付けられているオブジェクトのリストを取得することもできます。
デフォルトの秘密度 秘密度レベルを選択すると、このデータクラスで分類されたオブジェクトに関連付けることができます。
秘密度ラベルを割り当てれば、オブジェクトページでのデータプロファイリングやサンプリング情報の表示を制御できるようになります。デフォルトでは、データ表示機能を持つオブジェクトロールが割り当てられている場合に情報を見ることができます。[Hide Data] (データを非表示)オプションが有効になった状態で秘密度レベルが割り当てられている場合、データビューアーとして情報を見ることはできません。
自動学習 このオプションを有効にすると、既存のインポート済みオブジェクトに基づくパターンがデータクラスに自動入力されます。 一致するしきい値(%) (フィールドやカラムの)すべての値から列挙値、パターン、正規表現のいずれかに一致する値の最小パーセンテージを指定できる値を入力します。 一意性のしきい値 データセットで十分な多様性が得られるよう、(そのフィールド/カラムの)すべての値で一意値の最小数を指定する値を入力します。 パターンや正規表現ではデフォルト値が6に設定されています。
列挙型ではデフォルト値が1に設定され、列挙型リストでは可能な値の最大数に制限されます。考えられる値の数が[Uniqueness threshold] (一意性のしきい値)フィールドで指定された数よりも少ない場合でも、Talend Data Catalogは考えられる値の最大数を[Uniqueness threshold] (一意性のしきい値)フィールドの値として使います。
情報メモ注:さまざまな言語による値が含まれる「International」列挙データクラスを使用しており、このデータクラスの1つ(または複数)の値を1つの言語のみで使っているカラムがある場合、Talend Data Catalogは、他の言語を考慮して100%未満の信頼度でマッチングさせます。
「International」データクラスは多言語のカラムがある場合のみ使用することをお勧めします。それ以外の場合は、使用する言語ごとにデータクラスを定義し、それらを「International」複合データクラスでグループ化する必要があります。
データパターン タイプを選択: - [Enumeration] (列挙): そのデータクラスのデータに関する有効値のリスト。
- [Pattern] (パターン): そのデータクラスのデータに関するパターン。
- [Regular Expression] (正規表現): そのデータクラスに関してデータが準拠しなければならない表現構文。
[Possible Values] (選択可能な値)
データパターン
[Regular expression] (正規表現)
考えられる値のリスト、データパターン、正規表現のいずれかを入力します。 - 変更を保存します。