セマンティックタイプとデータ型を検出
データの検出では、各データクラスに一致する値の数が計算されます。結果が50%を超えた場合、そのデータクラスが提案されます。データの検出ではデータ型も割り当てられます。
割合は、[Overview] (概観)タブの[Inferred Datatypes] (推測済みデータ型)エリアと[Data Classifications] (データ分類)エリアで確認できます。
推測済みデータクラスのうち、[Matching Threshold] (一致するしきい値)フィールドの定義よりも高い割合のものが[Data Classifications] (データ分類)エリアで提案されています。デフォルトでは、[Matching Threshold] (一致するしきい値)フィールドは50%に設定されています。つまり、デフォルトでは50%を超えた推測済みデータクラスが提案されます。
提案されたデータクラスを割り当てたり拒否したりするには、チェックボックスか十字ボタンをクリックします。データクラスを1つまたは複数割り当てることができます。拒否されたデータクラスは削除されます。
割合の計算方法
この割合は、次の2つの割合が合計されたものです。
-
1つ目の割合はデータクラスに一致する値の数を表すもので、100%まで割り当てられます。
値がデータクラスに一致するかどうかを判断するために、データの検出は次のデータクラスに依存します。
- [Enumeration] (列挙): 値がディクショナリーの値と一致するかどうかを判断します。句読点、大文字と小文字、スペース、アクセントは無視されます。
- [Regular expression] (正規表現): 値が正規表現と一致するかどうかを判断します。
- [Compound] (複合): 値が少なくとも1つの子で検出されているかどうかを判断します。複合型は、子と呼ばれる既存のデータクラスからなるグループです。
答えが正であれば値は有効と見なされます。
- 2つ目の割合はカラム名とデータクラス名との類似性を表すもので、10%まで割り当てられます。 名前を比較する場合:最大の割合は100%です。値がすべてデータクラスと一致し、カラム名がデータクラス名と同一である場合でも、結果は100%となります。
- レーベンアルゴリズムが使用されます。文字列を別の文字列に変換するために必要な編集(挿入、削除、置換のいずれか)の最小回数を計算します。
- 大文字と小文字の区別とアクセントは無視されます。
- 文字列にスペースが含まれている場合は語順が無視されます。たとえばUS PhoneとPhone USは同じものと見なされます。
データ型の検出
データ型が自動的に割り当てられますが、受け入れる必要はありません。
どのタイプが値であるかを判断できるよう、データの検出は次の順序に従います。
- その値は空白か?
- その値はBoolean型の値か? trueとfalseはBoolean型の値と見なされる唯一の値です。
- その値は整数型か?
- その値は10進数型か?
- その値は日付型か?
- 上記のいずれかの型でもない値はテキスト値と見なされます。
検証は増分的に行われるため、値のタイプは1つのみです。たとえば、5という値は整数型です。テキスト型の値とは見なされません。