セマンティックタイプとデータ型を検出

データの検出では、各データクラスに一致する値の数が計算されます。結果が50%を超えた場合、そのデータクラスが提案されます。データの検出ではデータ型も割り当てられます。

割合は、[Overview] (概観)タブの[Inferred Datatypes] (推測済みデータ型)エリアと[Data Classifications] (データ分類)エリアで確認できます。

推測済みデータクラスのうち、[Matching Threshold] (一致するしきい値)フィールドの定義よりも高い割合のものが[Data Classifications] (データ分類)エリアで提案されています。デフォルトでは、[Matching Threshold] (一致するしきい値)フィールドは50%に設定されています。つまり、デフォルトでは50%を超えた推測済みデータクラスが提案されます。

提案されたデータクラスを割り当てたり拒否したりするには、チェックボックスか十字ボタンをクリックします。データクラスを1つまたは複数割り当てることができます。拒否されたデータクラスは削除されます。

割合の計算方法

この割合は、次の2つの割合が合計されたものです。

1つ目の割合はデータクラスに一致する値の数を表すもので、100%まで割り当てられます。
値がデータクラスに一致するかどうかを判断するために、データの検出は次のデータクラスに依存します。
- [Enumeration] (列挙): 値がディクショナリーの値と一致するかどうかを判断します。句読点、大文字と小文字、スペース、アクセントは無視されます。
- [Regular expression] (正規表現): 値が正規表現と一致するかどうかを判断します。
- [Compound] (複合): 値が少なくとも1つの子で検出されているかどうかを判断します。
  複合型は、子と呼ばれる既存のデータクラスからなるグループです。
答えが正であれば値は有効と見なされます。
2つ目の割合はカラム名とデータクラス名との類似性を表すもので、10%まで割り当てられます。
名前を比較する場合:
- レーベンアルゴリズムが使用されます。文字列を別の文字列に変換するために必要な編集(挿入、削除、置換のいずれか)の最小回数を計算します。
- 大文字と小文字の区別とアクセントは無視されます。
- 文字列にスペースが含まれている場合は語順が無視されます。たとえばUS PhoneとPhone USは同じものと見なされます。
最大の割合は100%です。値がすべてデータクラスと一致し、カラム名がデータクラス名と同一である場合でも、結果は100%となります。

データ型の検出

データ型が自動的に割り当てられますが、受け入れる必要はありません。

どのタイプが値であるかを判断できるよう、データの検出は次の順序に従います。

その値は空白か?
その値はBoolean型の値か? trueとfalseはBoolean型の値と見なされる唯一の値です。
その値は整数型か?
その値は10進数型か?
その値は日付型か?
上記のいずれかの型でもない値はテキスト値と見なされます。

検証は増分的に行われるため、値のタイプは1つのみです。たとえば、5という値は整数型です。テキスト型の値とは見なされません。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください