データ品質とデータ検出
データセットを開いた後、概要の一部を確認して、データセットの全体的な品質、スキーマ、品質統計、各列のセマンティック タイプについて詳しく知ることができます。
データセットの品質インジケーター
登録されたばかりのデータセットの概要を開くと、ほとんどの情報がグレー表示されます。データ品質を初めて計算するには、 [計算] ボタンをクリックします。品質がすでに一度計算されているが、データが最新であることを確認する場合は、 [更新] ボタンをクリックします。
プッシュダウンでの各計算または更新には、Snowflake クレジットがかかります。詳細については、「Data quality for connection-based datasets」を参照してください。
品質が表示される主なセクションは 2 つあります。
-
次が含まれる、データ品質エリア。
-
データセット全体の有効な値、無効な値、空の値の再パーティショニングを、3 色の品質バーの形式で表示し、それぞれのパーセンテージで表します。
-
有効性のスコア。空の値を考慮せずに、有効な値のパーセンテージを表します。
-
完全性のスコア。空ではない値のパーセンテージを表します。
-
データ ソースの最終更新を表す [鮮度] の時間。詳細については、「データの鮮度」を参照してください。
-
-
データセットのさまざまな項目、適用されているデータ型またはセマンティック型、データセットの各項目の品質バーを表示するスキーマ エリア。
セマンティック タイプの検出
データセットの各項目には、その内容をより適切に説明するためにセマンティック タイプが自動的に割り当てられます。バックグラウンドでは、割り当てるタイプを決定するためのデータ検出操作が実行されます。
データを検出すると各セマンティック タイプに一致する列の値の数が計算されます。結果が40%を超える場合は、列にセマンティック タイプを割り当てます。
割合の計算方法
このパーセンテージは、次の 2 つのパーセンテージの合計です。
-
1 パーセンテージはセマンティック タイプに一致する値の数を表し、最大 100% が割り当てられます。値がセマンティック タイプに一致するかどうかを判断するため、データの検出は次のセマンティック タイプに依存します。
-
ディクショナリー: 値はディクショナリーの値と一致しますか? 句読点、大文字と小文字、スペース、アクセントは無視されます。
-
正規表現: 値は正規表現と一致しますか?
-
複合: 値は少なくとも1つの子で検出されていますか?
複合型は、子と呼ばれる既存のセマンティック タイプからなるグループです。
答えが正であれば値は有効とみなされます。
-
-
2 つ目の割合は列名とセマンティック タイプ名との類似性を表すもので、10% まで割り当てられます。
名前を比較する場合:
-
レーベンアルゴリズムが使用されます。ある文字列を別の文字列に変換するために必要な編集(挿入、削除、置換)の最小回数を計算します。
-
大文字と小文字の区別とアクセントは無視されます。
-
文字列にスペースが含まれている場合、語順は無視されます。たとえば、US Phone と Phone US は同一とみなされます。
最大の割合は 100% です。値がすべてセマンティック タイプと一致し、列名がセマンティック タイプ名と同一である場合でも、結果は 100% となります。
-
データ型の検出
セマンティック タイプの代わりに、ネイティブ データ タイプを割り当てることもできます。40% を超える結果が得られたセマンティック タイプがない場合は、データの検出によってデータ型が自動的に割り当てられます。
どのタイプが値であるかを判断できるよう、データの検出は次の順序に従います。
-
値は空ですか?
-
その値は Boolean 型の値ですか? true と false はBoolean 型の値とみなされる唯一の値です。
-
値は整数型ですか?
-
値は小数点型ですか?
-
値は日付型ですか?
-
値が上記のいずれの型でもない場合は、テキスト値とみなされます。
検証は増分であるため、値は 1 つの型に限られます。たとえば、値 5 は整数型です。テキスト型とはみなされません。