メイン コンテンツをスキップする 補完的コンテンツへスキップ

データ品質とデータ検出

データセットを開いた後、概要の一部を確認して、データセットの全体的な品質、スキーマ、品質統計、各列のセマンティック タイプについて詳しく知ることができます。

データセットの品質インジケーター

登録されたばかりのデータセットの概要を開くと、ほとんどの情報がグレー表示されます。データ品質を初めて計算するには、 [計算] ボタンをクリックします。品質がすでに一度計算されているが、データが最新であることを確認する場合は、 [更新] ボタンをクリックします。

プッシュダウンでの各計算または更新には、Snowflake クレジットがかかります。詳細については、「Data quality for connection-based datasets」を参照してください。

品質が表示される主なセクションは 2 つあります。

  • 次が含まれる、データ品質エリア。

    • データセット全体の有効な値、無効な値、空の値の再パーティショニングを、3 色の品質バーの形式で表示し、それぞれのパーセンテージで表します。

    • 有効性のスコア。空の値を考慮せずに、有効な値のパーセンテージを表します。

    • 完全性のスコア。空ではない値のパーセンテージを表します。

    • データ ソースの最終更新を表す [鮮度] の時間。詳細については、「データの鮮度」を参照してください。

  • データセットのさまざまな項目、適用されているデータ型またはセマンティック型、データセットの各項目の品質バーを表示するスキーマ エリア。

ヒント メモ接続ベースのデータセットにおいて、データセットのスキーマと品質を取得できない場合は、Qlik Analytics Services ハブで設定した接続の [ロール] 項目が適切に入力されているか、またはロール自体がデータベース テーブルに対する必要な権限を付与しているかを確認してください。

セマンティック タイプの検出

データセットの各項目には、その内容をより適切に説明するためにセマンティック タイプが自動的に割り当てられます。バックグラウンドでは、割り当てるタイプを決定するためのデータ検出操作が実行されます。

データを検出すると各セマンティック タイプに一致する列の値の数が計算されます。結果が40%を超える場合は、列にセマンティック タイプを割り当てます。

割合の計算方法

このパーセンテージは、次の 2 つのパーセンテージの合計です。

  • 1 パーセンテージはセマンティック タイプに一致する値の数を表し、最大 100% が割り当てられます。値がセマンティック タイプに一致するかどうかを判断するため、データの検出は次のセマンティック タイプに依存します。

    • ディクショナリー: 値はディクショナリーの値と一致しますか? 句読点、大文字と小文字、スペース、アクセントは無視されます。

    • 正規表現: 値は正規表現と一致しますか?

    • 複合: 値は少なくとも1つの子で検出されていますか?

      複合型は、子と呼ばれる既存のセマンティック タイプからなるグループです。

    答えが正であれば値は有効とみなされます。

  • 2 つ目の割合は列名とセマンティック タイプ名との類似性を表すもので、10% まで割り当てられます。

    名前を比較する場合:

    • レーベンアルゴリズムが使用されます。ある文字列を別の文字列に変換するために必要な編集(挿入、削除、置換)の最小回数を計算します。

    • 大文字と小文字の区別とアクセントは無視されます。

    • 文字列にスペースが含まれている場合、語順は無視されます。たとえば、US Phone と Phone US は同一とみなされます。

    最大の割合は 100% です。値がすべてセマンティック タイプと一致し、列名がセマンティック タイプ名と同一である場合でも、結果は 100% となります。

データ型の検出

セマンティック タイプの代わりに、ネイティブ データ タイプを割り当てることもできます。40% を超える結果が得られたセマンティック タイプがない場合は、データの検出によってデータ型が自動的に割り当てられます。

どのタイプが値であるかを判断できるよう、データの検出は次の順序に従います。

  1. 値は空ですか?

  2. その値は Boolean 型の値ですか? truefalse はBoolean 型の値とみなされる唯一の値です。

  3. 値は整数型ですか?

  4. 値は小数点型ですか?

  5. 値は日付型ですか?

  6. 値が上記のいずれの型でもない場合は、テキスト値とみなされます。

検証は増分であるため、値は 1 つの型に限られます。たとえば、値 5 は整数型です。テキスト型とはみなされません。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。