データ品質の評価
データセットを開いた後、概要の一部を確認して、データセットの全体的な品質、スキーマ、品質統計、各列のセマンティック タイプについて詳しく知ることができます。
データセットの品質インジケーター
登録されたばかりのデータセットの概要を開くと、ほとんどの情報がグレー表示されます。データ品質を初めて計算するには、 [計算] ボタンをクリックします。品質がすでに一度計算されているが、データが最新であることを確認する場合は、 [更新] ボタンをクリックします。
プッシュダウンでの計算または更新ごとに、クラウド データ ウェアハウス (Snowflake または Databricks) でコストが発生します。詳細については、「接続ベースのデータセットのデータ品質」を参照してください。
品質が表示される主なセクションは 2 つあります。
-
次が含まれる、データ品質エリア。
-
データセット全体の有効な値、無効な値、空の値の再パーティショニングを、3 色の品質バーの形式で表示し、それぞれのパーセンテージで表します。
-
有効性のスコア。空の値を考慮せずに、有効な値のパーセンテージを表します。
-
完全性のスコア。空ではない値のパーセンテージを表します。
-
-
データセットのさまざまな項目、適用されているデータ型またはセマンティック型、データセットの各項目の品質バーを表示する [スキーマ] エリア。
セマンティック タイプの検出
データセットの各列には、その内容をより適切に説明するためにセマンティック タイプが自動的に割り当てられます。バックグラウンドでは、割り当てるタイプを決定するためのデータ検出操作が実行されます。
セマンティック タイプを作成し、各セマンティック タイプ内の値を管理することもできます。
詳細は、セマンティックタイプを管理をご覧ください。