データ品質の評価
データセットを開いた後、概要の一部を確認して、データセットの全体的な品質、スキーマ、品質統計、各列のセマンティック タイプについて詳しく知ることができます。
データセットの品質インジケーター
登録されたばかりのデータセットの概要を開くと、ほとんどの情報がグレー表示されます。データ品質を初めて計算するには、 [計算] ボタンをクリックします。品質がすでに一度計算されているが、データが最新であることを確認する場合は、 [更新] ボタンをクリックします。
プッシュダウンでの計算または更新ごとに、クラウド データ ウェアハウス (Snowflake または Databricks) でコストが発生します。詳細については、「接続ベースのデータセットのデータ品質」を参照してください。
品質が表示される主なセクションは 2 つあります。
-
[データ品質] エリアには、3 色のクオリティ バーとそれぞれの割合が含まれています。
-
無効 (赤): データセット内の値のうち、無効とみなされる値の割合を示します。
-
空 (黒): 値が空である項目の割合を示します。
-
有効 (緑): データセット内の有効な値の割合を示します。この割合には、空の値は考慮されません。
-
-
データセットのさまざまな項目、適用されているデータ型またはセマンティック型、データセットの各項目の品質バーを表示する [スキーマ] エリア。
セマンティック タイプの検出
データセットの各列には、その内容をより適切に説明するためにセマンティック タイプが自動的に割り当てられます。バックグラウンドでは、割り当てるタイプを決定するためのデータ検出操作が実行されます。
セマンティック タイプを作成し、各セマンティック タイプ内の値を管理することもできます。
詳細は、セマンティックタイプを管理をご覧ください。