データ品質の構成
データセットのデータ品質を初めて計算したら、この計算を更新し、ニーズに応じてカスタマイズできます。
- Qlik Talend Cloud Enterprise
- Qlik Talend Cloud Premium
- Qlik Cloud Analytics Premium
- Qlik Cloud Analytics Enterprise
- Qlik Sense Enterprise SaaS
サンプルサイズと処理モードの選択
品質計算のサンプル サイズをカスタマイズできるようにするには、データセットで事前に [計算] を 1 回クリックしておく必要があります。
-
Qlik Talend Data Integration > [カタログ] から、データセットを開きます。
-
データ品質を計算する方法に応じて、次のようになります。
-
[更新] をクリックすると、以前に適用したパラメーターを使用してデータ品質が再計算されます。
-
[更新] ボタンの横にある下向き矢印をクリックして、 [品質とプロファイリング] パネルを展開し、再計算をカスタマイズします。
-
-
[サンプル サイズ] に、データ品質を計算するサンプルのサイズを入力します。
-
行の数: データ品質を計算する行数を入力します。プルアップ モードでの最大値は 100000 行ですが、プッシュダウン モードでは最大値の制限はありません。
-
データセットのパーセンテージ: 代わりに、データ品質を計算するデータセットのパーセンテージを入力します。小数点以下の値は使用できません。大きなデータセットの場合、データセットの 1% が許可される最大行数 (100000 行) を超えると、このオプションは表示されません。
-
-
[処理モード] では、データ品質を計算するときに使用する処理モードを選択します。
-
プッシュダウン: 現在、Snowflake および Databricks データセットでのみ使用できます。これにより、データベース側の品質計算がトリガーされ、Snowflake クレジットまたは Databricks ユニット (DBUs) が消費されます。
-
プルアップ: すべてのデータセットで使用できます。Qlik Cloud で品質計算をトリガーします。
-
-
設定に応じてデータ品質を再計算するには、 [更新] をクリックします。
データ品質インジケーターとサンプル サイズが [概要] に表示されます。処理時間は、サンプル サイズに応じて異なります。
データ品質計算は、対応する Qlik Public API を通じてトリガーしたりカスタマイズしたりすることもできます。
データ品質のスケジューリングには、Qlik Automate テンプレート Schedule data quality computations を使用できます。詳細については、「All templates」 を参照してください。
品質ステータスによるデータセット プレビューのフィルタリング
[データ プレビュー] タブでデータセットを表示すると、品質に関する結果が列ヘッダーのカラー バー、およびデータ タイプと検証ルール用の右側パネルで視覚的に表示されます。
品質バーの各セグメントは、結果カテゴリのいずれかに対応しています。列ヘッダーから、次のインジケーターを確認できます。
-
無効 (赤): サンプル内の値のうち、無効とみなされる値の割合を示します。
-
空または NULL (黒): サンプル内の値のうち、空または NULL であるものの割合を示します。
-
有効 (緑): サンプル内の有効な値の割合を示します。この割合には、空の値は考慮されません。
列ヘッダーをクリックすると右側パネルが開き、データ タイプについても同じインジケーターを確認できます。
さらに、右側パネルの検証ルール用の品質バーには、次が表示されます。
- 実行不可 (薄い赤): これらの値に対してルールを実行できません。
- 無効 (赤)。次のいずれかの状態に該当します。
- 条件式 (if) は満たしているものの、検証式 (then) を満たしておらず、かつ代替の検証式 (else) も定義されていません。
- 条件式 (if) は満たしているものの、検証式 (then) は満たしていません。
- 適用外 (薄い緑): 値が条件 (if) を満たしておらず、代替の検証式 (else) が定義されていません。
- 有効 (緑): 値はすべてのルールのステートメントを満たしています。
検証ルールの詳細については、「検証ルールの操作」を参照してください。
列ヘッダーまたは右側パネルのルールおよびデータ タイプ セクションのいずれかで、品質バーの任意のセグメントをクリックして、データセット プレビューをフィルタリングできます。色付きのセグメントをクリックすると、次が実行されます。
- 現在のプレビューにフィルターが適用され、そのデータ品質結果 (選択した列または列グループの場合) に対応する行のみが表示され、品質の問題が分離されます。
- フィルターを削除すると、サンプル プレビュー全体に戻ることができます。フィルターを削除するには、 [すべてのフィルターをクリア] をクリックします。
このフィルタリングにより、データセット内で関心のある値のみをすばやく確認でき、データ品質ステータスごとのレコードのレビューや調査を簡素化できます。