Snowflake データセットのデータ品質
Snowflake データセットでセマンティック タイプの検出とデータ品質の読み取りを活用するには、データ製品のコンテキストでデータ接続に関する重要な前提条件を設定する必要があります。
Snowflake の接続設定
Snowflake からデータセットを作成し、後でデータセットの概要とデータ製品の概要でそのスキーマと品質にアクセスできるようにするには、Qlik Talend Data Integration ハブと Qlik Analytics Services ハブの両方で同じ接続を設定する必要があります。
たとえば、Snowflake データベースに保存されたデータをデータセットとしてカタログに追加し、分析アプリで使用するデータ製品にグループ化するとします。
-
Qlik Talend Data Integration で、 [新規追加] をクリックし、 [データ接続] をクリックします。
-
インポートするテーブルへの WRITE 権限とアクセス権を持つユーザーの資格情報を使用して、Snowflake データベースへのアクセスを構成します。
-
Qlik Analytics Services で、 [新規追加] をクリックし、 [データ接続] をクリックします。
-
理想的には同じユーザーの資格情報、または少なくともテーブルに対する READ 権限を持つユーザーの資格情報を使用して、以前と同じ Snowflake データベースへのアクセスを構成します。
-
[ロール] 項目には、Snowflake データベースで作成された既存のロールに対応し、これらのオブジェクトに対して次の権限を持つロールを入力する必要があります。
-
WAREHOUSE に USAGE
-
DATABASE に USAGE
-
SCHEMA に USAGE
-
SCHEMA に CREATE TABLE
-
SCHEMA に CREATE FUNCTION
-
SCHEMA に CREATE VIEW
-
TABLE に SELECT
-
-
Qlik Talend Data Integration のホームページに戻り、 [新規追加] をクリックし、 [データ プロジェクトを作成] をクリックします。
-
ステップ 2 の Snowflake 接続をプロジェクトのソースとして使用し、パイプラインの構築を開始します。詳細については、「データ パイプラインの作成 」 を参照してください。
-
パイプラインの任意の時点で、データ タスクを選択し、 [設定] に移動して [カタログ] タブに移動し、 [カタログに公開する] チェック ボックスをオンにします。
これは、データ プロジェクトが準備され実行されると、このバージョンのデータセットがカタログに公開されることを意味します。このオプションをプロジェクト レベルでチェックすることもできます。
-
データ プロジェクトを実行します。
データ プロジェクトを実行すると、新しいデータセットがカタログに追加され、品質インジケーターと内容の詳細にアクセスできるようになります。この構成により、Snowflake データセットを分析アプリのソースとして使用することも可能になります。
データ製品を構築する前に、必要な数のデータセットを追加できます。カタログは Qlik Talend Data Integration ハブと Qlik Analytics Services ハブの両方からアクセスできるため、データセットを任意の場所で開くことができ、コンテキストに応じて適切な接続が使用されます。
プッシュダウンでの品質計算
データセットの [概要] にある [計算] または [更新] ボタンを使用すると、データベースの 1,000 行のサンプルに対して品質計算が実行されます。この操作は、Snowflake 側のプッシュダウンで実行されます。
その後、100 行のサンプルが Qlik Cloud に送り返され、最新のセマンティック タイプ、有効性、完全性の統計を含むプレビューとして表示できます。このサンプルは MongoDB に保存されます。
次の図は、データ品質処理の操作をまとめたものです。