接続ベースのデータセットのデータ品質
接続ベースのデータセットでセマンティック タイプの検出とデータ品質の読み取りを活用するには、データ製品のコンテキストでデータ接続に関する重要な前提条件を設定する必要があります。
-
データ品質は、Snowflake および Databricks データセットのプルアップ モードとプッシュダウン モードの両方でサポートされています。
-
データ品質は、次のデータベースに基づくデータセットのプルアップ モードでサポートされています。
-
Amazon Athena
-
Amazon Redshift
-
Apache Hive
-
Apache Phoenix
-
Apache Spark
-
Azure SQLデータベース
-
Azure Synapse Analytics
-
Cassandra
-
Cloudera Impala
-
Couchbase
-
DynamoDB
-
Google BigQuery
-
Marketo
-
Microsoft SQL Server
-
MongoDB
-
MySQL Entreprise Edition
-
Oracle
-
PostgreSQL
-
Presto
-
SAP Hana
-
Snowflake
-
Teradata
-
接続の設定
接続からデータセットを作成し、後でデータセットの概要とデータ製品の概要でそのスキーマと品質にアクセスできるようにするには、Qlik Talend Data Integration と Qlik Cloud Analytics の両方で同じ接続を設定する必要があります。
たとえば、データベースに保存されたデータをデータセットとしてカタログに追加し、分析アプリで使用するデータ製品にグループ化するとします。
-
Qlik Talend Data Integration > [接続] で、[接続を作成] をクリックします。
-
インポートするテーブルに対して十分な権限とアクセス権を持つユーザーの資格情報を使用して、データベースへのアクセスを構成します。
-
Qlik Cloud Analytics で [作成] をクリックし、次に [データ接続] をクリックします。
-
理想的には同じユーザーの資格情報、または少なくともテーブルに対する READ 権限を持つユーザーの資格情報を使用して、以前と同じデータベースへのアクセスを構成します。
-
(Snowflake のみ) [ロール] 項目には、Snowflake データベースで作成された既存のロールに対応し、これらのオブジェクトに対して次の権限を持つロールを入力する必要があります。
-
WAREHOUSE に USAGE
-
DATABASE に USAGE
-
SCHEMA に USAGE
-
SCHEMA に CREATE TABLE
-
SCHEMA に CREATE FUNCTION
-
SCHEMA に CREATE VIEW
-
TABLE に SELECT
-
-
(Databricks のみ) Databricks では、データベースに対して次の権限を定義する必要があります。
-
CREATE TABLE
-
CREATE VOLUME
-
MODIFY
-
READ VOLUME
-
SELECT
-
USE SCHEMA
-
WRITE VOLUME
-
-
Qlik Talend Data Integration のホームページに戻り、 [新規追加] をクリックし、 [データ プロジェクトを作成] をクリックします。
-
ステップ 2 の接続をプロジェクトのソースとして使用し、パイプラインの構築を開始します。詳細については、「データ パイプライン プロジェクトの作成」 を参照してください。
-
パイプラインの任意の時点で、データ タスクを選択し、 [設定] に移動して [カタログ] タブに移動し、 [カタログに公開する] チェック ボックスをオンにします。
これは、データ プロジェクトが準備され実行されると、このバージョンのデータセットがカタログに公開されることを意味します。このオプションをプロジェクト レベルでチェックすることもできます。
-
データ プロジェクトを実行します。
データ プロジェクトを実行すると、新しいデータセットがカタログに追加され、品質インジケーターと内容の詳細にアクセスできるようになります。この構成により、データセットを分析アプリのソースとして使用することも可能になります。
データ製品を構築する前に、必要な数のデータセットを追加できます。 カタログは Qlik Talend Data Integration ハブと Qlik Cloud Analytics Services ハブの両方からアクセスできるため、データセットを任意の場所で開くことができ、コンテキストに応じて適切な接続が使用されます。
プルアップ/プッシュダウンでの品質計算
データセットの [概要] にある [計算] または [更新] ボタンを使用すると、データベースの 1,000 行のサンプルに対して品質計算が実行されます。
この操作は、既定ではプルアップ モードで実行されます。Snowflake および Databricks データセットの場合、この操作はデータベース側でプルアップ モード (既定) またはプッシュダウン モードの両方で実行できます。
その後、100 行のサンプルが Qlik Cloud に送り返され、最新のセマンティック タイプ、有効性、完全性の統計を含むプレビューとして表示できます。このサンプルは MongoDB に保存されます。
Databricks のプッシュダウン モードにおけるデータ品質の前提条件
Databricks のプッシュダウン モードでデータ品質を計算するには、Qlik でセマンティック タイプなどの特定の品質参照データを Databricks インスタンスに同期する必要があります。また、Databricks の高度な機能も活用します。
この機能を正しく動作させるには、Databricks インスタンスで次の前提条件を満たしている必要があります。
-
Unity Catalog を有効にする必要があります。
-
Databricks 接続に関連付けられたユーザーには、テーブルの作成、スキーマの作成、ボリュームの作成、ボリュームの書き込みを実行する権限が必要です。
Qlik は、接続で指定されたデータベースに qlik _internal という名前のスキーマを作成します。このスキーマは Qlik によって自動的に削除されることはありません。SaaS クラウド インフラストラクチャ の使用を中止する場合は、手動で削除する必要があります。
-
[照合順序] を有効にする必要があります。
制限事項として、文字列での日付認識は ISO-8601形式に限定されることに注意してください。