接続ベースのデータセットのデータ品質
- Qlik Talend Cloud Enterprise
- Qlik Talend Cloud Premium
- Qlik Cloud Analytics Premium
- Qlik Cloud Analytics Enterprise
- Qlik Sense Enterprise SaaS
接続ベースのデータセットでセマンティック タイプの検出とデータ品質の読み取りを活用するには、データ製品のコンテキストでデータ接続に関する重要な前提条件を設定する必要があります。
-
データ品質は、Snowflake および Databricks データセットのプルアップ モードとプッシュダウン モードの両方でサポートされています。
-
データ品質は、次のデータベースに基づくデータセットのプルアップ モードでサポートされています。
-
Amazon Athena
-
Amazon Redshift
-
Apache Hive
-
Apache Phoenix
-
Apache Spark
-
Azure SQLデータベース
-
Azure Synapse Analytics
-
Cassandra
-
Cloudera Impala
-
Couchbase
-
DynamoDB
-
Google BigQuery
-
Marketo
-
Microsoft SQL Server
-
MongoDB
-
MySQL Entreprise Edition
-
Oracle
-
PostgreSQL
-
Presto
-
SAP Hana
-
Snowflake
-
Teradata
-
接続ベースのデータセットの作成
[カタログ] から接続ベースのデータセットを作成できますが、パイプライン プロジェクトを使用することもできます。
パイプライン プロジェクトからデータセットを作成することで、データ タスクを使用してプロジェクト内でデータ統合のすべてを実行できます。詳細については、「データ パイプライン プロジェクトの作成」を参照してください。
カタログからデータセットを作成する
パイプライン プロジェクトを使用する必要がない場合は、データセットを作成してデータ品質を計算し、データ製品を通じてそのデータセットを使用できます。
- Qlik Talend Data Integration > [カタログ] で、 [新規作成] > [データセット] をクリックします。
- 接続を選択し、 [次へ] をクリックします。
- データセットを選択し、 [次へ] をクリックします。
データセットがリストにない場合、それはサポートされている形式のいずれにも該当しないことを意味します。
- Excel ファイル:
.xls、.xlsx - 区切りテキスト ファイル:
.csv、.txt - Excel ファイル:
.xls、.xlsx - JSON ファイル:
.json - XML ファイル:
.xml - Qlik データ ファイル:
.qvd (QlikView Data)、.qvx (QlikView Exchange) - Parquet ファイル:
.parquet - KML ファイル:
.kml (Geographic data)
- Excel ファイル:
- スペースを選択し [データセットの作成] をクリックします。[カタログ] にリダイレクトされ、リストに新しいデータセットが表示されます。
データ品質を計算し、データセットをデータ製品に追加できるようになりました。詳細については、「データ品質計算の構成」を参照してください。
パイプライン プロジェクトからデータセットを作成する
-
Qlik Talend Data Integration > [接続] で、[接続を作成] をクリックします。
-
インポートするテーブルに対して十分な権限とアクセス権を持つユーザーの資格情報を使用して、データベースへのアクセスを構成します。
-
Qlik Cloud Analytics で [作成] をクリックし、次に [データ接続] をクリックします。
-
理想的には同じユーザーの資格情報、または少なくともテーブルに対する READ 権限を持つユーザーの資格情報を使用して、以前と同じデータベースへのアクセスを構成します。
-
(Snowflake のみ) [ロール] 項目には、Snowflake データベースで作成された既存のロールに対応し、これらのオブジェクトに対して次の権限を持つロールを入力する必要があります。
-
WAREHOUSE に USAGE
-
DATABASE に USAGE
-
SCHEMA に USAGE
-
SCHEMA に CREATE TABLE
-
SCHEMA に CREATE FUNCTION
-
SCHEMA に CREATE VIEW
-
TABLE に SELECT
-
-
(Databricks のみ) Databricks では、データベースに対して次の権限を定義する必要があります。
-
CREATE TABLE
-
CREATE VOLUME
-
MODIFY
-
READ VOLUME
-
SELECT
-
USE SCHEMA
-
WRITE VOLUME
-
-
Qlik Talend Data Integration のホームページに戻り、 [新規作成] をクリックし、 [パイプライン プロジェクト] をクリックします。
-
ステップ 2 の接続をプロジェクトのソースとして使用し、パイプラインの構築を開始します。詳細については、「データ パイプライン プロジェクトの作成」 を参照してください。
-
パイプラインの任意の時点で、データ タスクを選択し、 [設定] に移動して [カタログ] タブに移動し、 [カタログに公開する] チェック ボックスをオンにします。
これは、パイプライン プロジェクトが準備され実行されると、このバージョンのデータセットがカタログに公開されることを意味します。このオプションをプロジェクト レベルでチェックすることもできます。
-
データ プロジェクトを実行します。
パイプライン プロジェクトを実行すると、新しいデータセットがカタログに追加され、品質インジケーターと内容の詳細にアクセスできるようになります。この構成により、データセットを分析アプリケーションのソースとして使用することも可能になります。
データ製品を構築する前に、必要な数のデータセットを追加できます。 カタログは Qlik Talend Data Integration ハブと Qlik Cloud Analytics Services ハブの両方からアクセスできるため、データセットを任意の場所で開くことができ、コンテキストに応じて適切な接続が使用されます。
プルアップ/プッシュダウンでの品質計算
データセットの [概要] にある [計算] または [更新] ボタンを使用すると、データベースの 1,000 行のサンプルに対して品質計算が実行されます。
この操作は、既定ではプルアップ モードで実行されます。Snowflake および Databricks データセットの場合、この操作はデータベース側でプルアップ モード (既定) またはプッシュダウン モードの両方で実行できます。
データ品質の計算後、最大 1,000 行 (既定) のプレビューが取得され、最新のセマンティック タイプ、有効性、完全性の統計情報とともに表示されます。このサンプルは MongoDB に保存されます。データセットのプレビュー サイズ (100 行または 1,000 行) を設定するには、テナント管理者は管理アクティビティ センターの [設定] ページに移動する必要があります。詳細については、「データセットのプレビュー サイズの設定」を参照してください。
プッシュダウン モードで計算される Databricks データセットでは、計算されたサンプル結果が要求数に満たない場合、プレビューに表示される行数が設定されたプレビュー サイズよりも少なくなることがあります。Databricks のランダム サンプリングは TABLESAMPLE が使用されており、おおよその行数を返します。プレビューは計算されたサンプルのサブセットであるため、サンプルで返される行数を超えることはできません。
詳細については、「該当する Databricks のドキュメント」を参照してください。
Databricks のプッシュダウン モードにおけるデータ品質の前提条件
Databricks のプッシュダウン モードでデータ品質を計算するには、Qlik でセマンティック タイプなどの特定の品質参照データを Databricks インスタンスに同期する必要があります。また、Databricks の高度な機能も活用します。
この機能を正しく動作させるには、Databricks インスタンスで次の前提条件を満たしている必要があります。
-
Unity Catalog を有効にする必要があります。
-
Databricks 接続に関連付けられたユーザーには、テーブルの作成、スキーマの作成、ボリュームの作成、ボリュームの書き込みを実行する権限が必要です。
Qlik は、接続で指定されたデータベースに qlik _internal という名前のスキーマを作成します。このスキーマは Qlik によって自動的に削除されることはありません。SaaS クラウド インフラストラクチャ の使用を中止する場合は、手動で削除する必要があります。
-
[照合順序] を有効にする必要があります。
制限事項として、文字列での日付認識は ISO-8601形式に限定されることに注意してください。