接続ベースのデータセットのデータ品質

以下のいずれかのサブスクリプションが必要です:

Qlik Talend Cloud Enterprise
Qlik Talend Cloud Premium
Qlik Cloud Analytics Premium
Qlik Cloud Analytics Enterprise
Qlik Sense Enterprise SaaS

接続ベースのデータセットでセマンティックタイプの検出とデータ品質の読み取りを活用するには、データ製品のコンテキストでデータ接続に関する重要な前提条件を設定する必要があります。

データ品質は、Snowflake および Databricks データセットのプルアップモードとプッシュダウンモードの両方でサポートされています。
データ品質は、次のデータベースに基づくデータセットのプルアップモードでサポートされています。
- Amazon Athena
- Amazon Redshift
- Apache Hive
- Apache Phoenix
- Apache Spark
- Azure SQLデータベース
- Azure Synapse Analytics
- Cassandra
- Cloudera Impala
- Couchbase
- DynamoDB
- Google BigQuery
- Marketo
- Microsoft SQL Server
- MongoDB
- MySQL Entreprise Edition
- Oracle
- PostgreSQL
- Presto
- SAP Hana
- Snowflake
- Teradata

接続ベースのデータセットの作成

[カタログ] から接続ベースのデータセットを作成できますが、パイプラインプロジェクトを使用することもできます。

パイプラインプロジェクトからデータセットを作成することで、データタスクを使用してプロジェクト内でデータ統合のすべてを実行できます。詳細については、「データパイプラインプロジェクトの作成」を参照してください。

カタログからデータセットを作成する

パイプラインプロジェクトを使用する必要がない場合は、データセットを作成してデータ品質を計算し、データ製品を通じてそのデータセットを使用できます。

Qlik Talend Data Integration > [カタログ] で、 [新規作成] > [データセット] をクリックします。
接続を選択し、 [次へ] をクリックします。
データセットを選択し、 [次へ] をクリックします。
データセットがリストにない場合、それはサポートされている形式のいずれにも該当しないことを意味します。
- Excel ファイル: .xls、.xlsx
- 区切りテキストファイル: .csv、.txt
- Excel ファイル: .xls、.xlsx
- JSON ファイル: .json
- XML ファイル: .xml
- Qlik データファイル: .qvd (QlikView Data)、.qvx (QlikView Exchange)
- Parquet ファイル: .parquet
- KML ファイル: .kml (Geographic data)
スペースを選択し [データセットの作成] をクリックします。[カタログ] にリダイレクトされ、リストに新しいデータセットが表示されます。

データ品質を計算し、データセットをデータ製品に追加できるようになりました。詳細については、「データ品質計算の構成」を参照してください。

パイプラインプロジェクトからデータセットを作成する

Qlik Talend Data Integration > [接続] で、[接続を作成] をクリックします。
インポートするテーブルに対して十分な権限とアクセス権を持つユーザーの資格情報を使用して、データベースへのアクセスを構成します。
Qlik Cloud Analytics で [作成] をクリックし、次に [データ接続] をクリックします。
理想的には同じユーザーの資格情報、または少なくともテーブルに対する READ 権限を持つユーザーの資格情報を使用して、以前と同じデータベースへのアクセスを構成します。
(Snowflake のみ) [ロール] 項目には、Snowflake データベースで作成された既存のロールに対応し、これらのオブジェクトに対して次の権限を持つロールを入力する必要があります。
- WAREHOUSE に USAGE
- DATABASE に USAGE
- SCHEMA に USAGE
- SCHEMA に CREATE TABLE
- SCHEMA に CREATE FUNCTION
- SCHEMA に CREATE VIEW
- TABLE に SELECT
(Databricks のみ) Databricks では、データベースに対して次の権限を定義する必要があります。
- CREATE TABLE
- CREATE VOLUME
- MODIFY
- READ VOLUME
- SELECT
- USE SCHEMA
- WRITE VOLUME
Qlik Talend Data Integration のホームページに戻り、 [新規作成] をクリックし、 [パイプラインプロジェクト] をクリックします。
ステップ 2 の接続をプロジェクトのソースとして使用し、パイプラインの構築を開始します。詳細については、「データパイプラインプロジェクトの作成」を参照してください。
パイプラインの任意の時点で、データタスクを選択し、 [設定] に移動して [カタログ] タブに移動し、 [カタログに公開する] チェックボックスをオンにします。

これは、パイプラインプロジェクトが準備され実行されると、このバージョンのデータセットがカタログに公開されることを意味します。このオプションをプロジェクトレベルでチェックすることもできます。
データプロジェクトを実行します。

パイプラインプロジェクトを実行すると、新しいデータセットがカタログに追加され、品質インジケーターと内容の詳細にアクセスできるようになります。この構成により、データセットを分析アプリのソースとして使用することも可能になります。

データ製品を構築する前に、必要な数のデータセットを追加できます。カタログは Qlik Talend Data Integration ハブと Qlik Cloud Analytics Services ハブの両方からアクセスできるため、データセットを任意の場所で開くことができ、コンテキストに応じて適切な接続が使用されます。

プルアップ/プッシュダウンでの品質計算

データセットの [概要] にある [計算] または [更新] ボタンを使用すると、データベースの 1,000 行のサンプルに対して品質計算が実行されます。

この操作は、既定ではプルアップモードで実行されます。Snowflake および Databricks データセットの場合、この操作はデータベース側でプルアップモード (既定) またはプッシュダウンモードの両方で実行できます。

その後、100 行のサンプルが Qlik Cloud に送り返され、最新のセマンティックタイプ、有効性、完全性の統計を含むプレビューとして表示できます。このサンプルは MongoDB に保存されます。

500 列を超えるデータセットに対しては、データ品質を計算できません。

Databricks のプッシュダウンモードにおけるデータ品質の前提条件

Databricks のプッシュダウンモードでデータ品質を計算するには、Qlik でセマンティックタイプなどの特定の品質参照データを Databricks インスタンスに同期する必要があります。また、Databricks の高度な機能も活用します。

この機能を正しく動作させるには、Databricks インスタンスで次の前提条件を満たしている必要があります。

Unity Catalog を有効にする必要があります。
Databricks 接続に関連付けられたユーザーには、テーブルの作成、スキーマの作成、ボリュームの作成、ボリュームの書き込みを実行する権限が必要です。

Qlik は、接続で指定されたデータベースに qlik _internal という名前のスキーマを作成します。このスキーマは Qlik によって自動的に削除されることはありません。SaaS クラウドインフラストラクチャの使用を中止する場合は、手動で削除する必要があります。
[照合順序] を有効にする必要があります。

制限事項として、文字列での日付認識は ISO-8601形式に限定されることに注意してください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください