接続ベースのデータセットのデータ品質 | Qlik Cloud ヘルプ
メイン コンテンツをスキップする 補完的コンテンツへスキップ

接続ベースのデータセットのデータ品質

情報メモ以下のいずれかのサブスクリプションが必要です:
  • Qlik Talend Cloud Enterprise
  • Qlik Talend Cloud Premium
  • Qlik Cloud Analytics Premium
  • Qlik Cloud Analytics Enterprise
  • Qlik Sense Enterprise SaaS

接続ベースのデータセットでセマンティック タイプの検出とデータ品質の読み取りを活用するには、データ製品のコンテキストでデータ接続に関する重要な前提条件を設定する必要があります。

  • データ品質は、Snowflake および Databricks データセットのプルアップ モードとプッシュダウン モードの両方でサポートされています。

  • データ品質は、次のデータベースに基づくデータセットのプルアップ モードでサポートされています。

    • Amazon Athena

    • Amazon Redshift

    • Apache Hive

    • Apache Phoenix

    • Apache Spark

    • Azure SQLデータベース

    • Azure Synapse Analytics

    • Cassandra

    • Cloudera Impala

    • Couchbase

    • DynamoDB

    • Google BigQuery

    • Marketo

    • Microsoft SQL Server

    • MongoDB

    • MySQL Entreprise Edition

    • Oracle

    • PostgreSQL

    • Presto

    • SAP Hana

    • Snowflake

    • Teradata

接続ベースのデータセットの作成

[カタログ] から接続ベースのデータセットを作成できますが、パイプライン プロジェクトを使用することもできます。

パイプライン プロジェクトからデータセットを作成することで、データ タスクを使用してプロジェクト内でデータ統合のすべてを実行できます。詳細については、「データ パイプライン プロジェクトの作成」を参照してください。

カタログからデータセットを作成する

パイプライン プロジェクトを使用する必要がない場合は、データセットを作成してデータ品質を計算し、データ製品を通じてそのデータセットを使用できます。

  1. Qlik Talend Data Integration > [カタログ] で、 [新規作成] > [データセット] をクリックします。
  2. 接続を選択し、 [次へ] をクリックします。
  3. データセットを選択し、 [次へ] をクリックします。

    データセットがリストにない場合、それはサポートされている形式のいずれにも該当しないことを意味します。

    • Excel ファイル: .xls.xlsx
    • 区切りテキスト ファイル: .csv.txt
    • Excel ファイル: .xls.xlsx
    • JSON ファイル: .json
    • XML ファイル: .xml
    • Qlik データ ファイル: .qvd (QlikView Data).qvx (QlikView Exchange)
    • Parquet ファイル: .parquet
    • KML ファイル: .kml (Geographic data)

  4. スペースを選択し [データセットの作成] をクリックします。[カタログ] にリダイレクトされ、リストに新しいデータセットが表示されます。

データ品質を計算し、データセットをデータ製品に追加できるようになりました。詳細については、「データ品質計算の構成」を参照してください。

パイプライン プロジェクトからデータセットを作成する

  1. Qlik Talend Data Integration > [接続] で、[接続を作成] をクリックします。

  2. インポートするテーブルに対して十分な権限とアクセス権を持つユーザーの資格情報を使用して、データベースへのアクセスを構成します。

  3. Qlik Cloud Analytics で [作成] をクリックし、次に [データ接続] をクリックします。

  4. 理想的には同じユーザーの資格情報、または少なくともテーブルに対する READ 権限を持つユーザーの資格情報を使用して、以前と同じデータベースへのアクセスを構成します。

  5. (Snowflake のみ) [ロール] 項目には、Snowflake データベースで作成された既存のロールに対応し、これらのオブジェクトに対して次の権限を持つロールを入力する必要があります。

    • WAREHOUSE に USAGE

    • DATABASE に USAGE

    • SCHEMA に USAGE

    • SCHEMA に CREATE TABLE

    • SCHEMA に CREATE FUNCTION

    • SCHEMA に CREATE VIEW

    • TABLE に SELECT

  6. (Databricks のみ) Databricks では、データベースに対して次の権限を定義する必要があります。

    • CREATE TABLE

    • CREATE VOLUME

    • MODIFY

    • READ VOLUME

    • SELECT

    • USE SCHEMA

    • WRITE VOLUME

  7. Qlik Talend Data Integration のホームページに戻り、 [新規作成] をクリックし、 [パイプライン プロジェクト] をクリックします。

  8. ステップ 2 の接続をプロジェクトのソースとして使用し、パイプラインの構築を開始します。詳細については、「データ パイプライン プロジェクトの作成」 を参照してください。

  9. パイプラインの任意の時点で、データ タスクを選択し、 [設定] に移動して [カタログ] タブに移動し、 [カタログに公開する] チェック ボックスをオンにします。

    これは、パイプライン プロジェクトが準備され実行されると、このバージョンのデータセットがカタログに公開されることを意味します。このオプションをプロジェクト レベルでチェックすることもできます。

  10. データ プロジェクトを実行します。

パイプライン プロジェクトを実行すると、新しいデータセットがカタログに追加され、品質インジケーターと内容の詳細にアクセスできるようになります。この構成により、データセットを分析アプリケーションのソースとして使用することも可能になります。

データ製品を構築する前に、必要な数のデータセットを追加できます。 カタログは Qlik Talend Data Integration ハブと Qlik Cloud Analytics Services ハブの両方からアクセスできるため、データセットを任意の場所で開くことができ、コンテキストに応じて適切な接続が使用されます。

プルアップ/プッシュダウンでの品質計算

データセットの [概要] にある [計算] または [更新] ボタンを使用すると、データベースの 1,000 行のサンプルに対して品質計算が実行されます。

この操作は、既定ではプルアップ モードで実行されます。Snowflake および Databricks データセットの場合、この操作はデータベース側でプルアップ モード (既定) またはプッシュダウン モードの両方で実行できます。

データ品質の計算後、最大 1,000 行 (既定) のプレビューが取得され、最新のセマンティック タイプ、有効性、完全性の統計情報とともに表示されます。このサンプルは MongoDB に保存されます。データセットのプレビュー サイズ (100 行または 1,000 行) を設定するには、テナント管理者は管理アクティビティ センターの [設定] ページに移動する必要があります。詳細については、「データセットのプレビュー サイズの設定」を参照してください。

情報メモ

プッシュダウン モードで計算される Databricks データセットでは、計算されたサンプル結果が要求数に満たない場合、プレビューに表示される行数が設定されたプレビュー サイズよりも少なくなることがあります。Databricks のランダム サンプリングは TABLESAMPLE が使用されており、おおよその行数を返します。プレビューは計算されたサンプルのサブセットであるため、サンプルで返される行数を超えることはできません。

詳細については、「該当する Databricks のドキュメント」を参照してください。

情報メモ500 列を超えるデータセットに対しては、データ品質を計算できません。

Databricks のプッシュダウン モードにおけるデータ品質の前提条件

Databricks のプッシュダウン モードでデータ品質を計算するには、Qlik でセマンティック タイプなどの特定の品質参照データを Databricks インスタンスに同期する必要があります。また、Databricks の高度な機能も活用します。

この機能を正しく動作させるには、Databricks インスタンスで次の前提条件を満たしている必要があります。

  • Unity Catalog を有効にする必要があります。

  • Databricks 接続に関連付けられたユーザーには、テーブルの作成、スキーマの作成ボリュームの作成、ボリュームの書き込みを実行する権限が必要です。

    Qlik は、接続で指定されたデータベースに qlik _internal という名前のスキーマを作成します。このスキーマは Qlik によって自動的に削除されることはありません。SaaS クラウド インフラストラクチャ の使用を中止する場合は、手動で削除する必要があります。

  • [照合順序] を有効にする必要があります。

制限事項として、文字列での日付認識は ISO-8601形式に限定されることに注意してください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。