メイン コンテンツをスキップする 補完的コンテンツへスキップ

データ パイプラインの作成

データ パイプラインを作成して、データ タスクを使用してデータ プロジェクト内ですべてのデータ統合を実行できます。オンボーディングでは、オンプレミスまたはクラウドのデータ ソースからプロジェクトにデータを移動し、すぐに使用できるデータ セットにデータを保存します。変換を実行し、データ マートを作成して、生成および変換されたデータ セットを活用することもできます。データ パイプラインはシンプルで線形にすることも、複数のデータ ソースを使用して多くの出力を生成する複雑なパイプラインにすることもできます。

すべてのデータ タスクは、それらが属するデータ プロジェクトと同じスペースに作成されます。

また、系列を表示してデータとデータ変換を元のソースまで遡って追跡することや、データ タスク、データセット、項目の依存関係の将来を見据えたダウンストリーム ビューを示す影響分析を実行することもできます。詳細については、「データ統合 での系列および影響分析の操作」を参照してください。

データのオンボーディング

これには、ステージング エリアへのデータのランディングと、クラウド データ ウェアハウスへのデータセットの格納が含まれます。ランディングおよびストレージ データ タスクは、1 つのステップで作成されます。必要に応じて、ランディングとストレージを別々のタスクで実行することもできます。

データ プラットフォームに既存のデータを登録する

データ プラットフォームに既存のデータを登録し、データをキュレーションして変換し、データ マートを作成します。これにより、Qlik Cloud データ統合 以外のツール (Qlik Replicate または Stitch など) を使ってオンボーディングされたデータを使用できます。

データの変換

ルールとカスタム SQL に基づいて、オンボード データに再利用可能な行レベルの変換を作成します。これにより変換データ タスクが作成されます。

データ マートの作成と管理

データ マートを作成して、データ セットを活用します。これによりデータ マート データ タスクが作成されます。

ターゲットとなるデータ プラットフォーム

データ プロジェクトは、すべての出力のターゲットとして使用されるデータ プラットフォームに関連付けられています。

サポートされているデータ プラットフォーム詳細については、「ターゲット プラットフォームへの接続」を参照してください

データ プロジェクトの紹介ビデオ

データ プロジェクトの作成例

次の例では、オンボーディング データを実行し、データを変換してデータ マートを作成します。これにより、より多くのデータ ソースをオンボードし、より多くの変換を作成し、生成されたデータ タスクをデータ マートに追加することで拡張できるシンプルな線形データ パイプラインが作成されます。

データ プロジェクトの線形データ パイプラインの例

  1. [新規追加] をクリックし、Qlik Cloud データ統合 ホームで [データ プロジェクトを作成] をクリックします。

    1. データ プロジェクトの名前と説明を入力し、データ プロジェクトを作成するスペースを選択します。すべてのデータ タスクは、それらが属するデータ プロジェクトのスペースに作成されます。

    2. [ユース ケース] で [データ パイプライン] を選択します。
    3. プロジェクトで使用するデータ プラットフォームを選択します。

    4. プロジェクトで使用するクラウド データ ウェアハウスへのデータ接続を選択します。これは、データ ファイルを配置し、データセットとビューを保存するために使用されます。データ接続をまだ準備していない場合は、[接続の追加] で作成します。

      Google BigQuery、Databricks、または Microsoft Azure Synapse Analytics をデータ プラットフォームとして選択した場合は、ステージング エリアにも接続する必要があります。

    5. データ プラットフォームとして Qlik Cloud を選択した場合:

      データは、Qlik が管理するストレージまたは自身が管理する Amazon S3 バケットに保存できます。自身の Amazon S3 バケットを使用する場合は、そのバケットへのデータ接続を選択する必要があります。

      どちらの場合も、Amazon S3 ステージング エリアへのデータ接続も選択する必要があります。前のステップで定義したものと同じバケットを使用する場合は、バケット内の別のフォルダーをステージングに使用していることを確認してください。

    6. [作成] をクリックします。

      データ プロジェクトが作成され、データ タスクを追加してデータ パイプラインを作成できます。

  2. [新規追加] をクリックしてから、[データをオンボード] をクリックします。

    詳細については、「データのオンボーディング」を参照してください。

    これにより、ランディング データ タスクとストレージ データ タスクが作成されます。データのレプリケーションを開始するには、次のことが必要です。

  3. ストレージ データ タスクが作成されたら、データ プロジェクトに戻ります。作成されたデータセットに対して変換を実行できるようになりました。

    ストレージ データ タスクで [...] をクリックし、[データの変換] を選択して、このストレージ データ タスクに基づいて変換データ タスクを作成します。変換の手順については、「データの変換」 を参照してください。

  4. ストレージ データ タスクまたは変換データ タスクに基づいてデータ マートを作成できます。

    データ タスクの [...] をクリックし、[データ マートの作成] を選択して、データ マート データ タスクを作成します。データ マートの作成手順については、次を参照してください。

    データ マートの作成と管理

保存および変換されたデータセットとデータ マートの最初のフル ロードを実行したら、それらを分析アプリなどで使用できます。分析アプリの作成について詳しくは、「Qlik Cloud データ統合 により生成されたデータセットを使用した分析アプリの作成」 を参照してください。

また、より多くのデータ ソースをオンボードすることでデータ パイプラインを拡張し、それらを変換またはデータ マートで結合することもできます。

データ プロジェクトでの操作

データ プロジェクトでは、データ タスクで使用できるのと同じ操作を実行できます。同じ操作を実行できることにより、データ パイプラインで操作を調整できます。

情報メモ1 つのデータ プロジェクトにつき、1 つのデータ プロジェクト操作のみ実行できます。
  • スケジュールのオンとオフを切り替える

  • 設計操作を実行する

  • データ タスクの実行を開始および停止する

  • データ タスクを削除する

[操作] をクリックして、進行中の操作のステータス、または最後に実行された操作を表示します。

[操作を停止] をクリックすると、進行中の操作を停止できます。進行中のデータ タスクは停止されませんが、開始していないタスクはキャンセルされます。

スケジュールのオンとオフを切り替える

プロジェクト レベルでデータ タスクのスケジュールをコントロールできます。

  • [...]、[スケジュール] の順番でクリックします。

    すべてのデータ タスクまたは選択したタスクのスケジュールをオンまたはオフにできます。スケジュールが定義されているタスクのみが表示されます。

    情報メモこのオプションは、Qlik Cloud をデータ プラットフォームとするデータ プロジェクトでは使用できません。

個別のデータ タスクのスケジューリングの詳細については、次を参照してください。

設計操作を実行する

データ プロジェクト内のすべてのデータ タスク、または選択したタスクに対して、設計操作を実行できます。これにより、各タスクで個別に設計操作を実行する代わりに、データ プロジェクトでデータセット タスクをコントロールしやすくなります。

  • 検証

    [検証] をクリックして、すべてのタスクまたは選択したタスクを検証します。最後の検証操作以降に変更されたデータ タスクが事前に選択されています。

    データ タスクは、パイプライン順に検証されます。

  • 準備

    [準備] をクリックして、すべてのタスクまたは選択したタスクを準備します。最後の準備操作以降に変更されたデータ タスクが事前に選択されています。

    データ プラットフォームでサポートされていない構造変更が必要なデータセットの再作成を選択できます。これによりデータを損失する恐れがあります。

  • 再作成

    [...]、[再作成] の順番でクリックして、すべてのタスクまたは選択したタスクのソースからデータセットを再作成します。

データ タスクを実行する

タスクを個別に実行する代わりに、データ プロジェクト内のすべてのデータ タスクまたは選択したタスクに対して実行を開始できます。たとえば、すべてのタスクを時間ベースのスケジュールで実行できます。これにより、イベントベースのスケジュールでダウンストリームのタスクが開始されます。

  • 実行

    [実行] をクリックして、すべてのタスクまたは選択したタスクの実行を開始します。これにより、選択したすべてのタスクの実行が開始され、実行が開始されるとすぐに完了します。

    実行の準備ができているすべてのタスクから選択できます。時間ベースのスケジュールを持つタスクと CDC を使用するタスクが事前に選択されています。イベントベースのスケジュールを持つタスクは、処理するデータがある場合に実行されるため、事前に選択されていません。

    Qlik Cloud をデータ プラットフォームとするプロジェクトでは、すべてのランディング タスクとストレージ タスクが事前に選択されています。

    情報メモすべてのデータ タスクは並行して実行されます。つまり、依存関係のチェックによって、一部のタスクの実行が妨げられる可能性があります。
  • 停止

    [停止] をクリックして、すべてのタスクまたは選択したタスクを停止します。

    実行中のタスクから選択できます。

タスクを削除する

  • [削除] をクリックして、データ プロジェクト内のすべてのデータ タスク、または選択したタスクを削除します。

データプロジェクトのビューの変更

データ プロジェクトには 2 種類のビューがあります。[パイプライン ビュー] をクリックすると、ビューが切り替わります。

  • パイプライン ビューは、データ タスクのデータ フローを表示します。

    [レイヤー] をクリックすると、表示されるデータ タスクの情報量を選択できます。次の情報をオンまたはオフに切り替えます。

    • 状態

    • データの新しさ

    • [スケジュール]

  • カード ビューには、データタスクに関する情報を含むカード ビューが表示されます。

    アセットの種類と所有者をフィルタリングできます。

データ プロジェクトのエクスポートとインポート

データ プロジェクトを再構築するために必要なすべてを含め、データ プロジェクトを JSON ファイルにエクスポートできます。エクスポートされた JSON ファイルは、同じテナントにも別のテナントにもインポート可能です。例えば、これを使って、データ プロジェクトを別のテナントに移動することや、データ プロジェクトのバックアップ コピーを作成することができます。

詳細については、「データ パイプラインのエクスポートとインポート」を参照してください。

データ プロジェクトの設定

プロジェクトおよび含まれるすべてのデータ タスクに共通のプロパティを設定できます。

  • [設定] をクリックします。

詳細については、「データ プロジェクトの設定」を参照してください。

詳細を見る

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。