データパイプラインプロジェクトの作成

データパイプラインを作成して、データタスクを使用してプロジェクト内ですべてのデータ統合を実行できます。オンボーディングでは、オンプレミスまたはクラウドのデータソースからプロジェクトにデータを移動し、すぐに使用できるデータセットにデータを保存します。データウェアハウスや Qlik Open Lakehouse にデータを搭載することができます。

データをデータウェアハウスにオンボードする際、変換を実行してデータマートを作成し、生成および変換されたデータセットを活用することもできます。データパイプラインはシンプルで線形にすることも、複数のデータソースを使用して多くの出力を生成する複雑なパイプラインにすることもできます。

データパイプラインプロジェクトは、SaaS アプリケーション Preview コネクタをサポートしていません。コネクタがプレビュー中かどうかを確認するには、コネクタのヘルプを参照してください。

すべてのデータタスクは、それらが属するプロジェクトと同じスペースに作成されます。

また、系列を表示してデータとデータ変換を元のソースまで遡って追跡することや、データタスク、データセット、項目の依存関係の将来を見据えたダウンストリームビューを示す影響分析を実行することもできます。詳細については、「データ統合での系列および影響分析の操作」を参照してください。

データウェアハウスへのデータのオンボーディング

これには、ステージングエリアへのデータのランディングと、クラウドデータウェアハウスへのデータセットの格納が含まれます。ランディングおよびストレージデータタスクは、1 つのステップで作成されます。必要に応じて、ランディングとストレージを別々のタスクで実行することもできます。

Onboarding data to Qlik Open Lakehouse

Qlik Open Lakehouse パイプラインプロジェクトを作成し、サポートされているあらゆるデータソースから Iceberg オープンテーブル形式にデータをコピーします。データのミラーリングタスクを使用して、データを複製することなく Snowflake からテーブルにアクセスし、クエリを実行できます。

データプラットフォームに既存のデータを登録する

データプラットフォームに既存のデータを登録し、データをキュレーションして変換し、データマートを作成します。これにより、Qlik Talend Data Integration 以外のツール (Qlik Replicate または Stitch など) を使ってオンボーディングされたデータを使用できます。

データの変換

ルールとカスタム SQL に基づいて、オンボードデータに再利用可能な行レベルの変換を作成します。これにより変換データタスクが作成されます。

データマートの作成と管理

データマートを作成して、データセットを活用します。これによりデータマートデータタスクが作成されます。

ナレッジマートの作成

ナレッジマートを作成し、構造化データと非構造化データをベクターデータベースに埋め込んで保存します。この操作により、ナレッジマートデータタスクが作成されます。

ターゲットとなるデータプラットフォーム

プロジェクトは、すべての出力のターゲットとして使用されるデータプラットフォームに関連付けられています。

サポートされているデータプラットフォーム詳細については、「ターゲットへの接続の設定」を参照してください

プロジェクトの紹介ビデオ

プロジェクトの作成例

次の例では、オンボーディングデータを実行し、データを変換してデータマートを作成します。これにより、より多くのデータソースをオンボードし、より多くの変換を作成し、生成されたデータタスクをデータマートに追加することで拡張できるシンプルな線形データパイプラインが作成されます。

新しいプロジェクトを作成します。

[Data Integration] > [プロジェクト] で、 [新規作成] > [プロジェクト] をクリックします。
1. プロジェクトの名前と説明を入力します。
  
  情報メモ後でプロジェクトのバージョン管理を有効にした場合、バージョン管理下にある間はプロジェクト名を変更できません。
2. プロジェクトを作成するスペースを選択します。すべてのデータタスクは、それらが属するプロジェクトのスペースに作成されます。
3. [ユースケース] で [データパイプライン] を選択します。
4. プロジェクトで使用するデータプラットフォームを選択します。
5. プロジェクトで使用するクラウドデータウェアハウスへの接続を選択します。これは、データファイルを配置し、データセットとビューを保存するために使用されます。接続をまだ準備していない場合は、 [新規作成] で作成します。
  - Google BigQuery、Databricks、または Microsoft Azure Synapse Analytics をデータプラットフォームとして選択した場合は、ステージングエリアにも接続する必要があります。
  - Snowflake をデータプラットフォームとして選択した場合は、クラウドストレージへのデータランディングを選択できます。「レイクハウスへのデータのランディング」を参照してください。
  - データプラットフォームとして Qlik Cloud を選択した場合:
    
    データは、Qlik が管理するストレージまたは自身が管理する Amazon S3 バケットに保存できます。自身の Amazon S3 バケットを使用する場合は、そのバケットへの接続を選択する必要があります。
    
    どちらの場合も、Amazon S3 ステージングエリアへの接続も選択する必要があります。前のステップで定義したものと同じバケットを使用する場合は、バケット内の別のフォルダーをステージングに使用していることを確認してください。
6. [作成] をクリックします。
  
  プロジェクトが作成され、データタスクを追加してデータパイプラインを作成できます。
データをオンボードします

プロジェクトで、 [作成] をクリックし、 [データのオンボード] をクリックします。

詳細については、「データウェアハウスへのデータのオンボーディング」を参照してください。

これにより、ランディングデータタスクとストレージデータタスクが作成されます。データのレプリケーションを開始するには、次のことが必要です。
- ランディングデータタスクを準備して実行します。
  
  詳細については、「データソースからのランディングデータ」を参照してください。
- ストレージデータタスクを準備して実行します。
  
  詳細については、「データセットの保管」を参照してください。
データの変換

ストレージデータタスクが作成されたら、プロジェクトに戻ります。作成されたデータセットに対して変換を実行できるようになりました。

ストレージデータタスクで [...] をクリックし、[データの変換] を選択して、このストレージデータタスクに基づいて変換データタスクを作成します。変換の手順については、「データの変換」を参照してください。
データマートの作成

ストレージデータタスクまたは変換データタスクに基づいてデータマートを作成できます。

データタスクの [...] をクリックし、[データマートの作成] を選択して、データマートデータタスクを作成します。データマートの作成手順については、次を参照してください。

データマートの作成と管理

保存および変換されたデータセットとデータマートの最初のフルロードを実行したら、それらを分析アプリなどで使用できます。分析アプリの作成について詳しくは、「Data Integration で生成されたデータセットを使用して分析アプリを作成する」を参照してください。

また、より多くのデータソースをオンボードすることでデータパイプラインを拡張し、それらを変換またはデータマートで結合することもできます。

クロスプロジェクトパイプラインの構築

タスクが別のプロジェクトのタスクを消費できるような、クロスプロジェクトパイプラインを構築できます。構築することにより、複数の方法でセグメンテーションを実現できます。

組織単位ごとに個別のデータ移動パイプラインを作成し、単一のデータマートパイプラインで出力を消費できます。
単一のデータ移動パイプラインを作成し、その出力を複数の変換パイプラインで消費できます。

いかなる状況でも、データパイプラインプロジェクトで循環的なタスク依存関係を作成しないでください。循環的なタスク依存関係は、安定性、パフォーマンス、保守性に重大な影響を及ぼします。

変換タスクとデータマートタスクは、別のプロジェクトにあるストレージタスクと変換タスクを消費できます。

消費されるプロジェクトのスペースでは、少なくとも [消費可能] ロールを持っている必要があります。
両方のプロジェクトが同じデータプラットフォーム上にある必要があります。

タスクのすべてのデータセットはダウンストリームのプロジェクトと共有されます。つまり、データセットの分離を実現するには、変換タスクを作成して、使用されるプロジェクト内のデータセットをフィルター処理する必要があります。

プロジェクトビューでは、別のプロジェクトで消費されるタスクと、現在のプロジェクトで消費される他のプロジェクトのタスクを表示できます。現在のプロジェクト外のすべてのタスクはグレーで表示されます。依存関係は名前ではなく参照に応じて決まるため、参照を壊すことなくタスクの名前を変更できます。これは、消費されたタスクを削除し、同じ名前で新しいタスクを作成した場合でも、参照が壊れるという意味でもあります。

既存のデータを再利用するには、次のような方法があります。

新しいプロジェクトの作成

プロジェクトを作成したら、 [Use data from another project] (別のプロジェクトのデータを使用する) オプションを選択します。

別のパイプラインからオンボードされたデータを消費する変換またはデータマートを作成できます。
変換タスクまたはデータマートタスクでは、 [ソースデータを選択] で別のプロジェクトからデータを選択できます。

ソースデータを選択するときは、 [プロジェクト]、 [データタスク] の順に選択して、使用可能なデータセットを確認します。

このプロジェクトのタスクを消費する他のプロジェクトのタスクを表示するかどうかを選択できます。

[レイヤー] をクリックし、 [クロスプロジェクト出力] をオンまたはオフにします。

現在のプロジェクト外のすべてのタスクはグレーで表示されます。

バージョン管理の制限

クロスプロジェクトパイプラインは複数のプロジェクトに分割されるため、バージョン管理を使用する際に複雑さが増します。これらの例では、Project1 は Project2 によって消費されます。

Project2 は Project1 のメインブランチのみを消費できますが、Project2 自体は別のブランチに存在できます。
Project1 のブランチを作成することはできますが、ブランチされたバージョンには Project2 で消費されていることが表示されません。
Project2 をメインにマージすることはできますが、依存関係は残ります。

ベストプラクティス

消費されたプロジェクト内のタスクが少なくとも準備されていることを確認して、それらが有効であることを確認します。
テナント間でプロジェクトをエクスポートおよびインポートする予定の場合は、テナント内のスペースとプロジェクトの名前を同じにしておくと簡単です。名前が異なる場合は、プロジェクトをインポートするときにプロジェクトとタスクをマッピングする必要があります。
エクスポートとインポートを使用してデータプラットフォームを変更する場合、依存関係を持つすべてのプロジェクトが同じプラットフォーム上にある必要があります。

安全かつ簡単にプラットフォームを変更するには、次の手順に従ってください。この例では、消費されるプロジェクトは Consumed と呼ばれ、Consumed から読み取るプロジェクトは Consumer と呼ばれます。
1. Consumed と Consumer をエクスポートします。
2. Consumed を Consumed_New にインポートし、新しいデータプラットフォームに変更します。
3. Consumer を Consumer_New にインポートし、Consumed_New と同じデータプラットフォームに変更し、ソースプロジェクト (Consumed) を Consumed_New に置き換えます。

データパイプラインプロジェクトでの操作

プロジェクトでは、データタスクで使用できるのと同じ操作を実行できます。同じ操作を実行できることにより、データパイプラインで操作を調整できます。

1 つのプロジェクトにつき、1 つのプロジェクト操作のみ実行できます。

スケジュールのオンとオフを切り替える
設計操作を実行する
データタスクの実行を開始および停止する
データタスクを削除する

[操作] をクリックして、進行中の操作のステータス、または最後に実行された操作を表示します。

[操作を停止] をクリックすると、進行中の操作を停止できます。進行中のデータタスクは停止されませんが、開始していないタスクはキャンセルされます。

スケジュールのオンとオフを切り替える

プロジェクトレベルでデータタスクのスケジュールをコントロールできます。

[...]、[スケジュール] の順番でクリックします。

すべてのデータタスクまたは選択したタスクのスケジュールをオンまたはオフにできます。スケジュールが定義されているタスクのみが表示されます。

情報メモこのオプションは、Qlik Cloud をデータプラットフォームとするプロジェクトでは使用できません。

個別のデータタスクのスケジューリングの詳細については、次を参照してください。

設計操作を実行する

プロジェクト内のすべてのデータタスク、または選択したタスクに対して、設計操作を実行できます。これにより、各タスクで個別に設計操作を実行する代わりに、プロジェクトでデータセットタスクをコントロールしやすくなります。

[Validate] (検証)

[検証] をクリックして、すべてのタスクまたは選択したタスクを検証します。最後の検証操作以降に変更されたデータタスクが事前に選択されています。

データタスクは、パイプライン順に検証されます。
準備

[準備] をクリックして、すべてのタスクまたは選択したタスクを準備します。最後の準備操作以降に変更されたデータタスクが事前に選択されています。

データプラットフォームでサポートされていない構造変更が必要なデータセットの再作成を選択できます。これによりデータを損失する恐れがあります。
再作成

[...]、 [テーブルを再作成] の順番でクリックして、すべてのタスクまたは選択したタスクのソースからデータセットを再作成します。

情報メモ個々のテーブルに問題がある場合は、最初にテーブルを再作成するのではなく、リロードしてみることをお勧めします。テーブルを再作成すると、過去のデータが失われる可能性があります。重大な変更があった場合は、データをリロードできるよう、再作成されたデータタスクを使用するダウンストリームのデータタスクを準備することも必要です。

データタスクを実行する

タスクを個別に実行する代わりに、プロジェクト内のすべてのデータタスクまたは選択したタスクに対して実行を開始できます。たとえば、すべてのタスクを時間ベースのスケジュールで実行できます。これにより、イベントベースのスケジュールでダウンストリームのタスクが開始されます。

実行

[実行] をクリックして、すべてのタスクまたは選択したタスクの実行を開始します。これにより、選択したすべてのタスクの実行が開始され、実行が開始されるとすぐに完了します。

実行の準備ができているすべてのタスクから選択できます。時間ベースのスケジュールを持つタスクと CDC を使用するタスクが事前に選択されています。イベントベースのスケジュールを持つタスクは、処理するデータがある場合に実行されるため、事前に選択されていません。

Qlik Cloud をデータプラットフォームとするプロジェクトでは、すべてのランディングタスクとストレージタスクが事前に選択されています。

情報メモすべてのデータタスクは並行して実行されます。つまり、依存関係のチェックによって、一部のタスクの実行が妨げられる可能性があります。
停止

[停止] をクリックして、すべてのタスクまたは選択したタスクを停止します。

実行中のタスクから選択できます。

タスクを削除する

[削除] をクリックして、プロジェクト内のすべてのデータタスク、または選択したタスクを削除します。

プロジェクトのビューの変更

プロジェクトには 2 種類のビューがあります。[パイプラインビュー] をクリックすると、ビューが切り替わります。

パイプラインビューは、データタスクのデータフローを表示します。

[レイヤー] をクリックすると、表示されるデータタスクの情報量を選択できます。次の情報をオンまたはオフに切り替えます。
- 状態
- データの鮮度
- [スケジュール]
- クロスプロジェクト出力
  
  この操作により、このプロジェクトのタスクを消費する他のプロジェクトのタスクが表示されます。現在のプロジェクト外のすべてのタスクはグレーで表示されます。
カードビューには、データタスクに関する情報を含むカードビューが表示されます。

アセットの種類と所有者をフィルタリングできます。

データの表示

データのサンプルを表示して、データパイプラインを設計しながらデータの形状を表示して検証することができます。

次の権限が必要です。

Administration のテナントレベルでデータの表示が有効になっている。

[設定] > [機能コントロール] > [データ統合でのデータ表示] を有効にします。
接続が常駐するスペースで [データ表示可能] のロールが割り当てられている。
プロジェクトが常駐するスペースで [表示可能] のロールが割り当てられている。

データパイプラインビューでサンプルデータを表示するには:

パイプラインビューの下部にあるプレビューバナーのをクリックします。
データをプレビューするデータタスクを選択します。

データのサンプルが表示されます。[列の数] でサンプルに含めるデータ列の数を設定できます。

プロジェクトのエクスポートとインポート

プロジェクトを再構築するために必要なものがすべて含まれた JSON ファイルにプロジェクトをエクスポートできます。エクスポートされた JSON ファイルは、同じテナントにも別のテナントにもインポート可能です。例えば、これを使って、プロジェクトを別のテナントに移動することや、プロジェクトのバックアップコピーを作成することができます。

詳細については、「データパイプラインのエクスポートとインポート」を参照してください。

プロジェクトの所有者を変更する

データタスクは、所属するプロジェクトの所有者のコンテキストで動作します。プロジェクトの所有者を変更して、データプロジェクト内のすべてのタスクの制御を別のユーザーに譲渡できます。これは、削除されたユーザーが所有するプロジェクトがある場合などに便利です。

プロジェクトの所有者を変更するには、テナント管理者またはデータ管理者のロールが必要です。必要なロールと権限の詳細については、「データスペースのロールと権限」を参照してください。

プロジェクトビューで ... をクリックし、 [所有者を変更] をクリックします。

所有権の変更は、プロジェクト内のすべてのタスクに適用されます。プロジェクト内のタスクによって作成されたすべてのカタログ化されたデータセットの所有者も変更されます。

データプラットフォーム接続の変更

プロジェクトの [データプラットフォーム] 接続を変更する場合は、次の操作を実行する必要があります。

すべてのランディングタスクでテーブルを再作成します。
プロジェクト内の他のすべてのタスクを準備します。

プロジェクトの設定

プロジェクトおよび含まれるすべてのデータタスクに共通のプロパティを設定できます。

[設定] をクリックします。

詳細については、「データパイプラインプロジェクトの設定」を参照してください。

詳細を見る

Qlik Cloud Data Integration を使用したオンボーディングとデータの変換

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

データ パイプライン プロジェクトの作成

データ ウェアハウスへのデータのオンボーディング