データ パイプラインの作成
データ パイプラインを作成して、データ タスクを使用してプロジェクト内ですべてのデータ統合を実行できます。オンボーディングでは、オンプレミスまたはクラウドのデータ ソースからプロジェクトにデータを移動し、すぐに使用できるデータ セットにデータを保存します。変換を実行し、データ マートを作成して、生成および変換されたデータ セットを活用することもできます。データ パイプラインはシンプルで線形にすることも、複数のデータ ソースを使用して多くの出力を生成する複雑なパイプラインにすることもできます。
すべてのデータ タスクは、それらが属するプロジェクトと同じスペースに作成されます。
また、系列を表示してデータとデータ変換を元のソースまで遡って追跡することや、データ タスク、データセット、項目の依存関係の将来を見据えたダウンストリーム ビューを示す影響分析を実行することもできます。詳細については、「データ統合 での系列および影響分析の操作」を参照してください。
データのオンボーディング
これには、ステージング エリアへのデータのランディングと、クラウド データ ウェアハウスへのデータセットの格納が含まれます。ランディングおよびストレージ データ タスクは、1 つのステップで作成されます。必要に応じて、ランディングとストレージを別々のタスクで実行することもできます。
データ プラットフォームに既存のデータを登録する
データ プラットフォームに既存のデータを登録し、データをキュレーションして変換し、データ マートを作成します。これにより、Qlik Talend Data Integration 以外のツール (Qlik Replicate または Stitch など) を使ってオンボーディングされたデータを使用できます。
データの変換
ルールとカスタム SQL に基づいて、オンボード データに再利用可能な行レベルの変換を作成します。これにより変換データ タスクが作成されます。
データ マートの作成と管理
データ マートを作成して、データ セットを活用します。これによりデータ マート データ タスクが作成されます。
ターゲットとなるデータ プラットフォーム
プロジェクトは、すべての出力のターゲットとして使用されるデータ プラットフォームに関連付けられています。
サポートされているデータ プラットフォーム詳細については、「ターゲットへの接続の設定」を参照してください
プロジェクトの紹介ビデオ
プロジェクトの作成例
次の例では、オンボーディング データを実行し、データを変換してデータ マートを作成します。これにより、より多くのデータ ソースをオンボードし、より多くの変換を作成し、生成されたデータ タスクをデータ マートに追加することで拡張できるシンプルな線形データ パイプラインが作成されます。
-
新しいプロジェクトを作成します。
[データ統合] > [プロジェクト] で、 [プロジェクトを作成] をクリックします。
-
プロジェクトの名前と説明を入力し、プロジェクトを作成するスペースを選択します。すべてのデータ タスクは、それらが属するプロジェクトのスペースに作成されます。
- [ユース ケース] で [データ パイプライン] を選択します。
-
プロジェクトで使用するデータ プラットフォームを選択します。
-
プロジェクトで使用するクラウド データ ウェアハウスへの接続を選択します。これは、データ ファイルを配置し、データセットとビューを保存するために使用されます。接続をまだ準備していない場合は、[接続の追加] で作成します。
Google BigQuery、Databricks、または Microsoft Azure Synapse Analytics をデータ プラットフォームとして選択した場合は、ステージング エリアにも接続する必要があります。
-
データ プラットフォームとして Qlik Cloud を選択した場合:
データは、Qlik が管理するストレージまたは自身が管理する Amazon S3 バケットに保存できます。自身の Amazon S3 バケットを使用する場合は、そのバケットへの接続を選択する必要があります。
どちらの場合も、Amazon S3 ステージング エリアへの接続も選択する必要があります。前のステップで定義したものと同じバケットを使用する場合は、バケット内の別のフォルダーをステージングに使用していることを確認してください。
-
[作成] をクリックします。
プロジェクトが作成され、データ タスクを追加してデータ パイプラインを作成できます。
-
-
データをオンボードします
プロジェクトで、[新規追加] をクリックしてから、 [データのオンボード] をクリックします。
詳細は、データのオンボーディングをご覧ください。
これにより、ランディング データ タスクとストレージ データ タスクが作成されます。データのレプリケーションを開始するには、次のことが必要です。
-
ランディング データ タスクを準備して実行します。
詳細については、「データ ソースからのランディング データ」を参照してください。
-
ストレージ データ タスクを準備して実行します。
詳細については、「データセットの保管」を参照してください。
-
-
データの変換
ストレージ データ タスクが作成されたら、プロジェクトに戻ります。作成されたデータセットに対して変換を実行できるようになりました。
ストレージ データ タスクで [...] をクリックし、[データの変換] を選択して、このストレージ データ タスクに基づいて変換データ タスクを作成します。変換の手順については、「データの変換」 を参照してください。
-
データ マートの作成
ストレージ データ タスクまたは変換データ タスクに基づいてデータ マートを作成できます。
データ タスクの [...] をクリックし、[データ マートの作成] を選択して、データ マート データ タスクを作成します。データ マートの作成手順については、次を参照してください。
保存および変換されたデータセットとデータ マートの最初のフル ロードを実行したら、それらを分析アプリなどで使用できます。分析アプリの作成について詳しくは、「Qlik Talend Data Integration により生成されたデータセットを使用した分析アプリの作成」 を参照してください。
また、より多くのデータ ソースをオンボードすることでデータ パイプラインを拡張し、それらを変換またはデータ マートで結合することもできます。
プロジェクトでの操作
プロジェクトでは、データ タスクで使用できるのと同じ操作を実行できます。同じ操作を実行できることにより、データ パイプラインで操作を調整できます。
-
スケジュールのオンとオフを切り替える
-
設計操作を実行する
-
データ タスクの実行を開始および停止する
-
データ タスクを削除する
[操作] をクリックして、進行中の操作のステータス、または最後に実行された操作を表示します。
[操作を停止] をクリックすると、進行中の操作を停止できます。進行中のデータ タスクは停止されませんが、開始していないタスクはキャンセルされます。
スケジュールのオンとオフを切り替える
プロジェクト レベルでデータ タスクのスケジュールをコントロールできます。
-
[...]、[スケジュール] の順番でクリックします。
すべてのデータ タスクまたは選択したタスクのスケジュールをオンまたはオフにできます。スケジュールが定義されているタスクのみが表示されます。
情報メモこのオプションは、Qlik Cloud をデータ プラットフォームとするプロジェクトでは使用できません。
個別のデータ タスクのスケジューリングの詳細については、次を参照してください。
設計操作を実行する
プロジェクト内のすべてのデータ タスク、または選択したタスクに対して、設計操作を実行できます。これにより、各タスクで個別に設計操作を実行する代わりに、プロジェクトでデータセット タスクをコントロールしやすくなります。
-
[Validate] (検証)
[検証] をクリックして、すべてのタスクまたは選択したタスクを検証します。最後の検証操作以降に変更されたデータ タスクが事前に選択されています。
データ タスクは、パイプライン順に検証されます。
-
準備
[準備] をクリックして、すべてのタスクまたは選択したタスクを準備します。最後の準備操作以降に変更されたデータ タスクが事前に選択されています。
データ プラットフォームでサポートされていない構造変更が必要なデータセットの再作成を選択できます。これによりデータを損失する恐れがあります。
-
再作成
[...]、[再作成] の順番でクリックして、すべてのタスクまたは選択したタスクのソースからデータセットを再作成します。
データ タスクを実行する
タスクを個別に実行する代わりに、プロジェクト内のすべてのデータ タスクまたは選択したタスクに対して実行を開始できます。たとえば、すべてのタスクを時間ベースのスケジュールで実行できます。これにより、イベントベースのスケジュールでダウンストリームのタスクが開始されます。
-
実行
[実行] をクリックして、すべてのタスクまたは選択したタスクの実行を開始します。これにより、選択したすべてのタスクの実行が開始され、実行が開始されるとすぐに完了します。
実行の準備ができているすべてのタスクから選択できます。時間ベースのスケジュールを持つタスクと CDC を使用するタスクが事前に選択されています。イベントベースのスケジュールを持つタスクは、処理するデータがある場合に実行されるため、事前に選択されていません。
Qlik Cloud をデータ プラットフォームとするプロジェクトでは、すべてのランディング タスクとストレージ タスクが事前に選択されています。
情報メモすべてのデータ タスクは並行して実行されます。つまり、依存関係のチェックによって、一部のタスクの実行が妨げられる可能性があります。 -
停止
[停止] をクリックして、すべてのタスクまたは選択したタスクを停止します。
実行中のタスクから選択できます。
タスクを削除する
-
[削除] をクリックして、プロジェクト内のすべてのデータ タスク、または選択したタスクを削除します。
プロジェクトのビューの変更
プロジェクトには 2 種類のビューがあります。[パイプライン ビュー] をクリックすると、ビューが切り替わります。
-
パイプライン ビューは、データ タスクのデータ フローを表示します。
[レイヤー] をクリックすると、表示されるデータ タスクの情報量を選択できます。次の情報をオンまたはオフに切り替えます。
-
状態
-
データの新しさ
-
[スケジュール]
-
-
カード ビューには、データタスクに関する情報を含むカード ビューが表示されます。
アセットの種類と所有者をフィルタリングできます。
データの表示
データのサンプルを表示して、データ パイプラインを設計しながらデータの形状を表示して検証することができます。
次の権限が必要です。
-
Administration のテナント レベルでデータの表示が有効になっている。
[設定] > [機能コントロール] > [データ統合 でのデータ表示] が有効になっている。
-
接続が常駐するスペースで [データ表示可能] のロールが割り当てられている。
-
プロジェクトが常駐するスペースで [表示可能] のロールが割り当てられている。
データ パイプライン ビューでサンプル データを表示するには:
-
パイプライン ビューの下部にあるプレビュー バナーの をクリックします。
-
データをプレビューするデータ タスクを選択します。
データのサンプルが表示されます。[列の数] でサンプルに含めるデータ列の数を設定できます。
プロジェクトのエクスポートとインポート
プロジェクトを再構築するために必要なものがすべて含まれた JSON ファイルにプロジェクトをエクスポートできます。エクスポートされた JSON ファイルは、同じテナントにも別のテナントにもインポート可能です。例えば、これを使って、プロジェクトを別のテナントに移動することや、プロジェクトのバックアップ コピーを作成することができます。
詳細は、データ パイプラインのエクスポートとインポートをご覧ください。
プロジェクトの設定
プロジェクトおよび含まれるすべてのデータ タスクに共通のプロパティを設定できます。
[設定] をクリックします。
詳細については、「データ パイプライン プロジェクトの設定」を参照してください。