データ プロジェクトでのデータ パイプラインの作成
データ パイプラインを作成して、データ タスクを使用してデータ プロジェクト内ですべてのデータ統合を実行できます。オンボーディングでは、オンプレミスまたはクラウドのデータ ソースからプロジェクトにデータを移動し、すぐに使用できるデータ セットにデータを保存します。変換を実行し、データ マートを作成して、生成および変換されたデータ セットを活用することもできます。データ パイプラインはシンプルで線形にすることも、複数のデータ ソースを使用して多くの出力を生成する複雑なパイプラインにすることもできます。
これらは、データ プロジェクトで実行できる主なタスクです。必要に応じてそれらを組み合わせることができます。
-
データをオンボードします。
これには、ステージング エリアへのデータのランディングと、クラウド データ ウェアハウスへのデータセットの格納が含まれます。ランディングおよびストレージ データ タスクは、1 つのステップで作成されます。必要に応じて、ランディングとストレージを別々のタスクで実行することもできます。
-
データを登録する
データ プラットフォームに既に存在するデータを登録し、読み出しに最適化されたデータセットを生成できます。これにより、Qlik Cloud データ統合 以外のツール (Qlik Replicate など) を使ってオンボーディングされたデータを使用できます。
-
オンボード データを変換します。
ルールとカスタム SQL に基づいて、再利用可能な行レベルの変換を作成します。これにより変換データ タスクが作成されます。
-
データ マートを作成して、データ セットを活用します。これによりデータ マート データ タスクが作成されます。
データ プロジェクトは、すべての出力のターゲットとして使用されるデータ プラットフォームに関連付けられています。次のプラットフォームがサポートされています。
-
Google BigQuery
-
Snowflake
-
Microsoft Azure Synapse Analytics
-
Databricks
-
Amazon Redshift
-
Qlik Cloud
このプラットフォームを使用するには、データを Amazon S3 バケットにランディングする必要があります。QVD テーブルは、Qlik Cloud に管理されているストレージまたは自分が管理している Amazon S3 ストレージに生成できます。
データ プラットフォームへの接続の詳細については、データ プロジェクトでクラウド データ プラットフォームに接続する を参照してください
すべてのデータ タスクは、それらが属するデータ プロジェクトと同じスペースに作成されます。

データ プロジェクトの作成例
次の例では、オンボーディング データを実行し、データを変換してデータ マートを作成します。これにより、より多くのデータ ソースをオンボードし、より多くの変換を作成し、生成されたデータ タスクをデータ マートに追加することで拡張できるシンプルな線形データ パイプラインが作成されます。
データ プロジェクトの線形データ パイプラインの例
-
新しいデータ プロジェクトを作成します。
[新規追加] をクリックし、Qlik Cloud データ統合 ホームで [データ プロジェクトを作成] をクリックします。
-
データ プロジェクトの名前と説明を入力し、データ プロジェクトを作成するスペースを選択します。すべてのデータ タスクは、それらが属するデータ プロジェクトのスペースに作成されます。
-
プロジェクトで使用するデータ プラットフォームを選択します。
-
プロジェクトで使用するクラウド データ ウェアハウスへのデータ接続を選択します。これは、データ ファイルを配置し、データセットとビューを保存するために使用されます。データ接続をまだ準備していない場合は、[接続の追加] で作成します。
Google BigQuery、Databricks、または Microsoft Azure Synapse Analytics をデータ プラットフォームとして選択した場合は、ステージング エリアにも接続する必要があります。
-
データ プラットフォームとして Qlik Cloud を選択した場合:
データは、Qlik が管理するストレージまたは自身が管理する Amazon S3 バケットに保存できます。自身の Amazon S3 バケットを使用する場合は、そのバケットへのデータ接続を選択する必要があります。
どちらの場合も、Amazon S3 ステージング エリアへのデータ接続も選択する必要があります。前のステップで定義したものと同じバケットを使用する場合は、バケット内の別のフォルダーをステージングに使用していることを確認してください。
-
[作成] をクリックします。
データ プロジェクトが作成され、データ タスクを追加してデータ パイプラインを作成できます。
-
-
データをオンボードします
[新規追加] をクリックしてから、[データをオンボード] をクリックします。
詳細については、「データのオンボーディング」を参照してください。
これにより、ランディング データ タスクとストレージ データ タスクが作成されます。データのレプリケーションを開始するには、次のことが必要です。
-
ランディング データ タスクを準備して実行します。
詳細については、「データ ソースからのランディング データ」を参照してください。
-
ストレージ データ タスクを準備して実行します。
詳細については、「データセットの生成と保存」を参照してください。
-
-
データの変換
ストレージ データ タスクが作成されたら、データ プロジェクトに戻ります。作成されたデータセットに対して変換を実行できるようになりました。
ストレージ データ タスクで [...] をクリックし、[データの変換] を選択して、このストレージ データ タスクに基づいて変換データ タスクを作成します。変換の手順については、「データの変換」 を参照してください。
-
データ マートの作成
ストレージ データ タスクまたは変換データ タスクに基づいてデータ マートを作成できます。
データ タスクの [...] をクリックし、[データ マートの作成] を選択して、データ マート データ タスクを作成します。データ マートの作成手順については、次を参照してください。
保存および変換されたデータセットとデータ マートの最初のフル ロードを実行したら、それらを分析アプリなどで使用できます。分析アプリの作成について詳しくは、「Qlik Cloud データ統合 により生成されたデータセットを使用した分析アプリの作成」 を参照してください。
また、より多くのデータ ソースをオンボードすることでデータ パイプラインを拡張し、それらを変換またはデータ マートで結合することもできます。
データ プロジェクトでデータ タスクをスケジューリングする
データタスクをスケジュールして、データパイプラインを調整できます。時間ベースのスケジュールを使用するか、イベント ベースのスケジュールを使用して、データパイプラインが使用可能になったときにデータを縮小できます。
個別のデータ タスクのスケジューリングの詳細については、次を参照してください。
データプロジェクトのビューの変更
データ プロジェクトには 2 種類のビューがあります。[パイプライン ビュー] をクリックすると、ビューが切り替わります。
-
パイプライン ビューは、データ タスクのデータ フローを表示します。
[レイヤー] をクリックすると、表示されるデータ タスクの情報量を選択できます。次の情報をオンまたはオフに切り替えます。
-
状態
-
データの新しさ
-
[スケジュール]
-
-
カード ビューには、データタスクに関する情報を含むカード ビューが表示されます。
アセットの種類と所有者をフィルタリングできます。
データ プロジェクトのエクスポートとインポート
データ プロジェクトを再構築するために必要なすべてを含め、データ プロジェクトを JSON ファイルにエクスポートできます。エクスポートされた JSON ファイルは、同じテナントにも別のテナントにもインポート可能です。例えば、これを使って、データ プロジェクトを別のテナントに移動することや、データ プロジェクトのバックアップ コピーを作成することができます。
詳細については、「データ プロジェクトのエクスポートとインポート」を参照してください。
データ プロジェクトの設定
プロジェクトおよび含まれるすべてのデータ タスクに共通のプロパティを設定できます。
-
[設定] をクリックします。
詳細については、「データ プロジェクトの設定」を参照してください。