データウェアハウスへのデータのオンボーディング

Qlik Talend Data Integration プロジェクトでデータパイプラインを作成する最初のステップは、データのオンボーディングです。これには、データソースからデータを転送し、読み取りに最適化された形式でのデータセットの保管が含まれます。継続的な変更処理でデータを更新することも、スケジュールされたリロードを使用することもできます。

オンボーディングは 1 回の操作で作成できますが、2 つのステップで実行されます。

データのランディング

これには、ランディングデータタスクを使用して、オンプレミスデータソースからランディングエリアにデータを継続的に転送することが含まれます。

データソースからのランディングデータ

データをレイクハウスにランディングし、そこからクラウドファイルストレージにデータをランディングすることもできます。これは、ランディングターゲットがクラウドファイルストレージに設定されている Snowflake プロジェクトで利用できます。

レイクハウスへのデータのランディング。
データセットの保管

これは、ランディングデータの初期ロードまたは増分ロードを読み取り、ストレージデータタスクを使用して読み取りに最適化されたフォーマットでデータを適用します。

データセットの保管

データをオンボードすると、保管されたデータセットをいくつかの方法で使用できます。

データセットを分析アプリケーションで使用できます。
変換を作成できます。
データマートを作成できます。

データのオンボード

プロジェクトでデータのオンボーディングを開始します。データセットは、プロジェクトで定義されたクラウドデータウェアハウスに保存されます。プロジェクトの詳細については、「データパイプラインプロジェクトの作成と管理」を参照してください。

プロジェクトで、 [作成] をクリックし、 [データのオンボード] をクリックします。

ヒントメモプロジェクト内の既存のソースのをクリックして、[オンボードデータ] をクリックすることもできます。
オンボーディングの [名前] と [説明] を追加します。

[Next] (次へ)をクリックします。
ソース接続を選択します。

既存のソース接続を選択するか、ソースへの新しい接続を作成できます。

詳細は、データソースへの接続の設定をご覧ください。

[Next] (次へ)をクリックします。
ロードするデータを選択します。

詳細については、「データの選択」を参照してください。

[Next] (次へ)をクリックします。

更新方法と履歴設定を選択できる [設定] が表示されます。
[更新方法] でデータの更新に使用する方法を選択します。
- 変更データキャプチャ (CDC)
  
  データに CDC またはビューをサポートしていないテーブルも含まれている場合、2 つのデータパイプラインが作成されます。CDC をサポートするすべてのテーブルを含む 1 つのパイプラインと、 [リロードして比較] を使用する他のすべてのテーブルとビューを含む別のパイプライン。
- リロードして比較
Snowflake にオンボーディングする場合は、次のいずれかのロード方法を選択できます。
- 一括ロード (既定)
  
  [一括ロード] を選択した場合、タスク作成後、タスク設定の [データのアップロード] タブでロードパラメーターを調整できるようになります。
- Snowpipe Streaming
  情報メモ
  Snowpipe Streaming は、次の条件が満たされている場合にのみ選択できます。
  - 変更データキャプチャ (CDC) の更新方法が有効になっています。
  - Snowflake コネクタの [認証メカニズム] は [キーペア] に設定されています。
  - Data Movement gateway を使用する場合は、バージョン 2024.11.45 以降が必要です。
  Snowpipe Streaming を選択する場合は、この方法を使用する際の制限事項と考慮事項をよく理解しておく必要があります。また、Snowpipe Streaming を選択し、 [リロードして比較] 更新方法に切り替えると、ロード方法は自動的に [一括ロード] に戻ります。
[一括ロード] ではなく、Snowpipe Streaming を選択する主な理由は次のとおりです。
- コストの削減: Snowpipe Streaming は Snowflake ウェアハウスを使用しないため、運用コストは大幅に安くなると考えられますが、これは具体的なユースケースに応じて異なります。
- レイテンシの低減: データがステージングを経由せずに直接ターゲットテーブルにストリーミングされるため、データソースからターゲットへのレプリケーションがより高速になると考えられます。
ヒントメモSnowpipe Streaming を使用する場合、最初のフルロードは [一括ロード] よりも大幅に遅くなる可能性があります。特に大規模なデータセットをロードする際のパフォーマンスを最適化するには、Snowpipe Streaming と並列ロード機能を併用するのがベストプラクティスです。
[履歴] の現在のデータに加えて、過去のデータの履歴をレプリケートする場合に選択します。

準備ができたら、[次へ] をクリックします。
Data Movement gateway を使用してデータソースにアクセスしていない場合は、設定に次のセクションが表示されます。

レプリケーションスケジューラー
- 毎回データをレプリケートする: データソースから変更をキャプチャする頻度をスケジュールし、開始時刻と開始日を設定できます。ソースデータセットが CDC (変更データキャプチャ) をサポートしている場合は、ソースデータへの変更のみがレプリケーションされ、対応するターゲットテーブルに適用されます。ソースデータセットが CDC をサポートしていない場合 (ビューなど)、すべてのソースデータを対応するターゲットテーブルに再ロードすることによって変更が適用されます。一部のソースデータセットが CDC をサポートし、一部がサポートしない場合は、2 つの個別のサブタスクが作成されます。1 つは CDC をサポートしないデータセットをリロードするためのもので、もう 1 つは CDC をサポートするデータセットへの変更をキャプチャするためのものです。
  
  オンボーディングのセットアップウィザードを使用すると、1 時間間隔でスケジュールを設定できます。オンボーディングウィザードを完了したら、レプリケーションの設定 で説明されているように、さまざまなスケジュールオプションを検討できます。
データソースの種類とサブスクリプションティアに応じた最小スケジュール間隔の詳細については、「許容される最小スケジュール間隔」を参照してください。
データをオンボードするために作成されたデータタスクをプレビューし、必要に応じて名前を変更します。

ヒントメモこの名前は、ストレージデータタスクでデータベーススキーマに名前を付けるときに使用されます。同じデータプラットフォームを使用する他のプロジェクトのデータタスクとの競合を避けるために、一意の名前を使用することを検討してください。
作成されたデータタスクのいずれかを開くか、プロジェクトに戻るかを選択します。

準備ができたら、[完了]をクリックします。

これで、オンボーディングデータタスクが作成されました。データのレプリケーションを開始するには、次のことが必要です。

ランディングデータタスクを準備して実行します。

詳細については、「データソースからのランディングデータ」を参照してください。
ストレージデータタスクを準備して実行します。

詳細については、「データセットの保管」を参照してください。

データの選択

特定のテーブルまたはビューを選択することや、選択ルールを使用してテーブルのグループを含めるか除外することができます。

選択にビューが含まれる場合、CDC はサポートされません。

% をワイルドカードとして使用して、スキーマとテーブルの選択基準を定義します。

%.% は、すべてのスキーマのすべてのテーブルを定義します。
Public.% は、スキーマの [パブリック] のすべてのテーブルを定義します。

[選択基準] により、選択内容に基づいたプレビューが表示されます。

次のいずれかを実行できるようになりました。

選択基準に基づいて、テーブルのグループを含めるまたは除外するルールを作成します。

[選択条件からルールを追加] をクリックしてルールを作成し、 [含める] または [除外] のいずれかを選択します。

[選択ルール] の下にルールが表示されます。
1 つ以上のデータセットを選択し、 [選択したデータセットを追加] をクリックします。

[明示的に選択したデータセット] の下に、追加されたデータセットが表示されます。

選択ルールは、現在のテーブルとビューのセットにのみ適用され、将来追加されるテーブルとビューには適用されません。

詳細を見る

Qlik Cloud Data Integration を使用したオンボーディングとデータの変換

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください