データのオンボーディング
Qlik Talend Data Integration プロジェクトでデータ パイプラインを作成する最初のステップは、データのオンボーディングです。これには、データ ソースからデータを転送し、読み取りに最適化された形式でのデータセットの保管が含まれます。継続的な変更処理でデータを更新することも、スケジュールされたリロードを使用することもできます。
オンボーディングは 1 回の操作で作成できますが、2 つのステップで実行されます。
-
データのランディング
これには、 ランディング データ タスクを使用して、オンプレミス データ ソースからランディング エリアにデータを継続的に転送することが含まれます。
データをレイクハウスにランディングし、そこからクラウド ファイル ストレージにデータをランディングすることもできます。これは、ランディング ターゲットがクラウド ファイル ストレージに設定されている Snowflake プロジェクトで利用できます。
-
データセットの保管
これは、ランディング データの初期ロードまたは増分ロードを読み取り、ストレージ データ タスクを使用して読み取りに最適化されたフォーマットでデータを適用します。
データをオンボードすると、保管されたデータセットをいくつかの方法で使用できます。
-
分析アプリ内にあるデータセットを使用できます。
-
変換を作成できます。
-
データ マートを作成できます。

データのオンボード
プロジェクトでデータのオンボーディングを開始します。データセットは、プロジェクトで定義されたクラウド データ ウェアハウスに保存されます。プロジェクトの詳細については、「データ パイプライン プロジェクトの作成」を参照してください。
-
プロジェクトで、 [作成] をクリックし、 [データのオンボード] をクリックします。
ヒント メモプロジェクト内の既存のソースのをクリックして、[オンボード データ] をクリックすることもできます。
-
オンボーディングの [名前] と [説明] を追加します。
[次へ] をクリックします。
-
ソース接続を選択します。
既存のソース接続を選択するか、ソースへの新しい接続を作成できます。
詳細は、データソースへの接続の設定をご覧ください。
[次へ] をクリックします。
-
ロードするデータを選択します。
詳細については、「データの選択」を参照してください。
[次へ] をクリックします。
更新方法と履歴設定を選択できる [設定] が表示されます。
-
[更新方法] でデータの更新に使用する方法を選択します。
-
変更データキャプチャ (CDC)
データに CDC またはビューをサポートしていないテーブルも含まれている場合、2 つのデータ パイプラインが作成されます。CDC をサポートするすべてのテーブルを含む 1 つのパイプラインと、 [リロードして比較] を使用する他のすべてのテーブルとビューを含む別のパイプライン。
-
リロードして比較
-
-
Snowflake にオンボーディングする場合は、次のいずれかのロード方法を選択できます。
-
一括ロード (既定)
[一括ロード] を選択した場合、タスク作成後、タスク設定の [データのアップロード] タブでロード パラメーターを調整できるようになります。
-
Snowpipe Streaming
情報メモSnowpipe Streaming は、次の条件が満たされている場合にのみ選択できます。
- 変更データ キャプチャ (CDC) の更新方法が有効になっています。
- Snowflake コネクタの [認証メカニズム] は [キー ペア] に設定されています。
- Data Movement gateway を使用する場合は、バージョン 2024.11.45 以降が必要です。
Snowpipe Streaming を選択する場合は、この方法を使用する際の制限事項と考慮事項をよく理解しておく必要があります。また、Snowpipe Streaming を選択し、 [リロードして比較] 更新方法に切り替えると、ロード方法は自動的に [一括ロード] に戻ります。
[一括ロード] ではなく、Snowpipe Streaming を選択する主な理由は次のとおりです。
-
コストの削減: Snowpipe Streaming は Snowflake ウェアハウスを使用しないため、運用コストは大幅に安くなると考えられますが、これは具体的なユース ケースに応じて異なります。
-
レイテンシの低減: データがステージングを経由せずに直接ターゲットテーブルにストリーミングされるため、データソースからターゲットへのレプリケーションがより高速になると考えられます。
ヒント メモSnowpipe Streaming を使用する場合、最初のフルロードは [一括ロード] よりも大幅に遅くなる可能性があります。特に大規模なデータセットをロードする際のパフォーマンスを最適化するには、Snowpipe Streaming と並列ロード機能を併用するのがベスト プラクティスです。 -
-
[履歴] の現在のデータに加えて、過去のデータの履歴をレプリケートする場合に選択します。
準備ができたら、[次へ] をクリックします。
-
Data Movement gateway を使用してデータ ソースにアクセスしていない場合は、設定に次のセクションが表示されます。
レプリケーション スケジューラー
-
毎回データをレプリケートする: データ ソースから変更をキャプチャする頻度をスケジュールし、開始時刻と開始日を設定できます。ソース データセットが CDC (変更データ キャプチャ) をサポートしている場合は、ソース データへの変更のみがレプリケーションされ、対応するターゲット テーブルに適用されます。ソース データセットが CDC をサポートしていない場合 (ビューなど)、すべてのソース データを対応するターゲット テーブルに再ロードすることによって変更が適用されます。一部のソース データセットが CDC をサポートし、一部がサポートしない場合は、2 つの個別のサブタスクが作成されます。1 つは CDC をサポートしないデータセットをリロードするためのもので、もう 1 つは CDC をサポートするデータセットへの変更をキャプチャするためのものです。
オンボーディングのセットアップ ウィザードを使用すると、1 時間間隔でスケジュールを設定できます。オンボーディング ウィザードを完了したら、レプリケーションの設定 で説明されているように、さまざまなスケジュール オプションを検討できます。
データ ソースの種類とサブスクリプション ティアに応じた最小スケジュール間隔の詳細については、「許容される最小スケジュール間隔」を参照してください。
-
-
データをオンボードするために作成されたデータ タスクをプレビューし、必要に応じて名前を変更します。
ヒント メモこの名前は、ストレージ データ タスクでデータベース スキーマに名前を付けるときに使用されます。同じデータ プラットフォームを使用する他のプロジェクトのデータ タスクとの競合を避けるために、一意の名前を使用することを検討してください。 -
作成されたデータ タスクのいずれかを開くか、プロジェクトに戻るかを選択します。
準備ができたら、[完了]をクリックします。
これで、オンボーディング データ タスクが作成されました。データのレプリケーションを開始するには、次のことが必要です。
-
ランディング データ タスクを準備して実行します。
詳細については、「データ ソースからのランディング データ」を参照してください。
-
ストレージ データ タスクを準備して実行します。
詳細については、「データセットの保管」を参照してください。
データの選択
特定のテーブルまたはビューを選択することや、選択ルールを使用してテーブルのグループを含めるか除外することができます。
% をワイルドカードとして使用して、スキーマとテーブルの選択基準を定義します。
-
%.% は、すべてのスキーマのすべてのテーブルを定義します。
-
Public.% は、スキーマの [パブリック] のすべてのテーブルを定義します。
[選択基準] により、選択内容に基づいたプレビューが表示されます。
次のいずれかを実行できるようになりました。
-
選択基準に基づいて、テーブルのグループを含めるまたは除外するルールを作成します。
[選択条件からルールを追加] をクリックしてルールを作成し、 [含める] または [除外] のいずれかを選択します。
[選択ルール] の下にルールが表示されます。
-
1 つ以上のデータセットを選択し、 [選択したデータセットを追加] をクリックします。
[明示的に選択したデータセット] の下に、追加されたデータセットが表示されます。
選択ルールは、現在のテーブルとビューのセットにのみ適用され、将来追加されるテーブルとビューには適用されません。