メイン コンテンツをスキップする 補完的コンテンツへスキップ

データのオンボーディング

Qlik Open Lakehouse プロジェクトでデータ パイプラインを作成する最初のステップは、データのオンボーディングです。このプロセスでは、ソースからデータを転送し、最適化された Iceberg テーブルにデータセットを格納します。

オンボーディングは 1 回の操作で作成されますが、2 つのステップで実行されます。データ ソースのタイプ (CDC またはストリーミング) に応じて、プロジェクトのタスクが決定されます。

CDC ソース

  • データのランディング

    これには、 ランディング データ タスクを使用して、オンプレミス データ ソースからランディング エリアにデータを連続的なミニバッチとして転送することが含まれます。

    データ ソースからのランディング データ

    データをレイクハウスにランディングし、そこから S3 ファイル ストレージにデータをランディングすることもできます。

    Qlik Open Lakehouse へのランディング データ

  • データセットの保管

    これは、ランディング データの初期ロードまたは増分ロードを読み取り、ストレージ データ タスクを使用して読み取りに最適化されたフォーマットでデータを適用します。

    データセットの保管

ストリーミング ソース

オンボードされたデータの使用

データをオンボードすると、保管されたデータセットを次のいくつかの方法などで使用できます。

  • データセットを分析アプリケーションで使用できます。

  • CDC ソースの場合はストレージ データに、ストリーミング ソースの場合はストリーミング変換侑にミラー データ タスクを直接追加することで、Amazon Redshift や Snowflake を含む 1 つ以上のクラウド データ ウェアハウスにデータをミラーリングできます。

    詳細については、「クラウド データ ウェアハウスへのデータのミラーリング」を参照してください。

  • オンボーディング プロジェクトからデータを消費するクロスプロジェクト パイプラインを作成することで、クラウド データ ウェアハウスでデータの変換を実行できます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。