データのオンボーディング
Qlik Open Lakehouse プロジェクトでデータ パイプラインを作成する最初のステップは、データのオンボーディングです。このプロセスでは、ソースからデータを転送し、最適化された Iceberg テーブルにデータセットを格納します。
オンボーディングは 1 回の操作で作成されますが、2 つのステップで実行されます。データ ソースのタイプ (CDC またはストリーミング) に応じて、プロジェクトのタスクが決定されます。
CDC ソース
-
データのランディング
これには、 ランディング データ タスクを使用して、オンプレミス データ ソースからランディング エリアにデータを連続的なミニバッチとして転送することが含まれます。
データをレイクハウスにランディングし、そこから S3 ファイル ストレージにデータをランディングすることもできます。
-
データセットの保管
これは、ランディング データの初期ロードまたは増分ロードを読み取り、ストレージ データ タスクを使用して読み取りに最適化されたフォーマットでデータを適用します。
ストリーミング ソース
-
データのランディング
これは、ストリーミング ランディング データ 侑を使用して、ソースからランディング エリアへデータを継続的にストリーミングすることが含まれます。
-
データセットの保管
これは、ランディング データの初期ロードを読み取り、ストレージ変換データ タスクを使用して読み取りに最適化されたフォーマットでデータを適用します。
オンボードされたデータの使用
データをオンボードすると、保管されたデータセットを次のいくつかの方法などで使用できます。
-
データセットを分析アプリケーションで使用できます。
-
CDC ソースの場合はストレージ データに、ストリーミング ソースの場合はストリーミング変換侑にミラー データ タスクを直接追加することで、Amazon Redshift や Snowflake を含む 1 つ以上のクラウド データ ウェアハウスにデータをミラーリングできます。
詳細については、「クラウド データ ウェアハウスへのデータのミラーリング」を参照してください。
-
オンボーディング プロジェクトからデータを消費するクロスプロジェクト パイプラインを作成することで、クラウド データ ウェアハウスでデータの変換を実行できます。