Qlik Open Lakehouse へのランディング データ
データは Amazon S3 にランディングされ、Iceberg オープン テーブル形式に変換するストレージ データ タスクの準備が整います。Qlik でサポートされているソースからデータをランディングできます。
Qlik Open Lakehouse にデータをランディングするには、事前に設定された Amazon S3 バケットが必要です。Qlik Open Lakehouse は、特に大容量のストリーミング データ ソース用に最適化されており、Qlik がサポートするすべてのデータ ソースと互換性があります。データは S3 に CSV 形式でランディングします。ストレージ データ タスクはデータを Iceberg 形式に変換し、Parquet ファイルにコピーします。Iceberg の仕様により、Amazon Athena、Ahana、Starburst Enterprise など、Trino SQL をネイティブにサポートするあらゆるエンジンからデータを照会できます。オプションで、テーブルを Snowflake にミラーリングし、データを複製することなく照会できるようにすることもできます。
Qlik Open Lakehouse へのランディング データは、AWS Glue Data Catalog ターゲット接続を持つプロジェクトで利用可能です。
準備
-
Snowflake にデータをミラーリングするには、まず Qlik Open Lakehouse プロジェクトを作成してデータを取り込み、Iceberg オープン テーブル形式を使用してデータを保存する必要があります。ストレージ データ タスクの後にミラー データ タスクを追加できます。データの変換を実行するには、Qlik Open Lakehouse プロジェクトをソースとして使用する Snowflake プロジェクトを作成します。詳細については、「クラウド データ ウェアハウスへのデータのミラーリング」を参照してください。
-
タスク設定ウィザードでソースとターゲットの接続設定を構成できますが、設定手順を簡略化するために、タスクを作成する前に実行しておくことをお勧めします。
レイク ランディング タスクの作成
レイク ランディング タスクを作成するには、以下を行います。
-
プロジェクトを作成し、 [ユース ケース] で [データ パイプライン] を選択します。
-
データ プラットフォームで Qlik Open Lakehouse を選択し、データ カタログへの接続を確立します。
-
ランディング ターゲット接続にストレージ エリアを設定します。
-
[作成] をクリックしてプロジェクトを作成します。
プロジェクトでデータをオンボードするか、ランディング タスクを作成すると、ランディング タスクではなくレイク ランディング タスクが作成されます。レイク ランディング タスクは、データをクラウド ストレージにランディングするという点を除けば、ランディング タスクとほぼ同じように動作および機能します。詳細については、「データ ソースからのランディング データ」を参照してください。
すべてのファイルは CSV 形式でランディングされます。ランディング データが更新された後、ランディング タスクを消費するストレージ タスクは外部テーブルを更新します。
設定
タスク設定の詳細については、「レイク ランディングの設定」を参照してください。
制限事項
-
ランディング データは、ストレージ タスクが 1 分ごとに実行されるため、バケット内でパーティショニングされません。そのため、タスク設定でデータ パーティションの頻度を更新することはできません。
-
SaaS ソースからのランディング データはスケジュールされますが、ストレージ タスクは 1 分ごとにミニバッチを実行します。そのためには、最小限のコストでアクティブなレイクハウス クラスターが必要です。
-
主キーの値が変更された場合、元のキーを持つレコードは Deleted とマークされ、変更されたキー値を含む行は Insert とマークされます。