メイン コンテンツをスキップする 補完的コンテンツへスキップ

Qlik Open Lakehouse へのランディング データ

データは Amazon S3 にランディングされ、Iceberg オープン テーブル形式に変換するストレージ データ タスクの準備が整います。Qlik でサポートされているソースからデータをランディングできます。

Qlik Open Lakehouse にデータをランディングするには、事前に設定された Amazon S3 バケットが必要です。Qlik Open Lakehouse は、特に大容量のストリーミング データ ソース用に最適化されており、Qlik がサポートするすべてのデータ ソースと互換性があります。データは S3 に CSV 形式でランディングします。ストレージ データ タスクはデータを Iceberg 形式に変換し、Parquet ファイルにコピーします。Iceberg の仕様により、Amazon Athena、Ahana、Starburst Enterprise など、Trino SQL をネイティブにサポートするあらゆるエンジンからデータを照会できます。オプションで、テーブルを Snowflake にミラーリングし、データを複製することなく照会できるようにすることもできます。

Qlik Open Lakehouse へのランディング データは、AWS Glue Data Catalog ターゲット接続を持つプロジェクトで利用可能です。

準備

  • Snowflake にデータをミラーリングするには、まず Qlik Open Lakehouse プロジェクトを作成してデータを取り込み、Iceberg オープン テーブル形式を使用してデータを保存する必要があります。ストレージ データ タスクの後にミラー データ タスクを追加できます。データの変換を実行するには、Qlik Open Lakehouse プロジェクトをソースとして使用する Snowflake プロジェクトを作成します。詳細については、「クラウド データ ウェアハウスへのデータのミラーリング」を参照してください。

  • タスク設定ウィザードでソースとターゲットの接続設定を構成できますが、設定手順を簡略化するために、タスクを作成する前に実行しておくことをお勧めします。

レイク ランディング タスクの作成

レイク ランディング タスクを作成するには、以下を行います。

  1. プロジェクトを作成し、 [ユース ケース] で [データ パイプライン] を選択します。

  2. データ プラットフォームQlik Open Lakehouse を選択し、データ カタログへの接続を確立します。

  3. ランディング ターゲット接続にストレージ エリアを設定します。

  4. [作成] をクリックしてプロジェクトを作成します。

プロジェクトでデータをオンボードするか、ランディング タスクを作成すると、ランディング タスクではなくレイク ランディング タスクが作成されます。レイク ランディング タスクは、データをクラウド ストレージにランディングするという点を除けば、ランディング タスクとほぼ同じように動作および機能します。詳細については、「データ ソースからのランディング データ」を参照してください。

すべてのファイルは CSV 形式でランディングされます。ランディング データが更新された後、ランディング タスクを消費するストレージ タスクは外部テーブルを更新します。

設定

タスク設定の詳細については、「レイク ランディングの設定」を参照してください。

制限事項

  • ランディング データは、ストレージ タスクが 1 分ごとに実行されるため、バケット内でパーティショニングされません。そのため、タスク設定でデータ パーティションの頻度を更新することはできません。

  • SaaS ソースからのランディング データはスケジュールされますが、ストレージ タスクは 1 分ごとにミニバッチを実行します。そのためには、最小限のコストでアクティブなレイクハウス クラスターが必要です。

  • 主キーの値が変更された場合、元のキーを持つレコードは Deleted とマークされ、変更されたキー値を含む行は Insert とマークされます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。