Qlik Open Lakehouse へのランディングデータ

データは Amazon S3 にランディングされ、Iceberg オープンテーブル形式に変換するストレージデータタスクの準備が整います。Qlik でサポートされているソースからデータをランディングできます。

Qlik Open Lakehouse にデータをランディングするには、事前に設定された Amazon S3 バケットが必要です。Qlik Open Lakehouse は、特に大容量のストリーミングデータソース用に最適化されており、Qlik がサポートするすべてのデータソースと互換性があります。データは S3 に CSV 形式でランディングします。ストレージデータタスクはデータを Iceberg 形式に変換し、Parquet ファイルにコピーします。Iceberg の仕様により、Amazon Athena、Ahana、Starburst Enterprise など、Trino SQL をネイティブにサポートするあらゆるエンジンからデータを照会できます。オプションで、テーブルを Redshift または Snowflake にミラーリングし、データを複製することなく照会できるようにすることもできます。

Qlik Open Lakehouse へのランディングデータは、AWS Glue Data Catalog ターゲット接続を持つプロジェクトで利用可能です。

準備

クラウドデータウェアハウスにデータをミラーリングするには、まず Qlik Open Lakehouse プロジェクトを作成してデータを取り込み、Iceberg オープンテーブル形式を使用してデータを保存する必要があります。ストレージデータタスクの後にミラーデータタスクを追加できます。データの変換を実行するには、Qlik Open Lakehouse プロジェクトをソースとして使用する Redshift または Snowflake プロジェクトを作成します。詳細については、「クラウドデータウェアハウスへのデータのミラーリング」を参照してください。
タスク設定ウィザードでソースとターゲットの接続設定を構成できますが、設定手順を簡略化するために、タスクを作成する前に実行しておくことをお勧めします。

レイクランディングタスクの作成

レイクランディングタスクを作成するには、以下を行います。

プロジェクトを作成し、 [ユースケース] で [データパイプライン] を選択します。
データプラットフォームで Qlik Open Lakehouse を選択し、データカタログへの接続を確立します。
ランディングターゲット接続にストレージエリアを設定します。
[作成] をクリックしてプロジェクトを作成します。

プロジェクトでデータをオンボードするか、ランディングタスクを作成すると、ランディングタスクではなくレイクランディングタスクが作成されます。レイクランディングタスクは、データをクラウドストレージにランディングするという点を除けば、ランディングタスクとほぼ同じように動作および機能します。詳細については、「データソースからのランディングデータ」を参照してください。

すべてのファイルは CSV 形式でランディングされます。ランディングデータが更新された後、ランディングタスクを消費するストレージタスクは外部テーブルを更新します。

タスク情報の表示

メニューバーでをクリックして、次のようなタスク情報を表示します。

所有者
スペース
データプラットフォーム
プロジェクトID
データタスク実行 ID

設定

タスク設定の詳細については、「レイクランディングの設定」を参照してください。

制限事項

ランディングデータは、ストレージタスクが 1 分ごとに実行されるため、バケット内でパーティショニングされません。そのため、タスク設定でデータパーティションの頻度を更新することはできません。
SaaS ソースからのランディングデータはスケジュールされますが、ストレージタスクは 1 分ごとにミニバッチを実行します。そのためには、最小限のコストでアクティブなレイクハウスクラスターが必要です。
主キーの値が変更された場合、元のキーを持つレコードは Deleted とマークされ、変更されたキー値を含む行は Insert とマークされます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください