Qlik Open Lakehouse へのストリーミングデータのランディング

ストリーミングソースからのデータを Amazon S3 にランディングさせ、ストリーミング変換タスクによって Iceberg オープンテーブル形式に変換するための準備を整えます。

Qlik Open Lakehouse にストリーミングデータをランディングするには、事前に設定された Amazon S3 バケットが必要です。Qlik Open Lakehouse は、特に大容量のデータソース用に最適化されており、Qlik がサポートするすべてのストリーミングデータソースと互換性があります。サポートされているストリーミングソースの詳細については、「データストリームへの接続」を参照してください。

生データは S3 に Avro 形式でランディングされ、ストリーミング変換タスクによって Iceberg 形式に変換されます。Iceberg の仕様により、Amazon Athena、Ahana、Starburst Enterprise など、Trino SQL をネイティブにサポートするあらゆるエンジンからデータを照会できます。必要に応じて、テーブルをクラウドデータウェアハウスにミラーリングし、データを複製せずにクエリを実行することもできます。

準備

Qlik Open Lakehouse が設定されていることを確認してください。これには、ネットワーク統合、レイクハウスクラスター、ソースとターゲットの接続の作成が含まれます。詳細については、「Qlik Open Lakehouse の設定」を参照してください。
クラウドデータウェアハウスにデータをミラーリングするには、まず Qlik Open Lakehouse プロジェクトを作成してデータを取り込み、Iceberg オープンテーブル形式を使用してデータを保存する必要があります。ストリーミング変換タスクの後にミラーデータタスクを追加できます。詳細については、「クラウドデータウェアハウスへのデータのミラーリング」を参照してください。

ストリーミングランディングタスクの作成

ストリーミングランディングタスクを作成するには、まず次の手順に従ってプロジェクトを作成します。

プロジェクトを作成し、 [ユースケース] で [データパイプライン] を選択します。
データプラットフォームで Qlik Open Lakehouse を選択し、データカタログへの接続を確立します。
ランディングターゲット接続にストレージエリアを設定します。
[作成] をクリックしてプロジェクトを作成します。

プロジェクトでデータをオンボードするか、ランディングタスクを作成すると、ランディングタスクではなくストリーミングランディングタスクが作成されます。ストリーミングランディングタスクは、ストリーミングソースからクラウドストレージへデータをランディングするという点を除き、通常のランディングタスクと同様に動作します。詳細については、「データストリームへの接続」を参照してください。

すべてのファイルは Avro 形式でランディングされます。ランディングされたデータが更新されると、ストリーミング変換タスクがそのランディングデータを取り込み、外部テーブルを更新します。

タスク情報の表示

メニューバーでをクリックして、次のようなタスク情報を表示します。

所有者
スペース
データプラットフォーム
プロジェクトID
データタスク実行 ID

オペレーション

ストリーミングランディングタスクでは、次の操作ができます。

列のドロップ

列を選択し、 [削除] をクリックします。

これにより、タスクの準備と実行後に、新しくロードされたデータから列を削除する変換ルールが追加されます。変換ルールを削除することで、新しいレコードの列を復元できます。
列のハッシュ化 (例: 機密情報のマスキング)

列で [ハッシュ] を選択します。

この設定により、入力列にハッシュソルト文字列を連結した後に、入力列の SHA-256 ハッシュが生成されます。プロジェクト設定の [メタデータ] > [ハッシュ] でハッシュソルト文字列を設定します。この設定は、Qlik Open Lakehouseプロジェクトでのみ使用できます。詳細については、「メタデータ」を参照してください。

列がハッシュ化されると、データ型は String (文字列) に変更されます。特権ユーザー向けにハッシュ化されていないデータも保持する場合は、変換タスクで後からハッシュ化を実行してください。
データをフィルタリング

詳細については、「データセットのフィルタリング」を参照してください。
データセットの名前の変更

データセットのをクリックし、 [名前を変更] を選択します。

タスクを削除する

データタスクが実行中でなく、同じプロジェクト内のダウンストリームタスクへの依存関係がない場合は、データタスクを削除できます。

プロジェクトの [パイプラインプロジェクト] ビューで、タスク上のをクリックし、 [削除] を選択します。

このタスクによって作成されたアーティファクト (テーブルおよびビュー) は、保持を選択しない限り削除されます。

保持するアーティファクトは、タスクによって更新されなくなることに留意してください。

設定

タスク設定の詳細については、「ストリーミングレイクランディング設定」を参照してください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

Qlik Open Lakehouse へのストリーミング データのランディング

準備

ストリーミング ランディング タスクの作成