メイン コンテンツをスキップする 補完的コンテンツへスキップ

Qlik Open Lakehouse へのストリーミング データのランディング

ストリーミング ソースからのデータを Amazon S3 にランディングさせ、ストリーミング変換タスクによって Iceberg オープン テーブル形式に変換するための準備を整えます。

Qlik Open Lakehouse にストリーミング データをランディングするには、事前に設定された Amazon S3 バケットが必要です。Qlik Open Lakehouse は、特に大容量のデータ ソース用に最適化されており、Qlik がサポートするすべてのストリーミング データ ソースと互換性があります。サポートされているストリーミング ソースの詳細については、「データ ストリームへの接続」を参照してください。

生データは S3 に Avro 形式でランディングされ、ストリーミング変換タスクによって Iceberg 形式に変換されます。Iceberg の仕様により、Amazon Athena、Ahana、Starburst Enterprise など、Trino SQL をネイティブにサポートするあらゆるエンジンからデータを照会できます。必要に応じて、テーブルをクラウド データ ウェアハウスにミラーリングし、データを複製せずにクエリを実行することもできます。

準備

  • Qlik Open Lakehouse が設定されていることを確認してください。これには、ネットワーク統合、レイクハウス クラスター、ソースとターゲットの接続の作成が含まれます。詳細については、「Qlik Open Lakehouse の設定」を参照してください。

  • クラウド データ ウェアハウスにデータをミラーリングするには、まず Qlik Open Lakehouse プロジェクトを作成してデータを取り込み、Iceberg オープン テーブル形式を使用してデータを保存する必要があります。ストリーミング変換タスクの後にミラー データ タスクを追加できます。詳細については、「クラウド データ ウェアハウスへのデータのミラーリング」を参照してください。

ストリーミング ランディング タスクの作成

ストリーミング ランディング タスクを作成するには、まず次の手順に従ってプロジェクトを作成します。

  1. プロジェクトを作成し、 [ユース ケース] で [データ パイプライン] を選択します。

  2. データ プラットフォームQlik Open Lakehouse を選択し、データ カタログへの接続を確立します。

  3. ランディング ターゲット接続にストレージ エリアを設定します。

  4. [作成] をクリックしてプロジェクトを作成します。

プロジェクトでデータをオンボードするか、ランディング タスクを作成すると、ランディング タスクではなくストリーミング ランディング タスクが作成されます。ストリーミング ランディング タスクは、ストリーミング ソースからクラウド ストレージへデータをランディングするという点を除き、通常のランディング タスクと同様に動作します。詳細については、「データ ストリームへの接続」を参照してください。

すべてのファイルは Avro 形式でランディングされます。ランディングされたデータが更新されると、ストリーミング変換タスクがそのランディングデータを取り込み、外部テーブルを更新します。

タスク情報の表示

メニュー バーで 情報 をクリックして、次のようなタスク情報を表示します。

  • 所有者

  • スペース

  • データ プラットフォーム

  • プロジェクトID

  • データ タスク実行 ID

オペレーション

ストリーミング ランディング タスクでは、次の操作ができます。

  • 列のドロップ

    列を選択し、 [削除] をクリックします。

    これにより、タスクの準備と実行後に、新しくロードされたデータから列を削除する変換ルールが追加されます。変換ルールを削除することで、新しいレコードの列を復元できます。

  • 列のハッシュ化 (例: 機密情報のマスキング)

    列で [ハッシュ] を選択します。

    これにより、入力列とハッシュソルト文字列を連結した後に、入力列の SHA-256 ハッシュが生成されます。[ハッシュ ソルト文字列] は、Qlik Open Lakehouse プロジェクトで利用できるプロジェクト設定です。

    列がハッシュ化されると、データ型は String (文字列) に変更されます。特権ユーザー向けにハッシュ化されていないデータも保持する場合は、変換タスクで後からハッシュ化を実行してください。

  • データをフィルタリング

    詳細については、「データセットのフィルタリング」を参照してください。

  • データセットの名前の変更

    データセットの 詳細 をクリックし、 [名前を変更] を選択します。

設定

タスク設定の詳細については、「ストリーミング レイク ランディング設定」を参照してください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。