Qlik Open Lakehouse プロジェクトを作成

Qlik Open Lakehouse パイプラインプロジェクトを作成し、あらゆるソースからデータを取り込みます。データを Iceberg オープンテーブル形式で保存してください。

前提条件

Qlik Open Lakehouse プロジェクトを作成するには、以下のものが必要です。

Qlik がお客様に代わってコンピュートリソースのプロビジョニングと管理を行うためのネットワーク統合。
Iceberg プロジェクト内でデータストレージタスクを実行するように構成されたレイクハウスクラスター。
プロジェクションのデータターゲットとして使用するデータカタログへの接続、または新しい接続を作成するために必要な情報。

対応タスク

Qlik Open Lakehouse プロジェクトでは、次のタスクがサポートされています。

CDC および SaaS アプリケーションソース

レイクランディングデータタスク

大量のデータストリームを含む、Qlik がサポートするあらゆるデータソースから、S3 に CSV 形式でデータをランディングします。

詳細については、「Qlik Open Lakehouse へのランディングデータ」を参照してください。
ストレージデータタスク

ストレージデータタスクは、レイクランディングタスクによってクラウドにランディングされたデータを消費します。このタスクはデータを Iceberg テーブルに書き込み、効率的なストレージとクエリを実現します。
詳細については、「データセットの保管」を参照してください。
ミラーデータタスク

ストレージタスクからクラウドデータウェアハウスに Iceberg テーブルをミラーリングします。ユーザーは、クラウドデータウェアハウスにデータを移行することなく、外部テーブル経由でデータを照会することができます。

ストリーミングソース

ストリーミングランディングデータタスク

Qlik がサポートするあらゆるストリーミングソースから、S3 に Avro 形式のデータをランディングします。

詳細については、「Qlik Open Lakehouse へのストリーミングデータのランディング」を参照してください。
ストリーミング変換データタスク

ストリーミング変換データタスクは、ストリーミングランディングタスクによってクラウドにランディングされたイベントを消費します。このタスクは、効率的な保存およびクエリ実行のために Iceberg テーブルへデータを書き込み、データ変換もサポートします。

詳細については、「ストリーミングデータセットの保存」を参照してください。
ミラーデータタスク

ストリーミングストレージタスクからクラウドデータウェアハウスに Iceberg テーブルをミラーリングします。ユーザーは、クラウドデータウェアハウスにデータを移行することなく、外部テーブル経由でデータを照会することができます。

Qlik Open Lakehouse プロジェクトの作成例

次の例では、Qlik Open Lakehouse パイプラインプロジェクトを作成し、CDC ソースからデータをオンボードし、Iceberg フォーマットのテーブルに格納します。この例では、より多くのデータソースをオンボードすることで拡張できるシンプルなパイプラインを作成します。ミラーデータタスクを追加して、データを複製せずにデータウェアハウスのテーブルをミラーリングしたり、クラウドデータウェアハウスでの変換が必要なプロジェクトのソースとしてこのプロジェクトを使用したりすることができます。

Qlik Open Lakehouse プロジェクトを作成するには、以下を行います。

[データ統合] ホームで [パイプラインの作成] をクリックし、パイプラインを構成します。

名前: プロジェクトの名前を入力します。
スペース: プロジェクトが属するスペースを選択します。
説明: オプションでプロジェクトの説明を入力します。

[ユースケース] で [データパイプライン] を選択します。
データプラットフォームの設定:

データプラットフォーム: リストから Qlik Open Lakehouse を選択します。
データカタログ接続: リストで、既存の接続を選択するか、[新規作成] をクリックして新しいデータカタログ接続を追加します。
ランディングターゲット接続: データをランディングする S3 バケットを選択するか、[新規作成] をクリックして新しいバケットの場所を追加します。
ストレージコンピュートクラスター: ストレージタスクを実行するレイクハウスクラスターを選択します。

プロジェクトを作成します。
オンボーディングデータウィザードの手順に従ってください。詳細については、CDC およびストリーミングソースの手順が説明されている「データのオンボーディング」を参照してください。

制限事項

タスクを再作成する場合、すべてのダウンストリームタスクも再作成する必要があります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください