Qlik Open Lakehouse プロジェクトを作成
Qlik Open Lakehouse パイプライン プロジェクトを作成し、あらゆるソースからデータを取り込みます。データを Iceberg オープン テーブル形式で保存してください。
前提条件
Qlik Open Lakehouse プロジェクトを作成するには、以下のものが必要です。
-
Qlik がお客様に代わってコンピュート リソースのプロビジョニングと管理を行うためのネットワーク統合。
-
Iceberg プロジェクト内でデータ ストレージ タスクを実行するように構成されたレイクハウス クラスター。
-
プロジェクションのデータ ターゲットとして使用するデータ カタログへの接続、または新しい接続を作成するために必要な情報。
対応タスク
Qlik Open Lakehouse プロジェクトでは、次のタスクがサポートされています。
CDC および SaaS アプリケーション ソース
-
レイク ランディング データ タスク
大量のデータ ストリームを含む、Qlik がサポートするあらゆるデータ ソースから、S3 に CSV 形式でデータをランディングします。
詳細については、「Qlik Open Lakehouse へのランディング データ」を参照してください。
-
ストレージ データ タスク
ストレージ データ タスクは、レイク ランディング タスクによってクラウドにランディングされたデータを消費します。このタスクはデータを Iceberg テーブルに書き込み、効率的なストレージとクエリを実現します。
-
詳細については、「データセットの保管」を参照してください。
-
ミラー データ タスク
ストレージ タスクからクラウド データ ウェアハウスに Iceberg テーブルをミラーリングします。ユーザーは、クラウド データ ウェアハウスにデータを移行することなく、外部テーブル経由でデータを照会することができます。
ストリーミング ソース
-
ストリーミング ランディング データ タスク
Qlik がサポートするあらゆるストリーミング ソースから、S3 に Avro 形式のデータをランディングします。
詳細については、「Qlik Open Lakehouse へのストリーミング データのランディング」を参照してください。
-
ストリーミング変換データ タスク
ストリーミング変換データ タスクは、ストリーミング ランディング タスクによってクラウドにランディングされたイベントを消費します。このタスクは、効率的な保存およびクエリ実行のために Iceberg テーブルへデータを書き込み、データ変換もサポートします。
詳細については、「ストリーミング データセットの保存」を参照してください。
-
ミラー データ タスク
ストリーミング ストレージ タスクからクラウド データ ウェアハウスに Iceberg テーブルをミラーリングします。ユーザーは、クラウド データ ウェアハウスにデータを移行することなく、外部テーブル経由でデータを照会することができます。
Qlik Open Lakehouse プロジェクトの作成例
次の例では、Qlik Open Lakehouse パイプライン プロジェクトを作成し、CDC ソースからデータをオンボードし、Iceberg フォーマットのテーブルに格納します。この例では、より多くのデータ ソースをオンボードすることで拡張できるシンプルなパイプラインを作成します。ミラー データ タスクを追加して、データを複製せずにデータウェアハウスのテーブルをミラーリングしたり、クラウド データ ウェアハウスでの変換が必要なプロジェクトのソースとしてこのプロジェクトを使用したりすることができます。
Qlik Open Lakehouse プロジェクトを作成するには、以下を行います。
-
[データ統合] ホームで [パイプラインの作成] をクリックし、パイプラインを構成します。
-
名前: プロジェクトの名前を入力します。
-
スペース: プロジェクトが属するスペースを選択します。
-
説明: オプションでプロジェクトの説明を入力します。
-
[ユース ケース] で [データ パイプライン] を選択します。
-
データ プラットフォームの設定:
-
データ プラットフォーム: リストから Qlik Open Lakehouse を選択します。
-
データ カタログ接続: リストで、既存の接続を選択するか、[新規作成] をクリックして新しいデータ カタログ接続を追加します。
-
ランディング ターゲット接続: データをランディングする S3 バケットを選択するか、[新規作成] をクリックして新しいバケットの場所を追加します。
-
ストレージ コンピュート クラスター: ストレージ タスクを実行するレイクハウス クラスターを選択します。
-
プロジェクトを作成します。
-
オンボーディング データ ウィザードの手順に従ってください。詳細については、CDC およびストリーミング ソースの手順が説明されている「データのオンボーディング」 を参照してください。