ステップ 4: Qlik Open Lakehouse プロジェクトを作成
Qlik Open Lakehouse パイプライン プロジェクトを作成し、あらゆるソースからデータを取り込みます。データを Iceberg オープン テーブル形式で保存してください。
前提条件
Qlik Open Lakehouse プロジェクトを作成するには、以下のものが必要です。
-
Qlik がお客様に代わってコンピュート リソースのプロビジョニングと管理を行うためのネットワーク統合。
-
Iceberg プロジェクト内でデータ ストレージ タスクを実行するように構成されたレイクハウス クラスター。
-
プロジェクションのデータ ターゲットとして使用するデータ カタログへの接続、または新しい接続を作成するために必要な情報。
対応タスク
Qlik Open Lakehouse プロジェクトでは、以下のタスクがサポートされています。
-
レイク ランディング データ タスク
大量のデータ ストリームを含む、Qlik がサポートするあらゆるデータ ソースから、S3 に CSV 形式でデータをランディングします。
-
ストレージ データ タスク
ストレージ データ タスクは、レイク ランディング タスクによってクラウドにランディングされたデータを消費します。このタスクはデータを Iceberg テーブルに書き込み、効率的なストレージとクエリを実現します。
-
ミラー データ タスク
あなたの Qlik Open Lakehouse から Snowflakeに Iceberg テーブルをミラーリング。ユーザーは、Snowflake にデータを移行することなく、外部テーブル経由でデータを照会することができます。
Qlik Open Lakehouse プロジェクトの作成例
次の例では、Qlik Open Lakehouse パイプライン プロジェクトを作成し、データをオンボードし、Iceberg フォーマットのテーブルに格納します。この例では、より多くのデータ ソースをオンボードすることで拡張できるシンプルなパイプラインを作成します。ミラー データ タスクを追加して、データを複製せずに Snowflake のテーブルをミラーリングしたり、Snowflake での変換が必要なプロジェクトのソースとしてこのプロジェクトを使用したりすることができます。
Qlik Open Lakehouse プロジェクトを作成するには、以下を行います。
-
[データ統合] ホームで [パイプラインの作成] をクリックし、パイプラインを構成します。
-
名前: プロジェクトの名前を入力します。
-
スペース: プロジェクトが属するスペースを選択します。
-
説明: オプションでプロジェクトの説明を入力します。
-
[ユース ケース] で [データ パイプライン] を選択します。
-
データ プラットフォームの設定:
-
データ プラットフォーム: リストから Qlik Open Lakehouse を選択します。
-
データ カタログ接続: リストで、既存の接続を選択するか、[新規作成] をクリックして新しいデータ カタログ接続を追加します。
-
ランディング ターゲット接続: データをランディングする S3 バケットを選択するか、[新規作成] をクリックして新しいバケットの場所を追加します。
-
ストレージ コンピュート クラスター: ストレージ タスクを実行するレイクハウス クラスターを選択します。
-
プロジェクトを作成します。
-
オンボーディング データ ウィザードの手順に従ってください。詳細については、「データのオンボーディング」を参照してください。