クラウドデータウェアハウスへのデータのミラーリング

ミラーリングタスクを使用すると、クラウドデータウェアハウスから Qlik Open Lakehouse に保存されているデータを照会できます。データは複製されることなくクラウドデータウェアハウスに反映されます。ミラーリングされたテーブルは、ストレージとエンジニアリングのコストを最小限に抑え、唯一の信頼できる情報源を維持します。

Qlik Open Lakehouse にデータをオンボードした後、ミラーテーブルを使用してデータをクラウドデータウェアハウスにミラーリングすることができます。Iceberg のデータは、Amazon Athena のような Iceberg をネイティブにサポートするクエリエンジンを使って照会できます。しかし、ミラーテーブルは、オープンな Iceberg レイクハウスアーキテクチャを実装したいと思っており、クエリエンジンとしてクラウドデータウェアハウスを使用し続けたい場合に最適です。ミラーデータタスクは、Iceberg テーブルをデータウェアハウスの外部テーブルおよびビューとして宣言する中、アクセス可能にするプロセスを自動化します。データウェアハウスは Iceberg テーブルを外部ビューとして参照しています。これは Iceberg テーブルを管理せず、読み込みのみを行うためです。外部テーブルとビューを使用すると、データやテーブルの管理をデータウェアハウスに移行することなく、Iceberg データをデータウェアハウスで照会できます。

ミラータスクは、外部テーブルとビューを作成するために必要な DDL ステートメントを実行します。テーブル (スキーマ) はデータウェアハウスでは変更履歴テーブルと一緒に表示されますが、テーブル定義を見ると、外部テーブルの上に作成されたビューとして表示されます。データコンシューマーは、データがデータウェアハウス環境に保存されているかのようにビューにクエリを実行できます。ミラーリングされたデータは、Qlik によるデータの管理と最適化が継続されるため、高いパフォーマンスを発揮します。

複数のデータウェアハウスにミラーリング

単一のデータセットを複数のクラウドデータウェアハウスにミラーリングできます。以下の画像は、Qlik Open Lakehouse パイプラインプロジェクトを Amazon Redshift と Snowflake にデータをミラーリングするためにどのように使用できるかを示しています。

パイプラインは、接続 MySQL QCDI-BETA を使用して MySQL データベースからデータを取り込みます。
Lake ランディングタスク、EnergyGen_Lake_landing は、生データを Amazon S3 バケットに取り込みます。
次に、ストレージタスクである EnergyGen_Storage は、データをS3の場所にコピーして、Apache Iceberg 形式でデータを保存します。
ミラーデータタスクである Redshift Mirror は、Redshift からデータをクエリできるように必要なビューを作成し、データを自動的に更新します。
変換タスクである Redshift_Energygen_Silver は、Redshift でミラーデータを変換および消費するために使用されます。
2 番目のミラーデータタスクである Snowflake Mirror が追加され、Snowflake からデータをクエリできるようにするために必要なビューが作成されます。ミラータスクは、ダウンストリームの変換を可能にする Qlik 管理の更新メカニズムを使用します。
変換タスク、Snowflake_Energygen_Data_Products は、Snowflake 内のデータを変換および使用するために使用されます。

リフレッシュメカニズム

利用可能な更新メカニズムは、クラウドデータウェアハウスプロバイダーによって異なります。詳細は以下のとおりです。

Redshift

Redshift にミラーリングされたデータは自動的に更新され、タスクをスケジュールしたり実行したりする必要はありません。Redshift では、すべてのテーブル名とビュー名が小文字に変換されます。Qlik Open Lakehouse は、大文字と小文字を区別するオブジェクト名 (データベース、スキーマ、テーブル、または列) をサポートしていないためです。

Snowflake

Snowflake は、Iceberg 内の利用可能なデータの最新のスナップショットを反映したメタデータをポイントします。メタデータを更新するには 2 つの方法があります。

Qlik 管理: このオプションにはアクティブな Snowflake ウェアハウスが必要で、モニタリングとデータプレビューが含まれます。このオプションは、ダウンストリーム変換を作成し、タスクを監視してスケジュールする場合に選択します。Qlik はメタデータのリフレッシュ処理を所有しているため、たとえば30分ごとに実行するように手動で設定できます。このオプションは、すべてのテーブルのメタデータが同時に更新されるため、複数テーブルの変換に特に関係します。Snowflake 管理リフレッシュが提供するリアルタイムの利点を失うかもしれませんが、テーブル間の一貫性は維持されます。複数テーブルの変換では、必要に応じて何度でもリフレッシュをトリガーできます。Qlik はスケジュールされたミラータスクに従うダウンストリーム変換タスクにイベントベースのトリガーを設定することをお勧めします。
Snowflake 管理: コンピュートウェアハウスを必要とせず、アクティブにすることなく、Snowpipe インフラストラクチャを活用するサーバーレスオペレーション。このオプションは、ダウンストリーム変換を必要としない場合にお勧めします。リフレッシュ間隔は、Snowflake カタログ統合を作成するときに設定します。自動リフレッシュのステータスを監視するには、Snowflake の SYSTEM$AUTO_REFRESH_STATUS を照会します。Qlik はプロセスの所有権を失い、この種のタスクを監視できなくなります。

プロジェクト内の各ミラータスクは、独自のリフレッシュメカニズムで構成することができます。2 つのミラータスクを作成した場合、1 つは Qlik 管理のリフレッシュを使用し、もう 1 つは管理のリフレッシュを使用することができます。

ミラー出力のクエリを試行したり、変換で使用したりして内部サーバーエラー (以下の例を参照) が表示される場合、Iceberg メタデータが外部カタログと同期していません。この問題を解決するには、ミラータスクを実行して Iceberg メタデータを更新します。

The parquet file 'tg_open_lakehouse/bronze/sales/tables/tg_sales_ingestion_bronze__internal.order_details__internal/data/hdr__scd_partition=asset_state/2025_09_12_00_37_asset_state_apply-4bcbb2eb-4ad3-4d88-bea6-ea611576624e.parquet' for table 'OPENLAKEHOUSE."snowflake_mirror__internal"."ext__order_details"' was inaccessible.

前提条件

サポートされているすべてのデータウェアハウスターゲットには、次の要件が適用されます。

ミラーデータタスクは、Qlik Open Lakehouse プロジェクトでストレージタスクが作成された後にのみ追加できます。
ストレージタスクには複数のミラーデータタスクを含めることができ、それぞれが異なるデータウェアハウスをターゲットとします。
ミラーデータタスクは 1 つのストレージタスクにのみ関連付けることができます。
変換を実行するには、データウェアハウスプロジェクトを作成し、ミラーデータタスクをソースとして使用します。プロジェクトとミラータスクでは、同じデータウェアハウスプラットフォーム (Redshift など) を使用する必要があります。

データをミラーリングするには、ターゲットデータウェアハウスの設定を構成します。

Redshift

データをミラーリングするデータウェアハウスデータベースへの接続。オプションで、ミラータスクの作成中に新しい接続を作成することもできます。詳細については、「Amazon Redshift」を参照してください。

Glue データカタログの読み取り権限を持つ Redshift によって引き受けられた IAM ロール。次のスクリプトは、カタログにアクセスするために必要な権限を提供します。<ICEBERG_BUCKET_NAME> をご自身のバケット名に置き換えてください:

{
	 "Version": "2012-10-17",
        "Statement": [
             {
            	 "Effect": "Allow",
                "Action": [
                    "glue:GetDatabase",
                    "glue:GetDatabases",
                    "glue:GetTable",
                    "glue:GetTables",
                    "glue:GetPartition",
                    "glue:GetPartitions"
                ],
                "Resource": "*"
             },
             {
                "Effect": "Allow",
                "Action": [
                    "s3:GetObject",
                    "s3:ListBucket"
                ],
                "Resource": [
                    "arn:aws:s3:::<ICEBERG_BUCKET_NAME>",
                    "arn:aws:s3:::<ICEBERG_BUCKET_NAME>/*"
                ]
            }
}

このロールには以下の信頼関係が必要です:

{
	"Version": "2012-10-17",
        "Statement": [
             {
                 "Effect": "Allow",
                 "Principal": {
                       "Service": "redshift-serverless.amazonaws.com"
                  },
                 "Action": "sts:AssumeRole"
             },
             {
                 "Effect": "Allow",
                 "Principal": {
                    "Service": "redshift.amazonaws.com"
                    },
                    "Action": "sts:AssumeRole"
             }
      ]
}

詳細については、「Amazon Redshift Spectrum の IAM ポリシー」を参照してください。

ストレージタスクデータベースを指す Redshift の外部スキーマ。 CREATE EXTERNAL SCHEMA コマンドを実行し、ソースの Iceberg ストレージタスクの内部データベースを指定して、外部 Redshift スキーマを作成する必要があります。外部コンシューマーは、ミラータスクスキーマ消費ビューから消費する必要があります。外部スキーマを作成するには、次の構文を使用し、DATABASEプロパティがストレージタスクによって作成されたデータベースであることを確認します。

CREATE EXTERNAL SCHEMA <local_schema_name>
FROM DATA CATALOG
DATABASE '<database_name>'
IAM_ROLE 'arn:aws:iam::<AWS account-id>:role/<role-name>'
REGION '<aws-region>'

Snowflake

データをミラーリングするデータウェアハウスデータベースへの接続。オプションで、ミラータスクの作成中に新しい接続を作成することもできます。詳細については、「Snowflake」を参照してください。
Snowflake 外部ボリューム。これにより、Snowflake は S3 のロケーションへのアクセスを制限されます。ボリュームを設定するには、「Amazon S3 用の外部ボリュームの設定」を参照してください。
AWS Glue データカタログとの統合。これにより、Snowflake はオブジェクトストア内の Iceberg オープンテーブル形式で保持されているデータに接続できるようになります。カタログ統合を構成するには、「AWS Glue のカタログ統合を構成する」を参照してください。

ミラーデータタスクの作成

データをデータウェアハウスにミラーリングするには、以下を行います。

ミラーリングしたいデータのストレージタスクを含むプロジェクションを開きます。
ストレージタスクの [ その他のアクション] をクリックします。[ミラーデータ] を選択し、設定します。

名前: ミラータスクの名前を入力します。
説明: オプションで、タスクの目的を記述します。
データウェアハウス: ターゲットデータウェアハウスを選択します。
接続:
- 既存の接続を使用するには、[選択] をクリックして、[安全なソース接続] ダイアログを開きます。接続場所の [スペース] を選択し、接続を選択します。接続プロパティを変更するには、 [編集] をクリックします。
- 新しい接続を作成するには、 [接続の作成] をクリックして [接続の作成] ダイアログを開き、指示に従ってください。
データベース: データをミラーリングするデータベース名を入力します。
Redshift にミラーリングするには:
- 外部スキーマ: ビューが作成されるスキーマの名前を入力します。
  
  情報メモRedshift では、すべてのテーブル名とビュー名は小文字に変換されます。
Snowflake にミラーリングするには:
- Snowflake 外部ボリューム: Snowflake で作成した外部ボリュームの名前を入力します。
- Snowflake カタログ統合: Snowflake で作成したカタログ統合の名前を入力します。
- Snowflake でデータをリフレッシュする方法を選択します。
  - Qlik 管理: ダウンストリーム変換を作成する場合は、このオプションを選択します。これにはアクティブな Snowflake ウェアハウスが必要で、Qlik によって監視されます。
  - Snowflake 管理: ダウンストリームの変換を行わない場合は、このオプションを選択します。Snowflake ウェアハウスは必要ないため、Qlik によって監視されません。これは Snowflake で管理・監視されています。

[OK] をクリックしてミラータスクを作成し、パイプラインのストレージタスクに追加します。
ミラータスクの [ その他のアクション] をクリックし、[開く] を選択します。[デザイン] ビューが表示されていることを確認します。
利用可能なデータセットのサブセットを選択するには、[ソースデータの選択] をクリックし、不要なデータセットを削除します。
[準備] をクリックして、外部オブジェクトを作成し、データのミラーリングを行います。

変換の実行

データの変換が必要な場合は、Redshift または Snowflake プロジェクトを作成し、Qlik Open Lakehouse プロジェクト内のミラーデータタスクをソースとして使用できます。ミラータスクソースは、プロジェクトと同じクラウドデータウェアハウスプラットフォームである必要があります。たとえば、変換を実行するために Redshift プロジェクトを作成する場合は、ソースとして Redshift ミラーデータタスクを使用する必要があります。

既存のプロジェクトのデータを使用して変換タスクを作成するには、「プロジェクト横断パイプラインの構築」を参照してください。

ミラーデータタスクの削除

ミラータスクを削除すると、ミラータスクによって作成された内部スキーマとビューが削除されます。Redshift 内の外部スキーマとテーブルは削除されません。たとえば、ユーザーがストレージ内のデータセットを削除したり、ストレージタスク全体を削除したりして AWS Glue からテーブルが削除されると、その変更は Redshift 外部スキーマに自動的に反映されます。テーブルは削除され、個別に削除する必要はありません。ベストプラクティスとして、使用されなくなった外部スキーマは完全に削除してください。

ストレージタスクは、ミラータスクからの読み取り中に削除することはできません。

ミラーデータタスクを削除するには、以下を行います。

削除したいミラーデータタスクで、タスクの [ その他のアクション] メニューをクリックし、[削除] を選択します。
確認ダイアログで、[削除] をクリックします。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

クラウド データ ウェアハウスへのデータのミラーリング

複数のデータウェアハウスにミラーリング

リフレッシュ メカニズム

Redshift

Snowflake

前提条件

Redshift

Snowflake

ミラー データ タスクの作成

変換の実行

ミラー データ タスクの削除

このページは役に立ちましたか?

クラウドデータウェアハウスへのデータのミラーリング

リフレッシュメカニズム

ミラーデータタスクの作成

ミラーデータタスクの削除