レイクハウスへのデータのランディング
Snowflake データ レイクハウスにデータをランディングできます。これには、データ ソースからデータ プラットフォームによって管理されるクラウド ファイル ストレージへのデータの転送が含まれます。
レイクハウスへのデータのランディングは、通常のデータウェアハウスへのランディングと比較して、データのランディング中にウェアハウスを使用するコストがかかりません。そのため、高い頻度でランディングすることや、必要に応じて低い頻度で消費することができます。他のプラットフォームとデータをより簡単に共有できるようになる可能性もあります。Iceberg テーブルを Snowflake Open Catalog と同期することで、Apache Spark などの他のツールとの相互運用が可能になります。
レイクハウスへのデータのランディングは、データ プラットフォームとして Snowflake を使用するプロジェクトでのみ利用できます。
準備
-
Iceberg テーブルを Snowflake Open Catalog と同期する場合は、Snowflake インスタンスでカタログ統合を設定する必要があります。タスクを作成するときに、この統合の名前が必要になります。詳細については、「CREATE CATALOG INTEGRATION (Snowflake オープン カタログ)」を参照してください。
-
タスク設定ウィザードでソースとターゲットの接続設定を構成できますが、設定手順を簡略化するために、タスクを作成する前に実行しておくことをお勧めします。
レイク ランディング タスクの作成
-
プロジェクトを作成し、 [ユース ケース] で [データ パイプライン] を選択します。
-
[データ プラットフォーム] で [Snowflake] を選択し、データ ウェアハウスへの接続を設定します。
Snowflake ターゲットの設定については、「Snowflake」を参照してください。
-
[ランディング ターゲット] で [クラウド ストレージ] を選択します。
-
[クラウド ストレージ接続] にステージング エリアを設定します。
次のタイプの接続を使用できます。
-
[Snowflake ストレージ統合] の名前を設定します。詳細については、選択したストレージ エリアの Snowflake ドキュメントを参照してください。
-
ストレージ、変換、データ マート タスクに対して、既定で作成するテーブル タイプを選択します。この設定は、後でプロジェクト設定から変更できます。プロジェクトの個々のタスクごとにテーブル タイプを設定することもできます。
-
Snowflake テーブル
-
Snowflake 管理の Iceberg テーブル
このケースでは、 [既定の外部ボリューム] に外部ボリュームの既定の名前を設定する必要があります。
情報メモIceberg テーブルは、スキーマ、データベース、またはアカウント レベルで設定されたストレージ シリアル化ポリシーを継承します。これは、Snowflake を介してテーブルを直接読み取る他の製品との相互運用性に影響を与える可能性があります。
-
-
[Create] (作成)をクリックしてプロジェクトを作成します。
プロジェクトでデータをオンボードするか、ランディング タスクを作成すると、ランディング タスクではなくレイク ランディング タスクが作成されます。レイク ランディング タスクは、データをクラウド ストレージにランディングするという点を除けば、ランディング タスクとほぼ同じように動作および機能します。詳細については、「データ ソースからのランディング データ」を参照してください。
すべてのファイルは CSV 形式でランディングされます。ランディング タスクを消費するストレージ タスクは、ランディング データが更新された後に外部テーブルが更新されるようにします。
設定
タスク設定の詳細については、「レイク ランディングの設定」を参照してください。
制限事項
-
テーブル パスは作成後に変更することはできません。これにはテーブルの名前の変更が含まれます。
-
ランディング テーブルが外部テーブルとして使用されている場合、ストレージ ライブ ビューは無効になります。
-
Snowflake Open Catalog を使用してテーブルを同期する場合、データ タスク スキーマで生成されたビューではなく、内部スキーマ テーブルが同期されます。この制限は、将来解除される可能性があります。内部スキーマ テーブルの詳細については、「テーブル」を参照してください。