레이크하우스에 랜딩 데이터
Snowflake 데이터 레이크하우스에 데이터를 저장할 수 있습니다. 여기에는 데이터 소스의 데이터를 데이터 플랫폼에서 관리하는 클라우드 파일 저장소로 전송하는 작업이 포함됩니다.
데이터를 레이크하우스에 랜딩하는 데는 일반적으로 데이터웨어하우스에 랜딩하는 것과 달리 데이터를 랜딩하는 동안 비용이 많이 드는 웨어하우스 이용이 필요하지 않습니다. 이를 통해 높은 빈도로 랜딩하고, 필요에 따라 낮은 빈도로 소비할 수 있습니다. 다른 플랫폼과 더 쉽게 데이터를 공유할 수도 있습니다. Apache Spark와 같은 다른 도구와의 상호 운용성을 활성화하기 위해 Iceberg 테이블을 Snowflake Open Catalog와 동기화할 수 있습니다.
Snowflake를 데이터 플랫폼으로 사용하는 프로젝트에서만 레이크하우스에 데이터를 랜딩할 수 있습니다.
준비
-
Iceberg 테이블을 Snowflake Open Catalog와 동기화하려면 Snowflake 인스턴스에서 카탈로그 통합을 설정해야 합니다. 작업을 만들 때 이 통합의 이름이 필요합니다. 자세한 내용은 CREATE CATALOG INTEGRATION(Snowflake Open Catalog)을 참조하십시오.
-
작업 설정 마법사에서 소스 및 대상 연결 설정을 구성할 수 있지만, 설정 절차를 간소화하기 위해 작업을 만들기 전에 이 작업을 수행하는 것이 좋습니다.
레이크 랜딩 작업 만들기
-
프로젝트를 만들고 사용 사례에서 데이터 파이프라인을 선택합니다.
-
데이터 플랫폼에서 Snowflake를 선택하고 데이터 웨어하우스에 대한 연결을 설정합니다.
Snowflake 대상 설정에 대한 자세한 내용은 Snowflake를 참조하십시오.
-
랜딩 대상에서 클라우드 저장소를 선택합니다.
-
클라우드 저장소 연결에서 스테이징 영역을 설정합니다.
다음 유형의 연결을 사용할 수 있습니다.
-
Snowflake 저장소 통합의 이름을 설정합니다. 자세한 내용은 선택한 저장소 영역에 대한 Snowflake 설명서를 참조하십시오.
-
저장소, 변환 및 데이터 마트 작업에 대해 기본적으로 만들 테이블 유형을 선택합니다. 이 설정은 나중에 프로젝트 설정에서 변경할 수 있습니다. 프로젝트의 각 작업에 대해 테이블 유형을 설정할 수도 있습니다.
-
Snowflake 테이블
-
Snowflake 관리 Iceberg 테이블
이 경우, 기본 외부 볼륨에서 외부 볼륨의 기본 이름을 설정해야 합니다.
정보 메모Iceberg 테이블은 스키마, 데이터베이스 또는 계정 수준에서 설정된 저장소 직렬화 정책을 상속합니다. 이는 Snowflake를 통해 직접 테이블을 읽는 다른 제품과의 상호 운용성에 영향을 미칠 수 있습니다.
-
-
만들기를 클릭하여 프로젝트를 만듭니다.
프로젝트에서 데이터를 온보딩하거나 랜딩 작업을 만들 때 랜딩 작업 대신 레이크 랜딩 작업이 만들어집니다. 레이크 랜딩 작업은 데이터를 클라우드 저장소에 랜딩시킨다는 점을 제외하면 대부분 랜딩 작업과 유사하게 작동하고 동작합니다. 자세한 내용은 데이터 소스의 랜딩 데이터을 참조하십시오.
모든 파일은 CSV 형식으로 저장됩니다. 랜딩 작업을 사용하는 저장소 작업은 랜딩 데이터가 업데이트된 후 외부 테이블이 업데이트되도록 합니다.
설정
작업 설정에 대한 자세한 내용은 레이크 랜딩 설정을 참조하십시오.
제한 사항
-
테이블 경로를 만든 후에는 변경할 수 없습니다. 여기에는 테이블 이름 변경도 포함됩니다.
-
랜딩 테이블이 외부 테이블로 사용되는 경우 저장소 라이브 뷰가 비활성화됩니다.
-
Snowflake Open Catalog와 테이블을 동기화할 경우, 내부 스키마 테이블이 동기화되고, 데이터 작업 스키마에서 생성된 뷰는 동기화되지 않습니다. 이런 제한은 나중에 해제될 수도 있습니다. 내부 스키마 테이블에 대한 자세한 내용은 테이블을 참조하십시오.