Qlik 오픈 레이크하우스에 스트리밍 데이터 랜딩
데이터가 Amazon S3에 랜딩되며, 스트리밍 변환 작업이 이를 Iceberg 오픈 테이블 형식으로 변환할 준비가 됩니다. Qlik에서 지원하는 모든 스트리밍 소스에서 데이터를 랜딩할 수 있습니다.
Qlik 오픈 레이크하우스에 스트리밍 데이터를 랜딩하려면 미리 구성된 Amazon S3 버킷이 필요합니다. Qlik 오픈 레이크하우스는 대용량 데이터 소스에 특별히 최적화되어 있으며, Qlik에서 지원하는 모든 스트리밍 데이터 소스와 호환됩니다. 지원되는 스트리밍 소스에 대한 자세한 내용은 데이터 스트림에 연결을 참조하십시오.
원시 데이터는 S3에 Avro 형식으로 저장되며 스트리밍 변환 작업은 데이터를 Iceberg 형식으로 변환합니다. Iceberg 사양을 사용하면 Amazon Athena, Ahana 또는 Starburst Enterprise와 같이 Trino SQL을 기본적으로 지원하는 모든 엔진에서 데이터를 쿼리할 수 있습니다. 선택적으로, 테이블을 클라우드 데이터 웨어하우스로 미러링하여 데이터를 복제하지 않고 쿼리할 수 있습니다.
Qlik 오픈 레이크하우스에 대한 랜딩 데이터는 AWS Glue Data 카탈로그 대상 연결이 있는 프로젝트에서 사용할 수 있습니다.
준비
-
수집을 실행하려면 스토리지 레이크하우스 클러스터가 필요하며 프로젝트를 생성하기 전에 구성해야 합니다.
-
설정 마법사에서 소스 및 대상 연결 설정을 구성할 수 있지만, 설정 절차를 간소화하려면 작업을 생성하기 전에 이 작업을 수행하는 것이 좋습니다.
-
클라우드 데이터 웨어하우스에 데이터를 미러링하려면, 먼저 Qlik 오픈 레이크하우스 프로젝트를 생성하여 데이터를 수집하고 Iceberg 오픈 테이블 형식을 사용하여 저장해야 합니다. 스트리밍 변환 작업 후에 데이터 미러링 작업을 추가할 수 있습니다. 자세한 내용은 클라우드 데이터웨어하우스에 데이터 미러링을 참조하십시오.
스트리밍 랜딩 작업 만들기
스트리밍 랜딩 작업을 생성하려면, 먼저 프로젝트를 생성하기 위해 다음을 수행합니다.
-
프로젝트를 만들고 사용 사례에서 데이터 파이프라인을 선택합니다.
-
데이터 플랫폼에서 Qlik 오픈 레이크하우스를 선택하고 데이터 카탈로그에 대한 연결을 설정합니다.
-
랜딩 대상 연결에 저장소 영역을 설정합니다.
-
데이터 수집 및 최적화를 수행할 스토리지 레이크하우스 클러스터를 선택합니다.
-
만들기를 클릭하여 프로젝트를 만듭니다.
프로젝트에서 데이터를 온보딩하거나 랜딩 작업을 만들 때 랜딩 작업 대신 스트리밍 랜딩 작업이 생성됩니다. 스트리밍 랜딩 작업은 스트리밍 소스에서 클라우드 저장소로 데이터를 랜딩한다는 점만 제외하면 랜딩 작업과 유사하게 작동하고 동작합니다. 자세한 내용은 데이터 스트림에 연결을 참조하십시오.
모든 파일은 Avro 형식으로 랜딩됩니다. 랜딩 데이터가 업데이트되면 스트리밍 변환 작업이 랜딩 데이터를 사용하고 외부 테이블을 업데이트합니다.
설정
작업 설정에 대한 자세한 내용은 스트리밍 레이크 랜딩 설정를 참조하십시오.