스트리밍 데이터를 Qlik 오픈 레이크하우스에 랜딩하기 | Qlik Cloud 도움말
기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

스트리밍 데이터를 Qlik 오픈 레이크하우스에 랜딩하기

스트리밍 소스의 데이터를 Amazon S3에 랜딩하여 스트리밍 변환 작업이 이를 Iceberg 오픈 테이블 형식으로 변환할 수 있도록 준비할 수 있습니다.

Qlik 오픈 레이크하우스에 스트리밍 데이터를 랜딩하려면 사전 구성된 Amazon S3 버킷이 필요합니다. Qlik 오픈 레이크하우스은(는) 대용량 데이터 소스에 특별히 최적화되어 있으며, Qlik에서 지원하는 모든 스트리밍 데이터 소스와 호환됩니다. 지원되는 스트리밍 소스에 대한 자세한 내용은 데이터 스트림에 연결을(를) 참조하십시오.

원시 데이터는 S3에 Avro 형식으로 랜딩되며 스트리밍 변환 작업은 데이터를 Iceberg 형식으로 변환합니다. Iceberg 사양을 사용하면 Amazon Athena, Ahana 또는 Starburst Enterprise와 같이 Trino SQL을 기본적으로 지원하는 모든 엔진에서 데이터를 쿼리할 수 있습니다. 선택적으로 테이블을 클라우드 데이터 웨어하우스에 미러링하여 데이터를 복제하지 않고도 쿼리할 수 있습니다.

준비

  • Qlik 오픈 레이크하우스 설정을 완료했는지 확인하십시오. 여기에는 네트워크 통합, 레이크하우스 클러스터, 소스 및 대상 연결 생성이 포함됩니다. 자세한 내용은 Qlik 오픈 레이크하우스 설정을(를) 참조하십시오.

  • 클라우드 데이터 웨어하우스에 데이터를 미러링하려면 먼저 Qlik 오픈 레이크하우스 프로젝트를 생성하여 데이터를 수집하고 Iceberg 오픈 테이블 형식을 사용하여 저장해야 합니다. 스트리밍 변환 작업 후에 데이터 미러링 작업을 추가할 수 있습니다. 자세한 내용은 클라우드 데이터 웨어하우스로 데이터 미러링을(를) 참조하십시오.

스트리밍 랜딩 작업 생성

스트리밍 랜딩 작업을 생성하려면 다음을 수행하여 먼저 프로젝트를 생성하십시오.

  1. 프로젝트를 생성하고 사용 사례에서 데이터 파이프라인을 선택합니다.

  2. 데이터 플랫폼에서 Qlik 오픈 레이크하우스을(를) 선택하고 데이터 카탈로그에 대한 연결을 설정합니다.

  3. 랜딩 대상 연결에서 저장 영역을 설정합니다.

  4. 생성을 클릭하여 프로젝트를 생성합니다.

프로젝트에서 데이터를 온보딩하거나 랜딩 작업을 생성할 때 랜딩 작업 대신 스트리밍 랜딩 작업이 생성됩니다. 스트리밍 랜딩 작업은 스트리밍 소스에서 클라우드 스토리지로 데이터를 랜딩한다는 점을 제외하면 랜딩 작업과 유사하게 작동하고 동작합니다. 자세한 내용은 데이터 스트림에 연결을(를) 참조하십시오.

모든 파일은 Avro 형식으로 랜딩됩니다. 랜딩 데이터가 업데이트된 후 스트리밍 변환 작업은 랜딩 데이터를 소비하고 외부 테이블을 업데이트합니다.

작업 정보 보기

메뉴 막대에서 정보를 클릭하여 작업 정보를 볼 수 있습니다(예:).

  • 소유자

  • 공간

  • 데이터 플랫폼

  • 프로젝트 ID

  • 데이터 작업 런타임 ID

작업

스트리밍 랜딩 작업에서 다음 작업을 사용할 수 있습니다.

  • 열 삭제

    열을 선택하고 제거를 클릭합니다.

    이렇게 하면 작업이 준비되고 실행된 후 새로 로드된 데이터에서 열을 제거하는 변환 규칙이 추가됩니다. 변환 규칙을 삭제하여 새 레코드에 대한 열을 복원할 수 있습니다.

  • 예를 들어 민감한 정보를 마스킹하기 위해 열 해싱.

    열에서 해시를 선택합니다.

    이렇게 하면 해시 솔트 문자열과 연결한 후 입력 열의 SHA-256 해시가 생성됩니다. 프로젝트 설정의 메타데이터 > 해시에서 해시 솔트 문자열을 설정합니다. 이 설정은 Qlik 오픈 레이크하우스 프로젝트에서만 사용할 수 있습니다. 자세한 내용은 메타데이터을(를) 참조하십시오.

    열이 해시되면 데이터 유형이 문자열로 변경됩니다. 권한이 있는 사용자를 위해 해시되지 않은 데이터도 유지하려면 나중에 변환 작업에서 해시를 수행하십시오.

  • 데이터 필터링

    자세한 내용은 데이터 집합 필터링을(를) 참조하십시오.

  • 데이터 집합 이름 바꾸기

    데이터 집합에서 자세히를 클릭하고 이름 바꾸기를 선택합니다.

작업 삭제

데이터 작업이 실행 중이 아니고 동일한 프로젝트의 다운스트림 작업에 종속성이 없는 경우 데이터 작업을 삭제할 수 있습니다.

  • 프로젝트의 파이프라인 프로젝트 보기에서 작업에서 자세히을 클릭하고 삭제를 선택합니다.

이 작업으로 생성된 아티팩트(테이블 및 뷰)도 유지하도록 선택하지 않는 한 삭제됩니다.

정보 메모유지하는 아티팩트는 더 이상 작업에 의해 업데이트되지 않습니다.

설정

작업 설정에 대한 자세한 내용은 스트리밍 레이크 랜딩 설정을(를) 참조하십시오.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!