Qlik 오픈 레이크하우스 아키텍처 | Qlik Cloud 도움말
기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

Qlik 오픈 레이크하우스 아키텍처

Qlik 오픈 레이크하우스Qlik Talend Cloud에서 Iceberg 기반 레이크하우스의 데이터를 수집, 처리 및 최적화할 수 있는 완전 관리형 엔드투엔드 솔루션을 제공합니다. 이 솔루션은 짧은 지연 시간의 쿼리 성능과 대규모의 효율적인 데이터 작업을 제공합니다.

Qlik 오픈 레이크하우스 아키텍처는 안전한 통신, 확장 가능한 컴퓨팅 및 효율적인 데이터 처리를 결합하여 최신 레이크하우스 경험을 제공합니다. Qlik 오픈 레이크하우스는 EC2 및 S3를 포함한 AWS 네이티브 구성 요소를 활용합니다.

핵심 구성 요소

Qlik 오픈 레이크하우스를 생성하려면 다음 엔터티가 필요합니다.

데이터 이동 게이트웨이(CDC)

데이터 이동 게이트웨이는 온프레미스 또는 클라우드 환경에서 실행됩니다. RDBMS, SAP 또는 메인프레임과 같은 소스 시스템에서 변경 사항을 캡처하여 Amazon S3 랜딩 영역으로 데이터를 보냅니다. 스트리밍 소스에는 필요하지 않습니다.

네트워크 통합 에이전트(EC2 인스턴스)

네트워크 통합 에이전트는 클라우드의 Qlik 서비스와 환경 내 레이크하우스 클러스터 간의 안전한 통신을 촉진하는 EC2 인스턴스입니다. 에이전트는 네트워크 통합 프로세스 중에 온디맨드 인스턴스로 자동 배포되며 Qlik에서 완벽하게 관리합니다. 새 버전은 릴리스 시 자동으로 배포됩니다.

네트워크 통합이 올바르게 작동하면 관리 활동 센터의 레이크하우스 클러스터 보기에 연결됨 상태가 표시됩니다. 연결 문제가 발생하면 상태가 연결 끊김으로 변경됩니다.

레이크하우스 클러스터(EC2 Auto-Scaling 그룹)

레이크하우스 클러스터는 데이터 처리를 담당하는 AWS EC2 인스턴스 그룹입니다. 클러스터 인스턴스는 워크로드를 조정하고 실행하여 랜딩 영역에서 들어오는 데이터를 처리하고, 처리 후 대상 위치에 Iceberg 형식으로 데이터를 저장합니다.

단일 AWS 스팟 인스턴스가 있는 레이크하우스 클러스터는 네트워크 통합 설정 중에 자동으로 생성됩니다. 지속적인 레이크하우스 요구 사항을 지원하기 위해 추가 클러스터를 관리하고 생성할 수 있습니다. 클러스터를 구성할 때 데이터 처리 요구 사항을 충족하기 위해 서버를 생성, 시작, 중지, 확장 또는 롤백할 수 있는 권한을 Qlik에 부여합니다. 여러 클러스터가 동일한 네트워크 통합 내에서 실행될 수 있지만 각 클러스터는 단일 네트워크 통합과 연결됩니다. 단일 클러스터에서 많은 레이크하우스 태스크를 실행할 수 있습니다.

AWS 스팟 인스턴스는 일반 인스턴스보다 저렴한 비용으로 예비 Amazon EC2 용량을 사용하지만 예고 없이 AWS에 의해 중단될 수 있습니다. 기본적으로 Qlik는 데이터 처리를 위해 임시 스팟 인스턴스를 프로비저닝합니다. AWS 스팟 시장에서 사용 가능한 스팟 인스턴스가 부족한 경우 Qlik는 연속성을 보장하기 위해 온디맨드 인스턴스를 자동으로 사용합니다. 시스템은 스팟 인스턴스를 사용할 수 있게 되면 스팟 인스턴스로 되돌아갑니다. 레이크하우스 클러스터 기술은 노드 간에 작업을 이동하면서 스팟 인스턴스와 온디맨드 인스턴스 간에 원활하게 전환되도록 설계되었습니다. 이 프로세스는 수동 개입 없이 자동으로 발생합니다. 클러스터 설정에서 클러스터에 사용할 스팟 및 온디맨드 인스턴스 수를 구성할 수 있습니다. 스팟 인스턴스를 활용하면 Qlik 오픈 레이크하우스의 지속적인 컴퓨팅 비용을 줄이는 데 도움이 됩니다.

사용할 스팟 및 온디맨드 인스턴스 수를 정의하는 것 외에도 프로젝트의 워크로드 및 예산에 가장 적합한 확장 전략을 구성할 수 있습니다. 클러스터에 다음 확장 전략을 적용할 수 있습니다.

  • 저비용: 개발 또는 QA 환경과 최신 실시간 데이터에 의존하지 않는 워크로드에 이상적입니다. Qlik는 비용을 최대한 낮게 유지하기 위해 노력하며, 이로 인해 때때로 지연 시간이 길어질 수 있습니다.

  • 짧은 지연 시간: 거의 실시간에 가까운 데이터 최신성이 허용되는 비즈니스 크리티컬하지 않은 워크로드를 위해 설계되었습니다. 이 전략은 짧은 지연 시간을 목표로 하지만 짧은 스파이크가 발생할 수 있습니다.

  • 일관된 짧은 지연 시간: 실시간 데이터 최신성이 있어야 하는 대규모 데이터가 있는 프로덕션 환경에 적합합니다. Qlik는 짧은 지연 시간을 보장하기 위해 인스턴스를 사전에 확장하며, 이로 인해 더 높은 비용이 발생할 수 있습니다.

  • 확장 안 함: 일관된 양의 데이터를 처리하는 워크로드에 적합한 옵션입니다. 자동 확장 없이 정적 인스턴스 수를 유지하고 예측 가능한 비용을 유지하려면 이 옵션을 선택합니다.

Amazon S3 버킷

Amazon S3 버킷은 다음과 같이 사용됩니다.

  • 랜딩 데이터 버킷: 원시 CDC 데이터는 변환 전에 S3 버킷에 랜딩됩니다.

  • 구성 버킷: 레이크하우스 시스템에서 사용하는 메타데이터 및 구성을 저장합니다.

  • Iceberg 테이블 스토리지: 데이터는 Iceberg 형식 테이블에 저장되고 최적화됩니다. 사용되는 버킷은 프로젝트의 카탈로그 연결에 의해 결정됩니다.

상위 수준 흐름

초기 설정

  1. VPC 및 인프라 프로비저닝 - Qlik 설명서의 지침에 따라 서브넷, S3 버킷 및 IAM 역할과 함께 AWS 계정에서 VPC를 구성합니다.

  2. 네트워크 통합 구성 - 테넌트 관리자는 이전에 프로비저닝된 인프라 세부 정보를 사용하여 Qlik Talend Cloud에서 네트워크 통합을 생성합니다.

  3. Qlik 구성 요소 배포 - Qlik는 VPC 내에 데이터 플레인 게이트웨이 및 레이크하우스 클러스터를 자동으로 프로비저닝합니다.

  4. 통신 설정 - 데이터 플레인 게이트웨이는 Qlik Talend Cloud와 안전하게 통신을 설정합니다.

  5. 게이트웨이 배포 - 데이터 플레인 VPC를 포함하여 온프레미스 또는 클라우드 환경에 데이터 이동 게이트웨이(CDC)를 배포합니다.

  6. 작동 준비 완료 - 설정이 완료되면 액세스 권한에 따라 Qlik 오픈 레이크하우스 프로젝트 및 태스크를 생성하고 관리할 수 있습니다.

Qlik 오픈 레이크하우스 프로젝트 생성

다음 태스크 유형을 사용할 수 있습니다.

랜딩 데이터 태스크

  1. 소스 구성 - 데이터 이동 게이트웨이는 RDBMS, SAP, 메인프레임 등을 포함한 소스 시스템에서 변경 사항을 캡처하도록 구성됩니다.

  2. 데이터 랜딩 - CDC 태스크는 원시 변경 데이터를 AWS 계정의 지정된 S3 랜딩 버킷으로 지속적으로 보냅니다.

스토리지 데이터 태스크

  1. Iceberg 카탈로그 연결(예: AWS Glue Data Catalog)을 등록합니다.

  2. Qlik Talend Cloud에서 스토리지 태스크를 정의합니다.

  3. Qlik Talend Cloud는 태스크 정의를 데이터 플레인 게이트웨이로 보냅니다.

  4. 데이터 플레인 게이트웨이는 태스크 지침을 Qlik 레이크하우스 클러스터로 안전하게 전달합니다.

  5. 클러스터는 S3의 랜딩 버킷에서 원시 데이터를 지속적으로 읽고 처리하여 S3의 Iceberg 테이블에 출력을 씁니다.

  6. 레이크하우스 클러스터는 레이크하우스 클러스터 설정의 사전 정의된 기본 설정에 따라 로드에 기반하여 자동으로 확장 또는 축소됩니다.

  7. 모니터링 데이터는 Qlik Talend Cloud로 전송되고 로그 및 메트릭은 Qlik로 전달됩니다.

미러 데이터 태스크

외부 Iceberg 테이블을 생성하여 중복 없이 클라우드 데이터 웨어하우스에서 데이터 레이크에 저장된 데이터를 쿼리할 수 있습니다. 이를 통해 S3의 Parquet과 같은 형식으로 저장된 Iceberg 관리 데이터 위에서 데이터 웨어하우스 분석 엔진을 사용할 수 있습니다. 데이터를 데이터 웨어하우스에 복제하는 대신 외부 테이블을 참조함으로써 스토리지 비용을 줄이고 단일 진실 공급원을 유지하며 레이크하우스와 웨어하우스 환경 간의 일관성을 보장합니다.

네트워크 통합과 Qlik Talend Cloud 간의 통신

네트워크 통합은 Qlik Talend Cloud에 대한 아웃바운드 보안 연결(HTTPS)을 설정합니다. 성공적으로 수락되면 연결이 보안 웹 소켓(WSS)으로 변환됩니다. 레이크하우스 관련 태스크 명령 및 제어를 수신하기 위해 네트워크 통합과 Qlik Talend Cloud 간에 추가 전용 통신 채널(WSS)이 설정됩니다. 주기적으로 네트워크 통합은 Qlik Talend Cloud에 대한 보안 연결(HTTPS)을 설정하여 데이터 관련 이벤트를 수신하고 보냅니다. 메트릭 및 로그는 레이크하우스 클러스터에서 Qlik로 전송됩니다.

데이터 보안을 보장하기 위해 다음 조치가 취해집니다.

  • 네트워크 통합에서 Qlik Talend Cloud로의 모든 연결은 아웃바운드입니다. 인바운드 액세스는 필요하지 않습니다.

  • 메타데이터, 명령 및 제어 요청은 HTTPS로 보호되는 통신 채널을 사용하여 전송되므로 네트워크 통합과 Qlik Talend Cloud 간에 추가 암호화 레이어가 생성됩니다.

  • 모든 데이터는 귀하가 소유한 리소스 간에 흐릅니다. 데이터는 Qlik Talend Cloud로 전송되지 않습니다. 예를 들어 테이블 및 열 이름과 같은 메타데이터는 태스크 정의를 허용하기 위해 Qlik Talend Cloud로 전송됩니다.

  • 데이터는 Qlik로 전송되기 전에 익명화됩니다. Qlik는 로그 또는 메트릭에 문제가 표시될 경우 익명화된 데이터를 사용하여 사전에 지원합니다.

데이터 세트 아키텍처

Qlik 오픈 레이크하우스 파이프라인 프로젝트의 데이터 세트 아키텍처는 데이터 소스에 의해 결정됩니다. 자세한 내용은 다음을 참조하십시오.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!