데이터 스트림에 연결
다음 스트리밍 서비스는 Qlik 오픈 레이크하우스 프로젝트에서 지원됩니다. 이벤트 데이터는 지속적으로 수집되어 다운스트림 데이터 통합, 분석 및 AI를 위한 거의 실시간 가용성을 보장하며, 최신 운영 활동을 반영하는 짧은 지연 시간의 파이프라인을 가능하게 합니다.
Apache Kafka 및 Amazon Kinesis와 같은 스트리밍 서비스는 운영 이벤트가 발생할 때 이를 캡처하기 위한 내구성이 뛰어나고 처리량이 높은 파이프라인을 제공합니다. 배치 수집에 의존하는 파일 기반 소스와 달리, 스트리밍 소스는 이벤트가 생성될 때 데이터를 지속적으로 전달하여 파일이 생성되거나 예약될 때까지 기다릴 필요 없이 거의 실시간 처리를 가능하게 합니다. 생산자는 스키마를 유지하고 파티셔닝을 지원하는 구조화되거나 반구조화된 메시지를 게시합니다. 동일한 레코드에 대한 모든 업데이트 및 삭제는 동일한 파티션 키를 사용해야 합니다. Kafka 및 Kinesis는 전체 토픽 또는 스트림이 아닌 단일 파티션 또는 샤드 내에서만 순서를 보장하므로, 일관된 파티션 키를 사용하면 특정 레코드에 대한 변경 사항이 올바른 순서로 처리됩니다. Qlik은(는) 이벤트 데이터를 지속적으로 수집하기 위한 스트리밍 소스로 Amazon S3도 지원합니다.
스트리밍 수집 대 배치 수집
스트리밍 데이터 소스와 배치 데이터 소스의 차이점은 다음과 같습니다.
-
두 소스 모두에서 이벤트는 매분 효율적으로 수집되어 낮은 지연 시간 처리와 거의 실시간 분석을 지원합니다.
-
비스트리밍 소스의 경우, 먼저 기존 데이터의 전체 로드가 이루어진 다음 변경 사항이 수집됩니다. 소스에서 전체 로드 데이터를 다시 로드할 수도 있습니다.
-
스트리밍 소스의 경우, 초기 로드와 이후 이벤트 간에 명확한 구분이 없습니다. Qlik은(는) 보존을 관리할 수 있으며 파티션도 지원합니다.
Qlik 오픈 레이크하우스 프로젝트에서 스트리밍 소스는 스트리밍 랜딩 작업 및 스트리밍 변환 작업에서만 사용할 수 있습니다.
-
스트리밍 데이터는 스트리밍 랜딩 작업을 사용하여 수집되며, 불연속 파일을 처리하는 대신 스트리밍 랜딩 작업은 이벤트가 도착하는 대로 읽고, 데이터를 Amazon S3에 랜딩하고, 이벤트를 Avro 파일로 유지합니다. 이 접근 방식은 스키마 진화를 보존하고, 구조체와 같은 복합 데이터 유형을 지원하며, 지속적인 수집 모델을 유지하면서 최적화된 쿼리 성능으로 효율적인 스토리지를 제공합니다.
-
스트리밍 소스에서 데이터를 온보딩할 때, Iceberg 형식으로 저장될 각 데이터 세트에 대해 스트리밍 변환 작업이 자동으로 추가됩니다. 선택적으로 스트리밍 변환 작업을 사용하여 구조를 표준화하거나, 이벤트 페이로드를 보강하거나, 데이터를 다운스트림 소비 모델에 맞출 수 있습니다.
-
데이터 미러링 작업을 통해 스트리밍 소스의 데이터 세트를 클라우드 데이터 웨어하우스로 미러링하여 다운스트림 시스템이 데이터를 중복하지 않고 스트리밍 이벤트를 소비할 수 있습니다. 자세한 내용은 클라우드 데이터웨어하우스에 데이터 미러링을 참조하십시오.
제한 사항
다음 제한 사항은 모든 데이터 소스에 적용됩니다.
-
파일 유형이 다른 경우(여러 소스 또는 버전에서 시작될 때 발생할 수 있음) 단일 샘플 파일(예: 온보딩 중)을 사용하여 생성된 변환 작업은 이러한 차이를 자동으로 고려하지 않습니다.
-
랜딩 작업에서 데이터 유형을 변경하는 경우(예: 데이터를 해시해야 하기 때문) 변환 데이터 유형이 새 데이터 유형과 일치하는지 확인하십시오.