스트리밍 데이터
온보딩 프로세스는 소스에서 데이터를 전송하여 Iceberg 테이블에 저장합니다. 스트리밍 데이터 소스의 변경 내용은 거의 실시간으로 저장 테이블에 지속적으로 적용됩니다.
데이터 온보딩
데이터는 파이프라인 프로젝트 내에서 온보딩되며, 데이터 세트는 프로젝트 설정에 정의된 S3 위치에 저장됩니다.
-
프로젝트에서 만들기를 클릭한 다음 데이터 온보딩을 클릭합니다.
-
온보딩에 대한 작업 이름과 선택적 설명을 추가합니다.
다음을 클릭합니다.
-
소스 연결을 선택합니다.
기존 스트리밍 소스 연결을 선택하거나 소스에 대한 새 연결을 만들 수 있습니다.
자세한 내용은 데이터 스트림에 연결를 참조하십시오.
다음을 클릭하고 데이터 소스에 대한 아래 지침을 따르십시오.
데이터 선택
Apache Kafka 및 Amazon Kinesis
목록에 소스 연결에 정의된 호스트에서 사용 가능한 Kafka 토픽 또는 Kinesis 스트림이 표시됩니다.
토픽/스트림을 선택할 때 특정 데이터 집합을 선택하거나 선택 규칙을 사용하여 데이터 집합 그룹을 포함하거나 제외할 수 있습니다.
-
데이터 세트에 대한 선택 기준을 정의하기 위해 %를 와일드카드로 사용합니다.
-
%.%는 모든 스트림의 모든 데이터 세트를 정의합니다.
선택 규칙을 사용하여 토픽을 선택하는 경우, 모든 데이터 세트를 동일한 대상 테이블에 로드할지 또는 각 원본 토픽에 대해 별도의 대상 테이블을 생성할지 선택할 수 있습니다.
-
기본적으로 대상 Iceberg 테이블 이름은 토픽 이름에서 파생되며, 소문자, 공백 제거, 대시를 밑줄로 대체하는 등 명명 규칙을 준수하도록 서식이 지정됩니다. 대상 데이터 세트 이름 정의에서 대상 테이블의 이름을 편집할 수 있습니다.
-
여러 토픽을 단일 테이블로 로드하기 위해 선택 규칙을 사용하는 경우 대상 이름을 제공해야 합니다.
-
선택 규칙을 사용하고 데이터가 별도의 테이블(토픽당 하나의 데이터 집합)로 로드되는 경우 기본 대상 이름은 토픽 이름입니다. 이 단계에서는 마법사에서 이름을 편집할 수 없지만, 랜딩 작업에서 나중에 수행할 수 있습니다.
-
수집할 토픽을 선택하도록 규칙이 구성된 경우, 랜딩 작업 설정의 스키마 진화 아래에 있는 새 토픽 > 대상에 추가 옵션이 선택되어 있으면 규칙 기준을 충족하는 모든 새 토픽도 랜딩됩니다.
하나 이상의 데이터 집합을 선택하고 선택한 스트림 추가를 클릭합니다. 명시적으로 선택된 스트림에서 추가된 데이터 집합을 볼 수 있습니다. 다음을 클릭합니다.
Amazon S3
디렉터리 브라우저에 원본 연결의 S3 버킷에 있는 모든 디렉터리 목록이 표시됩니다.
-
데이터 랜딩 시 포함할 디렉터리를 선택합니다:
-
각 디렉터리에 대해 경로 추가에서 경로 및 파일 이름 패턴을 입력합니다:
-
모든 문자와 일치하는 *를 와일드카드로 사용합니다.
-
날짜 패턴을 입력하려면 <yyyy>를 4자리 연도 자리 표시자로, <MM>을 2자리 월 자리 표시자로, <dd>를 2자리 일 자리 표시자로, <HH>를 2자리 시간 자리 표시자로 사용합니다. 예:
-
MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv
-
MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv
-
-
-
-
미리 보기를 클릭하여 데이터 미리 보기 대화 상자를 엽니다. 포함된 파일과 제외된 파일 목록이 표시됩니다.
-
데이터를 확인하려면 유효성 검사를 클릭합니다.
-
대상 데이터 세트 이름 정의에서 토픽을 대상 Iceberg 테이블에 맵핑할 이름을 제공합니다. 다음을 클릭합니다.
콘텐츠 유형 선택
소스 이벤트 콘텐츠 유형을 선택합니다.
-
데이터 이벤트 유형 선택에서 수집할 이벤트 유형을 선택합니다.
-
자세한 내용은 데이터 스트림에 연결을 참조하십시오.
선택한 콘텐츠 유형은 모든 토픽에 적용됩니다. 수집하려는 각 콘텐츠 유형에 대해 새 작업을 생성해야 합니다.
-
이벤트가 올바르게 로드되었는지 확인을(를) 확장하여 데이터를 구문 분석할 수 있는지 확인합니다. 이 단계에서 데이터가 올바른지 확인해야 합니다. 그렇지 않으면 파이프라인을 다시 만들고 데이터를 다시 로드해야 합니다. 데이터 세트 선택을 사용하여 특정 데이터 세트를 검사하고 데이터 로드에 영향을 줄 수 있는 경고를 확인합니다. 데이터를 보려면 구조체 열 옆에 있는 눈 아이콘을 클릭합니다.
-
다음을 클릭합니다.
수집 속성 설정
파이프라인 설정을 구성합니다.
-
데이터 읽기 대상
-
가장 이른 이벤트부터 시작: 모든 기록 데이터를 수집합니다.
-
지금부터 시작: 파이프라인이 시작되는 시점부터 도착하는 새 데이터를 수집합니다.
-
-
열 중첩 해제
-
중첩된 열 유지: 변환이 적용되지 않습니다.
-
별도의 열로 분리: 데이터가 별도의 열로 분할됩니다.
-
-
로드 설정
-
추가 전용: 일반적으로 이벤트 데이터에 가장 적합한 옵션입니다. 이벤트 데이터는 일반적으로 수명이 짧고 업데이트되지 않기 때문입니다. 예를 들어, 주문이 있습니다.
-
병합: 이 옵션은 시간이 지남에 따라 업데이트되는 데이터(예: 고객)에 가장 적합합니다.
-
-
대상 테이블 파티션
대상 테이블 파티션 옵션은 파이프라인의 모든 테이블에 적용됩니다. 이 설정은 나중에 테이블 수준에서 맞춤형 파티셔닝을 위해 재정의할 수 있습니다.
-
파티션 없음: 테이블은 파티션 없이 만들어집니다.
-
이벤트 수집 날짜별 파티션: 테이블은 이벤트가 수집된 날짜를 기준으로 분할됩니다.
-
-
다음을 클릭합니다.
요약
요약 화면에서 파이프라인을 시각적으로 표시합니다.
-
선택 사항으로, 스트리밍 랜딩 및 스트리밍 변환 작업의 경우 이름 및 설명 편집을 클릭하여 새 값을 제공할 수 있습니다.
-
파이프라인이 생성된 후 수행할 작업에 대한 옵션을 선택합니다.
-
모든 설정을 구성했으면 생성을 클릭하여 파이프라인 프로젝트를 생성합니다.
-
프로젝트가 표시되면 각 작업을 준비하고 실행하여 데이터 수집을 시작할 수 있습니다.
-
스트리밍 랜딩 작업을 준비하고 실행합니다.
자세한 내용은 Qlik 오픈 레이크하우스에 스트리밍 데이터 랜딩을 참조하십시오.
-
스트리밍 변환 작업을 준비하고 실행합니다.
자세한 내용은 스트림 데이터 집합 저장을 참조하십시오.
-