Storing streaming datasets
다음 스트리밍 변환 작업 설정은 스트리밍 소스를 사용하는 Qlik 오픈 레이크하우스 프로젝트에 적용됩니다.
스트리밍 데이터 변환 작업을 사용하여 스트리밍 데이터를 저장하고 변환할 수 있습니다. 스트리밍 데이터에는 평면화가 필요한 중첩된 구조와 배열이 포함되는 경우가 많으며, 저장 단계에서 변환 기능이 필요합니다. 이러한 기능은 스트리밍 변환 작업에서 사용할 수 있으므로 스트리밍 데이터를 랜딩한 직후에 변환을 적용할 수 있습니다.
Managing dataset granularity
중첩된 구조와 배열을 평면화하여 세분성을 높일 수 있습니다. 세분성은 데이터 세트 보기에 표시됩니다. 세분성을 편집하려면 을 클릭합니다.
-
배열에서 필드를 선택하면 대상 테이블에 요소당 하나의 행이 포함됩니다. 이렇게 하면 대상의 행 수가 늘어납니다.
-
동일한 배열 경로에서 필드를 선택해야 합니다. 다른 경로에서 필드를 선택하면 유효성 검사 오류가 발생합니다.
-
표시되는 데이터 유형은 선택한 세분성을 반영합니다. 예를 들어 ARRAY<INT>는 평면화될 때 INT가 됩니다. 자세한 내용은 데이터 유형 매핑를 참조하십시오.
Deleting a task
데이터 작업이 실행 중이 아니고 동일한 프로젝트의 다운스트림 작업에 종속성이 없는 경우 데이터 작업을 삭제할 수 있습니다.
-
프로젝트의 파이프라인 프로젝트 보기에서 작업에서
을 클릭하고 삭제를 선택합니다.
이 작업으로 생성된 아티팩트(테이블 및 뷰)도 유지하도록 선택하지 않는 한 삭제됩니다.
작업 정보 보기
메뉴 막대에서 를 클릭하여 작업 정보를 볼 수 있습니다(예:).
-
소유자
-
공간
-
데이터 플랫폼
-
프로젝트 ID
-
데이터 작업 런타임 ID
Streaming Transform settings
데이터 플랫폼이 Qlik 오픈 레이크하우스인 경우 스트리밍 데이터 변환 작업에 대한 속성을 설정할 수 있습니다.
-
설정을 클릭합니다.
General settings
-
작업 스키마
스트리밍 변환 작업 스키마의 이름을 변경할 수 있습니다. 기본 이름은 저장 작업의 이름입니다.
-
내부 스키마
내부 저장소 데이터 자산 스키마의 이름을 변경할 수 있습니다. 기본 이름은 저장 작업 이름에 _internal이 추가된 것입니다.
- 모든 테이블 및 보기에 대한 접두사
이 작업으로 만들어진 모든 테이블 및 뷰에 대한 접두사를 설정할 수 있습니다.
정보 메모여러 데이터 작업에서 데이터베이스 스키마를 사용하려는 경우 고유한 접두사를 사용해야 합니다. -
사용할 폴더
스트리밍 변환 작업 저장소 폴더를 변경할 수 있습니다.
-
새 데이터 세트에 대한 로드 설정
-
추가만
기존 데이터를 수정하지 않고 새 레코드를 추가합니다. 복제 레코드가 도착하면 키 제약 조건이 적용되지 않습니다.
-
변경 사항 적용
키 필드를 기반으로 기존 레코드를 업데이트하고 새 레코드를 삽입합니다.
변경 사항 병합을 선택하는 경우 다음을 선택할 수도 있습니다.
-
삭제 표현식을 제공하여 레코드 일시 삭제
삭제할 레코드를 표시하기 위한 삭제 표현식을 정의합니다.
-
기록 레코드 유지(유형 2)
변경된 레코드의 이전 버전을 유지합니다.
-
-
-
열 중첩 해제
-
중첩된 열 보존
중첩된 데이터를 보존하려면 선택합니다.
-
별도의 열로 중첩 해제
기본 동작은 데이터를 별도의 열로 중첩 해제하는 것입니다.
-
-
대상 테이블 파티션
정보 메모이 옵션은 로드 설정에서 추가만을 선택한 경우에만 사용할 수 있습니다.-
파티션 없음
새 테이블은 파티션 없이 생성됩니다.
-
이벤트 날짜별 파티션
새 테이블은 이벤트가 수집된 날짜를 기준으로 파티션이 지정됩니다.
-
-
데이터 변경 처리
정보 메모이 옵션은 로드 설정에서 변경 사항 적용을 선택한 경우에만 사용할 수 있습니다.-
일시 삭제 포함: 삭제할 레코드를 표시하기 위한 표현식을 입력합니다.
-
기록 데이터 저장소 생성(유형 2): 변경된 레코드의 이전 버전을 유지합니다.
-
- 보존 관리
-
파티션 정리 없음
-
현재 스냅샷 파티션 정리
-
Table definitions
-
hdr__from_timestamp
이 옵션을 활성화하면 표준 보기에 hdr__from_timestamp 헤더 열이 나타납니다. 또한 온보딩 마법사에서 이벤트 수집 날짜별 파티션을 선택하면 hdr__from_timestamp가 기본 파티션 열로 사용됩니다.
정보 메모이 설정과 관계없이 기록 보기에는 항상 모든 표준 보기 헤더 열이 포함됩니다.
Runtime settings
-
레이크하우스 클러스터
레이크하우스 클러스터를 변경할 수 있지만, 스트리밍 워크로드 또는 혼합 워크로드를 지원해야 합니다.
Schema evolution settings
-
루트 수준에 열 추가
이 설정은 루트 수준의 스트리밍 랜딩 작업에 새 열이 추가될 때 적용됩니다.
-
대상에 적용
스트리밍 랜딩 작업의 새 루트 수준 열을 스트리밍 변환 작업에 자동으로 추가합니다. 이것이 기본 설정입니다.
-
무시
새 루트 수준 열을 추가하지 않습니다.
-
작업 중지
스트리밍 랜딩 작업에서 새 루트 수준 열이 감지되면 변환 작업을 중지합니다.
-
-
구조에 열 추가
이 설정은 스트리밍 랜딩 작업의 기존 중첩 구조 내에 새 필드가 추가될 때 적용됩니다.
- 대상에 적용
랜딩 구조에 새 필드가 추가된 경우 스트리밍 변환 작업의 기존 구조에 새 필드를 자동으로 추가합니다.
-
무시
기존 구조에 새 필드를 추가하지 않습니다.
-
작업 중지
스트리밍 랜딩 작업의 구조에 새 필드가 추가되면 변환 작업을 중지합니다.
- 대상에 적용
-
필드 데이터 유형 변경
- 무시
데이터 유형을 변경하지 않습니다.
-
작업 중지
스트리밍 랜딩 작업에서 데이터 유형 변경이 감지되면 변환 작업을 중지합니다.
- 무시
Dataset settings
다음 설정은 디자인 보기 > 데이터 세트의 모든 데이터 세트에서 사용할 수 있습니다.
데이터 세트 옆에 있는 를 클릭하고 설정을 선택합니다.
-
데이터 로드 처리
데이터가 대상 테이블에 로드되는 방식을 선택합니다.
-
추가만
기존 데이터를 수정하지 않고 새 레코드를 추가합니다. 복제 레코드가 도착하면 키 제약 조건이 적용되지 않습니다.
-
변경 사항 적용
키 필드를 기반으로 기존 레코드를 업데이트하고 새 레코드를 삽입합니다.
-
-
데이터 변경 처리
정보 메모이 옵션은 로드 설정에서 변경 사항 적용을 선택한 경우에만 사용할 수 있습니다.-
일시 삭제 포함: 삭제할 레코드를 표시하기 위한 표현식을 입력합니다. 변경 사항이 일시 삭제인 경우 True로 확인되는 표현식이어야 합니다.
예: operation = 'D'
-
기록 데이터 저장소 생성(유형 2): 변경된 레코드의 이전 버전을 유지합니다.
-
-
파티션 열
선택적으로 파티션 열을 선택하여 성능을 최적화할 수 있습니다.
열 추가를 클릭하여 파티션 열을 추가한 다음 변환을 선택하고 필요한 경우 매개 변수를 설정합니다.
-
보존 관리
파티션 정리는 보존 기간보다 오래된 파티션을 제거합니다. 이렇게 해도 데이터가 물리적으로 삭제되지는 않으며 이전 스냅샷에 즉시 영향을 미치지 않습니다. 이전 데이터는 만료될 때까지 이전 스냅샷에서 사용할 수 있습니다.
정보 메모파티션에 날짜 또는 날짜/시간 열이 하나 이상 있는 경우에만 나타납니다.-
파티션 정리 없음
-
현재 스냅샷 파티션 정리
-
-
열 정렬
정보 메모이 옵션은 로드 설정에서 추가만을 선택한 경우에만 사용할 수 있습니다.선택적으로 Iceberg 테이블의 각 파일 내에서 데이터를 정렬할 열을 지정할 수 있습니다. 데이터 수집 중에 Iceberg는 이러한 열을 사용하여 레코드를 정렬합니다. 쿼리에서 자주 사용되는 열에 정렬 키를 정의하면 데이터 지역성이 향상되어 읽기 성능이 빨라지고 압축이 더 효율적으로 이루어집니다. 올바르게 구성된 정렬 키는 쿼리 성능을 위해 데이터가 최적으로 구성되도록 합니다.
열 추가를 클릭하여 정렬 열을 추가한 다음 정렬 순서를 설정합니다.
-
스냅샷 만료 기간
이 설정은 스냅샷이 보존되는 기간을 제어하며, 이는 테이블 크기와 저장소 비용에 큰 영향을 미칩니다. 자주 업데이트되는 테이블의 경우 저장소 비용을 줄이는 데 도움이 되도록 기간을 짧게 설정하는 것이 좋습니다.
정보 메모스냅샷 만료를 비활성화하려면 0을 입력합니다. -
표준 보기 헤더
-
데이터 작업 설정에서 상속
이것이 기본값입니다. 이 데이터 세트에 대해서만 특정 헤더 열을 설정하려면 비활성화합니다.
-
hdr__from_timestamp
이 옵션을 활성화하면 표준 보기에 hdr__from_timestamp 헤더 열이 나타납니다. 또한 온보딩 마법사에서 이벤트 수집 날짜별 파티션을 선택하면 hdr__from_timestamp가 기본 파티션 열로 사용됩니다.
정보 메모이 설정과 관계없이 기록 보기에는 항상 모든 표준 보기 헤더 열이 포함됩니다.
-