스트림 데이터 집합 저장
다음 스트림 변환 작업 설정은 스트림 소스를 사용하는 Qlik 오픈 레이크하우스 프로젝트에 적용됩니다.
스트림 데이터 변환 작업을 사용하여 스트림 데이터를 저장하고 변환할 수 있습니다. 스트림 데이터는 종종 평탄화가 필요한 중첩된 구조와 배열을 포함하며, 저장 단계에서 변환 기능이 필요합니다. 이러한 기능은 스트림 변환 작업에서 사용할 수 있으며, 스트림 데이터를 랜딩한 직후에 변환을 적용할 수 있도록 합니다.
데이터 세트 세분성 관리
중첩된 구조와 배열을 평면화하여 세분성을 높일 수 있습니다. 세분성은 데이터 세트 보기에서 표시됩니다. 세분성을 편집하려면 을(를) 클릭합니다.
-
배열에서 필드를 선택하면 대상 테이블에 요소당 하나의 행이 포함됩니다. 이렇게 하면 대상의 행 수가 증가합니다.
-
동일한 배열 경로에서 필드를 선택해야 합니다. 다른 경로에서 필드를 선택하면 유효성 검사 오류가 발생합니다.
-
표시되는 데이터 유형은 선택된 세분성을 반영합니다. 예를 들어, ARRAY<INT>는 평면화될 때 INT가 됩니다. 자세한 내용은 데이터 유형 매핑을 참조하십시오.
작업 정보 보기
메뉴 막대에서 를 클릭하여 작업 정보를 볼 수 있습니다(예:).
-
소유자
-
공간
-
데이터 플랫폼
-
프로젝트 ID
-
데이터 작업 런타임 ID
스트리밍 변환 설정
저장소 설정
데이터 플랫폼이 Qlik 오픈 레이크하우스인 경우 스트리밍 데이터 변환 작업에 대한 속성을 설정할 수 있습니다.
-
설정을 클릭합니다.
일반 설정
-
작업 스키마
스트리밍 변환 작업 스키마의 이름을 변경할 수 있습니다. 기본 이름은 저장소 작업의 이름입니다.
-
내부 스키마
내부 저장소 데이터 자산 스키마의 이름을 변경할 수 있습니다. 기본 이름은 _internal이 추가된 저장소 작업의 이름입니다.
- 모든 테이블 및 보기에 대한 접두사
이 작업으로 만들어진 모든 테이블 및 뷰에 대한 접두사를 설정할 수 있습니다.
정보 메모여러 데이터 작업에서 데이터베이스 스키마를 사용하려는 경우 고유한 접두사를 사용해야 합니다. -
사용할 폴더
스트리밍 변환 작업 저장소 폴더를 변경할 수 있습니다.
-
새 데이터 집합에 대한 설정 로드
-
추가만
기존 데이터를 수정하지 않고 새 레코드를 추가합니다.복제 레코드가 도착하면 키 제약 조건이 적용되지 않습니다.
-
변경 내용 적용
기존 레코드를 업데이트하고 키 필드를 기반으로 새 레코드를 삽입합니다.
변경 내용을 병합하도록 선택하는 경우, 다음 항목도 선택할 수 있습니다.
-
삭제 표현식 제공을 통해 레코드 소프트 삭제
레코드를 삭제 대상으로 표시하려면 삭제 표현식을 정의합니다.
-
이력 레코드 유지(유형 2)
변경 레코드의 이전 버전을 유지합니다.
-
-
-
열 중첩 해제
-
중첩된 열 보존
중첩된 데이터를 보존하려면 선택합니다.
-
별도의 열로 중첩 해제
기본 동작은 데이터를 별도의 열로 중첩 해제하는 것입니다.
-
-
대상 테이블 파티션
정보 메모이 옵션은 로드 설정에서 추가 전용이 선택된 경우에만 사용할 수 있습니다.-
파티션 없음
새 테이블은 파티션 없이 생성됩니다.
-
이벤트 날짜별 파티션
새 테이블은 이벤트가 수집된 날짜에 따라 파티션됩니다.
-
-
데이터 변경 처리
정보 메모이 옵션은 로드 설정에서 변경 사항 적용이 선택된 경우에만 사용할 수 있습니다.-
소프트 삭제 포함: 삭제할 레코드를 정의하는 식을 입력합니다.
-
기록 데이터 저장소 생성(유형 2): 변경된 레코드의 이전 버전을 유지합니다.
-
- 유지 관리
-
파티션 정리 없음
-
현재 스냅샷 파티션 정리
-
런타임 설정
-
레이크하우스 클러스터
레이크하우스 클러스터를 변경할 수 있지만, 이는 스트리밍 워크로드 또는 혼합 워크로드를 지원해야 합니다.
스키마 진화 설정
-
루트 수준에 열 추가
이 설정은 새 열이 스트리밍 랜딩 작업의 루트 수준에 추가될 때 적용됩니다.
-
대상에 적용
스트리밍 랜딩 작업에서 스트리밍 변환 작업으로 새로운 루트 수준 열을 자동으로 추가합니다. 기본 설정입니다.
-
무시
새 루트 수준 열을 추가하지 않습니다.
-
작업 중지
스트리밍 랜딩 작업에서 새 루트 수준 열이 감지되면 변환 작업을 중지합니다.
-
-
구조에 열 추가
이 설정은 스트리밍 랜딩 작업의 기존 중첩 구조 내에 새 필드가 추가될 때 적용됩니다.
- 대상에 적용
랜딩 구조에 새 필드가 추가되면 스트리밍 변환 작업의 기존 구조에 자동으로 새 필드를 추가합니다.
-
무시
기존 구조에 새 필드를 추가하지 않습니다.
-
작업 중지
스트리밍 랜딩 작업에서 구조에 새 필드가 추가되면 변환 작업을 중지합니다.
- 대상에 적용
-
필드 데이터 유형 변경
- 무시
데이터 유형을 변경하지 않습니다.
-
작업 중지
스트리밍 랜딩 작업에서 데이터 유형 변경이 감지되면 변환 작업을 중지합니다.
- 무시
데이터 집합 설정
다음 설정은 디자인 보기 > 데이터 세트의 모든 데이터 세트에서 사용할 수 있습니다.
데이터 세트 옆에 있는 을(를) 클릭하고 설정을(를) 선택합니다.
-
데이터 로드 처리
데이터가 대상 테이블에 로드되는 방식을 선택합니다.
-
추가만
기존 데이터를 수정하지 않고 새 레코드를 추가합니다.복제 레코드가 도착하면 키 제약 조건이 적용되지 않습니다.
-
변경 내용 적용
기존 레코드를 업데이트하고 키 필드를 기반으로 새 레코드를 삽입합니다.
-
-
데이터 변경 처리
정보 메모이 옵션은 변경 사항 적용이(가) 로드 설정에서 선택된 경우에만 사용할 수 있습니다.-
일시 삭제 포함: 삭제할 레코드를 정의하는 표현식을 입력합니다. 변경 내용이 일시 삭제인 경우 True로 유효성을 검사하는 표현식이어야 합니다.
예: operation = 'D'
-
이력 데이터 저장소 생성(유형 2): 이렇게 하면 변경된 레코드의 이전 버전이 유지됩니다.
-
-
파티션 열
선택적으로 파티션 열을 선택하여 성능을 최적화할 수 있습니다.
열 추가를 클릭하여 파티션 열을 추가한 다음, 변환을 선택하고 필요한 경우 매개 변수를 설정합니다.
-
유지 관리
파티션 가지치기는 유지 관리 기간보다 오래된 파티션을 제거합니다. 이는 데이터를 물리적으로 삭제하지 않으며 오래된 스냅샷에 즉시 영향을 주지 않습니다. 오래된 데이터는 만료될 때까지 오래된 스냅샷에서 사용할 수 있습니다.
정보 메모파티션에 날짜 또는 datetime 열이 하나 이상 있는 경우에만 나타납니다.-
파티션 정리 없음
-
현재 스냅샷 파티션 정리
-
-
열 정렬
정보 메모이 옵션은 추가 전용이 로드 설정에서 선택된 경우에만 사용할 수 있습니다.선택적으로, Iceberg 테이블의 각 파일 내에서 데이터를 정렬할 열을 지정할 수 있습니다. 데이터 수집 중에 Iceberg는 이러한 열을 사용하여 레코드를 정렬합니다. 쿼리에서 자주 사용되는 열에 정렬 키를 정의하면 데이터 지역성이 향상되어 읽기 성능이 빨라지고 압축 효율성이 높아집니다. 적절하게 구성된 정렬 키는 쿼리 성능을 위해 데이터가 최적으로 구성되도록 보장합니다.
정렬 열을 추가하려면 열 추가를 클릭한 다음 정렬 순서를 설정합니다.
-
스냅샷 만료 기간
이 설정은 스냅샷이 보존되는 기간을 제어하며, 이는 테이블 크기와 저장 비용에 상당한 영향을 미칩니다. 자주 업데이트되는 테이블의 경우 저장소 비용을 줄이기 위해 기간을 짧게 하는 것이 좋습니다.
정보 메모0을 입력하여 스냅샷 만료 비활성화