Storing streaming datasets | Qlik Cloud 도움말
기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

Storing streaming datasets

다음 스트리밍 변환 작업 설정은 스트리밍 소스를 사용하는 Qlik 오픈 레이크하우스 프로젝트에 적용됩니다.

스트리밍 데이터 변환 작업을 사용하여 스트리밍 데이터를 저장하고 변환할 수 있습니다. 스트리밍 데이터에는 평면화가 필요한 중첩된 구조와 배열이 포함되는 경우가 많으며, 저장 단계에서 변환 기능이 필요합니다. 이러한 기능은 스트리밍 변환 작업에서 사용할 수 있으므로 스트리밍 데이터를 랜딩한 직후에 변환을 적용할 수 있습니다.

Managing dataset granularity

중첩된 구조와 배열을 평면화하여 세분성을 높일 수 있습니다. 세분성은 데이터 세트 보기에 표시됩니다. 세분성을 편집하려면 편집을 클릭합니다.

  • 배열에서 필드를 선택하면 대상 테이블에 요소당 하나의 행이 포함됩니다. 이렇게 하면 대상의 행 수가 늘어납니다.

  • 동일한 배열 경로에서 필드를 선택해야 합니다. 다른 경로에서 필드를 선택하면 유효성 검사 오류가 발생합니다.

  • 표시되는 데이터 유형은 선택한 세분성을 반영합니다. 예를 들어 ARRAY<INT>는 평면화될 때 INT가 됩니다. 자세한 내용은 데이터 유형 매핑를 참조하십시오.

Deleting a task

데이터 작업이 실행 중이 아니고 동일한 프로젝트의 다운스트림 작업에 종속성이 없는 경우 데이터 작업을 삭제할 수 있습니다.

  • 프로젝트의 파이프라인 프로젝트 보기에서 작업에서 자세히을 클릭하고 삭제를 선택합니다.

이 작업으로 생성된 아티팩트(테이블 및 뷰)도 유지하도록 선택하지 않는 한 삭제됩니다.

정보 메모유지하는 아티팩트는 더 이상 작업에 의해 업데이트되지 않습니다.

작업 정보 보기

메뉴 막대에서 정보를 클릭하여 작업 정보를 볼 수 있습니다(예:).

  • 소유자

  • 공간

  • 데이터 플랫폼

  • 프로젝트 ID

  • 데이터 작업 런타임 ID

Streaming Transform settings

데이터 플랫폼이 Qlik 오픈 레이크하우스인 경우 스트리밍 데이터 변환 작업에 대한 속성을 설정할 수 있습니다.

  • 설정을 클릭합니다.

General settings

  • 작업 스키마

    스트리밍 변환 작업 스키마의 이름을 변경할 수 있습니다. 기본 이름은 저장 작업의 이름입니다.

  • 내부 스키마

    내부 저장소 데이터 자산 스키마의 이름을 변경할 수 있습니다. 기본 이름은 저장 작업 이름에 _internal이 추가된 것입니다.

  • 모든 테이블 및 보기에 대한 접두사

    이 작업으로 만들어진 모든 테이블 및 뷰에 대한 접두사를 설정할 수 있습니다.

    정보 메모여러 데이터 작업에서 데이터베이스 스키마를 사용하려는 경우 고유한 접두사를 사용해야 합니다.
  • 사용할 폴더

    스트리밍 변환 작업 저장소 폴더를 변경할 수 있습니다.

  • 새 데이터 세트에 대한 로드 설정

    • 추가만

      기존 데이터를 수정하지 않고 새 레코드를 추가합니다. 복제 레코드가 도착하면 키 제약 조건이 적용되지 않습니다.

    • 변경 사항 적용

      키 필드를 기반으로 기존 레코드를 업데이트하고 새 레코드를 삽입합니다.

      변경 사항 병합을 선택하는 경우 다음을 선택할 수도 있습니다.

      • 삭제 표현식을 제공하여 레코드 일시 삭제

        삭제할 레코드를 표시하기 위한 삭제 표현식을 정의합니다.

      • 기록 레코드 유지(유형 2)

        변경된 레코드의 이전 버전을 유지합니다.

  • 열 중첩 해제

    • 중첩된 열 보존

      중첩된 데이터를 보존하려면 선택합니다.

    • 별도의 열로 중첩 해제

      기본 동작은 데이터를 별도의 열로 중첩 해제하는 것입니다.

  • 대상 테이블 파티션

    정보 메모이 옵션은 로드 설정에서 추가만을 선택한 경우에만 사용할 수 있습니다.
    • 파티션 없음

      새 테이블은 파티션 없이 생성됩니다.

    • 이벤트 날짜별 파티션

      새 테이블은 이벤트가 수집된 날짜를 기준으로 파티션이 지정됩니다.

  • 데이터 변경 처리

    정보 메모이 옵션은 로드 설정에서 변경 사항 적용을 선택한 경우에만 사용할 수 있습니다.
    • 일시 삭제 포함: 삭제할 레코드를 표시하기 위한 표현식을 입력합니다.

    • 기록 데이터 저장소 생성(유형 2): 변경된 레코드의 이전 버전을 유지합니다.

  • 보존 관리
    • 파티션 정리 없음

    • 현재 스냅샷 파티션 정리

Table definitions

  • hdr__from_timestamp

    이 옵션을 활성화하면 표준 보기에 hdr__from_timestamp 헤더 열이 나타납니다. 또한 온보딩 마법사에서 이벤트 수집 날짜별 파티션을 선택하면 hdr__from_timestamp가 기본 파티션 열로 사용됩니다.

    정보 메모이 설정과 관계없이 기록 보기에는 항상 모든 표준 보기 헤더 열이 포함됩니다.

Runtime settings

  • 레이크하우스 클러스터

    레이크하우스 클러스터를 변경할 수 있지만, 스트리밍 워크로드 또는 혼합 워크로드를 지원해야 합니다.

Schema evolution settings

  • 루트 수준에 열 추가

    이 설정은 루트 수준의 스트리밍 랜딩 작업에 새 열이 추가될 때 적용됩니다.

    • 대상에 적용

      스트리밍 랜딩 작업의 새 루트 수준 열을 스트리밍 변환 작업에 자동으로 추가합니다. 이것이 기본 설정입니다.

    • 무시

      새 루트 수준 열을 추가하지 않습니다.

    • 작업 중지

      스트리밍 랜딩 작업에서 새 루트 수준 열이 감지되면 변환 작업을 중지합니다.

  • 구조에 열 추가

    이 설정은 스트리밍 랜딩 작업의 기존 중첩 구조 내에 새 필드가 추가될 때 적용됩니다.

    • 대상에 적용

      랜딩 구조에 새 필드가 추가된 경우 스트리밍 변환 작업의 기존 구조에 새 필드를 자동으로 추가합니다.

    • 무시

      기존 구조에 새 필드를 추가하지 않습니다.

    • 작업 중지

      스트리밍 랜딩 작업의 구조에 새 필드가 추가되면 변환 작업을 중지합니다.

  • 필드 데이터 유형 변경

    • 무시

      데이터 유형을 변경하지 않습니다.

    • 작업 중지

      스트리밍 랜딩 작업에서 데이터 유형 변경이 감지되면 변환 작업을 중지합니다.

Dataset settings

다음 설정은 디자인 보기 > 데이터 세트의 모든 데이터 세트에서 사용할 수 있습니다.

데이터 세트 옆에 있는 자세히를 클릭하고 설정을 선택합니다.

  • 데이터 로드 처리

    데이터가 대상 테이블에 로드되는 방식을 선택합니다.

    • 추가만

      기존 데이터를 수정하지 않고 새 레코드를 추가합니다. 복제 레코드가 도착하면 키 제약 조건이 적용되지 않습니다.

    • 변경 사항 적용

      키 필드를 기반으로 기존 레코드를 업데이트하고 새 레코드를 삽입합니다.

  • 데이터 변경 처리

    정보 메모이 옵션은 로드 설정에서 변경 사항 적용을 선택한 경우에만 사용할 수 있습니다.
    • 일시 삭제 포함: 삭제할 레코드를 표시하기 위한 표현식을 입력합니다. 변경 사항이 일시 삭제인 경우 True로 확인되는 표현식이어야 합니다.

      예: operation = 'D'

    • 기록 데이터 저장소 생성(유형 2): 변경된 레코드의 이전 버전을 유지합니다.

  • 파티션 열

    선택적으로 파티션 열을 선택하여 성능을 최적화할 수 있습니다.

    열 추가를 클릭하여 파티션 열을 추가한 다음 변환을 선택하고 필요한 경우 매개 변수를 설정합니다.

  • 보존 관리   

    파티션 정리는 보존 기간보다 오래된 파티션을 제거합니다. 이렇게 해도 데이터가 물리적으로 삭제되지는 않으며 이전 스냅샷에 즉시 영향을 미치지 않습니다. 이전 데이터는 만료될 때까지 이전 스냅샷에서 사용할 수 있습니다.

    정보 메모파티션에 날짜 또는 날짜/시간 열이 하나 이상 있는 경우에만 나타납니다.
    • 파티션 정리 없음

    • 현재 스냅샷 파티션 정리

  • 열 정렬

    정보 메모이 옵션은 로드 설정에서 추가만을 선택한 경우에만 사용할 수 있습니다.

    선택적으로 Iceberg 테이블의 각 파일 내에서 데이터를 정렬할 열을 지정할 수 있습니다. 데이터 수집 중에 Iceberg는 이러한 열을 사용하여 레코드를 정렬합니다. 쿼리에서 자주 사용되는 열에 정렬 키를 정의하면 데이터 지역성이 향상되어 읽기 성능이 빨라지고 압축이 더 효율적으로 이루어집니다. 올바르게 구성된 정렬 키는 쿼리 성능을 위해 데이터가 최적으로 구성되도록 합니다.

    열 추가를 클릭하여 정렬 열을 추가한 다음 정렬 순서를 설정합니다.

  • 스냅샷 만료 기간

    이 설정은 스냅샷이 보존되는 기간을 제어하며, 이는 테이블 크기와 저장소 비용에 큰 영향을 미칩니다. 자주 업데이트되는 테이블의 경우 저장소 비용을 줄이는 데 도움이 되도록 기간을 짧게 설정하는 것이 좋습니다.

    정보 메모스냅샷 만료를 비활성화하려면 0을 입력합니다.
  • 표준 보기 헤더

    • 데이터 작업 설정에서 상속

      이것이 기본값입니다. 이 데이터 세트에 대해서만 특정 헤더 열을 설정하려면 비활성화합니다.

    • hdr__from_timestamp

      이 옵션을 활성화하면 표준 보기에 hdr__from_timestamp 헤더 열이 나타납니다. 또한 온보딩 마법사에서 이벤트 수집 날짜별 파티션을 선택하면 hdr__from_timestamp가 기본 파티션 열로 사용됩니다.

      정보 메모이 설정과 관계없이 기록 보기에는 항상 모든 표준 보기 헤더 열이 포함됩니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!