스트리밍 레이크 랜딩 설정
다음 스트리밍 레이크 랜딩 작업 설정은 스트리밍 소스를 사용하는 Qlik 오픈 레이크하우스 프로젝트에 적용됩니다.
일반
사용할 폴더
스테이징 영역에 데이터를 랜딩할 때 사용할 폴더를 선택합니다.
-
기본 폴더
그러면 기본 이름이 <프로젝트 이름>/<데이터 작업 이름>인 폴더가 만들어집니다.
-
루트 폴더
저장소의 루트 폴더에 데이터를 저장합니다.
-
폴더
사용할 폴더 이름을 지정합니다.
폴더 보존
데이터를 보존할 기간을 선택합니다.
-
데이터 및 메타데이터가 삭제되지 않음: 데이터 또는 메타데이터가 삭제되지 않습니다.
-
보존 기간이 지난 후 데이터 및 메타데이터 삭제: 보존 기간이 지나면 데이터 및 메타데이터가 삭제됩니다.
-
보존 기간이 지나면 메타데이터를 삭제합니다. 데이터는 외부 시스템에 의해 삭제됩니다.이 기간이 지나면 데이터는 영구적으로 삭제됩니다. 메타데이터는 제거되지만, 예를 들어 S3 개체와 같은 기본 데이터는 Qlik에 의해 삭제되지 않습니다.
데이터 읽기 대상
데이터를 수집할 시기를 선택합니다.
-
지금부터 시작
파이프라인이 시작될 때 도착하는 이벤트만 수집합니다.
-
가장 빠른 이벤트부터 시작 (기본값)
모든 기록 데이터를 수집합니다.
콘텐츠 유형
예를 들어 JSON 또는 CSV와 같이 목록에서 파일 형식을 선택합니다. 이것은 작업을 다시 생성하여 작업이 실행된 후에 변경할 수 있습니다. 각 파일 형식에 대한 자세한 내용은 콘텐츠 유형을 참조하십시오.
스키마 진화
새 토픽/스트림새 스트림/토픽을 처리하는 방법을 선택합니다.
-
대상에 추가: 모든 테이블을 단일 대상 테이블로 로드하는 경우 새 데이터가 이 테이블에 추가됩니다. 각 토픽을 다른 데이터 세트로 로드하는 경우 새 토픽이 새 데이터 세트에 추가됩니다.
-
무시: 새 데이터가 대상에 추가되지 않습니다.
런타임
읽기 프로그램 수
-
Apache Kafka: 사용할 리더 수를 선택합니다. 값은 1에서 1,000 사이여야 합니다.
-
Amazon Kinesis: 스트림 샤드 수를 선택합니다.
-
Amazon S3: 이 설정은 S3 스트리밍 소스에는 적용되지 않습니다.
레이크하우스 클러스터
스트리밍 클러스터를 선택합니다. 스트리밍 랜딩 작업과 스트리밍 변환 작업은 동일한 클러스터에 있을 필요는 없지만, 동일한 네트워크 통합에 있어야 합니다.
콘텐츠 유형
다음 설정은 각 파일 형식에 적용됩니다.
-
JSON
-
달리 정의되지 않은 경우 기본 파일 형식입니다.
-
-
CSV 및 TSV
-
첫 번째 행에 헤더 포함: 첫 번째 행에 헤더 레코드가 포함되어 있음을 지정하기 위해 기본적으로 선택됩니다.
-
헤더 행(선택 사항): 첫 번째 행이 헤더가 아닌 경우 헤더 이름을 정의합니다.
-
구분 기호: 기본 구분 기호가 아닌 경우 기본 구분 기호를 선택합니다(CSV의 경우 쉼표, TSV의 경우 탭).
-
인용 부호 이스케이프 문자: 기본적으로 정의된 대로 이중 인용 부호가 아닌 경우 기본 인용 부호 이스케이프 문자를 선택합니다.
-
Null 값(선택 사항): 대체 null 값을 입력합니다.
-
중복 헤더 허용: 두 개의 열 이름이 같으면 두 번째 열은 다른 이름으로 추가됩니다.
-
-
Parquet, Avro 및 ORC
-
추가 설정은 구성할 필요가 없습니다.
-
-
정규식
-
패턴: 정규식 패턴을 입력합니다.
-
여러 줄: 기본적으로 선택됩니다.
-
-
줄 분할:
-
정규식: 분할할 정규식을 입력합니다.
-