Apache Parquet 파일 작업
Apache Parquet는 용량 데이터 집합을 저장하고 쿼리하는 데 매우 효율적인 열 기반 저장소 형식입니다. Qlik Sense에서 Parquet 파일의 데이터를 읽고 테이블을 Parquet 파일로 저장할 수 있습니다.
Parquet를 사용하면 전체 테이블을 읽는 대신 테이블의 특정 열을 효율적으로 쿼리할 수 있습니다. 따라서 빅 데이터 처리로 사용하기에 적합합니다. 또한 Parquet는 효율적인 데이터 압축 및 인코딩을 지원합니다. 이렇게 하면 저장소 공간을 더욱 줄이고 쿼리 성능을 향상시킬 수 있습니다.
Parquet 파일 만들기
스크립트에서 저장 명령을 사용하여 Parquet 파일을 만들 수 있습니다. 이전에 읽은 테이블 또는 그 일부를 선택한 위치의 명시적으로 명명한 파일로 내보내도록 스크립트에 명시합니다. Parquet 파일의 데이터에 저장된 데이터를 중첩할 수 있습니다.
자세한 내용은 Store를 참조하십시오.
Parquet 파일에서 데이터 읽기
Qlik Sense에서 지원하는 다른 데이터 파일과 마찬가지로 Parquet 파일에서 데이터를 읽을 수 있습니다. 여기에는 데이터 관리자, 데이터 로드 편집기 또는 새 앱에 데이터를 추가하는 경우가 포함됩니다.
자세한 내용은 파일에서 데이터 로드을 참조하십시오.
LOAD 명령을 사용하여 데이터 로드 스크립트의 Parquet 파일에서 데이터를 로드할 수도 있습니다. 예:
자세한 내용은 Load를 참조하십시오.
중첩된 Parquet 파일에서 데이터 로드
Parquet 파일에 중첩된 데이터가 포함되어 있는 경우 각 테이블에 로드해야 하는 하위 집합을 각각 지정하는 여러 개의 LOAD 문으로 로드해야 합니다. Table is 지정자는 로드할 스키마의 그룹 노드에 대한 경로를 증명하는 데 사용됩니다.
Delimiter is 지정자를 사용하여 노드 결합 방법을 지정할 수 있습니다. 구분 기호가 포함되지 않은 중첩 데이터가 있는 파일을 로드하는 LOAD 문은 스크립트 변수 FieldNameDelimiter에 지정된 값을 사용합니다. 구분 기호가 제공되지 않고 FieldNameDelimiter가 설정되지 않은 경우 기본 구분 기호는 '.'입니다.
Table is 경로와 일치하는 노드만 로드됩니다.
데이터 노드는 중첩되지 않고 파일에 로드됩니다.
그룹 노드는 필드 이름에 해당 이름을 추가하여 그룹의 필드를 그룹화합니다. 예를 들어, field1과 field2가 있는 그룹은 group.field1과 group.field2로 로드됩니다.
목록 노드는 테이블을 연결하는 데 사용되는 키 필드를 생성합니다. 예: %Key_group.list. 목록 내의 모든 그룹 또는 데이터 노드는 별도의 LOAD 문에 로드되어야 합니다. 상위 목록에 대한 키 필드도 추가됩니다.
다음 예에서는 중첩된 데이터를 Parquet 파일에 저장의 예에서 만들어지고 데이터 관리자 및 데이터 로드 편집기(데이터 선택의 기본 스크립팅 및 사용자 지정 스크립팅 사용)을 사용하여 앱에 로드된 동일한 중첩 Parquet 파일을 보여 줍니다.
데이터 관리자
데이터 관리자에 customer.parquet를 로드하고 모든 권장 연결을 적용하면 다음과 같은 데이터 모델이 생성됩니다.
데이터 로드 편집기(데이터 선택)
데이터 로드 편집기에서 데이터 선택을 사용하여 데이터를 로드하면 다음 스크립트가 생성됩니다.
데이터 모델 뷰어에서 데이터 모델은 다음과 같이 표시됩니다.
데이터 로드 편집기(사용자 지정 로드 스크립트)
사용자 지정 로드 스크립트를 사용하면 customer.parquet에서 필드와 테이블이 로드되는 방식을 더 효과적으로 제어할 수 있습니다. 다음 로드 스크립트는 company.parquet에서 테이블과 필드를 로드합니다.
그 결과 다음과 같은 데이터 모델이 생성되는데, 이는 데이터가 Parquet 파일에 저장되기 전의 원본 데이터 모델과 동일합니다.
제한 사항
Parquet 파일에는 다음과 같은 제한 사항이 있습니다.
-
int96 타임스탬프 필드가 포함된 Parquet 파일은 올바르게 로드되지 않을 수 있습니다.
Int96은 표준 시간대 정보가 없는 타임스탬프를 포함하는 더 이상 사용되지 않는 데이터 유형입니다. 필드를 UTC로 읽으려고 시도하지만 공급업체 구현이 다르기 때문에 성공을 보장할 수 없습니다.
로드된 데이터를 확인하고 필요한 경우 오프셋을 사용하여 올바른 표준 시간대에 맞게 조정합니다.