필드 수준 메타데이터 및 데이터 프로파일링 관리

데이터 관리자는 프로파일링에서 해당 데이터 집합에 대한 다양한 기술 정보에 액세스합니다. 앱 개발자는 프로필 통계 및 데이터 샘플링을 사용하여 앱 작성 및 시각화 계획에 대한 방향과 아이디어를 얻습니다. 필드 프로파일링을 통해 데이터 분석가 및 현업 사용자는 더 빠르게 통찰력을 얻을 수 있습니다. 먼저 앱을 만들 필요 없이 중요한 필드 프로필 메트릭을 한 눈에 보고 시각화할 수 있습니다. 필드 수준 메타데이터를 통해 사용자는 별칭, 설명 및 분류를 필드에 적용할 수 있습니다. 이러한 기능은 특정 데이터 및 중요한 필드를 식별하는 데 도움이 됩니다.

Qlik Cloud는 데이터 집합에서 최대 1,200만 행까지만 프로파일링합니다. 데이터 집합이 1,200만 행을 초과하는 경우 처음 1,200만 행만 프로파일링됩니다. 프로파일링된 행 수에 관계없이 모든 필드의 메타데이터가 계속 추가됩니다.

필드 수준 메타데이터 관리

필드 탭에서 데이터 집합의 모든 필드에 대한 메타데이터에 액세스하고 편집할 수 있습니다. 타일 보기를 위한 타일 아이콘 선택 타일 보기에서 카드를 선택하거나, 목록 보기를 위한 목록 아이콘 선택 목록 보기에서 행을 선택하거나, 데이터 보기에서 열을 선택하면 그리드 오른쪽에 해당 필드의 세부 정보 패널이 열립니다. 필드 수준 메타데이터 필드(필드 별칭, 설명, 태그 및 분류)는 선택 사항이며 이 패널에서 정의하고 편집할 수 있습니다.

필드 메타데이터 필드
세부 사항	설명
필드 별칭	프로필 분석에서 필드 이름을 보다 의미 있게 만들려면 선택적 대체 이름을 입력합니다. 별칭 필드 이름은 프로필 분석에만 표시되며 기술 열 이름에는 영향을 주지 않습니다.
설명	필드 메타데이터를 보고 필드에 대한 프로파일링을 수행하는 사용자에게 도움이 될 수 있는 정보를 입력합니다.
태그	이 필드와 해당 데이터를 정의하고 분류하려면 텍스트 스니펫을 입력합니다.
분류	개인 정보 또는 중요한 정보 확인란을 선택합니다.

선택한 필드 수준 분류 개인 정보 및 중요한 정보는 기술 데이터 집합 메타데이터 아래 필드별로 나열된 데이터 집합 개요 탭에 나타납니다.

여러 시트가 있는 Excel 파일의 필드에 적용된 분류는 시트 이름과 필드 이름과 함께 나열됩니다(예: 개인 정보: Sheet1/EmpID).

타일 보기에서 필드 카드를 선택하여 세부 정보 패널 열기 — 여러 시트가 있는 XLSX 파일의 필드 수준 메타데이터

데이터 프로파일링

프로필 통계는 데이터 집합 내에서 발생하는 발생률, 범위 및 값을 측정하는 열 분석을 제공합니다. 이 척도는 다음과 같은 필드 값 간의 관계를 나타냅니다.

고유 값 개수(집합 크기)
샘플 값, 가장 일반적인 값 및 값 빈도
기본값 또는 잠재적 중복 값 식별 시 유용한 중복 수
Null 값, 문자열 값 및 숫자 값 개수
최소, 최대, 평균, 합계 및 표준 편차를 비롯한 값 범위에 대한 정보

카탈로그에는 세 가지의 필드 프로필 데이터 보기가 제공됩니다. Tile view, List view 및 Data view의 세 가지 데이터 필드 유형이 있습니다.

Tile view는 그리드로 배치된 필드의 카드 기반 시각적 표현입니다.

List view는 테이블 형식의 구성 가능한 프로필 통계 요약입니다.

Table view는 데이터 집합의 처음 20개(최대) 레코드와 필드 열 이름을 나열합니다.

프로필 보기 간에 전환하려면 Tile 타일 보기를 위한 타일 아이콘 선택 , List 목록 보기를 위한 목록 아이콘 선택 또는 데이터 아이콘을 선택합니다.

프로필 타일 보기

프로필 타일 보기는 해당 필드 유형의 가장 유용한 콘텐츠를 표시하도록 설계된 시각적 필드 프로필입니다. 표시되는 기본 보기 카드 유형은 해당 필드에 대해 숫자 또는 텍스트 값의 수가 더 높은지 여부에 따라 결정됩니다. 예를 들어 텍스트 값과 숫자 값이 모두 있는 필드의 경우 텍스트 값이 더 많으면 기본적으로 Most Common Values(가장 일반적인 값) 카드 유형이 표시되고 필드에 숫자 값이 더 많으면 Binned frequency(Bin 빈도) 숫자 분포 카드 유형이 표시됩니다. 아이콘 가장 일반적인 값 이 선택된 경우 고유하지 않은 값이 있는 모든 필드에 대해 Most Common Values(가장 일반적인 값) 카드 유형으로 전환할 수 있도록 드롭다운 토글이 제공됩니다. 또는 Binned Frequency(Bin 빈도) 아이콘 Bin 빈도 가 선택된 경우 숫자 분포 카드로 다시 전환할 수 있습니다. 필드에 NULL 값이 있는 경우 모든 카드 유형에는 NULL 값의 수가 포함됩니다.

Sample Values(샘플 값) 카드

모든 값이 고유하고 텍스트 전용인 경우 Sample Values(샘플 값) 카드가 표시됩니다. 처음 3개의 값 및 추가 고유 값의 총 수(최대)를 나열합니다.

샘플 값 프로필 기준: 집합 크기가 큰 경우(모든 고유 값) 필드 값이 이 카드로 프로파일링됩니다. 모든 값이 텍스트 기반이고 고유한 경우 몇 가지 샘플 값은 이러한 유형의 필드 데이터에 대한 최상의 초기 보기를 제공합니다.

각 Sample Values(샘플 값) 프로필 카드는 다음을 제공합니다.

필드 이름
집합 크기(고유 값)
최대 3개의 샘플 값(필드의 값이 3개 미만일 수 있음)

가장 일반적인 값 빈도 카드

가장 일반적인 값 빈도 카드에는 5개의 가장 일반적인 값과 해당 빈도가 표시됩니다. 고유한 값이 5개보다 많으면 결합되어 기타로 표시됩니다. 값이 누락된 필드가 있으면 합계가 Null로 표시됩니다. 이 프로필 카드는 텍스트, 숫자 또는 혼합 데이터 값에 적용할 수 있습니다.

타일 가장 일반적인 값 빈도 — 타일 보기 카드: 가장 일반적인 값 빈도

가장 일반적인 값 빈도 기준: 값이 적거나 왜곡된 값 분포가 있는 필드는 가장 일반적인 값 빈도 카드로 프로파일링됩니다. 이 프로파일링은 동일한 값의 여러 인스턴스가 있는 경우에만 적용됩니다. 사용자는 필드 값의 배포에 대한 빠른 통찰력을 얻을 수 있습니다. 필드 데이터에 텍스트 및 숫자 값이 모두 포함되고 숫자 값보다 텍스트가 많은 경우에는 Most Common Values Frequency(가장 일반적인 값 빈도) 카드가 표시됩니다. 필드에 네 개 이상의 숫자 값이 있는 경우 Binned frequency(Bin 빈도) 설정/해제 기능이 제공됩니다.

각각의 Most Common Values Frequency(가장 일반적인 값 빈도) 프로필 카드는 다음을 제공합니다.

필드 이름
집합 크기(고유 값)
가장 일반적인 값과 해당 값의 빈도
나머지 값의 빈도를 결합한 기타

Binned frequency(Bin 빈도) 카드

Binned frequency(Bin 빈도) 카드는 최소, 평균 및 최대 데이터 값을 포함하여 숫자 필드와 관련된 배포 및 프로파일링 정보를 보여 줍니다. 필드 데이터에 텍스트 및 숫자 값이 모두 포함되고 텍스트 값보다 숫자가 많은 경우에는 Binned frequency(Bin 빈도) 카드가 표시됩니다. Most Common Values Frequency(가장 일반적인 값 빈도) 카드 유형은 고유하지 않은 값이 있는 모든 필드에 사용할 수 있습니다.

Bin 빈도 타일 — 타일 보기 카드: Binned Frequency(Bin 빈도) 숫자 분포

각 Binned frequency(Bin 빈도) 프로필 카드는 다음을 제공합니다.

필드 이름
집합 크기(고유 값)
숫자 데이터 분포를 보여 주는 히스토그램
최솟값
평균값(숫자의 합을 데이터 집합의 총 값 수로 나눈 값)
최댓값

프로필 목록 보기

프로필 목록 보기는 프로필 상태 옵션이 포함된 표를 제공합니다. 사용자는 테이블의 가장 오른쪽 끝까지 스크롤하여 찾을 수 있는 열 선택기 아이콘 열 에서 데이터 집합에 가장 의미 있는 관심 있는 메트릭을 확인합니다. 기본적으로 처음 아홉 개 통계가 미리 선택되어 있습니다.

필드 프로필 통계
통계	설명
이름	필드 이름(예: CategoryID)
데이터 유형	Qlik Sense는 서로 다른 여러 시스템에서 데이터를 등록합니다. 정보 제공을 위해 필드(열) 데이터에 외부에서 내부로의 균일한 데이터 유형 매핑이 적용됩니다. 지원되는 데이터 유형 값은 다음과 같습니다. 날짜:월, 일, 연도가 포함된 날짜(YYYY-MM-DD의 ISO 8601 형식) 시간: 시간, 분, 초가 포함된 시간 값(hh.mm.ss.sss±hh:mm의 ISO 8601 형식) Datetime: 연도, 월, 일, 시간, 분, 초 및 백분초가 포함된 날짜 시간 값(YYYY-MM-DDThh.mm.ss.sss 형식) 타임스탬프: 연도, 월, 일, 시간, 분, 초, 백분초 및 시간대가 포함된 타임스탬프 값(YYYY-MM-DDThh.mm.ss.sssZ 형식) 문자열: 텍스트를 나타내는 문자 데이터 Double: 배정밀도 64비트 IEEE 754 부동 소수점의 숫자 데이터 유형 10진수: 정밀도(전체 자릿수) 및 척도(소수점 오른쪽의 자릿수)로 정의되는 정확한 숫자 데이터 유형 정수: 양의 정수 또는 음의 정수 Boolean: 부울 값(TRUE/FALSE) 이진: 정확하게 두 개의 가능한 값(예: "1"과 "2")을 취할 수 있는 범주 데이터 사용자 지정: 매핑된 시스템에서 알려지지 않은 유형
고유 값	집합 크기, 이 필드에 존재하는 고유 값의 수
Null 값	Null 값 수
샘플 값	샘플 값(3개의 샘플 값 표시)
합계	이 필드의 모든 값의 합계(문자열 필드의 경우 "0" 표시)
최소	이 필드(숫자 필드)에서 관찰된 최솟값
최대	이 필드(숫자 필드)에서 관찰된 최댓값
평균	이 필드에서 관찰된 평균 값
중앙값	이 필드의 숫자 배열에서 중앙(또는 중간) 숫자
시스템 태그	코드 집합을 식별하기 위해 적용된 파일 태그(예: $ascii, $text)
표준 편차	숫자 필드에 대한 표준 편차
양수	양의 값 수
음수	음의 값 수
0 값	"0" 값 수
빈 문자열	빈 문자열 수
최소 길이	관찰된 최저 문자 길이
평균 길이	관찰된 평균 문자 길이
최대 길이	관찰된 최고 문자 길이
첫 번째 정렬 값	정렬 가중치(문자열 필드)의 첫 번째(최저) 값
마지막으로 정렬된 값	정렬 가중치(문자열 필드)의 마지막(최고) 값
숫자 값	숫자 값 수
텍스트 값	텍스트 값 수
Most frequent values(가장 빈번한 값)	필드에서 가장 일반적인 세 가지 값

프로필 데이터 보기

프로필 데이터 보기는 데이터 집합을 필드 열 이름과 처음 20개(최대) 값이 포함된 일반 데이터 테이블로 표시합니다.

권한

데이터를 프로파일링하고 샘플링하려면 권한이 있어야 합니다. 데이터 소스를 프로파일링할 수 있는 데이터 집합 공간의 역할이 있어야 합니다. 자세한 내용은 공유 공간에서 권한 관리 또는 관리되는 공간에서 권한 관리를 참조하십시오.

자세한 정보

데이터 카탈로그를 사용하여 데이터를 프로파일링하려면 어떻게 해야 합니까?

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!

여기에 피드백을 남겨주십시오.