필드 수준 메타데이터 및 데이터 프로파일링 관리
데이터 관리자는 프로파일링에서 해당 데이터 집합에 대한 다양한 기술 정보에 액세스합니다. 앱 개발자는 프로필 통계 및 데이터 샘플링을 사용하여 앱 작성 및 시각화 계획에 대한 방향과 아이디어를 얻습니다. 필드 프로파일링을 통해 데이터 분석가 및 현업 사용자는 더 빠르게 통찰력을 얻을 수 있습니다. 먼저 앱을 만들 필요 없이 중요한 필드 프로필 메트릭을 한 눈에 보고 시각화할 수 있습니다. 필드 수준 메타데이터를 통해 사용자는 별칭, 설명 및 분류를 필드에 적용할 수 있습니다. 이러한 기능은 특정 데이터 및 중요한 필드를 식별하는 데 도움이 됩니다.
필드 수준 메타데이터 관리
필드 탭에서 데이터 집합의 모든 필드에 대한 메타데이터에 액세스하고 편집할 수 있습니다. 타일 보기에서 카드를 선택하거나, 목록 보기에서 행을 선택하거나, 데이터 보기에서 열을 선택하면 그리드 오른쪽에 해당 필드의 세부 정보 패널이 열립니다. 필드 수준 메타데이터 필드(필드 별칭, 설명, 태그 및 분류)는 선택 사항이며 이 패널에서 정의하고 편집할 수 있습니다.
세부 사항 | 설명 |
---|---|
필드 별칭 | 프로필 분석에서 필드 이름을 보다 의미 있게 만들려면 선택적 대체 이름을 입력합니다. 별칭 필드 이름은 프로필 분석에만 표시되며 기술 열 이름에는 영향을 주지 않습니다. |
설명 | 필드 메타데이터를 보고 필드에 대한 프로파일링을 수행하는 사용자에게 도움이 될 수 있는 정보를 입력합니다. |
태그 | 이 필드와 해당 데이터를 정의하고 분류하려면 텍스트 스니펫을 입력합니다. |
분류 | 개인 정보 또는 중요한 정보 확인란을 선택합니다. |
데이터 프로파일링
프로필 통계는 데이터 집합 내에서 발생하는 발생률, 범위 및 값을 측정하는 열 분석을 제공합니다. 이 척도는 다음과 같은 필드 값 간의 관계를 나타냅니다.
- 고유 값 개수(집합 크기)
- 샘플 값, 가장 일반적인 값 및 값 빈도
- 기본값 또는 잠재적 중복 값 식별 시 유용한 중복 수
- Null 값, 문자열 값 및 숫자 값 개수
- 최소, 최대, 평균, 합계 및 표준 편차를 비롯한 값 범위에 대한 정보
카탈로그에는 세 가지의 필드 프로필 데이터 보기가 제공됩니다. Tile view, List view 및 Data view의 세 가지 데이터 필드 유형이 있습니다.
Tile view는 그리드로 배치된 필드의 카드 기반 시각적 표현입니다.
List view는 테이블 형식의 구성 가능한 프로필 통계 요약입니다.
Table view는 데이터 집합의 처음 20개(최대) 레코드와 필드 열 이름을 나열합니다.
프로필 보기 간에 전환하려면 Tile, List 또는 데이터 아이콘을 선택합니다.
프로필 타일 보기
프로필 타일 보기는 해당 필드 유형의 가장 유용한 콘텐츠를 표시하도록 설계된 시각적 필드 프로필입니다. 표시되는 기본 보기 카드 유형은 해당 필드에 대해 숫자 또는 텍스트 값의 수가 더 높은지 여부에 따라 결정됩니다. 예를 들어 텍스트 값과 숫자 값이 모두 있는 필드의 경우 텍스트 값이 더 많으면 기본적으로 Most Common Values(가장 일반적인 값) 카드 유형이 표시되고 필드에 숫자 값이 더 많으면 Binned frequency(Bin 빈도) 숫자 분포 카드 유형이 표시됩니다. 이 선택된 경우 고유하지 않은 값이 있는 모든 필드에 대해 Most Common Values(가장 일반적인 값) 카드 유형으로 전환할 수 있도록 드롭다운 토글이 제공됩니다. 또는 Binned Frequency(Bin 빈도) 가 선택된 경우 숫자 분포 카드로 다시 전환할 수 있습니다. 필드에 NULL 값이 있는 경우 모든 카드 유형에는 NULL 값의 수가 포함됩니다.
Sample Values(샘플 값) 카드
모든 값이 고유하고 텍스트 전용인 경우 Sample Values(샘플 값) 카드가 표시됩니다. 처음 3개의 값 및 추가 고유 값의 총 수(최대)를 나열합니다.
샘플 값 프로필 기준: 집합 크기가 큰 경우(모든 고유 값) 필드 값이 이 카드로 프로파일링됩니다. 모든 값이 텍스트 기반이고 고유한 경우 몇 가지 샘플 값은 이러한 유형의 필드 데이터에 대한 최상의 초기 보기를 제공합니다.
각 Sample Values(샘플 값) 프로필 카드는 다음을 제공합니다.
- 필드 이름
- 집합 크기(고유 값)
- 최대 3개의 샘플 값(필드의 값이 3개 미만일 수 있음)
가장 일반적인 값 빈도 카드
가장 일반적인 값 빈도 카드에는 5개의 가장 일반적인 값과 해당 빈도가 표시됩니다. 고유한 값이 5개보다 많으면 결합되어 기타로 표시됩니다. 값이 누락된 필드가 있으면 합계가 Null로 표시됩니다. 이 프로필 카드는 텍스트, 숫자 또는 혼합 데이터 값에 적용할 수 있습니다.
가장 일반적인 값 빈도 기준: 값이 적거나 왜곡된 값 분포가 있는 필드는 가장 일반적인 값 빈도 카드로 프로파일링됩니다. 이 프로파일링은 동일한 값의 여러 인스턴스가 있는 경우에만 적용됩니다. 사용자는 필드 값의 배포에 대한 빠른 통찰력을 얻을 수 있습니다. 필드 데이터에 텍스트 및 숫자 값이 모두 포함되고 숫자 값보다 텍스트가 많은 경우에는 Most Common Values Frequency(가장 일반적인 값 빈도) 카드가 표시됩니다. 필드에 네 개 이상의 숫자 값이 있는 경우 Binned frequency(Bin 빈도) 설정/해제 기능이 제공됩니다.
각각의 Most Common Values Frequency(가장 일반적인 값 빈도) 프로필 카드는 다음을 제공합니다.
- 필드 이름
- 집합 크기(고유 값)
- 가장 일반적인 값과 해당 값의 빈도
- 나머지 값의 빈도를 결합한 기타
Binned frequency(Bin 빈도) 카드
Binned frequency(Bin 빈도) 카드는 최소, 평균 및 최대 데이터 값을 포함하여 숫자 필드와 관련된 배포 및 프로파일링 정보를 보여 줍니다. 필드 데이터에 텍스트 및 숫자 값이 모두 포함되고 텍스트 값보다 숫자가 많은 경우에는 Binned frequency(Bin 빈도) 카드가 표시됩니다. Most Common Values Frequency(가장 일반적인 값 빈도) 카드 유형은 고유하지 않은 값이 있는 모든 필드에 사용할 수 있습니다.
각 Binned frequency(Bin 빈도) 프로필 카드는 다음을 제공합니다.
- 필드 이름
- 집합 크기(고유 값)
- 숫자 데이터 분포를 보여 주는 히스토그램
- 최솟값
- 평균값(숫자의 합을 데이터 집합의 총 값 수로 나눈 값)
- 최댓값
프로필 목록 보기
프로필 목록 보기는 프로필 상태 옵션이 포함된 표를 제공합니다. 사용자는 테이블의 가장 오른쪽 끝까지 스크롤하여 찾을 수 있는 열 선택기 에서 데이터 집합에 가장 의미 있는 관심 있는 메트릭을 확인합니다. 기본적으로 처음 아홉 개 통계가 미리 선택되어 있습니다.
프로필 데이터 보기
프로필 데이터 보기는 데이터 집합을 필드 열 이름과 처음 20개(최대) 값이 포함된 일반 데이터 테이블로 표시합니다.
권한
데이터를 프로파일링하고 샘플링하려면 권한이 있어야 합니다. 데이터 소스를 프로파일링할 수 있는 데이터 집합 공간의 역할이 있어야 합니다. 자세한 내용은 공유 공간에서 권한 관리 또는 관리되는 공간에서 권한 관리를 참조하십시오.