기본 콘텐츠로 건너뛰기

데이터 프로파일링

이 페이지에서

데이터 프로파일링

프로필 통계는 데이터 집합 내에서 발생하는 발생률, 범위 및 값을 측정하는 열 분석을 제공합니다. 이 척도는 다음과 같은 필드 값 간의 관계를 나타냅니다.

  • 고유 값 개수(집합 크기)
  • 샘플 값, 가장 일반적인 값 및 값 빈도
  • 기본값 또는 잠재적 중복 값 식별 시 유용한 중복 수
  • Null 값, 문자열 값 및 숫자 값 개수
  • 최소, 최대, 평균, 합계 및 표준 편차를 비롯한 값 범위에 대한 정보

데이터 관리자는 프로파일링에서 해당 데이터 집합에 대한 다양한 기술 정보에 액세스합니다. 이 정보를 통해 리소스 및 액세스를 구성 및 할당할 수 있습니다. 앱 개발자는 프로필 통계 및 데이터 샘플링을 사용하여 앱 작성 및 시각화 계획에 대한 방향과 아이디어를 얻습니다. 필드 프로파일링을 통해 데이터 분석가 및 현업 사용자는 더 빠르게 통찰력을 얻을 수 있습니다. 앱을 먼저 만들 필요 없이 유용한 필드 프로필 척도를 보고 시각화할 수 있습니다.

Catalog provides two different views of field profile data: List view and Tile view. List view is a tabular summary of configurable profile statistics and Tile view is a card-based, visual representation of fields laid out as a grid. Select the Tile Select tile icon for tile view or List Select list icon for list view icon to switch between profile views.

타일 보기: 필드는 해당 필드에 포함된 데이터 유형에 대해 의미 있는 척도로 프로파일링됩니다(예: 텍스트 및 숫자 값).

프로필 타일 보기

목록 보기 드롭다운에서 관심 있는 프로필 통계를 선택합니다.

프로필 목록 보기

프로필 타일 보기

프로필 타일 보기는 해당 필드 유형의 가장 유용한 콘텐츠를 표시하도록 설계된 시각적 필드 프로필입니다. 표시되는 기본 보기 카드 유형은 해당 필드에 대해 숫자 또는 텍스트 값의 수가 더 높은지 여부에 따라 결정됩니다. 예를 들어 텍스트 값과 숫자 값이 모두 있는 필드의 경우 텍스트 값이 더 많으면 기본적으로 Most Common Values(가장 일반적인 값) 카드 유형이 표시되고 필드에 숫자 값이 더 많으면 Binned frequency(Bin 빈도) 숫자 분포 카드 유형이 표시됩니다. A가 선택된 경우 고유하지 않은 값이 있는 모든 필드에 대해 Most Common Values(가장 일반적인 값 빈도) 카드 유형으로 전환할 수 있도록 드롭다운 토글이 제공됩니다. 또는 #1이 선택된 경우 숫자 분포 카드로 다시 전환할 수 있습니다. 필드에 NULL 값이 있는 경우 모든 카드 유형에는 NULL 값의 수가 포함됩니다.

타일 보기 카드: Binned frequency(Bin 빈도) 숫자 분포, Sample Values(샘플 값)Most Common Values Frequency(가장 일반적인 값 빈도)

타일 보기 프로필 카드

Sample Values(샘플 값) 카드

모든 값이 고유하고 텍스트 전용인 경우 Sample Values(샘플 값) 카드가 표시됩니다. 처음 세 개의 값(최대)을 나열합니다.

Sample Values(샘플 값) 프로필 카드
프로필 카드 샘플 값

Sample Values(샘플 값) 프로필 기준: 집합 크기가 큰 경우(모든 고유 값) 필드 값이 이 카드로 프로파일링됩니다. 모든 값이 텍스트 기반이고 고유한 경우 몇 가지 샘플 값은 이러한 유형의 필드 데이터에 대한 최상의 초기 보기를 제공합니다.

Sample Values(샘플 값) 프로필 카드는 다음을 제공합니다. 

  • 필드 이름
  • 집합 크기
  • 최대 3개의 샘플 값(필드의 값이 3개 미만일 수 있음)

Most Common Values Frequency(가장 일반적인 값 빈도) 카드

Most Common Values Frequency(가장 일반적인 값 빈도) 카드에는 가장 일반적인 두 개의 값과 해당 값의 빈도 및 기타로 결합된 다른 모든 값이 표시됩니다(세 값 모두가 각 값의 빈도와 함께 표시되는 경우는 제외). 이 프로필 카드는 텍스트, 숫자 또는 혼합 데이터 값에 적용할 수 있습니다.

텍스트 값이 있는 Most Common Values Frequency(가장 일반적인 값 빈도) 프로필 카드
프로필 카드 가장 일반적인 값 빈도
숫자 값이 있는 Most Common Values Frequency(가장 일반적인 값 빈도) 프로필 카드
프로필 카드 가장 일반적인 값

Most Common Values Frequency(가장 일반적인 값 빈도) 기준: 값이 적거나 왜곡된 값 배포가 있는 필드는 Most Common Values Frequency(가장 일반적인 값 빈도) 카드에 대해 프로파일링됩니다. 이 프로파일링은 동일한 값의 여러 인스턴스가 있는 경우에만 적용됩니다. 사용자는 필드 값의 배포에 대한 빠른 통찰력을 얻을 수 있습니다. 필드 데이터에 텍스트 및 숫자 값이 모두 포함되고 숫자 값보다 텍스트가 많은 경우에는 Most Common Values Frequency(가장 일반적인 값 빈도) 카드가 표시됩니다. 필드에 네 개 이상의 숫자 값이 있는 경우 Binned frequency(Bin 빈도) 설정/해제 기능이 제공됩니다.

각각의 Most Common Values Frequency(가장 일반적인 값 빈도) 프로필 카드는 다음을 제공합니다. 

  • 필드 이름
  • 집합 크기
  • 가장 일반적인 값과 해당 값의 빈도
  • 나머지 값의 빈도를 결합한 기타

Binned frequency(Bin 빈도)카드

Binned frequency(Bin 빈도) 카드는 최소, 평균 및 최대 데이터 값을 포함하여 숫자 필드와 관련된 배포 및 프로파일링 정보를 보여 줍니다. 필드 데이터에 텍스트 및 숫자 값이 모두 포함되고 텍스트 값보다 숫자가 많은 경우에는 Binned frequency(Bin 빈도) 카드가 표시됩니다. Most Common Values Frequency(가장 일반적인 값 빈도) 카드 유형은 고유하지 않은 값이 있는 모든 필드에 사용할 수 있습니다.

Binned frequency(Bin 빈도) 프로필 카드

프로필 카드 Bin 빈도

Binned frequency(Bin 빈도) 프로필 카드는 다음을 제공합니다. 

  • 필드 이름
  • 집합 크기
  • 숫자 데이터 분포를 보여 주는 히스토그램
  • 최솟값
  • 평균값(숫자의 합을 데이터 집합의 총 값 수로 나눈 값)
  • 최댓값

프로필 목록 보기

프로필 목록 보기는 프로필 상태 옵션이 포함된 표를 제공합니다. 사용자는 Columns에서 프로파일링되는 데이터 집합의 가장 의미 있는 관심 척도를 확인합니다. 기본적으로 처음 아홉 개 통계가 미리 선택되어 있습니다.

허브 탭에서 내 데이터로 이동합니다. 또는 카탈로그에서 유형을 필터링합니다. 데이터

  1. 데이터 집합 열기를 선택한 다음 데이터 프로파일링을 선택합니다. 이렇게 하면 데이터 집합에 대한 프로필 페이지가 열립니다. 버튼을 선택하고 관심 있는 프로필 통계 옆의 확인 표시를 클릭합니다. 필드(열)를 프로파일링하여 표로 나타내려면 이러한 통계를 선택(옆에 있는 확인 표시)해야 합니다. 사용 가능한 프로필 통계는 다음과 같습니다.

    프로필 통계
    통계 설명
    이름 필드 이름(예: CategoryID)
    데이터 유형

    Qlik Sense는 서로 다른 여러 시스템에서 데이터를 등록합니다. 정보 제공을 위해 필드(열) 데이터에 외부에서 내부로의 균일한 데이터 유형 매핑이 적용됩니다. 지원되는 데이터 유형 값은 다음과 같습니다.

    • 날짜: 월, 일, 연도가 포함된 날짜(YYYY-MM-DD의 ISO 8601 형식)

    • 시간: 시간, 분, 초가 포함된 시간 값(hh.mm.ss.sss±hh:mm의 ISO 8601 형식)
    • 날짜/시간: 연도, 월, 일, 시간, 분, 초 및 백분초가 포함된 날짜 시간 값(YYYY-MM-DDThh.mm.ss.sss 형식)
    • 타임스탬프: 연도, 월, 일, 시간, 분, 초, 백분초 및 시간대가 포함된 타임스탬프 값(YYYY-MM-DDThh.mm.ss.sssZ 형식)
    • 문자열: 텍스트를 나타내는 문자 데이터
    • 더블: 배정밀도 64비트 IEEE 754 부동 소수점의 숫자 데이터 유형
    • 10진수: 정밀도(전체 자릿수) 및 척도(소수점 오른쪽의 자릿수)로 정의되는 정확한 숫자 데이터 유형
    • 정수: 양의 정수 또는 음의 정수
    • 부울: 부울 값(TRUE/FALSE)
    • 이진: 정확하게 두 개의 가능한 값(예: "1"과 "2")을 취할 수 있는 범주 데이터
    • 사용자 지정: 매핑된 시스템에서 알려지지 않은 유형
    고유 값 집합 크기, 이 필드에 존재하는 고유 값의 수
    샘플 값 샘플 값(3개의 샘플 값 표시)
    합계 이 필드의 모든 값의 합계(문자열 필드의 경우 "0" 표시)
    최소 이 필드(숫자 필드)에서 관찰된 최솟값
    최대 이 필드(숫자 필드)에서 관찰된 최댓값
    평균 이 필드에서 관찰된 평균 값
    시스템 태그 코드 집합을 식별하기 위해 적용된 파일 태그(예: $ascii, $text)
    표준 편차 숫자 필드에 대한 표준 편차
    양수 양의 값 수
    음수 음의 값 수
    0 값 "0" 값 수
    빈 문자열 빈 문자열 수
    최소 길이 관찰된 최저 문자 길이
    평균 길이 관찰된 평균 문자 길이
    최대 길이 관찰된 최고 문자 길이
    첫 번째 정렬 값 정렬 가중치(문자열 필드)의 첫 번째(최저) 값
    마지막으로 정렬된 값 정렬 가중치(문자열 필드)의 마지막(최고) 값
    숫자 값 숫자 값 수
    텍스트 값 텍스트 값 수
    Most frequent values(가장 빈번한 값) 필드에서 가장 일반적인 세 가지 값

데이터 샘플링

데이터 샘플은 인구 데이터 집합의 하위 집합입니다. 데이터 관리자가 데이터가 예상 패턴 및 형식을 준수하는지 확인하는 데 유용한 도구입니다. 앱 작성자는 다른 레코드 및 데이터 집합의 컨텍스트 내에서 필드 및 필드 데이터를 확인할 수 있습니다. 이러한 뷰는 데이터의 개요를 제공하며 개발자는 분석 및 잠재적 상관 관계를 파악하기 위해 데이터를 탐색할 수 있습니다.

데이터 샘플을 선택하면 각 필드에 대한 처음 20개 데이터 값의 샘플을 볼 수 있습니다.

데이터 집합 엔진 샘플
  • 아이콘 드롭다운 화살표 버튼을 선택한 다음 샘플을 선택하면 각 필드에 대한 데이터 값의 샘플(n=20)을 볼 수 있습니다.

권한

데이터를 프로파일링하고 샘플링하려면 권한이 있어야 합니다. 데이터를 프로파일링하는 작업은 보다 광범위한 권한인 데이터 소스 프로파일링에 매핑됩니다. 자세한 내용은 공유 공간에서 권한 관리 또는 관리되는 공간에서 권한 관리를 참조하십시오.

  • 데이터 프로파일링 > 데이터 소스 프로파일링