기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

데이터 품질 및 데이터 검색

데이터 집합을 연 후 개요의 여러 부분을 살펴보고 전반적인 품질, 스키마, 품질 통계 및 각 열의 의미 유형에 대해 자세히 알아볼 수 있습니다.

데이터 집합의 품질 표시기

방금 등록한 데이터 집합의 개요를 열면 대부분의 정보가 회색으로 표시됩니다. 처음으로 데이터 품질을 계산하려면 계산 버튼을 클릭합니다. 품질이 이미 한 번 계산되었지만 데이터를 최신 상태로 유지하려면 새로 고침 버튼을 클릭합니다.

푸시다운에서 컴퓨팅이나 새로 고침을 할 때마다 Snowflake 크레딧이 소모됩니다. 자세한 내용은 Data quality for connection-based datasets을 참조하십시오.

품질이 표시되는 두 가지 주요 섹션이 있습니다.

  • 데이터 품질 영역에는 다음이 포함됩니다.

    • 세 가지 색과 해당 비율이 포함된 품질 막대 형태로 전체 데이터 집합에서 유효한 값, 잘못된 값, 빈 값을 다시 분할합니다.

    • 빈 값을 고려하지 않고 유효한 값의 비율을 나타내는 유효성 점수입니다.

    • 비어 있지 않은 값의 비율을 나타내는 완성도 점수입니다.

    • 새로 고침 시간은 데이터 소스의 마지막 업데이트를 나타냅니다. 자세한 내용은 데이터 최신성을 참조하십시오.

  • 데이터 유형 또는 의미 유형이 적용된 데이터 집합의 다양한 필드와 데이터 집합의 각 필드에 대한 품질 막대를 표시하는 스키마 영역입니다.

팁 메모연결 기반 데이터 집합의 경우 데이터 집합의 스키마와 품질을 검색하지 못하면 Qlik 분석 서비스 허브에서 설정한 연결에 역할 필드가 제대로 채워져 있는지 또는 역할 자체가 데이터베이스 테이블에 필요한 권한을 부여하는지 확인합니다.

의미 유형 검색

데이터 집합의 각 필드에는 콘텐츠를 더 잘 설명하기 위해 의미 유형이 자동으로 할당됩니다. 할당할 유형을 결정하기 위해 데이터 검색 작업이 뒤에서 발생합니다.

데이터 검색에서는 열의 값이 각 의미 유형과 일치하는 수를 계산하고, 결과가 40%보다 크면 해당 의미 유형을 열에 할당합니다.

백분율은 어떻게 계산됩니까?

이 백분율은 두 백분율의 합입니다.

  • 1%는 의미 유형과 일치하는 값의 수를 나타냅니다. 최대 100% 할당됩니다. 값이 의미 유형과 일치하는지 결정하기 위해 데이터 검색은 의미 유형의 유형에 따라 달라집니다.

    • 사전: 값이 사전의 값과 일치합니까? 구두점, 대/소문자, 공백 및 악센트는 무시됩니다.

    • 정규식: 값이 정규식과 일치합니까?

    • 복합: 값이 적어도 한 자식으로 검색됩니까?

      복합 유형은 자식이라고 불리는 기존 의미 유형의 그룹입니다.

    대답이 긍정적이면 값이 유효한 것으로 간주됩니다.

  • 다른 백분율은 열 이름과 의미 유형 이름 간의 유사성을 나타냅니다. 최대 10%까지 할당됩니다.

    이름을 비교하려면:

    • Levenshtein 알고리즘이 사용됩니다. 한 문자열을 다른 문자열로 변환하는 데 필요한 최소 편집 횟수(삽입, 삭제 또는 대체)를 계산합니다.

    • 대/소문자와 악센트는 무시됩니다.

    • 문자열에 공백이 포함되어 있으면 단어 순서가 무시됩니다. 예를 들어, US Phone과 Phone US는 동일한 것으로 간주됩니다.

    최대 백분율은 100%입니다. 모든 값이 의미 유형과 일치하고 열 이름이 의미 유형의 이름과 동일한 경우 결과는 여전히 100%입니다.

데이터 유형 검색

의미 유형 대신 기본 데이터 유형을 할당할 수도 있습니다. 어떤 의미 유형도 40% 이상을 가져오지 못하면 데이터 검색에서 자동으로 데이터 유형을 할당합니다.

어떤 유형이 값인지 결정하기 위해 데이터 검색은 다음 순서를 따르십시오.

  1. 값이 비어 있습니까?

  2. 부울 유형의 값이 있습니까? truefalse는 부울 유형으로 간주되는 유일한 값입니다.

  3. 유형의 값이 정수입니까?

  4. 유형의 값이 10진수입니까?

  5. 날짜 유형의 값이 있습니까?

  6. 값이 위 유형 중 하나가 아닌 경우 텍스트 값으로 간주됩니다.

검증은 증분식이므로 값은 한 가지 유형뿐입니다. 예를 들어, 값 5는 정수 유형입니다. 텍스트 유형으로 간주되지 않습니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!