데이터 품질 및 데이터 검색
데이터 집합을 연 후 개요의 여러 부분을 살펴보고 전반적인 품질, 스키마, 품질 통계 및 각 열의 의미 유형에 대해 자세히 알아볼 수 있습니다.
데이터 집합의 품질 표시기
방금 등록한 데이터 집합의 개요를 열면 대부분의 정보가 회색으로 표시됩니다. 처음으로 데이터 품질을 계산하려면 계산 버튼을 클릭합니다. 품질이 이미 한 번 계산되었지만 데이터를 최신 상태로 유지하려면 새로 고침 버튼을 클릭합니다.
푸시다운에서 컴퓨팅이나 새로 고침을 할 때마다 Snowflake 크레딧이 소모됩니다. 자세한 내용은 Data quality for connection-based datasets을 참조하십시오.
품질이 표시되는 두 가지 주요 섹션이 있습니다.
-
데이터 품질 영역에는 다음이 포함됩니다.
-
세 가지 색과 해당 비율이 포함된 품질 막대 형태로 전체 데이터 집합에서 유효한 값, 잘못된 값, 빈 값을 다시 분할합니다.
-
빈 값을 고려하지 않고 유효한 값의 비율을 나타내는 유효성 점수입니다.
-
비어 있지 않은 값의 비율을 나타내는 완성도 점수입니다.
-
새로 고침 시간은 데이터 소스의 마지막 업데이트를 나타냅니다. 자세한 내용은 데이터 최신성을 참조하십시오.
-
-
데이터 유형 또는 의미 유형이 적용된 데이터 집합의 다양한 필드와 데이터 집합의 각 필드에 대한 품질 막대를 표시하는 스키마 영역입니다.
의미 유형 검색
데이터 집합의 각 필드에는 콘텐츠를 더 잘 설명하기 위해 의미 유형이 자동으로 할당됩니다. 할당할 유형을 결정하기 위해 데이터 검색 작업이 뒤에서 발생합니다.
데이터 검색에서는 열의 값이 각 의미 유형과 일치하는 수를 계산하고, 결과가 40%보다 크면 해당 의미 유형을 열에 할당합니다.
백분율은 어떻게 계산됩니까?
이 백분율은 두 백분율의 합입니다.
-
1%는 의미 유형과 일치하는 값의 수를 나타냅니다. 최대 100% 할당됩니다. 값이 의미 유형과 일치하는지 결정하기 위해 데이터 검색은 의미 유형의 유형에 따라 달라집니다.
-
사전: 값이 사전의 값과 일치합니까? 구두점, 대/소문자, 공백 및 악센트는 무시됩니다.
-
정규식: 값이 정규식과 일치합니까?
-
복합: 값이 적어도 한 자식으로 검색됩니까?
복합 유형은 자식이라고 불리는 기존 의미 유형의 그룹입니다.
대답이 긍정적이면 값이 유효한 것으로 간주됩니다.
-
-
다른 백분율은 열 이름과 의미 유형 이름 간의 유사성을 나타냅니다. 최대 10%까지 할당됩니다.
이름을 비교하려면:
-
Levenshtein 알고리즘이 사용됩니다. 한 문자열을 다른 문자열로 변환하는 데 필요한 최소 편집 횟수(삽입, 삭제 또는 대체)를 계산합니다.
-
대/소문자와 악센트는 무시됩니다.
-
문자열에 공백이 포함되어 있으면 단어 순서가 무시됩니다. 예를 들어, US Phone과 Phone US는 동일한 것으로 간주됩니다.
최대 백분율은 100%입니다. 모든 값이 의미 유형과 일치하고 열 이름이 의미 유형의 이름과 동일한 경우 결과는 여전히 100%입니다.
-
데이터 유형 검색
의미 유형 대신 기본 데이터 유형을 할당할 수도 있습니다. 어떤 의미 유형도 40% 이상을 가져오지 못하면 데이터 검색에서 자동으로 데이터 유형을 할당합니다.
어떤 유형이 값인지 결정하기 위해 데이터 검색은 다음 순서를 따르십시오.
-
값이 비어 있습니까?
-
부울 유형의 값이 있습니까? true 및 false는 부울 유형으로 간주되는 유일한 값입니다.
-
유형의 값이 정수입니까?
-
유형의 값이 10진수입니까?
-
날짜 유형의 값이 있습니까?
-
값이 위 유형 중 하나가 아닌 경우 텍스트 값으로 간주됩니다.
검증은 증분식이므로 값은 한 가지 유형뿐입니다. 예를 들어, 값 5는 정수 유형입니다. 텍스트 유형으로 간주되지 않습니다.