Качество данных и исследование данных
Открыв набор данных, можно просмотреть разные области обзора, чтобы получить дополнительные сведения об общем качестве данных, схеме, о статистике по качеству и семантических типах каждого столбца.
Индикаторы качества в наборе данных
Когда открывается обзор только что зарегистрированного набора данных, большинство сведений заблокированы (серые). Чтобы рассчитать качество данных в первый раз, нажмите кнопку Вычислить. Если расчет качества уже проводился раньше, но требуется убедиться в актуальности данных, нажмите кнопку Обновить.
На каждый расчет или обновление в стековой памяти расходуются кредиты Snowflake. Для получения дополнительной информации см. раздел Data quality for connection-based datasets.
Качество отображается в двух основных разделах.
-
Область Качество данных, которая включает следующее:
-
Перераспределение допустимых, недопустимых и пустых значений в пределах всего набора данных в форме трехцветной полосы качества с указанием соответствующих процентов.
-
Оценка Действительность, которая выражает процент допустимых значений без учета пустых значений.
-
Оценка Полнота, которая выражает процент непустых значений.
-
Актуальность данных, представляющая последнее обновление источника данных. Для получения дополнительной информации см. раздел Актуальность данных.
-
-
Область Схема, в которой отображаются различные поля набора данных, примененный тип данных и семантический тип, а также полосу качества для каждого поля набора данных.
Исследование семантических типов
Каждому полю набора данных автоматически назначается семантический тип, чтобы лучше описать его содержимое. В фоновом режиме выполняется операция исследования данных для определения типа, который будет им назначен.
При исследовании данных вычисляется, сколько значений в столбце соответствует каждому семантическому типу, и если результат для определенного типа превышает 40%, этот тип назначается столбцу.
Как вычисляется процентное значение?
Это процентное значение представляет собой сумму двух процентов:
-
Одно процентное значение представляет количество значений, соответствующее семантическому типу; выделяется до 100%. Чтобы определить, соответствует ли значение семантическому типу, исследование данных проводится с учетом типа семантического типа.
-
Словарь: данное значение соответствует значению из словаря? Пунктуация, регистр, пробелы и диакритические символы игнорируются.
-
Регулярное выражение: значение соответствует регулярному выражению?
-
Составной тип: при исследовании значения выявляется хотя бы один дочерний тип?
Составной тип ― это группа существующих семантических типов, которые называются дочерними
Если ответ положительный, значение считается допустимым.
-
-
Второе процентное значение представляет сходство между именем столбца и именем семантического типа; выделяется до 10%.
Для сравнения имен:
-
используется алгоритм Левенштейна. Он рассчитывает минимальное количество правок (вставка, удаление или замена), необходимое для преобразования одной строки в другую.
-
Регистр и диакритические знаки игнорируются.
-
Если строка содержит пробелы, порядок слов игнорируется. Например, строки «US Phone» и «Phone US» считаются идентичными.
Максимальный процент ― 100%. Если все значения соответствуют семантическому типу и имя столбца идентично имени семантического типа, результат все равно составляет 100%.
-
Исследование типов данных
Вместо семантических типов также могут назначаться собственные типы данных. Если ни один семантический тип не набирает больше 40%, исследование данных автоматически назначает тип данных.
Чтобы определить тип, к которому относится значение, исследование данных использует следующий алгоритм:
-
Значение пустое?
-
Значение относится к логическому типу? К логическому типу относятся только значения true и false.
-
Значение относится к типу целого числа?
-
Значение относится к типу десятичного числа?
-
Значение относится к типу даты?
-
Если значение не относится ни к одному из перечисленных выше типов, оно считается текстовым.
Так как верификация выполняется пошагово, значение относится только к одному типу. Например, значение 5 относится только к типу целого числа. Оно не будет отнесено к типу текста.