Перейти к основному содержимому Перейти к дополнительному содержимому

Качество данных и исследование данных

Открыв набор данных, можно просмотреть разные области обзора, чтобы получить дополнительные сведения об общем качестве данных, схеме, о статистике по качеству и семантических типах каждого столбца.

Индикаторы качества в наборе данных

Когда открывается обзор только что зарегистрированного набора данных, большинство сведений заблокированы (серые). Чтобы рассчитать качество данных в первый раз, нажмите кнопку Вычислить. Если расчет качества уже проводился раньше, но требуется убедиться в актуальности данных, нажмите кнопку Обновить.

На каждый расчет или обновление в стековой памяти расходуются кредиты Snowflake. Для получения дополнительной информации см. раздел Data quality for connection-based datasets.

Качество отображается в двух основных разделах.

  • Область Качество данных, которая включает следующее:

    • Перераспределение допустимых, недопустимых и пустых значений в пределах всего набора данных в форме трехцветной полосы качества с указанием соответствующих процентов.

    • Оценка Действительность, которая выражает процент допустимых значений без учета пустых значений.

    • Оценка Полнота, которая выражает процент непустых значений.

    • Актуальность данных, представляющая последнее обновление источника данных. Для получения дополнительной информации см. раздел Актуальность данных.

  • Область Схема, в которой отображаются различные поля набора данных, примененный тип данных и семантический тип, а также полосу качества для каждого поля набора данных.

Примечание к подсказкеЕсли для базы данных на основе подключения не удается получить сведения о схеме и качестве набора данных, проверьте, правильно ли заполнено поле Роль в хабе служб аналитики Qlik и предоставляет ли сама роль необходимые права для таблицы базы данных.

Исследование семантических типов

Каждому полю набора данных автоматически назначается семантический тип, чтобы лучше описать его содержимое. В фоновом режиме выполняется операция исследования данных для определения типа, который будет им назначен.

При исследовании данных вычисляется, сколько значений в столбце соответствует каждому семантическому типу, и если результат для определенного типа превышает 40%, этот тип назначается столбцу.

Как вычисляется процентное значение?

Это процентное значение представляет собой сумму двух процентов:

  • Одно процентное значение представляет количество значений, соответствующее семантическому типу; выделяется до 100%. Чтобы определить, соответствует ли значение семантическому типу, исследование данных проводится с учетом типа семантического типа.

    • Словарь: данное значение соответствует значению из словаря? Пунктуация, регистр, пробелы и диакритические символы игнорируются.

    • Регулярное выражение: значение соответствует регулярному выражению?

    • Составной тип: при исследовании значения выявляется хотя бы один дочерний тип?

      Составной тип ― это группа существующих семантических типов, которые называются дочерними

    Если ответ положительный, значение считается допустимым.

  • Второе процентное значение представляет сходство между именем столбца и именем семантического типа; выделяется до 10%.

    Для сравнения имен:

    • используется алгоритм Левенштейна. Он рассчитывает минимальное количество правок (вставка, удаление или замена), необходимое для преобразования одной строки в другую.

    • Регистр и диакритические знаки игнорируются.

    • Если строка содержит пробелы, порядок слов игнорируется. Например, строки «US Phone» и «Phone US» считаются идентичными.

    Максимальный процент ― 100%. Если все значения соответствуют семантическому типу и имя столбца идентично имени семантического типа, результат все равно составляет 100%.

Исследование типов данных

Вместо семантических типов также могут назначаться собственные типы данных. Если ни один семантический тип не набирает больше 40%, исследование данных автоматически назначает тип данных.

Чтобы определить тип, к которому относится значение, исследование данных использует следующий алгоритм:

  1. Значение пустое?

  2. Значение относится к логическому типу? К логическому типу относятся только значения true и false.

  3. Значение относится к типу целого числа?

  4. Значение относится к типу десятичного числа?

  5. Значение относится к типу даты?

  6. Если значение не относится ни к одному из перечисленных выше типов, оно считается текстовым.

Так как верификация выполняется пошагово, значение относится только к одному типу. Например, значение 5 относится только к типу целого числа. Оно не будет отнесено к типу текста.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!