Перейти к основному содержимому

Профилирование данных

НА ЭТОЙ СТРАНИЦЕ

Профилирование данных

Статистика профиля предлагает различные виды анализа столбца, которые позволяют измерить частоту, диапазоны и значения, встречающиеся в наборах данных. Эти показатели описывают отношения между значениями полей, например:

  • количество уникальных значений (кардинальность);
  • образцы значений, наиболее распространенные значения и частота значения;
  • избыточность, полезная при определении значений по умолчанию или возможных дублирующихся значений;
  • количество нулевых, строковых и числовых значений;
  • информация о диапазонах значений, включая минимум, максимум, среднее, сумму и стандартное отклонение.

Профилирование предлагает администраторам Data богатую техническую информацию о наборах данных. Эта информация помогает организовать и назначить ресурсы и доступ. С помощью статистики профиля и выборки данных разработчики приложений получают идеи и указания для создания приложений и планирования визуализаций. Профилирование полей может помочь аналитикам данных и бизнес-пользователям получить наблюдения быстрее. Они могут просмотреть и визуализировать ценные показатели профиля поля, не создавая приложение предварительно.

Catalog provides two different views of field profile data: List view and Tile view. List view is a tabular summary of configurable profile statistics and Tile view is a card-based, visual representation of fields laid out as a grid. Select the Tile Select tile icon for tile view or List Select list icon for list view icon to switch between profile views.

Мозаичный вид: поля представлены показателями, которые имеют значение для типа данных, содержащихся в этом поле (например, сравнение текстовых и числовых значений)

Мозаичный вид профиля

Вид списка: выберите интересующую статистику профиля из раскрывающегося списка Столбцы

Вид списка профиля

Вид Profile Tile (Мозаика профиля)

Вид Profile tile (Мозаика профиля) — это визуальный профиль поля, разработанный для отображения самого информативного содержимого для этого типа поля. Показанный тип карточки вида по умолчанию определяется тем, больше числовых или текстовых значений в этом поле. Например, для полей, содержащих как текстовые, так и числовые значения, по умолчанию отображается тип карточки Most Common Values (Наиболее распространенные значения), если текстовых значений больше, и тип карточки распространения чисел Binned Frequency (Частота разбиения на группы), если в поле больше числовых значений. Переключатель с раскрывающимся списком предлагается, чтобы можно было переключиться тип карточки Most Common Values Frequency (Частота наиболее распространенных значений) для любого поля, содержащего неуникальные значения, когда выбран A; или можно переключиться назад на карточку распространения чисел, если выбран #1. Обратите внимание, что все типы карточки включают количество нулевых значений, если они есть в поле.

Карточки в мозаичном виде: распространение чисел Binned Frequency (Частота разбиения на группы), Образцы значений и Most Common Values Frequency (Частота наиболее распространенных значений)

Карточки профиля в мозаичном виде

Карточка Образцы значений

Карточка Образцы значений отображается, когда все значения уникальны и являются только текстовыми. Будет выведен список (не более) первых трех значений.

Карточка профиля Образцы значений
Карточка профиля «Образцы значений»

Критерии профиля Образцы значений: На этой карточке представлены значения поля, когда кардинальность высока (все значения уникальные). В случае, если каждое значение текстовое и уникально, несколько образцов значения дают лучшее начальное представление о типе данных в поле.

На каждой карточке профиля Образцы значений показаны: 

  • Имя поля
  • Кардинальность
  • До трех образцов значений (в полях может быть меньше трех значений)

Карточка Most common values frequency (Частота наиболее распространенных значений)

Карточка Most common values frequency (Частота наиболее распространенных значений) показывает два наиболее распространенных значения и частоту этих и всех других значений, объединенных как Другие за исключением случаев, когда всего лишь три значения. В этом случае отображаются все три значения с частотой каждого из них. Эта карточка профиля может быть применена к текстовым, числовым или смешанным значениям данных.

Карточка профиля Most common values frequency (Частота наиболее распространенных значений) с текстовыми значениями
Карточка профиля «Частота наиболее распространенных значений»
Карточка профиля Most common values frequency (Частота наиболее распространенных значений) с числовыми значениями
Карточка профиля «Наиболее распространенные значения»

Критерии, используемые для карточки Most common values frequency (Частота наиболее распространенных значений): Поля, в которых есть немного значений или значения распределены неравномерно, профилируются по карточке частоты наиболее распространенных значений. Это профилирование применяется, только если есть несколько экземпляров тех же значений. Пользователи могут быстро понять распределение значений поля. Если данные поля включают как текстовые, так и числовые значения и текстовых значений больше, то отображается карточка Most common values frequency (Частота наиболее распространенных значений). Переключатель Binned frequency (Частота разбиения на группы) предлагается, когда в поле больше трех числовых значений.

На каждой карточке профиля Most common values frequency (Частота наиболее распространенных значений) показаны: 

  • Имя поля
  • Кардинальность
  • Наиболее распространенные значения и их частота
  • Другие — объединенная частота оставшихся значений

Карточка Binned frequency (Частота разбиения на группы)

Карточка Binned frequency (Частота разбиения на группы) показывает сведения о распределении и профилировании, которые важны для числовых полей, включая минимальное, среднее и максимальное значения данных. Если данные поля включают как текстовые, так и числовые значения и числовых значений больше, то отображается карточка Binned frequency (Частота разбиения на группы). Тип карточки Most Common Values Frequency (Частота наиболее распространенных значений) доступен для всех полей, в которых есть неуникальные значения.

Карточка профиля Binned frequency (Частота разбиения на группы)

Карточка профиля «Частота разбиения на группы»

На каждой карточке профиля Binned frequency (Частота разбиения на группы) показаны: 

  • Имя поля
  • Кардинальность
  • Гистограмма, показывающая распределение числовых данных
  • Минимальное значение
  • Среднее значение (сумма чисел, разделенная на общее количество значений в наборе данных)
  • Максимальное значение

Вид списка профиля

Вид списка профиля предлагает таблицу с вариантами статистики профиля. Пользователи проверяют интересующие их показатели, которые являются наиболее значимыми для набора данных, представленного в разделе Columns. Первые девять статистических данных предварительно выбраны по умолчанию.

Со вкладки Главная хаба перейдите в раздел Ваши данные. Также из раздела Каталог можно выполнить фильтрацию по ТипыДанные.

  1. Выберите Открыть набор данных, затем — Профилирование данных. Откроется страница Профиль для набора данных. Нажмите кнопку Столбцы и установите флажок рядом с интересующей статистикой профиля. Эта статистика должна быть выбрана (флажок рядом с ней), чтобы профилировать поле (столбец) и появиться в таблице. В следующем списке подробно описывается доступная статистика профиля.

    Статистика профиля
    Статистика Описание
    Name Имя поля (пример: CategoryID
    Data type

    Qlik Sense регистрирует данные из многих различных систем, универсальное сопоставление типов внешних данных с внутренними накладывается на данные полей (столбцов) в информационных целях. Поддерживаемые значения типов данных включают:

    • Date: дата, содержащая месяц, день, год в формате ISO 8601 YYYY-MM-DD

    • Time: значение времени, содержащее час, минуты, секунды в формате ISO 8601 hh.mm.ss.sss±hh:mm
    • Datetime: значение даты и времени, содержащее год, месяц, день, час, минуту, секунду и доли в формате YYYY-MM-DDThh.mm.ss.sss
    • Timestamp: значение метки времени, содержащее год, месяц, день, час, минуту, секунду, доли и часовой пояс в формате YYYY-MM-DDThh.mm.ss.sssZ
    • String: символьные данные, представляющие текст
    • Double: числовой тип данных с двойной точностью: 64-разрядный с плавающей запятой IEEE 754
    • Decimal: точный числовой тип данных, определенный точностью (общее количество цифр) и масштабом (количество цифр справа от десятичной точки)
    • Integer: положительные или отрицательные целые числа
    • Boolean: булево значение (ИСТИНА/ЛОЖЬ)
    • Двоичное значение: категориальные данные, которые могут принимать ровно два возможных значения, такие как «1» и «2»
    • Custom: тип, который находится за пределами сопоставленных типов, известных в системе
    Уникальные значения кардинальность, количество уникальных значений, присутствующих в этом поле
    Образцы значений Образцы значений (отображаются 3 образца значений)
    Сумма Сумма всех значений в этом поле (для строковых полей отображается «0»)
    Мин Минимальное наблюдаемое значение для этого поля (числовые поля)
    Макс Максимальное наблюдаемое значение для этого поля (числовые поля)
    Среднее Среднее наблюдаемое значение для этого поля
    Системные теги Теги файла, применяемые для определения кодового набора (например, $ascii, $text)
    Стандартное отклонение Стандартное отклонение для числовых полей
    Положительные Количество положительных значений
    Отрицательные Количество отрицательных значений
    Нулевые значения Количество значений «0»
    Пустые строки Количество пустых строк
    Мин. длина Самая маленькая наблюдаемая длина символа
    Средняя длина Средняя наблюдаемая длина символа
    Макс. длина Самая большая наблюдаемая длина символа
    Первое сортированное значение Первое (наименьшее) значение веса сортировки (строковые поля)
    Последнее сортированное значение Последнее (наибольшее) значение веса сортировки (строковые поля)
    Числовые значения Количество числовых значений
    Текстовые значения Количество текстовых значений
    Самые часто встречающиеся значения Три наиболее распространенных значения в поле

Создание выборки данных

Выборка данных — это подмножество набора данных совокупности. Это полезный инструмент для администраторов Data, позволяющий убедиться в том, что данные соответствуют ожидаемым образцам и формату. Создатели приложений смогут понять смысл полей и их данных в контексте других записей и набора данных. Эти виды позволяют получить первое представление о данных; разработчики могут начать исследовать данные в целях анализа и возможных корреляций.

Нажмите Выборка данных для просмотра выборки первых 20 значений данных для каждого поля

Образец подсистемы набора данных
  • Нажмите кнопку значок стрелки раскрывающегося списка, затем выберите Образец для просмотра выборки значений данных (n=20) для каждого поля.

Разрешения

Для профилирования и создания выборки данных требуются разрешения. Действие профилирования данных сопоставляется с более широким разрешением Профилировать источник данных. Для получения дополнительной информации см. разделы Управление разрешениями в общих пространствах или Управление разрешениями в управляемых пространствах.

  • Профилирование данных > Профилировать источник данных

Пример