Перейти к основному содержимому Перейти к дополнительному содержимому

Управление метаданными на уровне поля и профилирование данных

Профилирование предлагает администраторам данных богатую техническую информацию о наборах данных. С помощью статистики профиля и выборки данных разработчики приложений получают идеи и указания для создания приложений и планирования визуализаций. Профилирование полей может помочь аналитикам данных и бизнес-пользователям получить наблюдения быстрее. Они могут быстро просмотреть и визуализировать ценные показатели профиля поля, не создавая приложение предварительно. Метаданные на уровне поля позволяют применять к полям псевдонимы, описания и классификации; эти функции помогают идентифицировать конкретные данные и конфиденциальные поля.

Примечание к информацииQlik Cloud профилирует только до 12 миллионов строк в наборе данных. Если количество строк в наборе данных превышает 12 миллионов, профилируются только первые 12 миллионов строк. Метаданные для всех полей все равно добавляются независимо от количества профилируемых строк.

Управление метаданными на уровне поля

На вкладке Поля можно просматривать и редактировать метаданные для любого поля в наборе данных. Выберите любую карту в виде Выберите значок «Плитки» для переключения на вид плиток Tile, любую строку в виде Выберите значок «Список» для переключения на вид списка List или любой столбец в виде Данные, чтобы открыть панель Сведения этого поля справа от сетки. Поля метаданных на уровне поля (Псевдоним поля, Описание, Теги и Классификация) являются необязательными, их можно определять и редактировать на этой панели.

Поля метаданных на уровне поля
Сведения Описание
Псевдоним поля Введите необязательное альтернативное имя, чтобы в анализе профиля отображалось более значимое, понятное имя. Псевдонимы отображаются только в анализе профиля и не затрагивают технические имена столбцов.
Описание

Введите вспомогательную информацию для пользователей, просматривающих метаданные поля и профилирование для этого поля.

Теги Введите фрагменты текста для определения и категоризации этого поля и его данных.
Классификация Установите флажок Личные сведения или Конфиденциальная информация.
Примечание к информацииВыбранные классификации на уровне поля (Личные сведения и Конфиденциальная информация) отображаются на вкладке Обзор набора данных, перечисленные по полю под техническими метаданными набора данных.
Примечание к информацииДля классификаций, примененных к полям в файлах Excel с несколькими листами, в списке указывается имя листа и имя поля (например, Личные сведения: Sheet1/EmpID).

Метаданные на уровне поля для файла XLSX с несколькими листами

Выберите карточку поля в виде плиток, чтобы открыть панель «Сведения»

Профилирование данных

Статистика профиля предлагает различные виды анализа столбца, которые позволяют измерить частоту, диапазоны и значения, встречающиеся в наборах данных. Эти показатели описывают отношения между значениями полей, например:

  • количество уникальных значений (кардинальность);
  • образцы значений, наиболее распространенные значения и частота значения;
  • избыточность, полезная при определении значений по умолчанию или возможных дублирующихся значений;
  • количество значений NULL, строковых и числовых значений;
  • информация о диапазонах значений, включая минимум, максимум, среднее, сумму и стандартное отклонение.

Каталог предлагает три различных вида для данных в профиле поля: Tile view, List view, и Data view.

Tile view — это визуальное представление полей на основе карточек, расположенных в виде сетки.

List view — это сводная таблица с настраиваемой статистикой профиля.

В Table view перечислены имена столбцов полей и максимум двадцать первых записей набора данных.

Выберите значок TileВыберите значок «Плитки» для переключения на вид плиток, ListВыберите значок «Список» для переключения на вид списка или Данные для переключения между видами профиля.

Профиль в виде плиток

Профиль в виде плиток — это визуальный профиль поля, разработанный для отображения самого информативного содержимого для этого типа поля. Показанный тип карточки вида по умолчанию определяется тем, больше числовых или текстовых значений в этом поле. Например, для полей, содержащих как текстовые, так и числовые значения, по умолчанию отображается тип карточки Наиболее распространенные значения, если текстовых значений больше, и тип карточки распространения чисел Частота разбиения на группы, если в поле больше числовых значений. Переключатель с раскрывающимся списком предлагается, чтобы можно было переключиться на тип карточки Наиболее распространенные значения для любого поля, содержащего неуникальные значения, когда выбран значок «Наиболее распространенные значения»; или можно переключиться назад на карточку распределения числовых данных, если выбран тип Частота разбиения на группы значок «Частота разбиения на группы». Обратите внимание, что на всех типах карточек указывается количество значений NULL, если есть поля со значениями NULL.

Вид плиток:поля профилируются по метрикам, которые являются значимыми для типа данных, содержащихся в этом поле (например, сравнение текстовых и числовых значений)

Профиль набора данных в виде плиток

Карточка Образцы значений

Карточка Образцы значений отображается, когда все значения уникальны и содержат только текст. На ней представлены первые три значения (до трех значений) и общее количество дополнительных уникальных значений.

Карточка в виде плиток: образцы значений
Плитка «Образцы значений»

Критерии профиля Образцы значений: на этой карточке представлены значения поля, когда кардинальность высока (все значения уникальные). В случае, если каждое значение текстовое и уникально, несколько образцов значения дают лучшее начальное представление о типе данных в поле.

На каждой карточке профиля Образцы значений указаны: 

  • имя поля,
  • кардинальность (уникальные значения),
  • до трех образцов значений (в полях может быть меньше трех значений).

Карточка Частота наиболее распространенных значений

На карточке Частота наиболее распространенных значений отображаются пять наиболее распространенных значений и их частота. Если наиболее распространенных значений больше пяти отдельных значений, они объединяются и отображаются как Другие. Если есть поля, в которых отсутствуют значения, в совокупности они отображаются как Null. Эта карточка профиля может быть применена к текстовым, числовым или смешанным значениям данных.

Карточка в виде плиток: частота наиболее распространенных значений
Плитка «Частота наиболее распространенных значений»

Критерии, используемые для карточки Частота наиболее распространенных значений: поля, которые содержат немного значений или в которых значения распределены неравномерно, профилируются с использованием карточки «Частота наиболее распространенных значений». Это профилирование применяется, только если есть несколько экземпляров тех же значений. Пользователи могут быстро понять распределение значений поля. Если данные поля включают как текстовые, так и числовые значения и текстовых значений больше, то отображается карточка Частота наиболее распространенных значений. Переключение на карточку Частота разбиения на группы предлагается, когда в поле больше трех числовых значений.

На каждой карточке профиля Частота наиболее распространенных значений отображаются: 

  • имя поля,
  • кардинальность (уникальные значения),
  • наиболее распространенные значения и их частота,
  • пункт Другие — объединенная частота оставшихся значений.

Карточка Частота разбиения на группы

Карточка Частота разбиения на группы показывает сведения о распределении и профилировании, которые важны для числовых полей, включая минимальное, среднее и максимальное значения данных. Если данные поля включают как текстовые, так и числовые значения и числовых значений больше, то отображается карточка Частота разбиения на группы. Тип карточки Частота наиболее распространенных значений доступен для всех полей, которые содержат неуникальные значения.

Карточка в виде плиток:частота разбиения на группы — распределение числовых данных

Плитка «Частота разбиения на группы»

На каждой карточке профиля Частота разбиения на группы отображаются: 

  • имя поля,
  • кардинальность (уникальные значения),
  • гистограмма, показывающая распределение числовых данных,
  • минимальное значение,
  • среднее значение (сумма чисел, разделенная на общее количество значений в наборе данных),
  • максимальное значение.

Профиль в виде списка

Профиль в виде списка содержит таблицу с параметрами статистики профиля. Пользователи проверяют интересующие их метрики, которые имеют наибольшее значение для набора данных в ColumnPicker значок «Столбцы»: для этого прокрутите таблицу до правого края. Первые девять статистических данных предварительно выбраны по умолчанию.

Вид списка:выберите нужную статистику профиля в раскрывающемся списке Управление столбцами, который находится у правого края таблицы

Профиль набора данных в виде списка

Профиль в виде данных

Профиль в виде данных отображает набор данных в виде прямой таблицы с именами столбцов полей и первыми двадцатью значениями (максимум).

Вид данных:отображаются имена столбцов данных и первые двадцать записей

Профиль набора данных в виде данных

Разрешения

Для профилирования и создания выборки данных требуются разрешения. Для этого необходима роль в пространстве набора данных, которая позволяет профилировать источники данных. Для получения дополнительной информации см. Управление разрешениями в общих пространствах или Управление разрешениями в управляемых пространствах.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!