Управление метаданными на уровне поля и профилирование данных
Профилирование предлагает администраторам данных богатую техническую информацию о наборах данных. С помощью статистики профиля и выборки данных разработчики приложений получают идеи и указания для создания приложений и планирования визуализаций. Профилирование полей может помочь аналитикам данных и бизнес-пользователям получить наблюдения быстрее. Они могут быстро просмотреть и визуализировать ценные показатели профиля поля, не создавая приложение предварительно. Метаданные на уровне поля позволяют применять к полям псевдонимы, описания и классификации; эти функции помогают идентифицировать конкретные данные и конфиденциальные поля.
Управление метаданными на уровне поля
На вкладке Поля можно просматривать и редактировать метаданные для любого поля в наборе данных. Выберите любую карту в виде Плитки, любую строку в виде Список или любой столбец в виде Данные, чтобы открыть панель Сведения этого поля справа от сетки. Поля метаданных на уровне поля (Псевдоним поля, Описание, Теги и Классификация) являются необязательными, их можно определять и редактировать на этой панели.
Сведения | Описание |
---|---|
Псевдоним поля | Введите необязательное альтернативное имя, чтобы в анализе профиля отображалось более значимое, понятное имя. Псевдонимы отображаются только в анализе профиля и не затрагивают технические имена столбцов. |
Описание | Введите вспомогательную информацию для пользователей, просматривающих метаданные поля и профилирование для этого поля. |
Теги | Введите фрагменты текста для определения и категоризации этого поля и его данных. |
Классификация | Установите флажок Личные сведения или Конфиденциальная информация. |
Профилирование данных
Статистика профиля предлагает различные виды анализа столбца, которые позволяют измерить частоту, диапазоны и значения, встречающиеся в наборах данных. Эти показатели описывают отношения между значениями полей, например:
- количество уникальных значений (кардинальность);
- образцы значений, наиболее распространенные значения и частота значения;
- избыточность, полезная при определении значений по умолчанию или возможных дублирующихся значений;
- количество значений NULL, строковых и числовых значений;
- информация о диапазонах значений, включая минимум, максимум, среднее, сумму и стандартное отклонение.
Каталог предлагает три различных вида для данных в профиле поля: Tile view, List view, и Data view.
Tile view — это визуальное представление полей на основе карточек, расположенных в виде сетки.
List view — это сводная таблица с настраиваемой статистикой профиля.
В Table view перечислены имена столбцов полей и максимум двадцать первых записей набора данных.
Выберите значок Tile, List или Данные для переключения между видами профиля.
Профиль в виде плиток
Профиль в виде плиток — это визуальный профиль поля, разработанный для отображения самого информативного содержимого для этого типа поля. Показанный тип карточки вида по умолчанию определяется тем, больше числовых или текстовых значений в этом поле. Например, для полей, содержащих как текстовые, так и числовые значения, по умолчанию отображается тип карточки Наиболее распространенные значения, если текстовых значений больше, и тип карточки распространения чисел Частота разбиения на группы, если в поле больше числовых значений. Переключатель с раскрывающимся списком предлагается, чтобы можно было переключиться на тип карточки Наиболее распространенные значения для любого поля, содержащего неуникальные значения, когда выбран ; или можно переключиться назад на карточку распределения числовых данных, если выбран тип Частота разбиения на группы . Обратите внимание, что на всех типах карточек указывается количество значений NULL, если есть поля со значениями NULL.
Карточка Образцы значений
Карточка Образцы значений отображается, когда все значения уникальны и содержат только текст. На ней представлены первые три значения (до трех значений) и общее количество дополнительных уникальных значений.
Критерии профиля Образцы значений: на этой карточке представлены значения поля, когда кардинальность высока (все значения уникальные). Если каждое значение текстовое и уникально, несколько образцов значения дают лучшее начальное представление о типе данных в поле.
На каждой карточке профиля Образцы значений указаны:
- Имя поля
- кардинальность (уникальные значения),
- до трех образцов значений (в полях может быть меньше трех значений).
Карточка Частота наиболее распространенных значений
На карточке Частота наиболее распространенных значений отображаются пять наиболее распространенных значений и их частота. Если наиболее распространенных значений больше пяти отдельных значений, они объединяются и отображаются как Другие. Если есть поля, в которых отсутствуют значения, в совокупности они отображаются как Null. Эта карточка профиля может быть применена к текстовым, числовым или смешанным значениям данных.
Критерии Частота наиболее распространенных значений: поля, которые содержат немного значений или в которых значения распределены неравномерно, профилируются с использованием карточки «Частота наиболее распространенных значений». Это профилирование применяется, только если есть несколько экземпляров тех же значений. Пользователи могут быстро понять распределение значений поля. Если данные поля включают как текстовые, так и числовые значения и текстовых значений больше, то отображается карточка Частота наиболее распространенных значений. Переключение на карточку Частота разбиения на группы предлагается, когда в поле больше трех числовых значений.
На каждой карточке профиля Частота наиболее распространенных значений отображаются:
- Имя поля
- кардинальность (уникальные значения),
- наиболее распространенные значения и их частота,
- пункт Другие — объединенная частота оставшихся значений.
Карточка Частота разбиения на группы
Карточка Частота разбиения на группы показывает сведения о распределении и профилировании, которые важны для числовых полей, включая минимальное, среднее и максимальное значения данных. Если данные поля включают как текстовые, так и числовые значения и числовых значений больше, то отображается карточка Частота разбиения на группы. Тип карточки Частота наиболее распространенных значений доступен для всех полей, которые содержат неуникальные значения.
На каждой карточке профиля Частота разбиения на группы отображаются:
- Имя поля
- кардинальность (уникальные значения),
- гистограмма, показывающая распределение числовых данных,
- минимальное значение,
- среднее значение (сумма чисел, разделенная на общее количество значений в наборе данных),
- максимальное значение.
Профиль в виде списка
Профиль в виде списка содержит таблицу с параметрами статистики профиля. Пользователи проверяют интересующие их метрики, которые имеют наибольшее значение для набора данных в области «Управление столбцами» : для этого прокрутите таблицу до правого края. Первые девять статистических данных предварительно выбраны по умолчанию.
Профиль в виде данных
Профиль в виде данных отображает набор данных в виде прямой таблицы с именами столбцов полей и первыми двадцатью значениями (максимум).
Разрешения
Для профилирования и создания выборки данных требуются разрешения. Для этого необходима роль в пространстве набора данных, которая позволяет профилировать источники данных. Для получения дополнительной информации см. Управление разрешениями в общих пространствах или Управление разрешениями в управляемых пространствах.