Управление метаданными на уровне поля и профилирование данных

Метаданные на уровне поля позволяют применять к полям псевдонимы, описания и классификации; эти функции помогают идентифицировать конкретные данные и конфиденциальные поля.

Профилирование предлагает администраторам данных богатую техническую информацию о наборах данных. С помощью статистики профиля и выборки данных разработчики приложений получают идеи и указания для создания приложений и планирования визуализаций. Профилирование полей может помочь аналитикам данных и бизнес-пользователям получить наблюдения быстрее. Они могут быстро просмотреть и визуализировать ценные показатели профиля поля, не создавая приложение предварительно.

Qlik Cloud профилирует только до 12 миллионов строк в наборе данных. Если количество строк в наборе данных превышает 12 миллионов, профилируются только первые 12 миллионов строк. Метаданные для всех полей все равно добавляются независимо от количества профилируемых строк.

Управление метаданными на уровне поля

На вкладке Профиль можно просматривать и редактировать метаданные для любого поля в наборе данных. Выберите любую карту в виде Выберите значок «Плитки» для переключения на вид плиток Плитки, любую строку в виде Выберите значок «Список» для переключения на вид списка Список или любой столбец в виде Данные, чтобы открыть панель Сведения этого поля справа от сетки. Поля метаданных на уровне поля (Псевдоним поля, Описание, Теги и Классификация) являются необязательными, их можно определять и редактировать на этой панели.

Поля метаданных на уровне поля
Сведения	Описание
Псевдоним поля	Введите необязательное альтернативное имя, чтобы в анализе профиля отображалось более значимое, понятное имя. Псевдонимы отображаются только в анализе профиля и не затрагивают технические имена столбцов.
Описание	Введите вспомогательную информацию для пользователей, просматривающих метаданные поля и профилирование для этого поля.
Теги	Введите фрагменты текста для определения и категоризации этого поля и его данных.
Классификация	Установите флажок Личные сведения или Конфиденциальная информация.

Выбранные классификации на уровне поля (Личные сведения и Конфиденциальная информация) отображаются на вкладке Обзор набора данных, перечисленные по полю под техническими метаданными набора данных.

Для классификаций, примененных к полям в файлах Excel с несколькими листами, в списке указывается имя листа и имя поля (например, Личные сведения: Sheet1/EmpID).

Выберите карточку поля в виде плиток, чтобы открыть панель «Сведения» — Метаданные на уровне поля для файла XLSX с несколькими листами

Не все типы данных профилируются по умолчанию. Вместо этого для следующих типов данных отображается ограниченный профиль, пока не будет проведено профилирование:

QVD
Parquet

Для получения дополнительной информации об ограниченном профиле см. раздел Ограниченный вид профиля

Профилирование данных

Статистика профиля предлагает различные виды анализа столбца, которые позволяют измерить частоту, диапазоны и значения, встречающиеся в наборах данных. Эти показатели описывают отношения между значениями полей, например:

количество уникальных значений (кардинальность);
образцы значений, наиболее распространенные значения и частота значения;
избыточность, полезная при определении значений по умолчанию или возможных дублирующихся значений;
количество значений NULL, строковых и числовых значений;
информация о диапазонах значений, включая минимум, максимум, среднее, сумму и стандартное отклонение.

Каталог предлагает три различных вида для данных в профиле поля:

Вид Плитки ― это визуальное представление полей на основе карточек, расположенных в виде сетки.
Вид Список ― это сводная таблица с настраиваемой статистикой профиля.
В виде Таблицы перечислены имена столбцов полей и максимум двадцать первых записей набора данных.

Выберите значок Tile Выберите значок «Плитки» для переключения на вид плиток , List Выберите значок «Список» для переключения на вид списка или Данные для переключения между видами профиля.

Вид Плитки

Профиль в виде плиток — это визуальный профиль поля, разработанный для отображения самого информативного содержимого для этого типа поля. Показанный тип карточки вида по умолчанию определяется тем, больше числовых или текстовых значений в этом поле. Например, для полей, содержащих как текстовые, так и числовые значения, по умолчанию отображается тип карточки Наиболее распространенные значения, если текстовых значений больше, и тип карточки распространения чисел Частота разбиения на группы, если в поле больше числовых значений. Переключатель с раскрывающимся списком предлагается, чтобы можно было переключиться на тип карточки Наиболее распространенные значения для любого поля, содержащего неуникальные значения, когда выбран значок «Наиболее распространенные значения» ; или можно переключиться назад на карточку распределения числовых данных, если выбран тип Частота разбиения на группы значок «Частота разбиения на группы» . Обратите внимание, что на всех типах карточек указывается количество значений NULL, если есть поля со значениями NULL.

Профиль набора данных в виде плиток — Вид плиток: поля профилируются по метрикам, которые являются значимыми для типа данных, содержащихся в этом поле (например, сравнение текстовых и числовых значений)

Карточка Образцы значений

Карточка Образцы значений отображается, когда все значения уникальны и содержат только текст. На ней представлены первые три значения (до трех значений) и общее количество дополнительных уникальных значений.

Плитка «Образцы значений» — Карточка в виде плиток: Образцы значений

Критерии профиля Образцы значений: на этой карточке представлены значения поля, когда кардинальность высока (все значения уникальные). Если каждое значение текстовое и уникально, несколько образцов значения дают лучшее начальное представление о типе данных в поле.

На каждой карточке профиля Образцы значений указаны:

Имя поля
кардинальность (уникальные значения),
до трех образцов значений (в полях может быть меньше трех значений).

Карточка Частота наиболее распространенных значений

На карточке Частота наиболее распространенных значений отображаются пять наиболее распространенных значений и их частота. Если наиболее распространенных значений больше пяти отдельных значений, они объединяются и отображаются как Другие. Если есть поля, в которых отсутствуют значения, в совокупности они отображаются как Null. Эта карточка профиля может быть применена к текстовым, числовым или смешанным значениям данных.

Плитка «Частота наиболее распространенных значений» — Карточка в виде плиток Частота наиболее распространенных значений

Критерии Частота наиболее распространенных значений: поля, которые содержат немного значений или в которых значения распределены неравномерно, профилируются с использованием карточки «Частота наиболее распространенных значений». Это профилирование применяется, только если есть несколько экземпляров тех же значений. Пользователи могут быстро понять распределение значений поля. Если данные поля включают как текстовые, так и числовые значения и текстовых значений больше, то отображается карточка Частота наиболее распространенных значений. Переключение на карточку Частота разбиения на группы предлагается, когда в поле больше трех числовых значений.

На каждой карточке профиля Частота наиболее распространенных значений отображаются:

Имя поля
кардинальность (уникальные значения),
наиболее распространенные значения и их частота,
пункт Другие — объединенная частота оставшихся значений.

Карточка Частота разбиения на группы

Карточка Частота разбиения на группы показывает сведения о распределении и профилировании, которые важны для числовых полей, включая минимальное, среднее и максимальное значения данных. Если данные поля включают как текстовые, так и числовые значения и числовых значений больше, то отображается карточка Частота разбиения на группы. Тип карточки Частота наиболее распространенных значений доступен для всех полей, которые содержат неуникальные значения.

Плитка «Частота разбиения на группы» — Карточка в виде плиток: Частота разбиения на группы — распределение числовых данных

На каждой карточке профиля Частота разбиения на группы отображаются:

Имя поля
кардинальность (уникальные значения),
гистограмма, показывающая распределение числовых данных,
минимальное значение,
среднее значение (сумма чисел, разделенная на общее количество значений в наборе данных),
максимальное значение.

Вид списка

Профиль в виде списка содержит таблицу с параметрами статистики профиля. Пользователи проверяют интересующие их метрики, которые имеют наибольшее значение для набора данных в области «Управление столбцами» значок «Столбцы» : для этого прокрутите таблицу до правого края. Первые девять статистических данных предварительно выбраны по умолчанию.

Профиль набора данных в виде списка — Вид списка: выберите нужную статистику профиля в раскрывающемся списке Управление столбцами, который находится у правого края таблицы

Статистика профиля полей
Статистика	Описание
Имя	Имя поля (пример: CategoryID)
Тип данных	Qlik Sense регистрирует данные из многих различных систем, универсальное сопоставление типов внешних данных с внутренними накладывается на данные полей (столбцов) в информационных целях. Поддерживаются следующие значения типов данных. Дата: дата, содержащая месяц, день, год в формате ISO 8601 YYYY-MM-DD Время: значение времени, содержащее час, минуты, секунды в формате ISO 8601 hh.mm.ss.sss±hh:mm Дата и время: значение даты и времени, содержащее год, месяц, день, час, минуту, секунду и доли в формате YYYY-MM-DDThh.mm.ss.sss Метка времени: значение метки времени, содержащее год, месяц, день, час, минуту, секунду, доли и часовой пояс в формате YYYY-MM-DDThh.mm.ss.sssZ Строка: символьные данные, представляющие текст Двойное число: числовой тип данных с двойной точностью: 64-разрядный с плавающей запятой IEEE 754 Десятичная дробь: точный числовой тип данных, определенный точностью (общее количество цифр) и масштабом (количество цифр справа от десятичной точки) Целое число: положительные или отрицательные целые числа Булево значение: логическое значение (ИСТИНА/ЛОЖЬ) Двоичное значение: категориальные данные, которые могут принимать ровно два возможных значения, такие как «1» и «2» Пользовательский: тип, который находится за пределами сопоставленных типов, известных в системе
Уникальные значения	Кардинальность, количество уникальных значений, содержащихся в этом поле
Значения NULL	Количество значений NULL
Образцы значений	Образцы значений (отображаются 3 образца значений)
Сумма	Сумма всех значений в этом поле (для строковых полей отображается «0»)
Мин	Минимальное наблюдаемое значение для этого поля (числовые поля)
Макс	Максимальное наблюдаемое значение для этого поля (числовые поля)
Среднее	Среднее наблюдаемое значение для этого поля
Медианное	Медианное (или среднее) число в массиве чисел для этого поля
Системные теги	Теги файла, применяемые для определения кодового набора (например, $ascii, $text)
Стандартное отклонение	Стандартное отклонение для числовых полей
Положительные	Количество положительных значений
Отрицательные	Количество отрицательных значений
Нулевые значения	Количество значений «0»
Пустые строки	Количество пустых строк
Мин. длина	Самая маленькая наблюдаемая длина символа
Средняя длина	Средняя наблюдаемая длина символа
Макс. длина	Самая большая наблюдаемая длина символа
Первое сортированное значение	Первое (наименьшее) значение веса сортировки (строковые поля)
Последнее сортированное значение	Последнее (наибольшее) значение веса сортировки (строковые поля)
Числовые значения	Количество числовых значений
Текстовые значения	Количество текстовых значений
Самые часто встречающиеся значения	Три наиболее распространенных значения в поле

Вид Данные

Профиль в виде данных отображает набор данных в виде прямой таблицы с именами столбцов полей и первыми двадцатью значениями (максимум).

Профиль набора данных в виде данных — Вид данных: отображаются имена столбцов данных и первые двадцать записей

Ограниченный вид профиля

Некоторые наборы данных не профилируются по умолчанию. Вместо этого в разделе Профиль отображается ограниченный профиль данных. Можно профилировать данные, нажав кнопку Профилировать набор данных.

Следующие типы данных отображают ограниченный профиль, пока не будут профилированы:

QVD
Parquet

Нажмите для просмотра в полном размере — Ограниченный профиль набора данных QVD

Статистика в ограниченном профиле
Статистика	Описание
Имя	Имя поля (пример: CategoryID)
Тип данных	Qlik Sense регистрирует данные из многих различных систем, универсальное сопоставление типов внешних данных с внутренними накладывается на данные полей (столбцов) в информационных целях. Поддерживаются следующие значения типов данных. Дата: дата, содержащая месяц, день, год в формате ISO 8601 YYYY-MM-DD Время: значение времени, содержащее час, минуты, секунды в формате ISO 8601 hh.mm.ss.sss±hh:mm Дата и время: значение даты и времени, содержащее год, месяц, день, час, минуту, секунду и доли в формате YYYY-MM-DDThh.mm.ss.sss Метка времени: значение метки времени, содержащее год, месяц, день, час, минуту, секунду, доли и часовой пояс в формате YYYY-MM-DDThh.mm.ss.sssZ Строка: символьные данные, представляющие текст Двойное число: числовой тип данных с двойной точностью: 64-разрядный с плавающей запятой IEEE 754 Десятичная дробь: точный числовой тип данных, определенный точностью (общее количество цифр) и масштабом (количество цифр справа от десятичной точки) Целое число: положительные или отрицательные целые числа Булево значение: логическое значение (ИСТИНА/ЛОЖЬ) Двоичное значение: категориальные данные, которые могут принимать ровно два возможных значения, такие как «1» и «2» Пользовательский: тип, который находится за пределами сопоставленных типов, известных в системе
Уникальные значения	Кардинальность, количество уникальных значений, содержащихся в этом поле
Значения NULL	Количество значений NULL
Образцы значений	Образцы значений (отображаются 3 образца значений)

Разрешения

Для профилирования и создания выборки данных требуются разрешения. Для этого необходима роль в пространстве набора данных, которая позволяет профилировать источники данных. Для получения дополнительной информации см. Управление разрешениями в общих пространствах или Управление разрешениями в управляемых пространствах.

СОПУТСТВУЮЩИЕ УЧЕБНЫЕ МАТЕРИАЛЫ:

Как использовать Каталог данных для профилирования данных?

Подробнее

Как использовать Каталог данных для профилирования данных?

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!

Оставьте свой отзыв здесь