Идентификация основных источников влияния, определяющих данные, с помощью анализа ключевых факторов
С помощью Анализа ключевых факторов можно идентифицировать и сравнить источники определенных трендов в данных. Анализ ключевых факторов помогает визуализировать и ранжировать влияние, которое оказывает определенный набор факторов на текущие данные для конкретного целевого поля. Используйте получаемые наблюдения для улучшения и расширения процессов организации, связанных с аналитикой и принятием решений.
Анализ ключевых факторов недоступен в приложении Qlik Sense. Выполните анализ ключевых факторов в виде листа, когда активен режим analyze.
Анализ ключевых факторов недоступен в Qlik Sense Business, Аналитика Qlik Cloud Standard и Qlik Anonymous Access.
Что такое анализ ключевых факторов?
Анализ ключевых факторов ― это форма исследования статистических данных, позволяющая определить степень воздействия, которое оказывают различные факторы на результат по одной целевой метрике. Анализ выполняется для количественных и качественных данных. Цель анализа ключевых факторов ― узнать, что именно стоит за определенным трендом данных, и использовать эти наблюдения для реализации прямых действий или для улучшения информированности в организации.
В бизнес-аналитике распространенные цели, для которых требуется оценить факторы влияния, ― это поля, такие как Sales, Customer Satisfaction, Margin, Churned и Cost of Sale. В качестве примеров факторов (ключевых факторов) можно привести Product, Location, Store Number и Manager.
Метрики, оцениваемые в анализе ключевых факторов, отличаются для каждой организации и в зависимости от сценария использования. Целевая метрика и различные факторы, влияющие на ее результаты, зависят от решаемой задачи, доступных данных и других факторов.
Зачем нужен анализ ключевых факторов?
Анализ ключевых факторов полезен в бизнес-анализе, так как он позволяет несколькими способами улучшить ключевые показатели эффективности. Анализ ключевых факторов можно применять для решения задач, получения наблюдений, связанных с инвестициями в товары, увеличением прибыли, сокращением затрат, удовлетворенностью клиентов и многими другими аспектами.
В Qlik Sense анализ ключевых факторов интегрирован в потребительское приложение. Используя возможности анализа данных в реальном времени, встроенные в Qlik Sense, можно выполнять новый анализ ключевых факторов при каждом изменении данных приложения. Это позволяет постоянно отслеживать изменения данных и быстро выявлять возникающие тренды, чтобы при необходимости быстро предпринимать эффективные действия.
Принципы работы
В основе анализа ключевых факторов лежит идея влияния. В Qlik Sense анализ ключевых факторов оценивает влияние, которое конкретные поля (признаки или ключевые факторы) оказывают на определенное поле, представляющее интерес (цель).
Данные, используемые в анализе
Анализ ключевых факторов ― это специфическое исследование подмножества данных. При создании анализа выбираются определенные поля в качестве компонентов анализа.
Необходимо выбрать следующие составные элементы для каждого анализа:
-
Цель
-
Несколько признаков
После выбора этих компонентов создается специфический набор данных на основе модели данных с использованием цели и признаков. Анализ ключевых факторов использует этот набор данных, а не всю модель данных, чтобы определить влияние, оказываемое признаками на цель. Анализ полей, не включенных в конфигурацию, не выполняется.
Дополнительная информация о каждом компоненте приводится ниже.
Расчет влияния
В Qlik Sense анализ ключевых факторов выполняется путем расчета значений SHAP для каждого значения данных признака в анализируемом подмножестве данных. Значения SHAP создаются на основе модели, обученной с помощью Qlik AutoML. Модели используют алгоритм случайного леса для создания значений SHAP.
Значение SHAP ― это расчет степени влияния, которое оказывает значение данных на соответствующее целевое значение, относительно других признаков в наборе данных, специально созданном на основе конфигурации анализа ключевых факторов. При просмотре результатов анализа ключевых факторов отображаются агрегирования значений SHAP во всем наборе данных или в определенном подмножестве его записей.
Для получения дополнительной информации о важности SHAP в Qlik AutoML см. раздел Общие сведения о важности SHAP в обучении эксперимента.
Цель
Цель ― это поле, для которого требуется проанализировать ключевые факторы. Например, может потребоваться сравнить, как определенные факторы влияют на продажи. В таком случае, в качестве цели можно выбрать меру Sales.
При выборе цели важную роль играет время доступности данных, особенно для признаков, включенных в анализ. Для получения дополнительной информации о надлежащих сроках сбора данных для цели и признаков см. раздел Функции .
Количество уникальных значений и тип данных в цели определяют тип задачи, которую будет решать анализ. Это, в свою очередь, влияет на требования, которым должны соответствовать данные. Для получения дополнительной информации см. раздел Требования к данным.
Анализ ключевых факторов поддерживает следующие типы задач:
-
Регрессия
-
Двоичная классификация
Регрессионные анализы
Регрессионные анализы применяются, когда цель состоит из большого количества уникальных числовых значений. Если используется числовой расчет (мера) в качестве цели, анализ ключевых факторов, вероятно, интерпретирует конфигурацию в качестве задачи регрессии.
Выбирая меру в качестве цели, можно применить базовое агрегирование непосредственно к полю в конфигурации или выбрать существующий основной элемент, если требуется использовать более сложное выражение.
Анализы двоичной классификации
Если цель включает только два уникальных значения (например, да или нет), анализ ключевых факторов интерпретирует конфигурацию в качестве задачи двоичной классификации. Анализы двоичной классификации создаются путем выбора двоичного измерения в качестве цели.
Один из распространенных примеров: если приложение содержит поле Churned для отслеживания, какие заказчики отменили определенную услугу, можно выбрать поле Churned в качестве цели, чтобы выявить факторы, которые заставили заказчиков принять такое решение.
Функции
Признаки являются ключевыми факторами. Это поля, которые содержат извлекаемую информацию о том, что влияет на тренды в данных. Например, создавая анализ ключевых факторов для идентификации определяющих причин, которые стоят за продажами, в качестве признаков можно выбрать такие измерения, как Location (Местоположение), Product Type (Тип продукта), Store Number (Номер магазина) и Sales Representative (Торговый представитель). Вычисляемые меры также можно использовать в качестве признаков.
Следует включать только признаки, содержащие данные, подлежащие записи и сбору до точки во времени, в которой осуществляется сбор целевых данных. Если включить признаки, содержащие данные, которые будут известны только в момент сбора данных для цели, результаты анализа будут искажены и не будут иметь аналитической ценности.
Например, если цель ― поле Sales, не следует включать признаки, содержащие данные, которые являются его прямыми производными. Подобным образом, если целью является поле Churned с двоичным результатом (Да или Нет), не следует включать признак, содержащий дату, в которую зафиксирован отток клиента.
Для получения дополнительной информации о том, как идентифицировать недействительные результаты анализа, см. раздел Идентификация недопустимых результатов.
Признак относится к одному из двух типов:
-
Категориальный признак: признак, содержащий значения данных на основе отдельных повторяющихся категорий. В качестве примера категориального признака можно привести поле Continent, в котором могут быть лишь несколько возможных значений, и они интерпретируются не как необработанные числовые данные, а как текст. Числа можно использовать в качестве категорий.
-
Числовой признак: признак, в котором значения данных ― это исключительно числовые данные, не принадлежащие к категориям.
Все включенные признаки специально анализируются, чтобы определить, какое влияние каждый из них оказывает на текущие данные в цели.
Для получения дополнительной информации о требованиях к цели и включенным элементам см. раздел Требования к данным.
Выборки приложения
Выборки, сделанные в приложении, используются в анализе ключевых факторов. Например, может возникнуть потребность идентифицировать ключевые факторы для продаж, но при включении измерения Store Number в качестве признака, понадобится анализировать только влияние пяти конкретных магазинов в организации. Для этого можно выбрать значения в приложении, затем настроить анализ ключевых фактов.
Так как выборки фактически являются фильтрами, применяемыми к моделям данных, важно знать, что формирование выборок в одном поле может повлиять на доступные данные, которые можно использовать в анализе.
Замечания в связи с подпиской клиента
Анализ ключевых факторов использует Qlik AutoML для расчета влияния признаков на цель. Для этого создаются модели машинного обучения, которые позволяют рассчитывать значения SHAP для точек данных, соответствующие включенным признакам в выбранном подмножестве данных.
При создании анализа ключевых факторов потребляются услуги, учитываемые в Qlik AutoML. Определенный объем использования AutoML включен в большинство подписок Qlik Cloud. Если требуется дополнительный объем, необходимо выполнить обновление до платной подписки AutoML.
Обратитесь к владельцу учетной записи службы и уточните условия используемой подписки, чтобы узнать доступный объем использования анализа ключевых факторов.
Дополнительные сведения можно найти в следующих ресурсах:
-
Ограничения AutoML и возможности в соответствии с условиями лицензии
-
Описание продукта Подписки Qlik Cloud®
Требования к данным
Минимальные требования к объему данных
Набор данных, созданный на основе цели и признаков, должен включать не менее 400 ячеек. В противном случае анализ выполнить невозможно.
Другие требования
Следующие требования применяются к набору данных, созданному на основе конфигурации анализа:
-
Цель должна содержать как минимум два уникальных значения.
-
Если цель содержит от двух до десяти уникальных значений, каждое уникальное значение должно появляться по крайней мере в десяти записях в наборе данных.
Если возникают ошибки при выполнении анализа ключевых факторов, возможно, данные, выбранные для анализа, не соответствуют этим требованиям. Для ознакомления со списком других проблем и вариантов их решения см. раздел Поиск и устранение неисправностей .
Использование анализа ключевых факторов в Qlik Sense
Следующие разделы справки помогут приступить к созданию и интерпретации анализов ключевых факторов в Qlik Sense:
Ограничения
В отношении анализа ключевых факторов действуют следующие ограничения:
-
Поля, содержащие данные типа «Дата», «Время» или «Метка времени», не поддерживаются для использования в качестве целей или признаков.