Визуализация данных прогнозирования в приложении Qlik Sense
Заключительный этап процесса — создание аналитического приложения Qlik Sense для визуализации созданных данных прогнозирования.
Альтернативный рабочий процесс: загрузка предварительно настроенного приложения
Вместо выполнения остальных шагов, перечисленных в этом разделе, можно загрузить приложение Customer churn predictions.qvf, скачанное перед началом работы с этим учебным пособием, в центр активности Аналитика.
Остальные пункты на этой странице содержат инструкции по созданию подобного приложения. Данные прогнозирования в приложении и ваши собственные данные прогнозирования будут несколько отличаться.
Загружаемое приложение содержит дополнительный лист с заголовком Individual Customer Analysis, в котором используются условные выражения для детального анализа одной учетной записи пользователя за один раз.
Приступая к работе
Перейдите на страницу «Создать» центра активности Аналитика и выберите Аналитическое приложение. Выберите пространство для приложения и назовите его Прогнозирование оттока клиентов.
Щелкните команду Создать.
Создание модели данных
Выбор данных
Требуется добавить необходимые данные в приложение. Они включают набор данных для применения (загруженный в начале работы с учебным пособием) и два набора данных, созданных на основе прогнозирования.
Выполните следующие действия.
-
В новом приложении щелкните, чтобы добавить данные из каталога данных.
-
В окне Каталог данных установите флажки рядом со следующими тремя наборами данных:
-
Набор данных для применения: AutoML Tutorial - Churn data - apply.csv или AutoML Tutorial - Churn data - apply.qvd
-
Набор данных для прогнозирования: AutoML Tutorial - Churn data - apply_Prediction.csv
-
Набор данных «Координатный SHAP»: AutoML Tutorial - Churn data - apply_Prediction_Coordinate_SHAP.csv
-
-
Щелкните Далее.
-
Откроется панель сводки. Щелкните набор данных AutoML Tutorial - Churn data - apply.csv, чтобы развернуть список полей, доступных для загрузки.
-
Щелкните значок рядом с любыми признаками, выбор которых был отменен при обучении модели. Щелкните рядом с DaysSinceLastService, а также рядом с любыми признаками, которые были исключены из-за слабого влияния на модель.
-
Щелкните Загрузить в приложение.
Связывание данных
На данном этапе вы добавили данные в приложение, но подключенная модель данных будет построена только после связывания наборов данных друг с другом. В данном случае поле AccountID будет индексом, объединяющим наборы данных.
В приложении открывается Диспетчер данных. Отображаются три набора данных, но они не объединены, а представляют собой отдельные сущности.
Выполните следующие действия.
-
В приложении открывается Диспетчер данных. Отображаются три набора данных, но они не объединены, а представляют собой отдельные сущности.
-
На правой панели Диспетчера данных найдите рекомендацию связи AccountID.
-
Нажмите Применить. Теперь таблицы должны быть объединены.
-
Щелкните команду Загрузить данные.
Проверка связей в Просмотр модели данных
Прежде чем создавать визуализации в приложении, следует проверить, что данные связаны надлежащим образом.
Выполните следующие действия.
-
На панели навигации в верхней части интерфейса откройте меню навигации приложения и выберите Просмотр модели данных.
-
Убедитесь, что три набора данных связаны надлежащим образом. Поле AccountID должно выступать в роли ключа для всех трех наборов данных. Модель данных приложения должна выглядеть, как показано ниже.
Теперь вы готовы приступить к созданию аналитического содержимого. Нажмите Лист на вкладке Анализ на панели навигации.
Первый лист: информационная панель «Агрегированные прогнозы»
Первый лист посвящен анализу прогнозов в агрегированной форме.
Выполните следующие действия.
-
При этом должен быть активен режим редактирования листа. Нажмите Расширенные параметры.
-
Правой кнопкой мыши щелкните существующую визуализацию на листе и удалите ее. Это признак рекомендаций по созданию диаграмм, который мы не будем использовать в данном учебном пособии.
-
Присвойте листу заголовок, например Агрегированные прогнозы. Для этого щелкните в любом месте пустого листа, чтобы открыть панель Свойства листа в правой части интерфейса. В поле Заголовок введите имя листа.
Круговая диаграмма
Круговая диаграмма позволяет легко визуализировать пропорциональную разбивку данных. В данном случае будет разумным разбить данные по прогнозируемым результатам (yes или no).
Выполните следующие действия.
-
Перетащите круговую диаграмму на лист.
-
Добавьте Churned_predicted как измерение.
-
Добавьте Count(AccountID) как меру.
-
При необходимости отключите параметр Метка измерения на вкладке Вид > Представление на панели свойств.
-
Разверните измерение в области Данные на панели свойств и в поле Метка для измерения введите Прогноз на отток.
Метка обновляется в легенде.
Фильтр
Эта информационная панель будет использоваться для широкого анализа всей модели данных. Однако при этом почти определенно будет играть важную роль возможность быстрой фильтрации данных по различным измерениям для анализа специфических когорт.
Создайте фильтр с несколькими списками. В каждом списке можно сделать выборки значений в рамках одного измерения.
Выполните следующие действия.
-
Перетащите фильтр на лист.
-
Добавьте поля в фильтр. Это могут быть измерения, которые, как ожидается, будут иметь существенное значение для прогнозируемых результатов.
-
Измените каждый список по необходимости, для этого щелкните поле в области Данные на панели свойств. Будет открыто окно Свойства списка.
Например, может потребоваться изменить метку поля и задать параметру Свернуть поле списка значение Всегда, чтобы освободить пространство листа.
Измените размер фильтра, чтобы он отображался в виде панели на одной стороне листа.
Объекты КПЭ
Ключевые показатели эффективности (КПЭ) — это отличный способ отображения одного значения, особенно важного для анализа данных. Здесь мы создадим три диаграммы КПЭ.
Выполните следующие действия.
-
Создайте пустую диаграмму КПЭ. Добавьте следующую меру:
=Count(Churned_predicted)
Таким образом будет рассчитываться общее количество клиентов, для которых спрогнозирован отток.
-
Присвойте мере метку Общее количество клиентов.
-
Задайте для параметра Формат чисел значение Число и представьте значения в формате 1,000 (без десятичных дробей или процентов).
-
Создайте еще одну пустую диаграмму КПЭ. Добавьте следующую меру:
=Count({<Churned_predicted={"yes"}>}(Churned_predicted))
Это выражение множества для расчета количества значений yes, отображаемых в поле Churned_predicted.
-
Присвойте мере метку Прогноз на отток.
-
Настройте в диаграмме такой же формат числа, как и в первой диаграмме КПЭ.
-
Создайте третью пустую диаграмму КПЭ. Добавьте следующую меру:
=Count({<Churned_predicted={"no"}>}(Churned_predicted))
Здесь рассчитывается количество значений no, отображаемых в поле Churned_predicted.
-
Присвойте мере метку Прогноз на сохранение.
Гистограмма
Можно визуализировать распределение значений вероятности прогноза с помощью гистограммы.
Перетащите гистограмму на лист и присвойте ей заголовок. Добавьте Churned_yes как измерение.
Линейчатые диаграммы со стопками полос
Для анализа прогнозирований по категориальному полю, такому как тип плана, можно создать линейчатую диаграмму с индивидуальными анализами множеств, расположенными стопкой один над другим.
Выполните следующие действия.
-
Перетащите линейчатую диаграмму на лист и назовите ее Прогнозы оттока по типу плана.
-
Добавьте PlanType как измерение. Присвойте ему метку Тип плана.
-
Добавьте следующую меру:
=Count({<Churned_predicted={"no"}>}(Churned_predicted))
Присвойте мере метку Прогноз на сохранение.
-
Добавьте следующую меру:
=Count({<Churned_predicted={"yes"}>}(Churned_predicted))
Присвойте мере метку Прогноз на отток.
-
Выберите Вид > Представление, затем измените макет с Сгруппированный на Стопкой.
-
Уберите полосу прокрутки и задайте параметру Метки значений значение Вкл.
-
Задайте параметрам Метки сегментов и Метки итоговых значений значение Авто.
Завершив настройку, можно создать подобную линейчатую диаграмму с теми же двумя мерами, но с другим категориальным измерением, таким как NumberOfPenalties.
График распределения для анализа отдельных значений цифровых полей
С помощью графика распределения можно представить данные для прогнозирования по мере с различными числовыми значениями. В этом разделе мы создадим диаграмму для отображения прогнозов оттока по базовому тарифу с различными группировками по оценке услуг клиентом.
Выполните следующие действия.
-
Перетащите график распределения на лист и назовите его Прогнозы оттока по базовому тарифу и оценке услуг.
-
Добавьте AccountID в качестве измерения для точек.
-
Добавьте следующую меру на ось x:
=Avg(BaseFee)
-
Добавьте следующее вычисляемое измерение на ось y:
=Round(ServiceRating,2)
Это создает группировки на оси y для приблизительных значений ServiceRating. Чем больше значение, тем выше клиент оценил качество услуги.
-
Выберите Вид > Представление, затем уменьшите значение Размер пузырьков до 20 и включите параметр Разнести точки.
-
В области Цвета и легенда задайте параметру Цвета значение Пользовательские.
-
Выберите параметр, чтобы применять к данным цвет по следующему измерению:
=Churned_predicted
Таким образом назначается один цвет каждому из значений в поле Churned_predicted. В данном случае будут отображаться два цвета.
-
Добавьте метки для измерения и меры, затем добавьте следующую метку для пользовательской настройки цвета: Прогноз на отток.
Подобные диаграммы можно создавать для анализа различных числовых полей, подставляя другие агрегирования полей вместо меры BaseFee.
Настройте визуализации на листе так, чтобы они выглядели примерно так, как показано ниже.
Второй лист: информационная панель «Агрегированные значения SHAP»
Затем создайте лист, посвященный анализу агрегированных значений SHAP.
Выполните следующие действия.
-
Создайте новый лист и откройте режим расширенного редактирования.
-
Присвойте листу заголовок (например, Агрегированные значения SHAP).
Ранжирование важности SHAP
Диаграмма этого типа похода на автоматически генерируемую диаграмму, которая могла встречаться при настройке версий эксперимента. Здесь мы создадим диаграмму для набора данных прогнозирования.
Цель диаграммы этого типа — отображать признаки, которые делают наибольший вклад в результат, отображаемый в столбце Churned. Необходимо знать, что поскольку будут использоваться абсолютные значения, результаты SHAP могут быть положительными (значение yes) или отрицательным (значение no). При желании также можно использовать выражение, которое не рассчитывает абсолютное значение.
Выполните следующие действия.
-
Перетащите линейчатую диаграмму на пустой лист.
-
Назовите диаграмму Важность SHAP по признаку.
-
Добавьте измерение automl_feature и присвойте ему метку Признак.
Это позволит представить агрегированные данные по всем включенным признакам.
-
Добавьте следующую вычисленную меру:
=fabs(Avg(SHAP_value))
-
В поле Метка введите Среднее абсолютное значение SHAP.
-
На панели свойств в разделе Вид > Представление удалите полосу прокрутки, если она есть, и измените ориентацию диаграммы с Вертикальная на Горизонтальная.
-
В области Сортировка перетащите меру, чтобы она оказалась над измерением, если это еще не сделано. Оставьте для сортировки каждого поля значение Авто.
При этом диаграмма сортируется по значениям мер в нисходящем порядке.
Матричный контейнер
Можно создать матричный контейнер с целью фильтрации данных для значений конкретных полей в измерении. В данном случае мы можем разбить значения SHAP для каждого из четырех типов плана, предлагаемых клиентам.
Чтобы создать объект матричного контейнера, необходимо задать измерение и основную визуализацию. Мы преобразуем только что созданную диаграмму «Ранжирование важности SHAP» в основную визуализацию.
Выполните следующие действия.
- Правой кнопкой щелкните диаграмму Среднее абсолютное значение SHAP на листе, затем выберите Добавить к основным элементам.
- Оставьте имя по умолчанию и нажмите кнопку Добавить.
-
На панели ресурсов выберите Пользовательские объекты > Qlik Visualization Bundle, перетащите матричный контейнер на лист.
-
Добавьте PlanType как измерение.
-
Щелкните Добавить основную визуализацию внутри диаграммы, затем добавьте диаграмму Средние абсолютные значения SHAP.
-
На панели свойств выберите Вид > Общие, затем включите параметр Показать заголовки и присвойте диаграмме заголовок Важность SHAP по типу плана.
-
Измените размер матричного контейнера, чтобы он был достаточно широким для отображения названий признаков в диаграммах. Если отображаются не все метки, отрегулируйте масштаб в окне браузера.
В качестве альтернативы, для отображения этих данных можно создать индивидуальные диаграммы с выражениями множества для каждого значения измерения, которое требуется проанализировать. В данном случае можно создать отдельную диаграмму для каждого из четырех типов плана.
Многократное использование фильтра
Фильтр, созданный на первом листе, можно повторно использовать на этом листе. В расширенном режиме редактирования щелкните фильтр правой кнопкой и выберите «Копировать». Вставьте его на лист Агрегированные значения SHAP.
Карта дерева
Также можно визуализировать разбивку значений SHAP с использованием карты дерева. Перетащите карту дерева на лист и добавьте те же измерение и меру, которые использовались при ранжировании важности SHAP.
Настройте визуализации на листе так, чтобы они выглядели примерно так, как показано ниже.
Использование приложения
После завершения процесса создания приложение готово к использованию для анализа данных.
Щелкните Изменить лист, чтобы перейти в режим анализа. В этом виде можно делать выборки (в фильтрах или в других местах листа), чтобы фильтровать данные для специфического анализа подмножеств данных. Например, может потребоваться анализировать конкретный тип плана или регион клиента и сравнить результаты с другими подмножествами данных.
Спасибо!
Вы закончили изучение данного учебного пособия. Мы надеемся, что вы узнали для себя что-то новое и поняли, что автоматизированное машинное обучение — это быстрый и простой способ создания прогнозных моделей. Qlik Sense — это мощный инструмент, который позволяет без труда визуализировать данные прогнозирования и делать ценные наблюдения на основе этих данных.