Перейти к основному содержимому Перейти к дополнительному содержимому

Важность SHAP в обучении эксперимента

Важность SHAP позволяет получать важные наблюдения о прогнозах, созданных в ходе экспериментов. Она помогает понять, какие признаки являются наиболее важными для прогноза.

Значения SHAP показывают, какой вклад вносит каждый признак в прогнозируемое значение цели с учетом всех других признаков в данной строке.

После обучения версии эксперимента выберите модель в таблице Метрики модели. Диаграмма Важность SHAP под таблицей визуализирует данные SHAP из прогнозов модели, созданных на основе отложенных данных (для тестирования).

В этом разделе подробно рассматривается важность SHAP в обучении эксперимента. Для получения информации о наборах данных важности SHAP во время прогнозирования см. раздел Создание наборов данных SHAP во время прогнозирования.

Обзор

Важность SHAP измеряется на уровне строк. Она показывает, как признак влияет на прогноз одной строки по сравнению с другими признаками в этой строке и со средним результатом в наборе данных. Значение обладает направлением и величиной, но для обучения модели важность SHAP представлена в виде абсолютного значения.

На диаграмме важности SHAP показаны агрегированные значения на уровне строк. Она позволяет понять влияние признаков в подмножествах данных.

Эксперименты двоичной классификации и регрессии

В эксперименте двоичной классификации или регрессии диаграмма важности SHAP для каждой версии модели представляет собой линейчатую диаграмму, отображающую среднее абсолютное значение SHAP для каждого признака в эксперименте. Важность SHAP упорядочена от наибольшего значения к наименьшему. Диаграмма показывает, какие признаки оказывают наибольшее и наименьшее влияние на прогнозируемый результат цели, независимо от того, каким будет этот результат.

Диаграмма важности SHAP, отображаемая при обучении модели двоичной классификации

Эксперименты многоклассовой классификации

В эксперименте многоклассовой классификации существует несколько вариантов представления диаграммы важности SHAP. Существуют следующие варианты:

  • признак SHAP представлен в виде общего значения;

  • значения признака SHAP, распределенные по классам;

  • диаграммы важности SHAP для значений одного класса.

Признак SHAP представлен в виде общего значения

По умолчанию диаграмма важности SHAP настроена с параметром Все классы: среднее значение признаков SHAP.

Эта конфигурация показывает важность SHAP для каждого признака, независимо от прогнозируемого результата цели. Признаки на диаграмме упорядочены по общему среднему абсолютному значению SHAP и не распределены по классам.

Значения признака SHAP, распределенные по классам

Чтобы отобразить степень влияния каждого признака на результат цели, когда он является значением каждого класса в эксперименте, выберите параметр Признак SHAP по классам. Можно выбрать параметр Группировка или Стопкой. Средние абсолютные значения SHAP для каждого класса в эксперименте представлены разными цветами, что позволяет сравнивать их по классам.

Например, предположим, что целевое поле в эксперименте имеет четыре возможных класса или результата (фиолетовый план, зеленый план, синий план и красный план). Полоса с разными цветами для каждого признака показывает, какое влияние этот признак оказал на каждый из четырех возможных результатов эксперимента. Если посмотреть на общую длину полосы, то можно увидеть общее влияние, которое оказал признак на прогнозирование цели, независимо от прогнозируемого результата.

Диаграмма важности SHAP для модели многоклассовой классификации (параметр Признак SHAP по классам)

Диаграммы важности SHAP для значений одного класса

Также есть возможность просмотреть диаграмму важности SHAP для каждого из возможных прогнозируемых результата цели. Представлены средние абсолютные значения SHAP для прогнозируемых результатов одного класса.

Например, если цель эксперимента имеет четыре возможных результата, то можно просмотреть четыре отдельные диаграммы, отображающие признаки, которые оказывают наибольшее влияние на прогнозирование каждого из четырех возможных результатов.

Расчет значений SHAP

Значения SHAP рассчитываются для разнообразных алгоритмов. Важность SHAP рассчитывается двумя различными методами.

  • Древовидный SHAP: быстрый и точный метод расчета значений SHAP для моделей на основе дерева

  • Линейный SHAP: метод, позволяющий рассчитать значения SHAP для линейных моделей

Доступные алгоритмы по типам моделей и методу расчета значений SHAP
АлгоритмПоддерживаемые типы моделейМетод расчета значений SHAP
Классификация методом случайного леса Двоичная классификация, многоклассовая классификацияДревовидный SHAP
Классификация методом XGBoostДвоичная классификация, многоклассовая классификацияДревовидный SHAP
Классификация методом LightGBMДвоичная классификация, многоклассовая классификацияДревовидный SHAP
Классификация методом CatBoostДвоичная классификация, многоклассовая классификацияДревовидный SHAP
Логистическая регрессияДвоичная классификация, многоклассовая классификацияЛинейный SHAP
Регрессия методом лассоДвоичная классификация, многоклассовая классификацияЛинейный SHAP
Регрессия методом эластичной сетиДвоичная классификация, многоклассовая классификацияЛинейный SHAP
Упрощенный гауссовский алгоритм БайесаДвоичная классификация, многоклассовая классификацияЗначения SHAP не рассчитываются
Регрессия методом CatBoostРегрессияДревовидный SHAP
Регрессия методом LightGBMРегрессияДревовидный SHAP
Линейная регрессияРегрессияЛинейный SHAP
Регрессия методом случайного лесаРегрессияДревовидный SHAP
Регрессия методом SGDРегрессияЛинейный SHAP
Регрессия методом XGBoostРегрессияДревовидный SHAP

Анализ ключевых факторов

Анализы ключевых факторов можно создавать непосредственно в приложении Qlik Sense, чтобы сравнивать важность определенных факторов при определении данных, наблюдаемых для определенной бизнес-метрики или показателя эффективности. Анализ ключевых факторов рассчитывает значения SHAP на уровне строки каждого рассматриваемого фактора и отображает их в агрегированной форме. Это обеспечивает высокоуровневый обзор факторов, которые определяют тренды и поведение в данных приложения. Результаты анализа ключевых факторов позволяют улучшить информационную грамотность организации и обеспечить принятие более информированных и эффективных решений.

Для получения дополнительной информации см. раздел Идентификация основных источников влияния, определяющих данные, с помощью анализа ключевых факторов.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!