Общие сведения о важности SHAP в обучении эксперимента

Важность SHAP позволяет получать важные наблюдения о прогнозах, созданных в ходе экспериментов. Она помогает понять, какие признаки являются наиболее важными для прогноза.

Значения SHAP показывают, какой вклад вносит каждый признак в прогнозируемое значение цели с учетом всех других признаков в данной строке.

После обучения версии эксперимента выберите модель. Диаграмма Важность SHAP на вкладке Модели под таблицей визуализирует данные SHAP из прогнозов модели, созданных на основе отложенных данных (для тестирования).

«Важность SHAP» доступна для следующих типов экспериментов:

Двоичная классификация
Классификация по нескольким классам
Регрессия

В этом разделе подробно рассматривается важность SHAP в обучении эксперимента. Для получения информации о наборах данных важности SHAP во время прогнозирования см. раздел Создание наборов данных SHAP во время прогнозирования.

Обзор

Важность SHAP измеряется на уровне строк. Она показывает, как признак влияет на прогноз одной строки по сравнению с другими признаками в этой строке и со средним результатом в наборе данных. Значение обладает направлением и величиной, но для обучения модели важность SHAP представлена в виде абсолютного значения.

На диаграмме важности SHAP показаны агрегированные значения на уровне строк. Она позволяет понять влияние признаков в подмножествах данных.

Эксперименты двоичной классификации и регрессии

В эксперименте двоичной классификации или регрессии диаграмма важности SHAP для каждой версии модели представляет собой линейчатую диаграмму, отображающую среднее абсолютное значение SHAP для каждого признака в эксперименте. Важность SHAP упорядочена от наибольшего значения к наименьшему. Диаграмма показывает, какие признаки оказывают наибольшее и наименьшее влияние на прогнозируемый результат цели, независимо от того, каким будет этот результат.

Нажмите для просмотра в полном размере — Диаграмма важности SHAP, отображаемая при обучении модели двоичной классификации

Эксперименты многоклассовой классификации

В эксперименте многоклассовой классификации существует несколько вариантов представления диаграммы важности SHAP. Существуют следующие варианты:

Признак SHAP представлен в виде общего значения
значения признака SHAP, распределенные по классам;
диаграммы важности SHAP для значений одного класса.

Признак SHAP представлен в виде общего значения

По умолчанию диаграмма важности SHAP настроена с параметром Все классы: среднее значение признаков SHAP.

Эта конфигурация показывает важность SHAP для каждого признака, независимо от прогнозируемого результата цели. Признаки на диаграмме упорядочены по общему среднему абсолютному значению SHAP и не распределены по классам.

значения признака SHAP, распределенные по классам;

Чтобы отобразить степень влияния каждого признака на результат цели, когда он является значением каждого класса в эксперименте, выберите параметр Признак SHAP по классам. Можно выбрать параметр Группировка или Стопкой. Средние абсолютные значения SHAP для каждого класса в эксперименте представлены разными цветами, что позволяет сравнивать их по классам.

Например, предположим, что целевое поле в эксперименте имеет четыре возможных класса или результата (фиолетовый план, зеленый план, синий план и красный план). Полоса с разными цветами для каждого признака показывает, какое влияние этот признак оказал на каждый из четырех возможных результатов эксперимента. Если посмотреть на общую длину полосы, то можно увидеть общее влияние, которое оказал признак на прогнозирование цели, независимо от прогнозируемого результата.

диаграммы важности SHAP для значений одного класса.

Также есть возможность просмотреть диаграмму важности SHAP для каждого из возможных прогнозируемых результата цели. Представлены средние абсолютные значения SHAP для прогнозируемых результатов одного класса.

Например, если цель эксперимента имеет четыре возможных результата, то можно просмотреть четыре отдельные диаграммы, отображающие признаки, которые оказывают наибольшее влияние на прогнозирование каждого из четырех возможных результатов.

Расчет значений SHAP

Значения SHAP рассчитываются для разнообразных алгоритмов. Важность SHAP рассчитывается двумя различными методами.

Древовидный SHAP: быстрый и точный метод расчета значений SHAP для моделей на основе дерева
Линейный SHAP: метод, позволяющий рассчитать значения SHAP для линейных моделей

Доступные алгоритмы по типам моделей и методу расчета значений SHAP
Алгоритм	Поддерживаемые типы моделей	Метод расчета значений SHAP
Классификация методом случайного леса	Двоичная классификация, многоклассовая классификация	Древовидный SHAP
Классификация методом XGBoost	Двоичная классификация, многоклассовая классификация	Древовидный SHAP
Классификация методом LightGBM	Двоичная классификация, многоклассовая классификация	Древовидный SHAP
Классификация методом CatBoost	Двоичная классификация, многоклассовая классификация	Древовидный SHAP
Логистическая регрессия	Двоичная классификация, многоклассовая классификация	Линейный SHAP
Регрессия методом лассо	Двоичная классификация, многоклассовая классификация	Линейный SHAP
Регрессия методом эластичной сети	Двоичная классификация, многоклассовая классификация	Линейный SHAP
Упрощенный гауссовский алгоритм Байеса	Двоичная классификация, многоклассовая классификация	Значения SHAP не рассчитываются
Регрессия методом CatBoost	Регрессия	Древовидный SHAP
Регрессия методом LightGBM	Регрессия	Древовидный SHAP
Линейная регрессия	Регрессия	Линейный SHAP
Регрессия методом случайного леса	Регрессия	Древовидный SHAP
Регрессия методом SGD	Регрессия	Линейный SHAP
Регрессия методом XGBoost	Регрессия	Древовидный SHAP

Анализ ключевых факторов

Анализы ключевых факторов можно создавать непосредственно в Qlik Sense приложении, чтобы сравнивать важность определенных факторов при определении данных, наблюдаемых для определенной бизнес-метрики или показателя производительности. Анализ ключевых факторов рассчитывает значения SHAP на уровне строки каждого рассматриваемого фактора и отображает их в агрегированной форме. Это обеспечивает высокоуровневый обзор факторов, которые определяют тренды и поведение в данных приложения. Результаты анализа ключевых факторов позволяют улучшить информационную грамотность организации и обеспечить принятие более информированных и эффективных решений.

Для получения дополнительной информации см. раздел Выявление основных факторов влияния в ваших данных с помощью анализа ключевых факторов.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь