Общие сведения о важности SHAP в обучении эксперимента
Важность SHAP позволяет получать важные наблюдения о прогнозах, созданных в ходе экспериментов. Она помогает понять, какие признаки являются наиболее важными для прогноза.
Значения SHAP показывают, какой вклад вносит каждый признак в прогнозируемое значение цели с учетом всех других признаков в данной строке.
После обучения версии эксперимента выберите модель. Диаграмма Важность SHAP на вкладке Модели под таблицей визуализирует данные SHAP из прогнозов модели, созданных на основе отложенных данных (для тестирования).
В этом разделе подробно рассматривается важность SHAP в обучении эксперимента. Для получения информации о наборах данных важности SHAP во время прогнозирования см. раздел Создание наборов данных SHAP во время прогнозирования.
Обзор
Важность SHAP измеряется на уровне строк. Она показывает, как признак влияет на прогноз одной строки по сравнению с другими признаками в этой строке и со средним результатом в наборе данных. Значение обладает направлением и величиной, но для обучения модели важность SHAP представлена в виде абсолютного значения.
На диаграмме важности SHAP показаны агрегированные значения на уровне строк. Она позволяет понять влияние признаков в подмножествах данных.
Эксперименты двоичной классификации и регрессии
В эксперименте двоичной классификации или регрессии диаграмма важности SHAP для каждой версии модели представляет собой линейчатую диаграмму, отображающую среднее абсолютное значение SHAP для каждого признака в эксперименте. Важность SHAP упорядочена от наибольшего значения к наименьшему. Диаграмма показывает, какие признаки оказывают наибольшее и наименьшее влияние на прогнозируемый результат цели, независимо от того, каким будет этот результат.
Эксперименты многоклассовой классификации
В эксперименте многоклассовой классификации существует несколько вариантов представления диаграммы важности SHAP. Существуют следующие варианты:
признак SHAP представлен в виде общего значения;
значения признака SHAP, распределенные по классам;
диаграммы важности SHAP для значений одного класса.
Признак SHAP представлен в виде общего значения
По умолчанию диаграмма важности SHAP настроена с параметром Все классы: среднее значение признаков SHAP.
Эта конфигурация показывает важность SHAP для каждого признака, независимо от прогнозируемого результата цели. Признаки на диаграмме упорядочены по общему среднему абсолютному значению SHAP и не распределены по классам.
Значения признака SHAP, распределенные по классам
Чтобы отобразить степень влияния каждого признака на результат цели, когда он является значением каждого класса в эксперименте, выберите параметр Признак SHAP по классам. Можно выбрать параметр Группировка или Стопкой. Средние абсолютные значения SHAP для каждого класса в эксперименте представлены разными цветами, что позволяет сравнивать их по классам.
Например, предположим, что целевое поле в эксперименте имеет четыре возможных класса или результата (фиолетовый план, зеленый план, синий план и красный план). Полоса с разными цветами для каждого признака показывает, какое влияние этот признак оказал на каждый из четырех возможных результатов эксперимента. Если посмотреть на общую длину полосы, то можно увидеть общее влияние, которое оказал признак на прогнозирование цели, независимо от прогнозируемого результата.
Диаграммы важности SHAP для значений одного класса
Также есть возможность просмотреть диаграмму важности SHAP для каждого из возможных прогнозируемых результата цели. Представлены средние абсолютные значения SHAP для прогнозируемых результатов одного класса.
Например, если цель эксперимента имеет четыре возможных результата, то можно просмотреть четыре отдельные диаграммы, отображающие признаки, которые оказывают наибольшее влияние на прогнозирование каждого из четырех возможных результатов.
Расчет значений SHAP
Значения SHAP рассчитываются для разнообразных алгоритмов. Важность SHAP рассчитывается двумя различными методами.
Древовидный SHAP: быстрый и точный метод расчета значений SHAP для моделей на основе дерева
Линейный SHAP: метод, позволяющий рассчитать значения SHAP для линейных моделей
Алгоритм | Поддерживаемые типы моделей | Метод расчета значений SHAP |
---|---|---|
Классификация методом случайного леса | Двоичная классификация, многоклассовая классификация | Древовидный SHAP |
Классификация методом XGBoost | Двоичная классификация, многоклассовая классификация | Древовидный SHAP |
Классификация методом LightGBM | Двоичная классификация, многоклассовая классификация | Древовидный SHAP |
Классификация методом CatBoost | Двоичная классификация, многоклассовая классификация | Древовидный SHAP |
Логистическая регрессия | Двоичная классификация, многоклассовая классификация | Линейный SHAP |
Регрессия методом лассо | Двоичная классификация, многоклассовая классификация | Линейный SHAP |
Регрессия методом эластичной сети | Двоичная классификация, многоклассовая классификация | Линейный SHAP |
Упрощенный гауссовский алгоритм Байеса | Двоичная классификация, многоклассовая классификация | Значения SHAP не рассчитываются |
Регрессия методом CatBoost | Регрессия | Древовидный SHAP |
Регрессия методом LightGBM | Регрессия | Древовидный SHAP |
Линейная регрессия | Регрессия | Линейный SHAP |
Регрессия методом случайного леса | Регрессия | Древовидный SHAP |
Регрессия методом SGD | Регрессия | Линейный SHAP |
Регрессия методом XGBoost | Регрессия | Древовидный SHAP |
Анализ ключевых факторов
Анализы ключевых факторов можно создавать непосредственно в приложении Qlik Sense, чтобы сравнивать важность определенных факторов при определении данных, наблюдаемых для определенной бизнес-метрики или показателя производительности. Анализ ключевых факторов рассчитывает значения SHAP на уровне строки каждого рассматриваемого фактора и отображает их в агрегированной форме. Это обеспечивает высокоуровневый обзор факторов, которые определяют тренды и поведение в данных приложения. Результаты анализа ключевых факторов позволяют улучшить информационную грамотность организации и обеспечить принятие более информированных и эффективных решений.
Для получения дополнительной информации см. раздел Идентификация основных источников влияния, определяющих данные, с помощью анализа ключевых факторов.