Перейти к основному содержимому Перейти к дополнительному содержимому

Оценка регрессионных моделей

Регрессионные модели прогнозируют результаты в виде числа, которое указывает на лучшую оценку модели для целевой переменной. Для оценки регрессионных моделей генерируются несколько метрик.

В ходе обучения регрессионного эксперимента автоматически создаются следующие диаграммы, позволяющие быстро проанализировать сгенерированные модели.

  • Важность перестановки: диаграмма, на которой признаки отображаются в порядке от наиболее важного (наибольшее влияние на эффективность модели) к наименее важному (наименьшее влияние на эффективность модели). Для получения дополнительной информации см. раздел Важность перестановки.

  • Важность SHAP: диаграмма, которая показывает, какое влияние оказывает каждый признак на прогнозируемый результат. Для получения дополнительной информации см. раздел Важность SHAP в обучении эксперимента.

R2

R-квадрат (R2) — это безразмерный показатель корреляции признаков с целью. Его можно выразить следующим образом: на сколько процентов прогнозы модели ближе к идеальным по сравнению с использованием среднего значения цели?

Диапазон значений R2 варьируется от отрицательной бесконечности до 1. Чем ближе значение к 1, тем больше дисперсия целевого значения может быть объяснена с помощью переменных признаков. Другими словами, тем больше вероятность того, что в модели присутствуют важные переменные признаков, позволяющие получить точные прогнозы.

На графиках показан пример зависимости роста от возраста. Рост более тесно коррелирует с возрастом на первом графике, где значение R2 равно 0,97, чем на втором графике, где значение R2 равно 0,56.

Два графика зависимости роста от возраста с разными значениями R2

Два графика с разными значениями R2.

Обратите внимание, что более низкое значение R2 не обязательно означает, что это плохая модель. Интерпретация значения R2 зависит от конкретного сценария использования и используемых данных. Анализируя оценку регрессионной модели, важно помнить, что линейная зависимость не всегда имеет решающее значение. Если линейная регрессия дает плохие результаты, в то время как другие алгоритмы работают более эффективно, это может означать, что данные не могут быть достаточно хорошо смоделированы на основе линейной зависимости.

RMSE

Квадратный корень из среднеквадратичной ошибки (RMSE) может быть интерпретирован как средняя ожидаемая разница +/- между прогнозным значением и фактическим значением. Это остаточное стандартное отклонение (разница между наблюдаемым значением и прогнозным значением признака). Показатель RMSE измеряется в тех же единицах, что и целевое значение.

К примеру, предположим, что наша цель — спрогнозировать стоимость контракта, и мы получаем RMSE = 1250. Это означает, что в среднем прогнозная стоимость контракта отличается от фактической на +/- 1250 долларов.

MSE

Среднеквадратичная ошибка (MSE) может быть интерпретирована как квадрат средней ожидаемой разницы +/- между прогнозным значением и фактическим значением. Показатель MSE измеряется в тех же единицах, что и целевое значение в квадрате.

В примере с прогнозированием стоимости контракта MSE = 1 562 500. Это означает, что модель ошибается на +/- 1 562 500 долларов. Обратите внимание, что единица измерения — доллары в квадрате.

MAE

Средняя абсолютная ошибка (MAE) — это среднее значение всех абсолютных ошибок прогнозирования, где ошибкой прогнозирования является разница между фактическим значением и прогнозным значением. Использование абсолютного значения ошибок прогнозирования не позволяет ошибкам +/- компенсировать друг друга. Показатель MAE измеряется в тех же единицах, что и целевое значение.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!