Оценка регрессионных моделей
Регрессионные модели прогнозируют результаты в виде числа, которое указывает на лучшую оценку модели для целевой переменной. Для оценки регрессионных моделей генерируются несколько метрик.
R2
R-квадрат (R2) — это безразмерный показатель корреляции признаков с целью. Его можно выразить следующим образом: на сколько процентов прогнозы модели ближе к идеальным по сравнению с использованием среднего значения цели?
Диапазон значений R2 варьируется от отрицательной бесконечности до 1. Чем ближе значение к 1, тем больше дисперсия целевого значения может быть объяснена с помощью переменных признаков. Другими словами, тем больше вероятность того, что в модели присутствуют важные переменные признаков, позволяющие получить точные прогнозы.
На графиках показан пример зависимости роста от возраста. Рост более тесно коррелирует с возрастом на первом графике, где значение R2 равно 0,97, чем на втором графике, где значение R2 равно 0,56.
Обратите внимание, что более низкое значение R2 не обязательно означает, что это плохая модель. Интерпретация значения R2 зависит от конкретного сценария использования и используемых данных. Анализируя оценку регрессионной модели, важно помнить, что линейная зависимость не всегда имеет решающее значение. Если линейная регрессия дает плохие результаты, в то время как другие алгоритмы работают более эффективно, это может означать, что данные не могут быть достаточно хорошо смоделированы на основе линейной зависимости.
RMSE
Квадратный корень из среднеквадратичной ошибки (RMSE) может быть интерпретирован как средняя ожидаемая разница +/- между прогнозным значением и фактическим значением. Это остаточное стандартное отклонение (разница между наблюдаемым значением и прогнозным значением признака). Показатель RMSE измеряется в тех же единицах, что и целевое значение.
К примеру, предположим, что наша цель — спрогнозировать стоимость контракта, и мы получаем RMSE = 1250. Это означает, что в среднем прогнозная стоимость контракта отличается от фактической на +/- 1250 долларов.
MSE
Среднеквадратичная ошибка (MSE) может быть интерпретирована как квадрат средней ожидаемой разницы +/- между прогнозным значением и фактическим значением. Показатель MSE измеряется в тех же единицах, что и целевое значение в квадрате.
В примере с прогнозированием стоимости контракта MSE = 1 562 500. Это означает, что модель ошибается на +/- 1 562 500 долларов. Обратите внимание, что единица измерения — доллары в квадрате.
MAE
Средняя абсолютная ошибка (MAE) — это среднее значение всех абсолютных ошибок прогнозирования, где ошибкой прогнозирования является разница между фактическим значением и прогнозным значением. Использование абсолютного значения ошибок прогнозирования не позволяет ошибкам +/- компенсировать друг друга. Показатель MAE измеряется в тех же единицах, что и целевое значение.