Общие сведения о важности перестановки
Важность перестановки — это показатель того, насколько важен признак для общего прогнозирования с помощью модели. Другими словами, как изменится модель, если она не сможет обучаться на основе данного признака. Эта метрика также может помочь в уточнении модели путем изменения набора признаков и алгоритмов, которые будут в нее включены.
Важность перестановки рассчитывается с использованием важности перестановки из библиотеки scikit-learn. Этот показатель измеряет снижение оценки модели после перестановки признака.
-
Признак является «важным», если перетасовка его значений приводит к снижению оценки модели, поскольку в данном случае модель использует этот признак для прогнозирования.
-
Признак является «неважным», если перетасовка его значений никак не влияет на производительность модели, поскольку в данном случае модель игнорирует этот признак при прогнозировании.
На диаграмме важности перестановки признаки отображаются в порядке от наиболее важного (наибольшее влияние на производительность модели) к наименее важному (наименьшее влияние на производительность модели). Размер столбика показывает важность каждого признака.
Диаграмма важности перестановки создается автоматически для каждой модели, обученной в ходе эксперимента. Диаграмма отображается на вкладке Модели.
Использование важности перестановки для выбора столбцов признаков
После каждой итерации обучения модели можно проанализировать важность перестановки, чтобы определить, какие столбцы оставить, а какие исключить. При этом обратите внимание на признаки, которые наиболее важны для нескольких моделей. Скорее всего, эти признаки обладают наибольшей прогнозной ценностью и их лучше оставить при уточнении модели. По такому же принципу рекомендуется исключить признаки, которые постоянно находятся в нижней части списка и, скорее всего, не имеют большой прогнозной ценности.
Если результаты одного алгоритма намного лучше, чем результаты других алгоритмов, сосредоточьтесь на диаграмме важности перестановки для этого алгоритма. Если несколько алгоритмов показывают одинаковые результаты, можно сравнить диаграммы важности перестановки для этих алгоритмов.
Использование важности перестановки для выбора алгоритмов
Каждый алгоритм использует уникальный подход к выявлению закономерностей, основываясь на данных для обучения. Эксперименты обучаются с использованием нескольких алгоритмов, чтобы определить, какой подход лучше всего подходит для конкретного набора данных. Различные подходы находят отражение в изменении важности перестановки для разных алгоритмов. Например, признак A может быть наиболее важным для модели логистической регрессии, в то время как признак B наиболее важен при применении классификации методом XGBoost к тем же данным. В целом, предполагается, что признаки, обладающие большой прогнозной силой, будут самыми эффективными для всех алгоритмов, но нередко бывают и отклонения.
Эти отклонения в важности перестановки можно использовать при выборе между алгоритмами с похожими оценками. Выберите алгоритм с самыми эффективными признаками, которые более интуитивно понятны с учетом вашего бизнес-опыта.
Доступность важности перестановки
Включение признаков произвольного текста увеличивает сложность эксперимента и процессов, необходимых для его выполнения. Диаграммы Важность перестановки могут оказаться недоступными для итоговых моделей, если данные произвольного текста будут достаточно сложными.