Выбор оптимальной модели
При анализе результатов эксперимента необходимо искать модели со специфичностью, которая важна для конкретной задачи. Например, помимо стабильно точных прогнозов, вам, возможно, будут интересны модели, которые имеют хорошую скорость прогнозирования. На вкладке Модели в эксперименте выводятся модели, которые были рекомендованы с учетом нескольких аспектов анализа.
Анализ с целью поиска лучших моделей для эксперимента

В зависимости от условий фильтра, представленные рекомендации помогут вам оценить модели с учетом разных аспектов качества. Одна модель может считаться лучшей сразу по нескольким критериям. Типы лучших моделей:
Просмотр лучших моделей в пользовательском интерфейсе
Информацию о том, как найти и исследовать лучшие модели для эксперимента, см. Анализ таблицы с метриками модели.
Лучшая модель
Лучшая для анализа модель выбирается автоматически с учетом выбранных фильтров. Лучшая модель отмечена значком .
В Qlik Predict лучшая модель определяется на основе сбалансированного расчета, учитывающего как точность, так и скорость предсказания.
Лучшая модель определяется автоматически следующим образом:
-
Выбирается модель, у которой прогнозная эффективность, определяемая типом модели, имеет максимальную оценку. Используются следующие метрики:
-
Бинарная классификация: F1
-
Многоклассовая классификация: F1 Macro
-
Регрессия: R2
-
-
Выбираются все модели, у которых оценка эффективности, полученная в шаге 1, находится в пределах пяти процентов от модели с максимальной оценкой.
-
Из всех выбранных моделей выбирается модель с самой высокой скоростью предсказания (см. Скорость прогнозирования). Эта модель и является лучшей.
Наиболее точные
Немаловажно, чтобы модель могла генерировать прогнозы со стабильно высокой долей правильных исходов (accuracy). Хотя F1, F1 Macro и R2 дают сбалансированную оценку, которая в целом отражает такой показатель, исходные метрики accuracy (доля правильных исходов) и precision (точность) также могут быть источником полезной информации.
Наиболее точная модель отмечена значком . Наиболее точная модель определяется автоматически следующим образом:
-
Выбирается модель, у которой прогнозная эффективность, определяемая типом модели, имеет максимальную оценку. Используются следующие метрики:
-
Выбираются все модели, у которых эффективность, определенная в шаге 1, находится в пределах десяти процентов от модели с максимальной оценкой.
-
В зависимости от типа модели используется один из двух вариантов:
-
Бинарная классификация:
-
Если набор обучающих данных сбалансирован, выбирается модель с наивысшим показателем accuracy (доля верных исходов). Это и есть наиболее точная модель Информацию о конкретной метрике см. Точность.
-
Если набор обучающих данных плохо сбалансирован, выбирается модель с наивысшим показателем precision (точность). Информацию о конкретной метрике см. Прецизионность.
-
-
Многоклассовая классификация или регрессия:
-
Самая быстрая модель
При выборе модели немаловажную роль играет скорость прогнозирования. Самая быстрая модель отмечена значком .
Самая быстрая модель определяется по скорости прогнозирования. Учитывается также точность прогнозирования моделей. Это связано с тем, что модель должна не только быстро генерировать прогнозы, но и делать прогнозы с разумной точностью.
Самая быстрая модель определяется автоматически следующим образом:
-
Выбирается модель, у которой прогнозная эффективность, определяемая типом модели, имеет максимальную оценку. Используются следующие метрики:
-
В зависимости от типа модели используется один из двух вариантов:
-
Бинарная классификация:
-
Если набор обучающих данных сбалансирован, выбираются все модели, у которых доля верных исходов (accuracy) находится в пределах десяти процентов от соответствующей оценки модели, выбранной на шаге 1. Информацию об этой метрике см. Точность.
-
Если набор обучающих данных плохо сбалансирован, выбираются все модели, которые находятся в пределах десяти процентов от оценки модели с самыми высокими показателями из шага 1. Используются метрики из шага 1.
-
-
Многоклассовая классификация или регрессия:
-
-
Из всех выбранных моделей выбирается модель с самой высокой скоростью предсказания (см. Скорость прогнозирования). Эта модель и является самой быстрой.
Скорость прогнозирования
Скорость предсказания – это метрика, которая применяется ко всем типам моделей: бинарной классификации, многоклассовой классификации и регрессии. Скорость предсказания измеряет, насколько быстро модель машинного обучения способна генерировать предсказания.
В Qlik Predict скорость предсказания рассчитывается по двум факторам: времени вычисления признака и времени предсказания на тестовом наборе данных. Скорость предсказания отображается в строках в секунду.
Скорость предсказания можно проанализировать в таблице Метрики модели после выполнения версии эксперимента. Кроме того, скорость предсказания данных можно проверить при анализе моделей со встроенной аналитикой. Для получения дополнительной информации см.:
Замечания
Результирующее значение скорости предсказания зависит от размера обучающего набора данных, а не от характера данных, на основе которых делаются предсказания. После развертывания модели разница в скорости генерации предсказаний заметна, если обучающие данные и новые входные данные значительно отличаются по размеру или предсказания генерируются в режиме реального времени на одном или нескольких рядах данных.
Переобучение
О переобучении говорят, когда модель генерирует предсказания, которые слишком близко соответствуют обучающему набору данных Переобученная модель, скорее всего, запомнила только характерные комбинации в наборе обучающих данных и не сможет точно предсказывать будущие значения.
Переобучение может быть вызвано разными причинами, в том числе проблемами, связанными с алгоритмами обучения и слишком короткими или сложными обучающими наборами данных.
В Qlik Predict переобучение выявляется автоматически путем анализа результатов тестирования и обучения по всем метрикам, используемым в процессе выбора лучшей модели, кроме скорости предсказания:
-
Модели бинарной классификации: F1, Точность (сбалансированные данные), Прецизионность (несбалансированные данные)
Вероятно, модель переобучена, если при сравнении результатов тестирования и обучения разница между любыми из этих метрик превышает десять процентов.
Модели, у которых есть признаки переобученности, всегда исключаются из списка рекомендованных, даже если у нее хорошие показатели. Такие модели отмечены знаком предупреждения в таблице Метрики модели.
Если после применения фильтра все модели являются переобученными, рекомендации отсутствуют.
Решение проблемы переобученности
Проблему переобученности можно решить следующим образом:
-
Не развертывать модели, которые имеют признаки переобученности.
-
Если есть подозрение, что проблема связана с обучающими данными, в разделе Подготовка набора данных для обучения описывается, как подготовить обучающие данные, чтобы избежать переобученности.