Улучшение моделей
После создания первоначальных моделей важно улучшить их, чтобы повысить их эффективность и потенциальную точность. Оценки моделей отражают различные показатели этой эффективности. Хотя цель улучшения моделей заключается в повышении этих оценок, более высокая оценка не всегда указывает на более качественную модель.
Вы можете улучшать свои модели путем исключения или включения характеристик, изменения данных обучения и изменения других параметров конфигурации. При этом можно сравнивать различные версии, чтобы увидеть, как ваши изменения влияют на результат.
Интерпретируя оценки, вы узнаете, как улучшить модель. Значения различных метрик помогут вам понять, какие действия необходимо предпринять для улучшения результата.
Требования и разрешения
Чтобы узнать больше о требованиях к пользователям для работы с экспериментами ML, см. Работа с экспериментами.
Настройка новой версии
После запуска версии эксперимента при необходимости можно улучшить модели, создав новую версию.
Выполните следующие действия.
-
На вкладке Данные обучения, Модели или Анализ выберите модель, которая будет использоваться в качестве основы для следующей версии.
-
Нажмите Просмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Нажмите Создать новую версию.
После создания новой версии можно внесить изменения в ее конфигурацию, например:
-
Исключение существующих характеристик
-
Включение ранее исключенных характеристик
-
Изменение или обновление набора данных
-
Выбор или отмена выбора алгоритмов
Дополнительные сведения об этих параметрах приведены в разделах ниже.
При подготовке черновика новой версии нажмите значок фильтра под элементом Характеристики на панели конфигурацииского эксперимента. При фильтрации можно более наглядно представить, какие характеристики были добавлены с момента изменения обучающего набора данных. Также можно увидеть, какие характеристики созданы автоматически, а какие — вручную.
Улучшение набора данных
Если ваша модель показывает низкие результаты, возможно, стоит проверить набор данных, чтобы устранить возможные проблемы. Подробнее об улучшении набора данных см. в разделе Подготовка набора данных к обучению.
Исключение характеристик
Большее количество характеристик не обязательно делает модель лучше. Чтобы улучшить модель, необходимо исключить ненадежные и нерелевантные характеристики, такие как:
-
Характеристики со слишком высокой корреляцией. Из двух коррелирующих характеристик исключите ту, которая имеет меньшую важность характеристики.
-
Характеристики со слишком низкой важностью характеристики. Эти характеристики не оказывают никакого влияния на то, что вы пытаетесь изучить.
-
Характеристики со слишком высокой важностью характеристики. Это может быть связано с утечкой данных.
Попробуйте удалить характеристику из данных обучения, затем запустите обучение снова и проверьте, улучшит ли это модель. Влияет ли это существенно на оценку модели или не влияет вообще?
Выполните следующие действия.
-
Откройте эксперимент из каталога.
-
На вкладке Данные обучения, Модели или Анализ выберите модель, которая будет использоваться в качестве основы для следующей версии.
-
Нажмите Просмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Нажмите Создать новую версию, чтобы настроить новую версию эксперимента.
-
В разделе Характеристики снимите флажки для всех характеристик, которые не нужно использовать при обучении.
Добавление характеристик
Если ваша модель по-прежнему показывает низкие результаты, возможно, это связано с тем, что характеристики, связанные с целевым объектом, еще не зафиксированы в наборе данных. Вы можете повторно обработать и перепрофилировать свой набор данных, чтобы оптимизировать качество данных, а также добавить новые характеристики и информацию. После подготовки новый набор данных можно будет добавить в будущие версии эксперимента. См. Изменение и обновление набора данных.
Подробнее о том, как фиксировать или создавать новые характеристики, см. в разделе Создание новых столбцов признаков.
Изменение параметров обнаружения предвзятости
Вы можете изменить характеристики, для которых настроен запуск обнаружения предвзятости. Например, если в набор данных были добавлены новые характеристики, можно включить обнаружение предвзятости для этих характеристик.
Выполните следующие действия.
-
Откройте эксперимент из каталога.
-
На вкладке Данные обучения, Модели или Анализ выберите модель, которая будет использоваться в качестве основы для следующей версии.
-
Нажмите Просмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Нажмите Создать новую версию, чтобы настроить новую версию эксперимента.
-
Разверните раздел Предвзятость на панели конфигурации обучения.
-
При необходимости нажмите Получить рекомендации, чтобы использовать генеративный ИИ для предложения характеристик, которые могут содержать предвзятые данные. См. Использование генеративного ИИ для рекомендации характеристик для обнаружения предвзятости.
-
Выберите или отмените выбор любых характеристик, для которых требуется запустить обнаружение предвзятости.
Кроме того, параметры обнаружения предвзятости можно настроить в представлении Представление схемы.
Для получения дополнительной информации об обнаружении предвзятости см. Обнаружение предвзятости в моделях машинного обучения.
Выбор алгоритмов
На основе типа данных целевого столбца автоматически выбираются подходящие алгоритмы для обучения. Возможно, вы захотите исключить алгоритмы, которые работают менее эффективно или медленнее. Таким образом, вам не придется тратить на них время при обучении.
Для получения дополнительной информации о том, как выбираются алгоритмы, см. Общее представление об алгоритмах модели.
Выполните следующие действия.
-
Откройте эксперимент из каталога.
-
На вкладке Данные, Модели или Анализ выберите модель, которая будет использоваться в качестве основы для следующей версии.
-
Нажмите Просмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Нажмите Создать новую версию, чтобы настроить новую версию эксперимента.
-
В разделе Алгоритмы снимите флажки для всех алгоритмов, которые не нужно использовать при обучении.
Изменение и обновление набора данных
Если ваши данные обучения изменились с момента последней версии эксперимента, вы можете изменить или обновить набор данных для будущих версий эксперимента.
Это может быть полезно, если вы хотите сравнить метрики и эффективность моделей для различных наборов данных в рамках одного эксперимента. Например, это полезно, если:
-
Доступен новый набор записей данных или были внесены обновления в исходный набор записей данных. Например, транзакции за последний месяц могли стать доступными и подходящими для использования при обучении, или могла быть выявлена и устранена проблема со сбором данных.
-
Исходный обучающий набор данных был повторно обработан или перепрофилирован, возможно, с целью улучшения обучения модели. Например, вы могли улучшить логику определения значений столбцов характеристик или даже добавить новые столбцы характеристик.
Изменение или обновление набора данных не меняет существующие модели, которые уже были обучены на основе предыдущих версий эксперимента. В рамках версии эксперимента модели обучаются только на данных обучения, определенных в этой конкретной версии.
Требования
При изменении или обновлении набора данных для новой версии эксперимента новый набор данных должен соответствовать следующим требованиям:
-
Имя и тип характеристики целевого столбца должны совпадать с целевым столбцом в исходном обучающем наборе данных.
- Количество уникальных значений в целевом столбце должно находиться в том же диапазоне, который требуется для данного типа эксперимента. Например, для эксперимента по мультиклассовой классификации целевой столбец в новом наборе данных должен по-прежнему содержать от трех до десяти уникальных значений. Конкретные диапазоны см. в разделе Настройка экспериментов.
Другие столбцы характеристик могут быть совершенно новыми, иметь другие имена и содержать другие данные.
Изменение набора данных
Выполните следующие действия.
-
На вкладке Данные обучения, Модели или Анализ выберите модель, которая будет использоваться в качестве основы для следующей версии.
-
Нажмите Просмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Нажмите Создать новую версию, чтобы настроить новую версию эксперимента.
-
В разделе Данные обучения > Проверить набор данных нажмите Изменить набор данных.
-
Выберите или загрузите новый набор данных. Доступны следующие варианты:
-
Наборы данных: выберите набор данных в любом доступном вам пространстве. См. Советы и рекомендации по загрузке и выбору наборов данных.
-
Продукты данных: выберите набор данных из активного продукта данных, к которому у вас есть доступ. Для получения дополнительной информации о продуктах данных см. Creating data products.
-
Обновление набора данных
Выполните следующие действия.
-
На вкладке Данные обучения, Модели или Анализ выберите модель, которая будет использоваться в качестве основы для следующей версии.
-
Нажмите Просмотреть конфигурацию.
Откроется панель конфигурации эксперимента.
-
Нажмите Создать новую версию, чтобы настроить новую версию эксперимента.
-
В разделе Данные обучения нажмите Обновить набор данных.
Вы получите уведомление, если доступно обновление набора данных. Набор данных обычно обновляется, когда существующий файл данных перезаписывается путем создания нового файла с тем же именем.
Советы и рекомендации по загрузке и выбору наборов данных
-
Наборы данных можно загружать через страницу «Создать» в центре активности Аналитика и просматривать в каталоге. Новый набор данных также можно загрузить непосредственно в каталог со страницы выбора набора данных для эксперимента. Для этого нажмите Загрузить файл и выберите файл для загрузки.
-
Для использования в Qlik Cloud поддерживается любой неструктурированный файл, который можно загрузить и профилировать в Qlik Predict.
Если файл содержит несколько таблиц, например файл Microsoft Excel с несколькими листами, будет импортирована только первая таблица. Если не удается выполнить профилирование данных таблицы (например, если таблица пуста), файл не поддерживается.
Запуск улучшенной версии
Завершив настройку версии, вы можете запустить ее.
Выполните следующие действия.
-
Нажмите Запустить v2 в правом нижнем углу экрана.
(Текст на кнопке зависит от количества запущенных версий.)
Сравнение версий эксперимента
После завершения обучения новой версии сравните ее со старой, чтобы увидеть эффект от внесенных изменений. Существует несколько вариантов сравнения моделей в разных версиях эксперимента.
Быстрый анализ
Используйте вкладки Модели и Данные обучения в эксперименте, чтобы сравнить эту версию с более старыми версиями. На вкладке Модели можно:
-
Просматривать результаты в таблице Метрики модели.
-
Просматривать рекомендуемые модели на основе общих требований к прогнозной аналитике, включая точность и скорость прогнозирования.
-
Переключаться между моделями для просмотра различий в разделе Сводка обучения модели и на других автоматически создаваемых диаграммах.
Для получения дополнительной информации о быстром анализе моделей см. Выполнение быстрого анализа модели.
Глубокий анализ
Вы можете более глубоко проанализировать модель, перейдя на вкладки Сравнить и Анализ в эксперименте. Эти вкладки предлагают встроенные возможности аналитики, позволяющие интерактивно оценивать модели на более детальном уровне.
Вкладка Сравнить позволяет сравнивать оценки моделей и гиперпараметры для всех моделей. Вкладка Анализ позволяет сосредоточиться на конкретной модели для оценки точности прогнозирования, важности характеристик и других деталей.
Для получения дополнительной информации см. Сравнение моделей и Выполнение подробного анализа модели.
Изменение параметров оптимизации модели
Вы можете отключить интеллектуальную оптимизацию после запуска версии, в которой она была активирована. Это позволяет использовать аналитические выводы, полученные в результате интеллектуальной оптимизации, и в то же время дает необходимый контроль для внесения незначительных, минимальных изменений. Кроме того, можно включить интеллектуальную оптимизацию моделей после запуска одной или нескольких версий с отключенным параметром.
Оптимизация гиперпараметров — это параметр, который может быть полезно включить в процессе улучшения модели. Как правило, не рекомендуется включать этот параметр для первой версии эксперимента.
Вы также можете изменить использование обучения с учетом фактора времени или изменить столбец, используемый в качестве индекса даты.
Выполните следующие действия.
-
Нажмите Просмотреть конфигурацию.
-
При необходимости нажмите Создать новую версию, чтобы настроить новую версию эксперимента.
-
На панели разверните раздел Оптимизация модели.
-
Переключайтесь между параметрами Интеллектуальная и Ручная, чтобы включить или отключить интеллектуальную оптимизацию моделей.
-
Если вы хотите активировать оптимизацию гиперпараметров, установите флажок Оптимизация гиперпараметров и задайте максимальное время обучения.
-
В разделе Разделение на тестовую и обучающую выборки по времени можно изменить параметры обучения с учетом фактора времени:
-
Чтобы включить обучение с учетом фактора времени, измените значение по умолчанию Нет, выбрав конкретный столбец Индекс даты в наборе данных.
-
Чтобы отключить обучение с учетом фактора времени, установите для параметра Индекс даты значение Нет.
-
Измените выбранный столбец Индекс даты на другой столбец.
-
Удаление версий эксперимента
Вы можете удалить версии эксперимента, которые не хотите сохранять. Обратите внимание, что все модели в этих версиях эксперимента также будут удалены без возможности восстановления.
Выполните следующие действия.
-
Перейдите на вкладку Модели.
-
В таблице Метрики модели выберите модель из версии эксперимента, которую требуется удалить.
Примечание к подсказкеВы также можете выбрать модель на вкладках Данные обучения или Анализ, используя раскрывающееся меню на панели инструментов. -
В правом нижнем углу нажмите Удалить <номер версии>.
-
В диалоговом окне подтверждения нажмите Удалить.