Перейти к основному содержимому Перейти к дополнительному содержимому

Мониторинг дрейфа данных в развернутых моделях

В панели Мониторинг дрейфа данных в развертывании машинного обучения можно анализировать дрейф данных для исходной развернутой модели. Мониторинг дрейфа данных позволяет выявить изменения в распределении одного или нескольких признаков, использованных для обучения модели.

Когда рассчитанный дрейф для признака превышает значение 0,25, рекомендуется повторно обучить модель на основе самых последних данных или настроить новую модель, если исходная задача машинного обучения претерпела значительные изменения.

Примечание к информацииАнализ дрейфа данных доступен только на английском языке.

Анализ дрейфа данных в AutoML

Встроенный анализ, который демонстрирует расчеты дрейфа признака для развернутой модели.

Расчеты дрейфа данных в AutoML

В Qlik AutoML дрейф данных рассчитывается с помощью индекса стабильности популяции (population stability index, PSI).

Чтобы идентифицировать значительный дрейф данных для признака, достаточно взглянуть на его значение PSI. Если значение PSI больше или равно 0,25, рекомендуется переобучить модель или создать новый эксперимент.

Значения индекса стабильности популяции (PSI) и указания
Значение PSI Описание
Ниже 0,1 Низкий уровень дрейфа
Больше 0,1, но меньше 0,25 Незначительный дрейф
Больше или равно Значительный дрейф

Запуск анализа дрейфа данных

  1. Откройте развертывание машинного обучения.

  2. На левой панели выберите Мониторинг дрейфа данных.

  3. Создается встроенный анализ. Оставайтесь на листе Feature Drift, чтобы провести анализ дрейфа данных.

Доступность анализа

Новые расчеты для дрейфа данных не генерируются сразу при открытии анализа. Расчеты дрейфа данных производятся один раз в день в 16:30 UTC (универсальное координированное время).

Навигация по встроенной аналитике

Используйте интерактивный интерфейс для анализа развернутых моделей с применением встроенной аналитики.

Переключение между листами

На панели Листы можно переключаться между листами анализа. Каждый лист имеет свою специфику. Панель можно разворачивать и сворачивать по необходимости.

Лист Feature Drift содержит всю информацию о дрейфе данных. Перейдите на лист Operations, чтобы отслеживать использование развертывания машинного обучения. Для получения дополнительной информации см. раздел Мониторинг операций развернутой модели.

Выполнение выборок

Используйте выборки для уточнения данных. Можно выбрать признаки и их конкретные значения или диапазоны, а также применить фильтр по конкретным датам и диапазонам значимости. В некоторых случаях может потребоваться создать одну или несколько выборок для отображения визуализаций. Чтобы создать выборки, щелкайте значения данных в визуализациях.

Работа с выборками осуществляется следующим образом:

  • Для выбора значений щелкайте содержимое, определите диапазоны и рисуйте.

  • Выполните поиск по диаграммам, чтобы выбрать значения.

  • Щелкните выбранное поле на верхней панели инструментов встроенного анализа. Это позволяет выполнять поиск в существующих выборках, устанавливать или снимать блокировку выборок, а также вносить дополнительные изменения в выборки.

  • На верхней панели инструментов встроенного анализа щелкните Удалить, чтобы удалить выборку. Чтобы очистить все выборки, щелкните значок Очистить выборки.

  • Переходите на шаг вперед или назад в выборках, нажимая кнопки Переход к предыдущей выборке и Переход к следующей выборке.

Анализ дрейфа признаков с учетом важности

Используйте диаграмму Feature drift vs importance для совместного анализа дрейфа признаков и важности перестановок. Можно определить, когда изменения в дрейфе происходят параллельно с изменениями в расстановке важности. Рассматривая эти две метрики вместе, можно обнаружить вновь возникающие закономерности и глубже понять тренды, влияющие на данные.

Чтобы понять значение показателей дрейфа для производительности модели, см. раздел Расчеты дрейфа данных в AutoML.

Мониторинг дрейфа признаков с течением времени

На диаграмме Feature drift over time отображается временная шкала для каждого расчета дрейфа и анализ изменений, которые происходят с течением времени по мере создания новых прогнозов.

Опорная линия добавлена на уровне значения PSI 0,25, чтобы указать, когда признак демонстрирует значительный дрейф. Для получения дополнительной информации о том, что означают показатели дрейфа для производительности модели, см. раздел Расчеты дрейфа данных в AutoML.

Просмотр распределения признаков

Диаграмма Value distribution позволяет сравнить распределение значений для признака между набором данных для обучения и набором данных, использованным для последнего прогноза, созданного с помощью модели. Можно определить, какие диапазоны в признаке подвержены дрейфу в наибольшей и в наименьшей степени.

Синие полосы показывают процент значений в последнем наборе данных для применения, которые попадают в каждый диапазон. Фиолетовые круглые маркеры показывают процент значений в наборе данных для обучения, которые попадают в каждый диапазон. Если наблюдается большая разница между высотой полос и положением маркеров, скорее всего, диапазон подвержен дрейфу.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!