Перейти к основному содержимому Перейти к дополнительному содержимому

Выполнение подробного анализа модели

На вкладке Анализ эксперимента можно сосредоточиться на одной модели для углубленного анализа ее производительности прогнозирования. Детальный анализ выполняется с помощью встроенной аналитики.

После завершения обучения выберите модель. Затем откройте вкладку Анализировать, чтобы просмотреть дополнительную информацию о точности прогнозов модели, о том, что влияет на тренды в данных, а также другие сведения. Данные, отображаемые на вкладке Анализ, основаны на прогнозах, генерируемых моделью на основе отложенных данных.

Вкладка Анализ в эксперименте машинного обучения

Диаграмма с кратким описанием обучения самой эффективной модели: отображаются признаки, отброшенные из-за утечки цели, высокой корреляции и низкой важности перестановок

Ниже перечислены некоторые из главных преимуществ подробного анализа модели:

  • Интерактивный интерфейс, где можно уточнить и настроить данные визуализации по необходимости.

  • Подробное изучение прогнозов, сгенерированных на основе отложенных данных, а также статистики о важности признаков.

Рабочий процесс анализа

Для полного понимания результатов обучения модели рекомендуется провести быстрый анализ, а затем продолжить работу с дополнительными параметрами на вкладках Сравнение и Анализ. При быстром анализе можно просмотреть Краткое описание обучения модели, где показано, какие функции отброшены во время интеллектуальной оптимизации, а также отображается ряд автоматически созданных визуализаций для быстрого использования. На вкладках Сравнение и Анализ нет раздела Краткое описание обучения модели, но можно более детально изучить метрики модели, чтобы лучше оценить качество моделей.

Для получения дополнительной информации о других вариантах анализа см.:

Общее представление о концепциях

Прежде чем приступить к сравнению моделей, полезно получить общее представление о концепциях, лежащих в основе оценки модели. Для получения дополнительной информации см. раздел Общие сведения о концепциях проверки моделей.

Воздействие настроек оптимизации на анализ

Процесс анализа может незначительно отличаться в зависимости от того, используется или нет интеллектуальная оптимизация модели. Интеллектуальная оптимизация модели по умолчанию включена для новых экспериментов.

Анализ моделей, обученных с использованием интеллектуальной оптимизации

По умолчанию новые эксперименты запускаются с использованием интеллектуальной оптимизации модели.

Интеллектуальная оптимизация модели обеспечивает более устойчивый процесс обучения, который в идеале создает модель, готовую для развертывания с незначительными доработками или совсем без них. Производительность этих моделей, развернутых в рабочих сценариях применения, по-прежнему зависит от обучения с использованием высококачественного набора данных, который включает релевантные признаки и данные.

Если версия обучена с использованием интеллектуальной оптимизации модели, необходимо учитывать следующее:

  • В каждой модели этой версии могут быть выбраны разные признаки в зависимости от примененного алгоритма анализа данных.

  • На вкладке Модели прочитайте Краткое описание обучения модели, прежде чем приступать к специфическому анализу. В разделе Краткое описание обучения модели показано, как AutoML автоматически оптимизировал модель путем итерационного выбора признаков и применения расширенных преобразований.

Для получения дополнительной информации об интеллектуальной оптимизации моделей см. раздел Интеллектуальная оптимизация модели.

Анализ моделей, обученных без использования интеллектуальной оптимизации

В качестве альтернативы можно выключить интеллектуальную оптимизацию модели для версии обучения. Ручная оптимизация моделей может быть полезна, если требуется усилить контроль процесса обучения.

Если использована ручная оптимизация, во всех моделях версии будут выбраны одинаковые признаки, поэтому Краткое описание обучения модели не требуется.

Проверка конфигурации

Во время предварительной обработки признаки могли быть исключены из числа используемых в обучении. Обычно это происходит в результате того, что по мере обучения становится известно больше информации о данных, чем до запуска версии.

После просмотра сведений на экране Краткое описание обучения модели (отображается только при использовании интеллектуальной оптимизации) можно повнимательнее изучить конфигурацию эксперимента, если требуется проверить наличие других изменений.

  1. В эксперименте перейдите на вкладку Данные.

  2. Убедитесь, что открыт Строки таблицы Вид схемы.

  3. В раскрывающемся меню на панели инструментов выберите модель из версии.

  4. Проанализируйте схему модели. Может потребоваться сосредоточить внимание на столбцах Наблюдения и Тип признака, чтобы оценить, отброшены ли некоторые признаки или преобразованы в признаки другого типа.

    Например, признак, первоначально помеченный как Возможен произвольный текст, может быть исключен после запуска версии.

    Для получения дополнительной информации о значении каждого наблюдения см. раздел Интерпретация наблюдений для набора данных.

Обратите внимание, что если версия запущена с использованием интеллектуальной оптимизации (параметр по умолчанию), в каждой модели версии могут быть выбраны другие признаки в результате автоматического улучшения. Если версия запущена без интеллектуальной оптимизации, во всех моделях версии выбраны одинаковые признаки. Для получения дополнительной информации об интеллектуальной оптимизации модели см. раздел Интеллектуальная оптимизация модели.

В зависимости от конкретных аспектов этой конфигурации может потребоваться вернуться на этап подготовки набора данных, чтобы улучшить данные признаков.

Запуск подробного анализа

Запустить подробный анализ конкретной модели можно несколькими способами:

  • Выберите модель на вкладке Данные или Модели, щелкните Меню «Троеточие» рядом с моделью, а затем Анализ Анализ.

  • Выбрав модель, перейдите на вкладку Анализ.

  • Если уже открыт подобный анализ для какой-то модели, выберите другую модель в раскрывающемся меню на панели инструментов.

Аналитическое содержимое зависит от типа модели, определенной в соответствии с целью эксперимента. Для каждого типа модели доступны разные метрики.

Примечание к информацииМодели, обученные с коэффициентом выборки меньше чем 100%, нельзя открыть на вкладке Анализировать.

Навигация по встроенной аналитике

Используйте интерактивный интерфейс для анализа моделей с применением встроенной аналитики.

Переключение между листами

На панели Листы можно переключаться между листами анализа. Каждый лист имеет свою специфику. Панель можно разворачивать и сворачивать по необходимости.

Выполнение выборок

Используйте выборки для уточнения данных. Можно выбрать признаки, задать конкретные значения и диапазоны. Это позволяет глубже изучить необходимые данные. В некоторых случаях может потребоваться создать одну или несколько выборок для отображения визуализаций. Чтобы создать выборки, щелкайте значения данных в визуализациях и фильтрах.

Работа с выборками осуществляется следующим образом:

  • Для выбора значений щелкайте содержимое, определите диапазоны и рисуйте.

  • Выполните поиск по диаграммам, чтобы выбрать значения.

  • Щелкните выбранное поле на верхней панели инструментов встроенного анализа. Это позволяет выполнять поиск в существующих выборках, устанавливать или снимать блокировку выборок, а также вносить дополнительные изменения в выборки.

  • На верхней панели инструментов встроенного анализа щелкните Удалить, чтобы удалить выборку. Чтобы очистить все выборки, щелкните значок Очистить выборки.

  • Переходите на шаг вперед или назад в выборках, нажимая кнопки Переход к предыдущей выборке и Переход к следующей выборке.

Анализ содержит фильтры, которые позволяют легко уточнить данные. На панели фильтра установите флажок рядом с нужным значением, чтобы сделать выбор. Если фильтр содержит несколько списков, щелкните нужный список, чтобы развернуть его, а затем выберите требуемые элементы.

Экспорт данных в каталог

Данные, используемые в подробном анализе, можно экспортировать в каталог. Данные экспортируются в пространство в Аналитика Qlik Cloud. Можно использовать экспортированные данные, чтобы создавать собственные приложения Qlik Sense для пользовательского анализа.

Для получения дополнительной информации см. раздел Экспорт данных для обучения модели.

Анализ точности прогноза

Способ интерпретации точности прогнозов зависит от структуры набора данных для обучения и от сценария применения машинного обучения. Кроме того, интерпретация этих визуализаций зависит от типа модели. В следующих разделах приводится дополнительная информация для каждого типа модели.

В разделе Прогнозирования листа Обзор модели приводится агрегированный обзор того, сколько правильных и неправильных прогнозов делает модель.

Используя лист Прогнозирования и распределение признаков выберите конкретный признак, чтобы проанализировать характер неточности прогноза. Выберите один признак в фильтре в левой части листа. Для моделей всех типов на этом листе неточности прогнозов и распределение фактических значений отображаются бок о бок.

Модели двоичной классификации

Анализ всей модели

В разделе Прогнозирования листа Обзор модели отображаются необработанные данные, определенные в матрице ошибок. Это включает истинные и ложные положительные и отрицательные результаты. Эти значения представлены в виде статических итогов, поэтому они не реагируют на выборки. Для получения дополнительной информации о смысле значений см. раздел Матрица ошибок.

Просмотр агрегированного обзора производительности прогноза на вкладке Анализ для модели двоичной классификации

Раздел обзора прогнозов: отображаются сведения о матрице ошибок и количество правильных и неправильных прогнозов

Анализ подмножеств данных

На листе Прогнозирования и распределение признаков диаграмма Неправильное прогнозирование содержит полоску для каждого возможного значения или диапазона значений признака, высота полоски соответствует количеству неправильных прогнозов, сгенерированных моделью. Каждый цвет в полоске соответствует одному из фактических целевых значений. Выберите один признак и значения из любых других нужных полей, чтобы посмотреть, как точность прогнозов меняется для разных подмножеств данных.

Анализ неточностей прогноза вместе с распределением значений для выбранного признака. На этой иллюстрации показан вид анализа для модели двоичной классификации.

Лист с одним выбранным признаком с двумя диаграммами: одна для неточностей прогноза в пределах значений признаков, а вторая для распределения фактических значений признака

Модель многоклассовой классификации

Анализ всей модели

В разделе Прогнозирования листа Обзор модели отображается линейчатая диаграмма, которая содержит полоски для каждого фактического целевого значения. Высота отрезка каждого цвета соответствует тому, сколько раз модель спрогнозировала конкретный класс. В дополнение к этой диаграмме раздел Прогнозирования также содержит разбивку правильных и неправильных прогнозов.

Просмотр агрегированного обзора производительности прогноза на вкладке Анализ для модели многоклассовой классификации

Раздел обзора прогнозов: отображаются спрогнозированные и фактические значения, а также правильные и неправильные прогнозы

Анализ подмножеств данных

На листе Прогнозирования и распределение признаков диаграмма Неправильное прогнозирование содержит полоску для каждого возможного значения или диапазона значений признака, высота полоски соответствует количеству неправильных прогнозов, сгенерированных моделью. Каждый цвет в полоске соответствует одному из фактических целевых значений.

Анализ неточностей прогноза вместе с распределением значений для выбранного признака. На этой иллюстрации показан вид анализа для модели многоклассовой классификации.

Лист с одним выбранным признаком с двумя диаграммами: одна для неточностей прогноза в пределах значений признаков, а вторая для распределения фактических значений признака

Регрессионные модели

Для регрессионных моделей можно просматривать следующие сведения на уровне модели и признака:

  • Среднее прогнозируемое значение для цели

  • Фактическое целевое значение

  • Диапазоны прогнозирования 19-го и 10-го процентиля Эти линии показывают ожидаемые диапазоны, в которых модель может прогнозировать значение. Линия 19-го процентиля всегда будет линией с большими значениями.

  • Средняя абсолютная ошибка (MAE)

Для визуализаций на уровне модели и на уровне признака метрики анализируются вместе с распределением фактических значений для признака.

Анализ неточностей прогноза вместе с распределением значений для выбранного признака. На этой иллюстрации показан вид анализа для регрессионной модели.

Лист с одним выбранным признаком с двумя диаграммами: одна для неточностей прогноза в пределах значений признаков, а вторая для распределения фактических значений признака

Анализ важности признаков

Вызов обзора

Анализ важности признаков показывает, какое влияние оказывает каждый признак на прогнозы по сравнению с другими признаками.

Раздел Влияние признака листа Обзор модели содержит агрегированный обзор средних абсолютных значений SHAP. Эта диаграмма выглядит так же, как диаграмма Важность SHAP на вкладке Модели. Диаграмма обновляется на основе созданных выборок. Когда выбран один признак, можно детализировать представление до его конкретных значений и диапазонов.

Агрегированное сравнение значений SHAP с одним выбранным признаком

Диаграмма анализа важности признаков, в которой сравниваются агрегированные значения SHAP для конкретных диапазонов значений признака

Анализ распределения SHAP

Также можно открыть лист Влияние по признакам для получения более полного представления значений SHAP для каждого значения или диапазона значений признака. Значения SHAP представлены с указанием направления, а не в виде абсолютных значений.

Этот анализ может помочь идентифицировать шаблоны в конкретных когортах, а также находить выбросы в данных. Создавайте выборки значений и диапазонов в диаграмме с целью фильтрации данных для более подробного анализа.

Внешний вид и тип диаграммы зависит от выбранного типа признака.

Категориальные признаки

Категориальные признаки визуализируются как блочная диаграмма. Блочная диаграмма помогает оценить распределение значений SHAP для каждого категориального значения. Блочная диаграмма имеет следующую конфигурацию:

  • Отображаются средние значения SHAP.

  • Используется конфигурация  Стандартное (Тьюки):

    • Блок для значения определяется по первому квартилю (нижний край) и третьему квартилю (верхний край).

    • Медиана ― это горизонтальная линия внутри блока.

  • Верхний ус и нижний ус соответствуют верхнему и нижнему пределам межквартильного диапазона 1,5.

  • Выбросы не отображаются.

Блочный график для анализа распределения значений SHAP для категориального признака

Блочный график для выбранного категориального признака, который позволяет проанализировать распределение значений SHAP

Числовые признаки

Для числовых признаков значения SHAP визуализируются как точечная диаграмма. Точечная диаграмма имеет следующую конфигурацию:

  • Отображаются значения SHAP для выбранного образца.

  • Внешний вид точечной диаграммы зависит от количества точек диаграммы для отображения. Для диаграмм с меньшим количеством точек отображаются отдельные пузыри. Для диаграмм с большим количеством точек пузыри объединяются в блоки и раскрашиваются в соответствии с количеством точек диаграммы в каждом блоке.

В точечном графике создайте выборки из конкретных значений или диапазонов для более глубокого изучения.

Точечный график для анализа распределения значений SHAP для числового признака

Точечный график для выбранного числового признака, который позволяет проанализировать распределение значений SHAP

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!