Configuring experiments

Настройка экспериментов заключается в выборе цели и характеристик, которые модель будет использовать для прогнозирования цели. Также можно настроить ряд дополнительных параметров.

Чтобы помочь в выборе цели, анализируется исторический набор данных и отображается сводная статистика по каждому столбцу в наборе данных. К набору данных применяется несколько автоматических шагов предварительной обработки, чтобы убедиться, что включены только подходящие данные. Для получения дополнительных сведений о предварительной обработке данных см. Автоматическая подготовка и преобразование данных.

После запуска v1 можно при необходимости создать новые версии эксперимента для дальнейшего уточнения обучения модели. Для получения дополнительной информации см. Улучшение моделей.

Requirements and permissions

Чтобы узнать больше о требованиях к пользователям для работы с экспериментами машинного обучения, см. Работа с экспериментами.

The interface

В следующих разделах описывается, как перемещаться по интерфейсу эксперимента для его настройки. Для получения дополнительной информации об интерфейсе см. Навигация по интерфейсу эксперимента.

Tabbed navigation

При создании эксперимента открывается вкладка Конфигурация. Здесь можно настроить цель и характеристики для эксперимента.

После запуска хотя бы одной версии эксперимента вкладка Конфигурация становится вкладкой Данные обучения. Также становятся доступными другие вкладки. Эти другие вкладки позволяют анализировать модели, которые вы только что обучили в этой версии. Если необходимо настроить последующие версии с другим выбором характеристик, можно вернуться на вкладку Данные обучения.

Вид схемы and Вид данных

На вкладке Конфигурация/Данные обучения можно переключаться между Строки Вид схемы и Профиль Вид данных.

Вид схемы

Строки Вид схемы является видом по умолчанию. В этом виде каждый столбец в наборе данных представлен строкой в схеме с информацией и статистикой.

Вы можете:

Выбрать характеристики для включения в эксперимент.
Просматривать сведения о каждом столбце, такие как тип данных и тип характеристики.
Просматривать аналитику по столбцам, например, почему их нельзя выбрать или как они будут обрабатываться во время обучения.

Нажмите

, чтобы настроить информацию в таблице. Например, можно скрыть определенные столбцы, чтобы уменьшить объем отображаемой информации.

Вид схемы в эксперименте машинного обучения

Вид данных

Профиль Вид данных — это альтернативное представление, которое можно использовать для доступа к дополнительной информации и данным образца для каждого столбца.

Experiment configuration panel

На панели конфигурации эксперимента можно дополнительно настроить обучение эксперимента. Эта панель открыта по умолчанию в новых экспериментах.

После запуска версии нажмите Элементы управления Просмотр конфигурации, чтобы открыть панель для настройки следующей версии.

С помощью панели конфигурации эксперимента можно:

Выберите целевой показатель и тип эксперимента
Задайте имя версии
Добавьте или удалите характеристики
Настройте новую версию эксперимента
Просмотрите тип обучаемой модели
Выберите, чтобы изменить или обновить обучающий набор данных
Добавьте или удалите алгоритмы
Измените настройки оптимизации модели
Для моделей временных рядов настройте параметры прогнозирования
Настройте обнаружение систематической ошибки

Панель настройки эксперимента с выбранным целевым показателем, типом эксперимента и выбором характеристик по умолчанию — Панель настройки эксперимента

Selecting the target and experiment type

Можно изменить целевой столбец и тип эксперимента до начала первого обучения. После этого они будут заблокированы для редактирования.

Целевой столбец содержит значения, которые модель машинного обучения должна прогнозировать.

Тип эксперимента определяется целью и типом содержащихся в ней данных. Тип эксперимента определяет, какой тип модели вы хотите обучить. Могут быть доступны следующие параметры:

Бинарная классификация: Обучает модели для прогнозирования цели, которая имеет два возможных значения (например, да или нет). Данные могут быть любого типа характеристики.
Многоклассовая классификация: Обучает модели для прогнозирования цели с 3-10 возможными значениями (например, список категорий). Данные могут быть любого типа характеристики, но столбец с более чем 10 различными нечисловыми классами (значениями) не может быть выбран в качестве цели.
Регрессия: Обучает модели для прогнозирования цели с более чем 10 возможными значениями — в частности, цели с числовым типом характеристики.
Временные ряды: Обучает модели для прогнозирования целевых значений для определенных будущих периодов времени с использованием исторических данных. Цель должна иметь более 10 различных значений и содержать числовые данные. Для получения дополнительной информации см. Работа с экспериментами временных рядов.

Выполните следующие действия.

В Вид схемы или Вид данных нажмите переключатель для столбца.

Целевой столбец теперь обозначается значком , а другие доступные столбцы автоматически выбираются как характеристики.

Выбор цели в Вид схемы

На панели конфигурации эксперимента в разделе Настройки эксперимента при необходимости можно изменить цель перед обучением.

Настройки эксперимента могут содержать селектор Тип эксперимента. Например, если для вашего набора данных и цели возможно прогнозирование временных рядов, есть возможность изменить тип эксперимента с Регрессия на Временные ряды.

Когда цель и тип эксперимента выбраны, можно запустить первую версию эксперимента. Подробнее см. в Обучение экспериментов. На этом этапе можно выполнить дополнительную настройку, описанную ниже, или скорректировать конфигурацию после просмотра результатов обучения.

Объяснения того, как интерпретируются и обрабатываются ваши данные, отображаются по мере продолжения обучения эксперимента. Для получения дополнительной информации см. Интерпретация аналитических сведений о наборе данных.

Selecting feature columns

После установки цели можно выбрать, какие из других доступных столбцов включить в обучение модели. Исключите любые характеристики, которые не должны быть частью модели. Обратите внимание, что столбец останется в наборе данных, но не будет использоваться алгоритмом обучения.

В верхней части панели конфигурации эксперимента можно увидеть количество ячеек в наборе данных. Если это количество превышает лимит набора данных, можно исключить характеристики, чтобы не превышать лимит.

Выбрать столбцы характеристик можно различными способами:

In Вид схемы and Вид данных

В основных видах можно:

Снять флажок Включить все доступные характеристики, а затем выбрать только те, которые нужно включить.
Вручную снять флажки для характеристик, которые не нужно включать.
Выполнить поиск и исключить или включить все характеристики в отфильтрованных результатах поиска.

В этих видах рядом с каждым столбцом есть значок для предоставления дополнительной информации:

: Характеристика включена или может быть включена в эксперимент.
: Характеристика исключена из эксперимента. Иногда ее можно включить, но обычно это не рекомендуется.
: Характеристика не может быть включена в эксперимент.

In the experiment configuration panel

На панели конфигурации эксперимента можно:

Вручную снять флажки для характеристик, которые не нужно включать.
После запуска первой версии эксперимента можно определить Количество лучших характеристик для включения.

Раздел характеристик на панели конфигурации эксперимента Qlik Predict — Раздел Характеристики на панели конфигурации эксперимента

При выборе характеристик им автоматически назначается тип характеристики. Возможные типы характеристик:

Категориальный
Числовой
Дата
Свободный текст

Тип характеристики назначается на основе данных, содержащихся в столбце характеристики. Если характеристика соответствует определенным критериям, она может быть выбрана в качестве основы для автоматически созданных характеристик. При желании можно изменить, используется ли характеристика для автоматического создания характеристик. Для получения полной информации об автоматическом создании характеристик см. Автоматическое создание признаков.

Некоторые столбцы в наборе данных могут быть недоступны для выбора в качестве характеристик для эксперимента или к ним может применяться специфическая обработка. Объяснения того, как интерпретируются и обрабатываются ваши данные, отображаются по мере навигации по обучению эксперимента. Для получения дополнительной информации см. Интерпретация аналитических сведений о наборе данных.

Configuring bias detection

Можно активировать обнаружение предвзятости для характеристик, содержащих конфиденциальные данные. Обнаружение предвзятости выполняется при запуске эксперимента. Также можно нажать Получить рекомендации, чтобы использовать генеративный ИИ для сканирования данных обучения на наличие потенциально конфиденциальных характеристик перед запуском обнаружения предвзятости.

Обнаружение предвзятости определяет, увеличивает ли характеристика вероятность того, что модель будет способствовать несправедливым результатам в своих прогнозах, или исходные данные изначально предвзяты.

Выполните следующие действия.

В эксперименте машинного обучения разверните Смещение на панели конфигурации обучения.
Перед выбором признаков для обнаружения предвзятости, при необходимости нажмите Получить рекомендации, чтобы использовать генеративный ИИ для предложения признаков, которые могут содержать предвзятые данные. См. Использование генеративного ИИ для рекомендации характеристик для обнаружения предвзятости.
Выберите или отмените выбор любых признаков, для которых вы хотите запустить обнаружение предвзятости.

В качестве альтернативы включите обнаружение смещения для нужных функциональность, характеристики в Строки представлении схемы.

Для получения дополнительной информации об обнаружении предвзятости см. Обнаружение предвзятости в моделях машинного обучения.

Selecting algorithms

Все доступные алгоритмы включены по умолчанию, и можно исключить любые алгоритмы, которые не нужно использовать. Обычно это делается в рамках уточнения модели после просмотра первых результатов обучения. Подробнее см. в Улучшение моделей.

Раздел алгоритмов на панели конфигурации эксперимента Qlik Predict. — Раздел Алгоритмы на панели конфигурации эксперимента

Changing feature types

При загрузке набора данных столбцы рассматриваются как категориальные, числовые, даты или свободный текст на основе типа данных и других характеристик. В некоторых случаях может потребоваться изменить эту настройку.

Например, если дни недели представлены числами 1-7, каждое число представляет категориальное значение. По умолчанию оно рассматривается как непрерывное ранжированное числовое значение, поэтому потребуется вручную изменить конфигурацию, чтобы рассматривать его как категориальное.

Когда столбец идентифицируется как содержащий информацию о дате и времени, он используется в качестве основы для новых сгенерированных автоматически созданных характеристик. Когда это происходит, исходный столбец (родительская характеристика) рассматривается как имеющий тип характеристики даты.

Можно изменить родительскую характеристику с характеристики даты на категориальную или числовую характеристику. Например, это полезно, когда характеристика идентифицируется как дата, но ее нужно рассматривать как строку или число. При этом больше нельзя использовать ее автоматически созданные характеристики в обучении эксперимента.

Выполните следующие действия.

В Вид схемы найдите характеристику.
В столбце Тип характеристики для этой характеристики нажмите .
Выберите значение в списке.

В качестве альтернативы можно изменить типы характеристик в Профиль Вид данных. Найдите характеристику, затем нажмите Стрелка вниз рядом с текущим типом характеристики. Выберите значение в списке.

Time series forecasting

Если вы обучаете эксперимент с временными рядами, определенные преобразования типов характеристик применяются автоматически в зависимости от вашей конфигурации. Например, если вы выбираете какие-либо группы для использования в многомерном прогнозировании, типы характеристик этих групп автоматически переключаются на категориальные.

Impact on predictions

Когда тип признака меняется вручную, а затем выполняется развертывание полученной модели, переопределенный тип будет применен к признаку в наборе данных для применения, который будет использоваться в прогнозах, сделанных с помощью этой модели.

Changing dataset

Можно изменить набор данных обучения перед запуском первой версии эксперимента, а также после запуска любой версии.

Если изменить набор данных перед запуском первой версии, будут потеряны все настройки, выполненные до изменения набора данных.

Выполните следующие действия.

На панели конфигурации эксперимента в разделе Данные обучения > Просмотр набора данных нажмите Изменить набор данных.
Выберите новый набор данных.

Для получения дополнительной информации об изменении и обновлении набора данных во время уточнения модели (после запуска версии эксперимента) см. Изменение и обновление набора данных.

Configuring model optimization

Если ваш тип эксперимента — бинарная классификация, многоклассовая классификация или регрессия, можно настроить следующие параметры для оптимизации моделей:

Включение или выключение интеллектуальной оптимизации модели
Включение или выключение оптимизации гиперпараметров
Включение или выключение обучения с учетом времени

Эти параметры можно включать или выключать для каждой запускаемой версии эксперимента.

Раздел оптимизации модели на панели конфигурации обучения Qlik Predict — Раздел Оптимизация модели на панели конфигурации эксперимента

Configuring intelligent optimization

По умолчанию в эксперименте используется интеллектуальная оптимизация модели. При интеллектуальной оптимизации модели Qlik Predict выполняет процесс уточнения модели за вас, перебирая выбор характеристик и применяя расширенные преобразования к вашим данным.

Для получения дополнительной информации об интеллектуальной оптимизации см. Интеллектуальная оптимизация моделей.

Можно отключить эту настройку, чтобы вручную уточнять обучаемые модели. Например, можно начать обучение модели с интеллектуальной оптимизацией модели, а затем переключиться на ручное уточнение для v2, чтобы дополнительно настроить конфигурацию.

Выполните следующие действия.

Нажмите Просмотр конфигурации.
Если вы уже запустили хотя бы одну версию эксперимента, нажмите Новая версия.
На панели разверните Оптимизация модели.
Переключитесь с Интеллектуальная на Ручная.
С помощью ползунка установите максимальную продолжительность выполнения для обучения.

Configuring hyperparameter optimization

Можно оптимизировать модели с помощью оптимизации гиперпараметров. Обратите внимание, что это расширенный параметр, который может значительно увеличить время обучения. Оптимизация гиперпараметров доступна, если отключить интеллектуальную оптимизацию.

Для получения дополнительной информации см. Оптимизация гиперпараметров.

Выполните следующие действия.

Нажмите Просмотр конфигурации.
Если вы уже запустили хотя бы одну версию эксперимента, нажмите Новая версия.
На панели разверните Оптимизация модели.
Переключитесь с Интеллектуальная на Ручная.
Установите флажок Оптимизация гиперпараметров.
При необходимости установите ограничение по времени для оптимизации. Ограничение по времени по умолчанию составляет один час.

Configuring time-aware training

Если вы хотите, чтобы ваши модели обучались с учетом измерения временных рядов, активируйте обучение с учетом времени для версии эксперимента. Чтобы использовать этот параметр, в наборе данных должен быть столбец, содержащий соответствующую информацию о временных рядах.

Когда обучение с учетом времени включено, Qlik Predict использует специализированные процессы перекрестной проверки и подстановки нулевых значений для обучения моделей.

Для получения дополнительной информации см. Создание моделей с учетом времени и Перекрестная проверка на основе времени.

Выполните следующие действия.

Нажмите Просмотр конфигурации.
Если вы уже запустили хотя бы одну версию эксперимента, нажмите Новая версия.
На панели разверните Оптимизация модели.
В разделе Разделение на тестовую и обучающую выборки на основе времени выберите Индекс даты для использования при сортировке данных.

Viewing insights about the training data

На вкладке Конфигурация/Данные обучения эксперимента можно просмотреть аналитику по обработке данных обучения. Эта информация доступна в столбце Аналитика в Строки таблицы Вид схемы. Отображаемая информация зависит от того, запускали ли вы версию с текущими данными обучения. Изменения в столбце Аналитика могут помочь определить, почему характеристики могут быть недоступны для использования или почему они были автоматически удалены.

Для получения дополнительной информации о том, что означает каждая аналитика, см. Интерпретация аналитических сведений о наборе данных.

СОПУТСТВУЮЩИЕ УЧЕБНЫЕ МАТЕРИАЛЫ:

Introduction to Qlik Predict

Подробнее

Introduction to Qlik Predict

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь