Обработка данных произвольного текста

Чтобы использовать в модели произвольный текст (например, данные текстовых строк, введенные в формы), требуется его особая обработка алгоритмами машинного обучения. В Qlik Predict обработка произвольного (неструктурированного) текста является одним из видов автоматического создания признаков. С технической точки зрения, эта обработка осуществляется методом TF-IDF (term frequency - inverse document frequency, частота термина ― обратная частота документа).

Qlik Predict поддерживает отдельную обработку признаков с данными произвольного (неструктурированного) текста на английском языке.

Если столбец в данных для обучения содержит произвольный текст, он относится к типу признака «Произвольный текст». Он также может использоваться в качестве категориального признака, хотя это крайне нежелательно в случае высокой кардинальности (слишком много уникальных значений).

Можно выбрать максимум три столбца для использования в качестве признаков неструктурированного текста в эксперименте.

Рекомендуется повторно обучить модели, обученные до 23 января 2024 года, если в них используются поля, содержащие данные произвольного (неструктурированного) текста.

Требования для кодирования произвольного текста

Чтобы успешно закодировать столбец, содержащий произвольный текст, в качестве произвольного текста, должны выполняться два требования. Эти требования проверяются на разных этапах создания эксперимента.

Предъявляемые требования:

Среднее количество символов в столбце должно быть 50 символов или больше.
Среднее количество слов в столбце должно быть пять слов или больше.

Обработка признака в качестве произвольного текста

Процесс обработки признака в качестве произвольного текста проходит следующим образом:

При выборе обучающих данных Qlik Predict идентифицирует признаки, которые могут быть обработаны в качестве неструктурированного (произвольного) текста. Они помечаются наблюдением Возможен произвольный текст в виде схемы и будут иметь тип признака «Произвольный текст».
После выполнения версии v1 эксперимента проводится дополнительный анализ. На этом этапе признаки, первоначально помеченные как возможный произвольный текст, могут оказаться неприменимыми в качестве признаков произвольного текста.

Если признаки, неприменимые в качестве произвольного текста, имеют высокую кардинальность, рекомендуется исключить их из эксперимента. Когда такие признаки обрабатываются в качестве категориальных признаков, они не приносят пользы для производительности модели.

Если признаки, которые нельзя использовать в качестве произвольного текста, имеют невысокую кардинальность, их можно включить в эксперимент, щелкнув Рассматривать признак как категориальный или выбрав в поле Тип признака «Категориальный» вместо «Произвольный текст». Если оставить тип признака «Произвольный текст», признак будет обрабатываться внутренними алгоритмами как категориальный и задаваться методом кодирования влияния.

Для получения полных сведений о предварительной обработке см. раздел Автоматическая подготовка и преобразование данных.

Для получения дополнительной информации о каждом наблюдении, отображаемом в виде схемы, см. раздел Просмотр аналитических сведений о данных обучения.

Использование признака произвольного текста в качестве цели эксперимента

В редких случаях признак произвольного текста может выбираться в качестве цели. Если признак соответствует всем требованиям для кодирования произвольного текста и содержит от двух до десяти уникальных значений, его можно использовать в качестве цели. В таких сценариях эксперимент определяется как стандартная задача двоичной или многоклассовой классификации.

Признаки произвольного текста в прогнозированиях

Чтобы узнать о требованиях для выполнения прогнозов с развернутой моделью, обученной на характеристиках свободного текста, см. Работа с признаками произвольного текста в прогнозированиях.

Замечания

Включение признаков произвольного текста увеличивает сложность эксперимента и процессов, необходимых для его выполнения. Диаграммы Важность перестановки могут оказаться недоступными для итоговых моделей, если данные произвольного текста будут достаточно сложными.

Поиск и устранение неисправностей

При обучении модели с использованием данных произвольного текста могут интенсивно расходоваться ресурсы. Может возникать ошибка при включении столбцов с произвольным текстом, которые содержат большое количество уникальных слов в качестве признаков.

Ниже приводятся рекомендации по исправлению таких ошибок.

Сократите объем подмножества данных в наборе данных для обучения, чтобы он включал меньше строк произвольного текста
Удалите признаки произвольного текста, которые не требуется включать в обучение модели.
Обрабатывайте один или несколько столбцов с произвольным текстом в качестве категориальных признаков, а не произвольного текста. Обратите внимание, что это не рекомендуется, если такие признаки произвольного текста имеют высокую кардинальность.

Ограничения

Автоматическое конструирование признаков из свободного текста доступно только для обучающих наборов данных в пределах определенных ограничений по размеру. Для получения дополнительной информации см. раздел Ограничения набора данных для обучения и профилирования.
Автоматическая разработка характеристик из свободного текста недоступна для экспериментов с временными рядами.

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!

Оставьте свой отзыв здесь