Обработка данных произвольного текста
Чтобы использовать в модели произвольный текст (например, данные текстовых строк, введенные в формы), требуется его особая обработка алгоритмами машинного обучения. В Qlik Predict обработка произвольного (неструктурированного) текста является одним из видов автоматического создания признаков. С технической точки зрения, эта обработка осуществляется методом TF-IDF (term frequency - inverse document frequency, частота термина ― обратная частота документа).
Qlik Predict поддерживает отдельную обработку признаков с данными произвольного (неструктурированного) текста на английском языке.
Если столбец в данных для обучения содержит произвольный текст, он относится к типу признака «Произвольный текст». Он также может использоваться в качестве категориального признака, хотя это крайне нежелательно в случае высокой кардинальности (слишком много уникальных значений).
Можно выбрать максимум три столбца для использования в качестве признаков неструктурированного текста в эксперименте.
Требования для кодирования произвольного текста
Чтобы успешно закодировать столбец, содержащий произвольный текст, в качестве произвольного текста, должны выполняться два требования. Эти требования проверяются на разных этапах создания эксперимента.
Предъявляемые требования:
-
Среднее количество символов в столбце должно быть 50 символов или больше.
-
Среднее количество слов в столбце должно быть пять слов или больше.
Обработка признака в качестве произвольного текста
Процесс обработки признака в качестве произвольного текста проходит следующим образом:
-
При выборе обучающих данных Qlik Predict идентифицирует признаки, которые могут быть обработаны в качестве неструктурированного (произвольного) текста. Они помечаются наблюдением Возможен произвольный текст в виде схемы и будут иметь тип признака «Произвольный текст».
-
После выполнения версии v1 эксперимента проводится дополнительный анализ. На этом этапе признаки, первоначально помеченные как возможный произвольный текст, могут оказаться неприменимыми в качестве признаков произвольного текста.
Если признаки, неприменимые в качестве произвольного текста, имеют высокую кардинальность, рекомендуется исключить их из эксперимента. Когда такие признаки обрабатываются в качестве категориальных признаков, они не приносят пользы для производительности модели.
Если признаки, которые нельзя использовать в качестве произвольного текста, имеют невысокую кардинальность, их можно включить в эксперимент, щелкнув Рассматривать признак как категориальный или выбрав в поле Тип признака «Категориальный» вместо «Произвольный текст». Если оставить тип признака «Произвольный текст», признак будет обрабатываться внутренними алгоритмами как категориальный и задаваться методом кодирования влияния.
Для получения полных сведений о предварительной обработке см. раздел Автоматическая подготовка и преобразование данных.
Для получения дополнительной информации о каждом наблюдении, отображаемом в виде схемы, см. раздел Просмотр наблюдений о данных для обучения.
Использование признака произвольного текста в качестве цели эксперимента
В редких случаях признак произвольного текста может выбираться в качестве цели. Если признак соответствует всем требованиям для кодирования произвольного текста и содержит от двух до десяти уникальных значений, его можно использовать в качестве цели. В таких сценариях эксперимент определяется как стандартная задача двоичной или многоклассовой классификации.
Признаки произвольного текста в прогнозированиях
Чтобы узнать о требованиях для выполнения прогнозов с развернутой моделью, обученной на характеристиках свободного текста, см. Работа с признаками произвольного текста в прогнозированиях.
Замечания
Включение признаков произвольного текста увеличивает сложность эксперимента и процессов, необходимых для его выполнения. Диаграммы Важность перестановки могут оказаться недоступными для итоговых моделей, если данные произвольного текста будут достаточно сложными.
Поиск и устранение неисправностей
При обучении модели с использованием данных произвольного текста могут интенсивно расходоваться ресурсы. Может возникать ошибка при включении столбцов с произвольным текстом, которые содержат большое количество уникальных слов в качестве признаков.
Ниже приводятся рекомендации по исправлению таких ошибок.
-
Сократите объем подмножества данных в наборе данных для обучения, чтобы он включал меньше строк произвольного текста
-
Удалите признаки произвольного текста, которые не требуется включать в обучение модели.
-
Обрабатывайте один или несколько столбцов с произвольным текстом в качестве категориальных признаков, а не произвольного текста. Обратите внимание, что это не рекомендуется, если такие признаки произвольного текста имеют высокую кардинальность.
Ограничения
-
Автоматическое конструирование признаков из свободного текста доступно только для обучающих наборов данных в пределах определенных ограничений по размеру. Для получения дополнительной информации см. раздел Ограничения набора данных для обучения и профилирования.
-
Автоматическая разработка характеристик из свободного текста недоступна для экспериментов с временными рядами.