跳到主要内容 跳到补充内容

处理自由文本数据

自由文本(例如,输入表单的文本字符串数据)需要通过机器学习算法进行特殊处理才能在模型中起作用。在 Qlik Predict 中,自由文本的处理是自动特性设计的一种形式。从技术上讲,该处理使用 TF-IDF(术语频率 - 逆文档频率)方法。

Qlik Predict 支持对具有英文自由文本数据的特性进行单独处理。

如果训练数据中的列包含自由文本,则会为其指定自由文本特性类型。它也可以用作分类特性,尽管如果它具有高基数(太多的唯一值),则强烈不建议使用这种方法。

在实验中,最多可以选择三列作为自由文本特性。

信息注释如果使用由自由文本数据组成的字段,建议对 2024 年 1 月 23 日之前训练的模型进行重新训练。

自由文本编码要求

要使包含自由文本的列成功编码为自由文本,它必须满足两个要求。这些要求在实验创建的不同阶段进行检查。

要求包括:

  • 列的平均字符长度必须为 50 个或更多个字符。

  • 该列的平均单词长度必须为五个或五个以上单词。

将特性视为自由文本

将特性视为自由文本的过程如下:

  1. 当您选择训练数据时,Qlik Predict 会识别可能作为自由文本处理的特性。它们在模式视图中标记为可能的自由文本见解,并且将具有自由文本特性类型。

  2. 在您运行实验的 v1 之后,额外的分析就完成了。此时,最初标记为可能的自由文本的特性可能会被发现无法用作自由文本特性。

    如果不能作为自由文本使用的特性具有很高的基数,建议您从实验中取消选择它们。当这些特性被视为分类特性时,对模型性能没有任何价值。

    如果不能作为自由文本使用的特性没有很高的基数,您可以通过单击视为分类或将其特性类型从自由文本切换为分类,将其包括在实验中。如果将特性类型保留为自由文本,则它在内部也将被视为类别,并进行影响编码。

有关预处理的完整详细信息,请参阅自动数据准备和转换

有关模式视图中显示的每个见解的更多信息,请参阅查看有关您训练数据的见解

使用自由文本特性作为实验目标

在极少数情况下,可以选择自由文本特性作为目标。如果该特性满足自由文本编码的所有要求,并且包含两到十个唯一值,则可以将其用作目标。在这些场景中,实验被定义为标准的二元分类或多类分类问题。

预测中的自由文本特性

要了解使用自由文本特性训练的已部署模型运行预测的要求,请参阅使用预测中的自由文本特性

注意事项

在实验中包含自由文本功能会增加实验的复杂性以及运行实验所需的进程。如果您的自由文本数据足够复杂,则置换重要性图表可能无法用于生成的模型。

故障排除

使用自由文本数据来训练模型可能是一个资源密集型过程。当您将包含大量唯一单词的自由文本列作为特性时,可能会遇到错误。

以下是解决这些错误的一些指南:

  • 减少训练数据集中的数据子集,以包含更少的自由文本行。

  • 删除模型培训中不需要包含的自由文本特性。

  • 将一个或多个自由文本列视为分类特性,而不是自由文本特性。请注意,如果这些自由文本特性包含高基数,则不建议这样做。

限制

  • 自动自由文本特征工程仅适用于特定大小限制内的训练数据集。有关更多信息,请参阅 训练数据集和分析限制

  • 时间序列实验不可使用自动自由文本功能工程。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!