跳到主要内容 跳到补充内容

AI 处理器

使用第三方目标数据平台中的生成式 AI 函数来转换数据。

AI 处理器在第三方目标数据平台中使用原生的生成式 AI 模型功能。例如,您可以在转换中翻译、分类或汇总数据。

可用性

人工智能处理器功能适用于使用以下目标数据平台的项目。

  • Snowflake

  • Databricks

信息注释可用的处理器函数取决于目标数据平台的可用性。这意味着,如果使用人工智能处理器,就无法导出项目,然后再导入到使用不同数据平台的另一个项目中。

Snowflake

AI 处理器功能适用于以 Snowflake 作为目标数据平台的项目,并且该类项目使用 Snowflake Cortex AI API。

信息注释有关使用 Snowflake Cortex 函数时计算成本考虑因素的更多信息,请参阅大型语言模型 (LLM) 函数 (Snowflake Cortex)

可使用以下功能:

  • 分析情绪

  • 分类

  • 总结

  • 翻译

有关函数的更多信息,请参阅 Snowflake 文档:可用功能

Databricks

AI 处理器功能适用于以 Databricks 作为目标数据平台的项目,并且该类项目使用 Databricks Foundation Model API。此 Databricks 功能位于公共预览版中,可能存在一些限制,例如,在 Databricks SQL Classic 上不受支持。有关特定于函数的限制的信息,请参阅每个函数的 Databricks 文档链接。

另请参见 Databricks 预览支持和详细信息。

可使用以下功能。在函数名称中选择要使用的 AI 函数。

  • 分析情绪

  • 分类

  • 修正语法

  • 屏蔽

  • 相似度

  • 总结

  • 翻译

有关函数的更多信息,请参阅 Databricks 文档:按字母顺序排列的内置函数列表

分析情绪

对输入文本进行情绪分析。

Databricks、Snowflake 可提供:

输入

分析情绪的配置
属性名称 配置

内容

选择要对其执行情绪分析的列。您只能选择字符串类型的列。

输出列名称

输入生成的输出列的名称。

预期格式如下:

  • 必须以 [A-Za-z_] 字符开头。
  • 只能包含 [A-Za-z0-9_] 字符。

示例:ASDasd123_4564

预览限制 设置在数据预览中加载的行数。默认值为 10。如果设置为 0,则没有限制。

输出

分析情绪输出
目标数据平台 配置

Databricks

情绪会以文本字符串的形式返回,值为 positivenegativeneutralmixed。如果无法检测到情绪,则返回 Null。

Snowflake

对于给定的英文输入文本,情绪会以 -1 到 1 之间的分数返回。

-1 代表最消极的情绪,1 代表最积极的情绪。0 左右的数值代表中性情绪。

分类

根据您提供的标签对输入文本进行分类。

Databricks、Snowflake 可提供:

输入

分类的配置
属性名称 配置

内容

选择要对文本进行分类的列。您只能选择字符串类型的列。

分类标签

添加标签,用于对数据进行分类。使用 加 添加更多标签。您可使用 2 到 20 个标签。

预览限制 设置在数据预览中加载的行数。默认值为 10。如果设置为 0,则没有限制。

输出

分类的输出
目标数据平台 配置

Databricks

返回一个文本字符串,其中包含与内容中输入字符串匹配的分类标签。

Snowflake

返回一个文本字符串,其中包含与内容中输入字符串匹配的分类标签。

修正语法

更正文本列中的语法错误。

Databricks 可提供:

输入

修正语法配置
属性名称 配置

内容

选择要在其中修正语法的列。您只能选择字符串类型的列。

输出列名称

如果选择创建新列,则可以为生成的输出列输入名称。

预期格式如下:

  • 必须以 [A-Za-z_] 字符开头。
  • 只能包含 [A-Za-z0-9_] 字符。

示例:ASDasd123_4564

预览限制 设置在数据预览中加载的行数。默认值为 10。如果设置为 0,则没有限制。

输出

分类的输出
目标数据平台 配置

Databricks

返回的文本字符串已修正语法。

屏蔽

屏蔽文本列中的指定实体。屏蔽实体替换为 [MASKED]

Databricks 可提供:

输入

屏蔽配置
属性名称 配置

内容

选择要屏蔽文本实体的列。您只能选择字符串类型的列。

屏蔽标签为要屏蔽的每个文本实体添加标签。使用 加 添加更多标签。

输出列名称

如果选择创建新列,则可以为生成的输出列输入名称。

预期格式如下:

  • 必须以 [A-Za-z_] 字符开头。
  • 只能包含 [A-Za-z0-9_] 字符。

示例:ASDasd123_4564

预览限制 设置在数据预览中加载的行数。默认值为 10。如果设置为 0,则没有限制。

输出

分类的输出
目标数据平台 配置

Databricks

返回屏蔽了指定实体的文本字符串。

相似度

比较两个字符串并计算语义相似度得分。

Databricks 可提供:

输入

相似度配置
属性名称 配置

内容

选择要比较的列。您只能选择字符串类型的列。

您可以将内容中的文本与其他字符串列中的文本或您指定的值进行比较。

  • 选择要比较的列。您只能选择字符串类型的列。

  • 键入要比较的文本值。

输出列名称

输入生成的输出列的名称。

预期格式如下:

  • 必须以 [A-Za-z_] 字符开头。
  • 只能包含 [A-Za-z0-9_] 字符。

示例:ASDasd123_4564

预览限制 设置在数据预览中加载的行数。默认值为 10。如果设置为 0,则没有限制。

输出

分类的输出
目标数据平台 配置

Databricks

分数以 0 到 1.0 之间的浮点值返回,其中 1.0 表示字符串相等。

总结

在文本列中生成文本的摘要。

Databricks、Snowflake 可提供:

输入

摘要的配置
属性名称 配置

内容

选择要制作摘要的列。您只能选择字符串类型的列。

最大字数

设置文本摘要的最大字数。您只能设置整数值。

默认值为 50。如果将其留空或设置为零,则不会应用最大字数。

信息注释此选项仅在 Databricks 中可用。

输出列名称

输入生成的输出列的名称。

预期格式如下:

  • 必须以 [A-Za-z_] 字符开头。
  • 只能包含 [A-Za-z0-9_] 字符。

示例:ASDasd123_4564

预览限制 设置在数据预览中加载的行数。默认值为 10。如果设置为 0,则没有限制。

输出

总结的输出
目标数据平台 配置

Databricks

返回一个文本字符串,内容中是输入字符串的摘要。

Snowflake

返回一个文本字符串,内容中是输入字符串的摘要。

翻译

翻译列的文本内容。

Databricks、Snowflake 可提供:

有关支持语言的信息,请参阅数据平台的参考文档。

输入

翻译的配置
属性名称 配置

内容

选择要制作摘要的列。您只能选择字符串类型的列。

翻译自

选择要翻译的原文语言。您还可以选择自动检测语言。

Snowflake 可提供:

翻译为

选择要翻译到哪个目标语言。

输出列名称

输入生成的输出列的名称。

预期格式如下:

  • 必须以 [A-Za-z_] 字符开头。
  • 只能包含 [A-Za-z0-9_] 字符。

示例:ASDasd123_4564

预览限制 设置在数据预览中加载的行数。默认值为 10。如果设置为 0,则没有限制。

输出

翻译的输出
目标数据平台 配置

Databricks

返回一个文本字符串,内容中是输入字符串的翻译。

Snowflake

返回一个文本字符串,内容中是输入字符串的翻译。

编辑处理器

要重命名处理器,请单击将鼠标悬停在处理器的默认名称上时显示的编辑编辑图标。

要编辑其描述,请单击悬停在描述上时显示的编辑编辑图标。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!