管理数据集
您可以管理包含在 登陆、存储、转换、数据集市、流式登陆、流式转换 和 复制 数据任务中的数据集,以创建转换、过滤数据并添加列。
包含的数据集列在 设计 视图的 数据集 下。您可以使用列选择器()选择要显示的列。
数据任务的 设计 视图中的 数据集

转换规则和显式转换
您可以执行全局转换和显式转换。
转换规则
您可以通过创建在范围内使用 % 作为通配符的转换规则来执行全局转换,以应用于所有匹配的数据集。
-
单击 规则,然后单击 添加规则 以创建新的转换规则。
有关更多信息,请参阅 创建规则以转换数据集。
转换规则由受影响属性上的深紫色角标指示。
显式转换
在以下情况下创建显式转换:
-
当您使用 编辑 更改列属性时
-
当您对数据集使用 重命名 时。
-
当您添加列时。
显式转换会覆盖全局转换,并由受影响属性上的浅紫色角标指示。
数据集模型
数据集可以是基于源的,也可以是基于目标的,具体取决于任务类型和任务中的操作。所使用的数据集模型会影响管道在源更改时的行为,以及您可以执行哪些操作。
-
基于源的数据集
该数据集基于源数据集,并且仅保留元数据中的更改。源数据中的更改会自动应用,这可能会导致所有下游任务发生更改。无法更改列顺序或更改源数据集。
以下任务类型始终使用基于源的数据集模型:登陆、存储、注册数据、复制和数据湖中的登陆。
-
基于目标的数据集
该数据集基于目标元数据。如果从源添加或删除了列,它不会自动应用于下一个下游任务。您可以更改列顺序,并更改源数据集。这意味着任务更加独立,并允许您控制源更改的影响。
以下任务类型可以使用基于目标的数据集模型:转换、数据集市。在某些情况下,根据操作,转换任务会使用基于源的模型。
-
如果 SQL 转换或转换流执行列选择,则数据集将是基于目标的。例如,如果您在 SQL 转换中使用 SELECT A, B, C from XYZ,或在转换流中使用 选择列 处理器。
-
如果保留默认列,则数据集是基于源的。例如,如果您在 SQL 转换中使用 SELECT * from XYZ。
-
将项目从基于源的模型更新为基于目标的模型
在适用时,现有项目将更新为基于目标的数据集模型。首次打开项目时,系统将引导您完成更新过程。在导入和导出具有不同数据集模型的项目时,需要考虑一些事项。
-
无法将具有基于源的模型的项目导入到具有基于目标的模型的项目中。
将具有基于源的模型的项目导入到新项目中,更新新项目,然后导出生成的项目。现在,您可以将此项目重新导入到具有基于目标的模型的项目中。
-
无法将具有基于目标的模型的项目导入到具有基于源的模型的项目中。
在导入具有基于目标的模型的项目之前,请将项目更新为基于目标的模型。
过滤数据集
如果需要,您可以过滤数据以创建行的子集。
-
单击 过滤。
有关更多信息,请参阅 筛选数据集。
重命名数据集
您可以重命名数据集。
-
单击数据集上的
,然后单击 编辑。
添加列
如果需要,您可以通过行级转换添加列。
-
单击 添加列
有关更多信息,请参阅 向数据集中添加列。
编辑列
您可以通过选择一列并单击 编辑 来编辑列属性。
-
名称
-
键
将列设置为主键。您还可以通过在 键 列中选择或取消选择来设置键。
-
可为空
-
数据类型
设置列的数据类型。对于某些数据类型,您可以设置附加属性,例如 长度。
信息注释当您更改列的数据类型或数据类型大小时,这可能会对使用该数据集的任务产生影响。有关更多信息,请参阅 管理数据类型。
删除列
您可以从数据集中删除一列或多列。
-
选择要删除的列,然后单击 删除。
如果要查看已删除的列,请单击 显示已删除的列。已删除的列以删除线文本指示。您可以通过选择已删除的列并单击 还原 来检索它。
还原对列的显式更改
您可以还原对一列或多列的所有显式更改。
-
选择要还原更改的列,然后单击 还原。
来自全局转换规则的更改将不会被还原。
如果您还原已添加的列,它将被删除。
数据集设置
您可以更改数据集的设置。默认设置是继承数据任务的设置,但您也可以将设置显式更改为“开”或“关”。
-
单击数据集上的
,然后单击 设置。
查看数据
在设计数据管道时,您可以查看数据样本以查看和验证数据的形状。
必须满足以下要求:
-
在 Administration 活动中心中,在租户级别启用了查看数据功能。
要启用它,请转到 设置 页面,选择 功能控制 选项卡,然后打开 在 数据集成 中查看数据。
-
在连接所在的空间中,为您分配了 可以查看数据 角色。
-
在项目所在的空间中,为您分配了 可以查看 角色。
查看样本数据
要在 设计 视图的 数据集 选项卡中查看样本数据:
-
单击 物理对象 中的 查看数据。
将显示数据样本。您可以使用 行数 设置样本中包含的数据行数。
在数据集和表之间切换
要在数据集和表之间切换:
-
选择 数据集 以查看数据的逻辑表示。
-
选择 物理对象 以查看数据库中作为表和视图的物理表示。
新闻注释如果尚未创建物理表示,则此选项不可用。
过滤
您可以通过两种方式过滤样本数据:
-
使用
过滤要检索的样本数据。
例如,如果您使用过滤器 ${OrderYear}>2023 并且 行数 设置为 10,您将获得 2024 年的 10 个订单样本。
-
按特定列过滤样本数据。
这只会影响现有的样本数据。如果您使用
仅包含 2024 年的订单,并将列过滤器设置为显示 2022 年的订单,则结果为空样本。
排序
您还可以按特定列对数据样本进行排序。排序只会影响现有的样本数据。如果您使用 仅包含 2024 年的订单并反转排序顺序,则样本数据仍将仅包含 2024 年的订单。
隐藏列
您可以在数据视图中隐藏列:
-
通过单击列上的
,然后单击 隐藏列 来隐藏单个列。
-
通过单击任何列上的
,然后单击 显示列 来隐藏多个列。这允许您控制视图中所有列的可见性。
下载样本数据
您可以下载显示的样本数据:
-
单击
以下载样本数据视图的内容。
样本数据将作为 CSV 文件下载到您的浏览器下载中。
验证和调整数据集
您可以验证数据任务中包含的所有数据集。
展开 验证和调整 以查看所有验证错误和设计更改。
验证数据集
-
单击 验证数据集 以验证数据集。
验证包括检查:
-
所有表都有主键
-
没有缺失的属性。
-
没有重复的表名或列名。
您还将获得与源相比的设计更改列表:
-
添加的表和列
-
删除的表和列
-
重命名的表和列
-
更改的主键和数据类型
展开 验证和调整 以查看所有验证错误和设计更改。
-
修复验证错误,然后再次验证数据集。
-
大多数设计更改可以自动调整,除了更改的主键或数据类型。在这种情况下,您需要同步数据集。
准备数据集
如果可能,您可以准备数据集以调整设计更改而不会丢失数据。如果存在无法在不丢失数据的情况下调整的设计更改,您将获得从源重新创建表(会导致数据丢失)的选项。
这需要停止任务。
-
单击
,然后单击 准备。
准备好数据集后,在重新启动存储任务之前验证数据集。
重新创建数据集
您可以从源重新创建数据集。当您重新创建数据集时,将会丢失数据。只要您有源数据,就可以从源重新加载它。
这需要停止任务。
-
单击
,然后单击 重新创建表。
下载验证数据
您可以从 验证错误、设计更改 和 准备进度 下载数据:
-
单击
进行下载。
数据将作为 CSV 文件下载到您的浏览器下载中。
限制
-
在 Google BigQuery 中,如果您删除或重命名列,这将重新创建表并导致数据丢失。