元数据文件描述
当选择在目标文件夹中创建元数据文件选项时,对于每个 CSV/JSON/Parquet 文件,数据湖登陆任务会在指定的目标文件夹下创建相应的元数据文件。
元数据文件提供了一些好处,例如使自定义批处理过程能够执行更好的验证、支持更深入的自动化、提供世系信息和提高处理可靠性。
下表介绍了元数据文件。
所有时间戳都是 ISO-8601 格式,例如2016-08-02T10:05:04.802。
字段 | 说明 |
---|---|
名称 |
数据湖登陆任务的名称。 |
sourceEndpoint |
在源端点设置中定义的名称。 |
sourceEndpointType |
源连接器类型(例如 Oracle、MySQL 等)。 |
sourceEndpointUser |
在源端点设置中定义的用户。 |
replicationServer |
安装 数据移动网关 的计算机的主机名。 |
运算 |
如果已创建目标数据文件,则此字段将包含以下值:dataProduced |
字段 | 说明 |
---|---|
名称 |
不带扩展名的数据文件的名称。 |
扩展 |
数据文件的扩展名(.csv 或 .json,视选定的目标文件格式而定)。 |
位置 |
数据文件的位置。 |
startWriteTimestamp |
UTC 时间戳,指示何时开始写入文件。 |
endWriteTimestamp |
UTC 时间戳,指示何时结束对文件的写入。 |
firstTransactionTimestamp |
文件中第一条记录的 UTC 时间戳。 |
lastTransactionTimestamp |
文件中最后一条记录的 UTC 时间戳。 |
\Content |
根据相应 CSV 文件中的数据,这些值可以是 data(用于满负载登陆)或 changes(用于 CDC 登陆)。 |
recordCount |
文件中的记录数。 |
errorCount |
文件创建过程中遇到的数据错误数。 |
字段 | 说明 |
---|---|
格式 |
delimited 或者 json ,取决于所选择的目标文件格式。 |
选项 |
delimited 文件格式的选项。这些选项将不会对 json 格式显示,因为它们不相关。 |
recordDelimiter |
用于分隔目标文件中的记录(行)的分隔符。默认值为换行符 (\n)。 |
fieldDelimiter |
用于分隔目标文件中的字段(列)的分隔符。默认值为逗号。 |
NullValue |
用于指示目标文件中的 null 值的字符串。 |
quoteChar |
在列的开头和结尾使用的字符。默认为双引号字符 (")。 |
escapeChar |
当字符串和包含字符串的列都用双引号括起来时,用于转义字符串的字符。请注意,将删除字符串的引号,除非它们被转义。 示例(其中 “ 是引号,\ 是转义符): 1955,"old, \"rare\", Chevrolet",$1000 |
字段 | 说明 |
---|---|
customInfo |
本节包含使用 dfmCustomProperties 内部属性设置的任何自定义属性。 dfmCustomProperties 内部参数必须用以下格式指定: Parameter1=Value1;Parameter2=Value2;Parameter3=Value3 示例: Color=Blue;Size=Large;Season=Spring 有关如何设置内部属性的说明,请参阅Amazon S3。 |
字段 | 说明 |
---|---|
sourceSchema |
包含源表的模式。 |
sourceTable |
源表的名称。 |
targetSchema |
目标表模式的名称(如果源模式名称已更改)。 |
targetTable |
目标表的名称(如果源表名称已更改)。 |
tableVersion |
数据湖登陆任务为表指定一个内部版本号。每当源表中发生 DDL 更改时,版本号就会增加。 |
列 |
有关表列的信息。 |
初始 |
列在记录中的位置(1、2、3 等)。 |
名称 |
列名称。 |
类型 |
列数据类型。有关更多信息,请参阅Supported data types。 |
宽度 |
该列允许的最大数据大小(以字节为单位)。 |
刻度 |
一个数字允许的小数点右边的最大位数。 |
primaryKeyPos |
列在表的主键或唯一索引中的位置。如果列不是表主键的一部分,则该值为零。 |