流媒体湖登陆设置
以下流媒体湖登陆任务设置适用于使用流式源的 Qlik Open Lakehouse 项目。
一般
要使用的文件夹
选择将数据登陆到暂存区时要使用的文件夹。
-
默认文件夹
这将创建具有该默认名称的文件夹:<project name>/<data task name>。
-
根文件夹
将数据存储在存储的根文件夹中。
-
文件夹
指定要使用的文件夹名称。
文件夹保留
选择数据保留时长:
-
数据和元数据不会被删除:数据和元数据都不会被删除。
-
在保留期过后删除数据和元数据:数据和元数据在保留期过后被删除,
-
在保留期结束后删除元数据。数据由外部系统删除。数据在此期限过后将被永久删除。元数据被清除,但底层数据(例如 S3 对象)不会由 Qlik 删除。
读取数据自
选择何时从以下位置摄取数据:
-
从现在开始
仅摄取管道开始时到达的事件。
-
从最早的事件开始 (默认)
摄取所有历史数据。
内容类型
从列表中选择文件格式,例如 JSON 或 CSV。运行任务后,可以通过重新创建任务来更改此设置。有关每种文件格式的详细信息,请参阅 内容类型。
模式演变
新建主题/数据流选择如何处理新的数据流/主题。
-
添加到目标:如果您将所有表加载到单个目标表,新数据将添加到此表。如果您将每个主题加载到不同的数据集,则新主题将添加到新数据集。
-
忽略:新数据不会添加到目标。
运行时
阅读器数量
-
Apache Kafka:选择要使用的读取器数量。该值必须介于 1 和 1,000 之间。
-
Amazon Kinesis:选择数据流分片数量。
-
Amazon S3:此设置不适用于 S3 数据流源。
Lakehouse 集群
选择数据流集群。流式登陆任务和流式转换任务无需位于同一集群上,但需要位于同一网络集成中。
内容类型
以下设置适用于每种文件格式。
-
JSON
-
如果未另行定义,这是默认文件格式。
-
-
CSV 和 TSV
-
第一行包含标题:默认选中,用于指定第一行包含标题记录。
-
标题行(可选):如果第一行不是标题,请定义标题名称。
-
分隔符:如果这不是默认分隔符(CSV 为逗号,TSV 为制表符),请选择默认分隔符。
-
引号转义字符:如果这不是默认定义的双引号,请选择默认引号转义字符。
-
空值(可选):输入替换空值。
-
允许复制标头:如果两列具有相同的名称,则第二列将以不同的名称添加。
-
-
Parquet、Avro 和 ORC
-
无需配置其他设置。
-
-
正则表达式
-
模式:输入正则表达式模式。
-
多行:默认已选定。
-
-
拆分行:
-
正则表达式: 输入用于拆分的正则表达式。
-