流媒体湖登陆设置 | Qlik Cloud帮助

跳到主要内容跳到补充内容

Qlik 资源

流媒体湖登陆设置

在该页面上

跳到主要内容

本页面有帮助吗？

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们！

流媒体湖登陆设置

以下流媒体湖登陆任务设置适用于使用流式源的 Qlik Open Lakehouse 项目。

一般

要使用的文件夹
选择将数据登陆到暂存区时要使用的文件夹。

默认文件夹

这将创建具有该默认名称的文件夹：<project name>/<data task name>。
根文件夹

将数据存储在存储的根文件夹中。
文件夹

指定要使用的文件夹名称。

文件夹保留
选择数据保留时长：

数据和元数据不会被删除：数据和元数据都不会被删除。
在保留期过后删除数据和元数据：数据和元数据在保留期过后被删除，
在保留期结束后删除元数据。数据由外部系统删除。数据在此期限过后将被永久删除。元数据被清除，但底层数据（例如 S3 对象）不会由 Qlik 删除。

读取数据自
选择何时从以下位置摄取数据：

从现在开始

仅摄取管道开始时到达的事件。
从最早的事件开始 (默认)

摄取所有历史数据。

内容类型
从列表中选择文件格式，例如 JSON 或 CSV。运行任务后，可以通过重新创建任务来更改此设置。有关每种文件格式的详细信息，请参阅内容类型。

模式演变

新建主题/数据流选择如何处理新的数据流/主题。

添加到目标：如果您将所有表加载到单个目标表，新数据将添加到此表。如果您将每个主题加载到不同的数据集，则新主题将添加到新数据集。
忽略：新数据不会添加到目标。

运行时

阅读器数量

Apache Kafka：选择要使用的读取器数量。该值必须介于 1 和 1,000 之间。
Amazon Kinesis：选择数据流分片数量。
Amazon S3：此设置不适用于 S3 数据流源。

Lakehouse 集群
选择数据流集群。流式登陆任务和流式转换任务无需位于同一集群上，但需要位于同一网络集成中。

内容类型

以下设置适用于每种文件格式。

JSON
- 如果未另行定义，这是默认文件格式。
CSV 和 TSV
- 第一行包含标题：默认选中，用于指定第一行包含标题记录。
- 标题行（可选）：如果第一行不是标题，请定义标题名称。
- 分隔符：如果这不是默认分隔符（CSV 为逗号，TSV 为制表符），请选择默认分隔符。
- 引号转义字符：如果这不是默认定义的双引号，请选择默认引号转义字符。
- 空值（可选）：输入替换空值。
- 允许复制标头：如果两列具有相同的名称，则第二列将以不同的名称添加。
Parquet、Avro 和 ORC
- 无需配置其他设置。
正则表达式
- 模式：输入正则表达式模式。
- 多行：默认已选定。
拆分行:
- 正则表达式: 输入用于拆分的正则表达式。

本页面有帮助吗？

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们！

在此处留下您的反馈