跳到主要内容 跳到补充内容

流媒体湖登陆设置

以下流媒体湖登陆任务设置适用于使用流式源的 Qlik Open Lakehouse 项目。

一般

要使用的文件夹
选择将数据登陆到暂存区时要使用的文件夹。

  • 默认文件夹

    这将创建具有该默认名称的文件夹:<project name>/<data task name>。

  • 根文件夹

    将数据存储在存储的根文件夹中。

  • 文件夹

    指定要使用的文件夹名称。

文件夹保留
选择数据保留时长:

  • 数据和元数据不会被删除:数据和元数据都不会被删除。

  • 在保留期过后删除数据和元数据:数据和元数据在保留期过后被删除,

  • 在保留期结束后删除元数据。数据由外部系统删除。数据在此期限过后将被永久删除。元数据被清除,但底层数据(例如 S3 对象)不会由 Qlik 删除。

读取数据自
选择何时从以下位置摄取数据:

  • 从现在开始

    仅摄取管道开始时到达的事件。

  • 从最早的事件开始 (默认)

    摄取所有历史数据。

内容类型
从列表中选择文件格式,例如 JSON 或 CSV。运行任务后,可以通过重新创建任务来更改此设置。有关每种文件格式的详细信息,请参阅 内容类型

模式演变

新建主题/数据流选择如何处理新的数据流/主题。

  • 添加到目标:如果您将所有表加载到单个目标表,新数据将添加到此表。如果您将每个主题加载到不同的数据集,则新主题将添加到新数据集。

  • 忽略:新数据不会添加到目标。

运行时

阅读器数量

  • Apache Kafka:选择要使用的读取器数量。该值必须介于 1 和 1,000 之间。

  • Amazon Kinesis:选择数据流分片数量。

  • Amazon S3:此设置不适用于 S3 数据流源。

Lakehouse 集群
选择数据流集群。流式登陆任务和流式转换任务无需位于同一集群上,但需要位于同一网络集成中。

内容类型

以下设置适用于每种文件格式。

  • JSON

    • 如果未另行定义,这是默认文件格式。

  • CSV 和 TSV

    • 第一行包含标题:默认选中,用于指定第一行包含标题记录。

    • 标题行(可选):如果第一行不是标题,请定义标题名称。

    • 分隔符:如果这不是默认分隔符(CSV 为逗号,TSV 为制表符),请选择默认分隔符。 

    • 引号转义字符:如果这不是默认定义的双引号,请选择默认引号转义字符。 

    • 空值(可选):输入替换空值。

    • 允许复制标头:如果两列具有相同的名称,则第二列将以不同的名称添加。

  • Parquet、Avro 和 ORC

    • 无需配置其他设置。

  • 正则表达式

    • 模式:输入正则表达式模式。

    • 多行:默认已选定。

  • 拆分行:

    • 正则表达式: 输入用于拆分的正则表达式。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!