将数据引入数据仓库
在 Qlik Talend Data Integration 项目中创建数据管道的第一步是录入数据。这涉及从数据源传输数据,并以读优化格式存储数据集。您可以使用连续的更改处理来更新数据,也可以使用计划的重新加载。
您可以在一个操作中创建录入,但它会分两步执行。
-
登陆数据
这涉及使用登陆数据任务将数据从本地数据源连续传输到登陆区域。
您还可以将数据登陆到 Lakehouse,在那里数据被登陆到云文件存储。这适用于 Snowflake 项目,其中登陆目标设置为云文件存储。
-
存储数据集
这包括读取登陆数据的初始加载或增量加载,并使用存储数据任务以读取优化格式应用数据。
当您已登录数据时,可以用多种方式使用存储的数据集。
-
您可以在分析应用程序中使用数据集。
-
您可以创建变换。
-
您可以创建数据集市。
录入数据
在项目中开始录入数据。数据集将存储在项目中定义的云数据仓库中。有关项目的更多信息,请参阅创建数据管道项目。
-
在您的项目中,单击创建,然后单击录入数据。
提示注释您也可以单击项目中现有源上的,然后单击录入数据。
-
为录入添加名称和描述。
单击下一步。
-
选择源连接。
您可以选择现有源连接或创建到源的新连接。
有关更多信息,请参阅设置与数据源的连接。
单击下一步。
-
选择要加载的数据。
有关更多信息,请参阅选择数据。
单击下一步。
显示设置,在其中您可以更新方法和历史设置。
-
在更新方法中,选择用哪个方法来更新数据:
-
更改数据捕获 (CDC)
如果您的数据还包含不支持 CDC 的表或视图,则将创建两个数据管道。一个管道包含所有支持 CDC 的表,另一个管道则包含使用重新加载和比较的所有其他表和视图。
-
重新加载并比较
-
-
如果您要加入Snowflake,您可以选择以下加载方法之一:
-
批量加载(默认)
如果选择批量加载,创建任务后, 您就可以在任务设置的数据上传选项卡中调整加载参数。
-
Snowpipe Streaming
信息注释Snowpipe 数据流只有在满足以下条件时才可供选择:
- 更改数据捕获 (CDC) 更新方法已启用。
- Snowflake 连接器中的验证机制设置为密钥对。
- 如果使用 数据移动网关 ,则需要 2024.11.45 或更高版本。
如果您选择 Snowpipe 数据流,请确保您熟悉使用此方法时的限制和注意事项。此外,如果您选择雪管数据流,然后切换到重新加载和比较更新方法,加载方法将自动切换回批量加载。
选择 Snowpipe 数据流而非批量加载的主要原因是:
-
成本更低:由于 Snowpipe 数据流不使用 Snowflake 仓库,因此运营成本应大大降低,但这取决于您的具体使用情况。
-
减少延迟: 由于数据直接流向目标数据表(而不是通过暂存),因此从数据源复制到目标数据表的速度应该更快。
-
-
选择是否要复制历史记录中的当前数据之外的先前数据的历史记录。
准备好后单击下一步。
-
如果您不使用 数据移动网关 来访问数据源,则设置中将显示以下部分:
复制计划程序
-
复制数据间隔:您可以安排从数据源捕获更改的频率,并设置开始时间和开始日期。如果源数据集支持 CDC(更改数据捕获),则只有对源数据的更改会被复制并应用到相应的目标表。如果源数据集不支持 CDC(例如,视图),则将通过将所有源数据重新加载到相应的目标表来应用更改。如果一些源数据集支持 CDC,而另一些不支持,则将创建两个单独的子任务:一个用于重新加载不支持 CDC 的数据集,另一个用于捕获对支持 CDC 的数据集的更改。
引入设置向导允许您安排每小时间隔。完成引入向导后,您可以探索不同的计划选项,如Replication 设置中所述。
有关根据数据源类型和订阅层的最小调度间隔的信息,请参阅允许的最小调度间隔。
-
-
预览为录入数据创建的两个数据任务,如果需要,请重命名它们。
提示注释命名存储数据任务中的数据库模式时使用这些名称。请考虑使用唯一的名称,以避免与使用相同数据平台的其他项目中的数据任务发生冲突。 -
选择是要打开已创建的任何数据任务,还是返回到项目。
准备好后,单击完成。
现在创建录入数据任务。要开始复制数据,您需要:
选择数据
可以选择特定的表格或视图,或使用选择规则包括或排除表格组。
使用 % 作为通配符来定义架构和表的选择条件。
-
%.% 定义所有架构中的所有表。
-
Public.% 定义所有架构 Public 中的所有表。
选择条件根据您的选择提供预览。
您现在可以:
-
根据选择条件创建规则以包含或排除一组表。
单击从选择标准添加规则以创建规则,然后选择包含或排除。
您可以在选择规则下查看规则。
-
选择一个或多个数据集,然后单击添加选定的数据集。
您可以在显式选择的数据集下查看添加的数据集。
选择规则仅适用于当前的表和视图集,而不适用于将来添加的表和视图。