跳到主要内容 跳到补充内容

Snowflake 数据集的数据质量

为了从 Snowflake 数据集的语义类型发现和数据质量读数中受益,您需要在数据产品的上下文中为数据连接设置一个重要的先决条件。

Snowflake 连接设置

为了让您从 Snowflake 创建数据集,并在数据集概述和数据产品概述中访问其模式和质量,您需要在 Qlik Talend Data Integration 应用中心和 Qlik 分析服务应用中心设置相同的连接。

假设您想将存储在 Snowflake 数据库中的数据作为数据集添加到您的目录中,并将其分组到您将用于分析应用程序的数据产品中。

  1. 在 Qlik Talend Data Integration 中,单击新增,然后单击数据连接

  2. 使用具有写入权限和对要导入的表的访问权限的用户的凭据配置对 Snowflake 数据库的访问权限。

  3. 在 Qlik 分析服务中,单击新增,然后单击数据连接

  4. 配置对于和以前相同的 Snowflake 数据库的访问权限,最好使用同一用户的凭据,或者至少对表具有读取权限的凭据。

  5. 角色字段中,您必须输入一个与 Snowflake 数据库中创建的现有角色相对应的角色,并且该角色对这些对象具有以下权限。

    • 使用库

    • 使用数据库

    • 使用模式

    • 在模式上创建表格

    • 在模式上创建功能

    • 在模式上创建视图

    • 在表格上选择

  6. 回到 Qlik Talend Data Integration 主页,单击新增,然后单击创建数据项目

  7. 使用步骤 2 中的 Snowflake 连接作为项目的源,并开始构建管道。有关更多信息,请参阅创建数据管道

  8. 在流程中的任何一点,选择一个数据任务,转到设置,然后转到目录选项卡,您可以在其中选中发布到目录复选框。

    这意味着,当数据项目准备和运行时,此版本的数据集将发布到目录中。也可以在项目级别选中此选项。

  9. 运行您的数据项目。

运行数据项目后,新数据集将添加到目录中,您将能够访问质量指标及其内容的更多详细信息。此配置还可以将 Snowflake 数据集用作分析应用程序的源。

在构建数据产品之前,您可以根据需要添加尽可能多的数据集。由于目录可以从 Qlik Talend Data Integration 应用中心和 Qlik 分析服务应用中心访问,因此您可以在首选位置打开数据集,并根据上下文使用正确的连接。

下推式质量计算

使用数据集概述上的计算刷新按钮会触发对数据库 1000 行样本的质量计算。此操作发生在 Snowflake 端的下推中。

然后将 100 行的样本发送回 Qlik Cloud,在那里您可以将其显示为具有最新语义类型以及有效性和完整性统计信息的预览。然后将此示例存储在 MongoDB 上。

下图总结了数据质量处理操作。

snowflake 下推结构图

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!