跳到主要内容 跳到补充内容

Amazon S3

Amazon S3 可以用作:

  • 使用 Databricks(可选)和 Amazon Redshift(必需)数据管道平台时的云暂存区。云暂存区是数据和更改在应用和存储之前暂存的地方。
  • “在数据湖中登陆数据”复制任务中的目标。

登陆数据所需的权限

  • 您必须有一个可从 数据移动网关 计算机访问的 Amazon S3 存储段。

    有关注册 Amazon S3 的信息,请参阅 http://aws.amazon.com/s3/

  • 存储段访问凭据:记下存储段名称、区域、访问密钥和秘密访问密钥-您需要在 Amazon S3 连接器 设置中提供它们。
  • 存储段访问权限:需要以下存储段访问权限:

     
    {
    	"Version": "2012-10-17",
    	"Statement": [
    	    {
    	     "Sid": "Stmt1497347821000",
    	     "Effect": "Allow",
    	     "Action": [
                    "s3:GetBucketLocation",
                    "s3:ListBucket"
                ],
                "Resource": [
                    "arn:aws:s3:::YOUR_BUCKET_NAME"
                ]
            },
            {
                "Sid": "Stmt1497344984000",
                "Effect": "Allow",
                "Action": [
                    "s3:PutObject",
                    "s3:GetObject",
                    "s3:DeleteObject"
                ],
                "Resource": [
                    "arn:aws:s3:::YOUR_BUCKET_NAME/target_path",
                    "arn:aws:s3:::YOUR_BUCKET_NAME/target_path/*"
                ]
            }
        ]
    }
    

此处 YOUR_BUCKET_NAME 是存储段的名称,而 target_path 是目标文件在存储段中的预期位置。

信息注释

如果目标路径是存储段根,只需用空字串指定 “/target_path”

Qlik 数据网关 - 数据移动 先决条件

数据移动网关 使用 SSL 连接至 AWS。这需要适当的 CA 证书才能驻留在 数据移动网关 计算机上;否则,连接将失败。CA 证书的目的是验证 AWS 服务器证书的所有权。

确保所需的 CA 证书存在于 Linux 计算机上的以下位置:

/etc/pki/tls/certs/ca-bundle.crt

如果它不存在,最简单的解决方案是从另一台 Linux 机器复制证书包。

设置 Amazon S3 连接属性

数据目标

数据网关选择要用于访问目标数据库的 数据移动网关

根据您的使用情况,这将是从数据源部署到陆地数据的相同 数据移动网关,或者是与之不同的。有关可能的 数据移动网关 部署可能性的信息,请参阅常见用例

信息注释需要 数据移动网关 2023.5.10 或更高版本。

连接属性

  • 访问密钥:您的 AmazonS3 存储段的访问密钥。
  • 密钥AmazonS3 存储段的密钥。
  • 存储段名称:您的 AmazonS3 存储段的名称。

    信息注释

    默认的存储端区域设置为自动检测,无需设置特定区域。但是,出于安全考虑,对于某些区域(例如 AWS GovCloud),您可能需要显式设置该区域。在这种情况下,可以使用 regionCode 内部属性设置区域代码。

    有关地区代码的列表,请参阅以下网址中的地区可用性部分:https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/Concepts.RegionsAndAvailabilityZones.html

    有关设置内部属性的说明,请参阅下文。

  • Use AWS PrivateLink:选择此项可连接到 Amazon VPC,然后指定 VPC 端点 URL(例如, https://bucket.vpce-1a2b3c4d-5e6f.s3.us-east-1.vpce.amazonaws.com)。

    信息注释当使用 Amazon S3 存储段作为 Databricks 目标的暂存区域时,不支持使用 AWS PrivateLink 选项。有关设置与 Databricks 目标的连接的信息,请参阅Databricks

内部属性

内部属性用于特殊用例,因此不会在对话框中公开。只有在 Qlik 支持部门的指示下,您才应该使用它们。

使用字段右侧的 新建取消 按钮可以根据需要添加或删除特性。

名称

连接的显示名称。

数据类型映射

下表显示了从 Qlik Cloud 数据类型到 Amazon S3 数据类型的默认映射。

信息注释仅当启用了“在数据湖中登陆数据”任务设置中的在目标文件夹中创建元数据文件选项时,数据类型映射才相关。

Qlik Cloud 数据类型到 Amazon S3 的映射

Qlik Cloud 和 Amazon S3 数据类型
Qlik Cloud 数据类型Amazon S3 目标数据类型

DATE

DATE

TIME

TIME

DATETIME

DATETIME

BYTES

BYTES(长度)

BLOB

BLOB

REAL4

REAL4 (7)

REAL8

REAL8 (14)

INT1

INT1 (3)

INT2

INT2 (5)

INT4

INT4 (10)

INT8

INT8 (19)

UINT1

UINT1 (3)

UINT2

UINT2 (5)

UINT4

UINT4 (10)

UINT8

UINT8 (20)

NUMERIC

NUMERIC (p,s)

STRING

STRING(长度)

WSTRING

STRING(长度)

CLOB

CLOB

NCLOB

NCLOB

BOOLEAN

BOOLEAN (1)

Qlik Cloud 数据类型到 Parquet 的映射

当把 Parquet 设置为文件格式时,由于 Parquet 支持的数据类型数量有限,数据类型映射如下:

Parquet 数据类型映射
Qlik Cloud:Qlik CloudParquet 图元类型逻辑类型

BOOLEAN

BOOLEAN

 

INT1

INT32

INT(8, true)

INT2

INT32

INT(16, true)

INT4

INT32

 

INT8

INT64

 

UINT1

INT32

INT(8, false)

UINT2

INT32

INT(16, false)

UINT4

INT64

 

UINT8

INT64

INT(64, false)

REAL4

FLOAT

 

REAL8

DOUBLE

 

NUMERIC

FIXED_LEN_BYTE_ARRAY (16)

DECIMAL(精确度、刻度)

STRING

BYTE_ARRAY

STRING

WSTRING

BYTE_ARRAY

STRING

BYTES

BYTE_ARRAY

 

BLOB

BYTE_ARRAY

 

CLOB

BYTE_ARRAY

STRING

NCLOB

BYTE_ARRAY

STRING

DATE

INT32

DATE

TIME

INT32

TIME (UTC=true, unit=MILLIS)

DATETIME

INT64

TIMESTAMP (UTC=true, unit=MICROS)

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们如何改进!