Amazon S3

Amazon Simple Storage Service (Amazon S3)는 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 개체 저장소 서비스입니다.

유용한 링크와 지원되는 기능을 포함하여 이 커넥터에 대한 전반적인 내용을 살펴보겠습니다.

특징/기능	지원 세부 정보
지원되는 Qlik Talend Data Integration 프로젝트	복제 프로젝트에만 해당됩니다. 데이터 파이프라인 프로젝트는 지원되지 않습니다.
대상 업데이트 방법	복제 작업: 변경 내용 적용 변경 내용 저장 데이터 레이크 작업에 데이터 랜딩: 데이터 변경 내용 캡처(CDC)
메타데이터 관리	수동 메타데이터 생성이 필요하지 않습니다.
스키마 진화	열 데이터 유형 변경 작업만 지원됩니다.
LOB 열(NCLOB, CLOB 및 BLOB) 복제	지원되지 않음.
예정된 CDC	필수. 이렇게 하면 소스의 변경 내용이 대상에 최신 상태로 유지됩니다. 복제 작업의 경우 작업 예약 을 참조하십시오. 레이크 랜딩 작업의 경우 레이크 랜딩 작업을 위한 CDC 예약을 참조하십시오.
알림	부분적으로 지원됨 작업 변경 알림 설정
모니터링 중	CDC에만 해당되며, 이 커넥터의 경우 전체 로드가 적용되지 않습니다. Monitoring an individual data task
JSON 열 페이로드의 자동 압축 해제	지원되지 않음. 소스 데이터 집합의 JSON 열 페이로드는 대상에서 자동으로 압축 해제되지 않습니다.

인증 준비 중

데이터에 액세스하려면 계정 자격 증명을 사용하여 연결을 인증해야 합니다.

사용하는 계정에 가져오려는 테이블에 대한 읽기 액세스 권한이 있는지 확인합니다.

Amazon S3에 연결하려면 AWS IAM(Identity Access Management)에서 정책을 만들고, 역할을 만들고, 역할에 정책을 연결할 수 있는 권한이 필요합니다. S3 버킷에 권한을 부여하려면 다음이 필요합니다.

IAM 정책 만들기
IAM 역할 만들기

IAM 정책 만들기

IAM 정책은 버킷 리소스에 대한 권한을 관리하는 JSON 기반 액세스 정책 언어입니다.

Amazon S3 권한
권한 이름	작업	설명
s3:GetObject	GET 개체	Amazon S3에서 개체를 검색할 수 있습니다.
s3:GetObject	HEAD 개체	개체 자체를 반환하지 않고도 개체에서 메타데이터를 검색할 수 있습니다.
s3:버킷 나열	GET 버킷(List 개체)	버킷에 있는 개체 중 일부 또는 전체(최대 1,000개)를 반환할 수 있습니다.
s3:버킷 나열	HEAD 버킷	버킷이 존재하고 액세스가 허용되는지 결정하는 데 사용됩니다.

IAM 정책을 만들려면:

AWS에서 IAM 서비스로 이동하려면 다음을 클릭합니다. 서비스 메뉴와 IAM 입력.
결과에 IAM이 표시되면 클릭합니다.
페이지 왼쪽 메뉴에서 정책을 클릭합니다.
정책 만들기를 클릭합니다.
정책 만들기 페이지에서 JSON 탭을 클릭합니다.
현재 텍스트 필드에 있는 모든 내용을 선택하여 삭제합니다.

텍스트 필드에 다음 JSON을 붙여넣고 MyBucketName을 버킷 이름으로 바꿉니다.

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "",
            "Effect": "Allow",
            "Action": [
            "s3:GetObject",
            "s3:ListBucket"
            ],
            "Resource": [
            "arn:aws:s3:::MyBucketName",
            "arn:aws:s3:::MyBucketName/*"
            ]
        }
    ]
}

정책 검토를 클릭합니다.
정책 검토 페이지에서 정책 이름을 지정합니다. 예: qlik_amazon_s3.
정책 만들기를 클릭합니다.

IAM 역할 만들기

이 단계를 완료하려면 다음 AWS IAM 권한이 필요합니다. CreateRole 및 AttachRolePolicy. 자세한 내용은 Amazon 설명서를 참조하십시오.

여러 개의 Amazon S3 통합을 만드는 경우 연결하는 각 통합에 대해 이 단계를 완료해야 합니다.

AWS에서 IAM 역할 페이지로 이동합니다.
역할 만들기를 클릭합니다.
역할 만들기 페이지에서:
1. 신뢰할 수 있는 엔터티 유형 선택 섹션에서 다른 AWS 계정 옵션을 클릭합니다.
2. 계정 ID 필드에 338144066592를 붙여넣습니다.
3. 옵션 섹션에서 외부 ID 필요 확인란을 선택합니다.
4. 표시되는 외부 ID 필드에 qlik_connection_<tenant-id>를 붙여넣고 <tenant-id>를 테넌트 ID로 바꿉니다.
  테넌트 ID를 찾으려면 테넌트 정보 찾기를 참조하십시오.
5. 다음: 권한을 클릭합니다.
권한 첨부 페이지에서:
1. IAM 정책 만들기에서 만든 정책을 검색합니다.
2. 찾으면 테이블에서 해당 항목 옆에 있는 상자를 체크합니다.
3. 다음: 태그를 클릭합니다.
태그를 입력하려면 태그 추가 페이지에서 입력합니다. 그렇지 않으면 다음: 검토를 클릭합니다.
검토 페이지에서:
1. 역할 이름 필드에 qlik_s3_<tenant-id>를 붙여넣고 <tenant-id>를 테넌트 ID로 바꿉니다.
  테넌트 ID를 찾으려면 테넌트 정보 찾기를 참조하십시오.
2. 역할 설명 필드에 설명을 입력합니다. 예: Qlik role for Amazon S3 integration.
3. 역할 만들기를 클릭합니다.

검색 패턴 정의

검색 패턴 필드는 Qlik가 파일을 선택하고 복제하는 데 사용해야 하는 검색 기준을 정의합니다. 이 필드는 정규 표현식을 허용하며, 이를 사용하여 단일 파일이나 여러 파일을 포함할 수 있습니다.

검색 패턴을 만들 때 다음 사항에 유의해야 합니다.

하나의 테이블에 여러 파일을 포함하는 경우, 각 파일은 동일한 헤더 행 값을 가져야 합니다.
마침표(.)와 같은 특수 문자는 정규 표현식에서 특별한 의미를 갖습니다. 정확하게 일치시키려면 이스케이프 처리가 필요합니다. 예: .\
Qlik은 정규 표현식에 Python을 사용하는데, 이는 다른 종류와 구문이 다를 수 있습니다. 통합을 저장하기 전에 PyRegex를 사용하여 표현식을 테스트해 봅니다.
Parquet(.parquet) 및 Arvo(.arvo) 검색 패턴도 지원됩니다.
검색 패턴은 파일의 데이터가 어떻게 업데이트되는지 고려해야 합니다. 다음 예를 고려해 보십시오.

시나리오	단일 파일, 주기적으로 업데이트됨	매일 생성되는 여러 파일
업데이트되는 방법	단일 JSONL 파일은 새 고객 데이터와 업데이트된 고객 데이터로 주기적으로 업데이트됩니다.	매일 새 고객 데이터와 업데이트된 고객 데이터가 포함된 새 CSV 파일이 만들어집니다. 오래된 파일은 만들어진 후에는 업데이트되지 않습니다.
파일 이름	`customers.jsonl`	`customers-[STRING].csv`, 여기서 `[STRING]`은 고유한 임의 문자열입니다.
검색 패턴	파일은 단 하나만 존재하므로 S3 버킷에 있는 파일의 정확한 이름을 입력할 수 있습니다. `customers\.jsonl`	새 파일과 업데이트된 파일을 식별하려면 파일 이름의 문자열에 관계없이 `customers`로 시작하는 모든 파일과 일치하는 검색 패턴을 입력해야 합니다. `(customers-).*\.csv`
일치	`customer.jsonl`, 정확히	`customers-reQDSwNG6U.csv` `customers-xaPTXfN4tD.csv` `customers-MBJMhCbNCp.csv` 등)에 구조화된 부분을 지정합니다.

파일 요구 사항

첫 번째 행 헤더(CSV 파일만 해당)	모든 파일에는 열 이름이 포함된 첫 번째 행 헤더가 있어야 합니다. 모든 파일의 첫 번째 행은 헤더 행으로 간주되며, 이러한 값은 선택 가능한 열로 표시됩니다. 여러 파일을 한 표에 포함하는 경우, 첫 번째 행 헤더 값이 같은 파일입니다. Amazon S3 통합을 사용하면 여러 파일을 단일 대상 테이블에 매핑할 수 있습니다. 헤더 행 값은 테이블의 스키마를 결정하는 데 사용됩니다. 가장 좋은 결과를 얻으려면 각 파일의 헤더 행 값이 동일해야 합니다. 이는 여러 개의 테이블을 구성하는 것과 다릅니다. 예를 보려면 검색 패턴 정의를 참조하십시오.
파일 유형	CSV(`.csv`) 텍스트(`.txt`) JSONL(`.jsonl`) Parquet(`.parquet`) Arvo(`.arvo`) Avro 파일은 지원되려면 스키마를 포함해야 합니다.
압축 유형	이러한 파일은 올바르게 압축되어야 하며, 그렇지 않으면 추출하는 동안 오류가 발생합니다. gzip 압축 파일(`.gz`)
구분 기호(CSV 파일만 해당)	쉼표(`,`) 탭(`/t`) 파이프(`\|`) 세미콜론(`;`)
문자 인코딩	UTF-8(`.csv`, `.txt` 및 `.jsonl`만 해당) 정보 메모`.parquet` 및 `.arvo` 파일은 원시 이진 파일입니다.

연결 만들기

자세한 내용은 SaaS 응용 프로그램에 연결을 참조하십시오.

필요한 연결 속성을 입력합니다.
연결 이름에 연결 이름을 입력합니다.
연결이 만들어질 때 연결에 대한 메타데이터를 정의하려면 연결 메타데이터 열기를 선택합니다.
만들기를 클릭합니다.

연결 설정
설정	설명
데이터 게이트웨이	사용 사례에 필요한 경우 데이터 이동 게이트웨이를 선택합니다. 정보 메모 이 필드는 데이터 이동 게이트웨이를 지원하지 않으므로 Qlik Talend Cloud 시작 구독에서는 사용할 수 없습니다. 다른 구독 계층이 있고 데이터 이동 게이트웨이를 사용하지 않으려면 없음을 선택합니다. 데이터 이동 게이트웨이의 이점과 이를 필요로 하는 사용 사례에 대한 자세한 내용은 Qlik 데이터 게이트웨이 - 데이터 이동를 참조하십시오.
시작 날짜	데이터를 소스에서 대상으로 복제해야 하는 날짜를 `MM/DD/YYYY` 형식으로 입력합니다.
S3 버킷	S3 버킷의 이름.
AWS 계정 ID	버킷이 있는 계정의 AWS 계정 ID. AWS 관리 콘솔의 계정 세부 정보에서 AWS 계정 ID를 찾을 수 있습니다.
검색 패턴	테이블에 포함할 파일을 입력합니다. 단일 파일 이름이나 정규 표현식을 입력할 수 있습니다. 예: `users\.csvproducts\.jsonl`.
디렉터리	이 디렉터리 경로로 검색을 제한합니다. 정의된 경우, 이 위치에 있는 파일만 검색되고 검색 패턴과 일치하는 파일이 선택됩니다. 정규 표현식을 사용할 수 없습니다. 예: csv-exports-folder 또는 employee_jsonl_exports.
테이블 구성 포함하려는 파일을 지정하여 테이블을 구성합니다. 여러 개의 테이블을 구성할 수 있습니다.
테이블 이름	테이블 이름. 각 대상에는 테이블 이름을 지정하는 방법에 대한 고유한 규칙이 있습니다. 예를 들어, Amazon Redshift 테이블 이름은 127자를 초과할 수 없습니다.
기본 키	고유한 행이나 레코드를 식별하려면 기본 키를 입력합니다. 두 개 이상의 키를 입력하는 경우 쉼표를 사용하여 값을 구분합니다. CSV 파일의 경우 헤더 필드나 열 이름을 입력합니다. JSONL 파일의 경우 특성 이름이나 개체 키를 입력합니다. 예: id, name.
날짜/시간 필드 지정	문자열 대신 datetime으로 표에 나타나야 하는 값을 입력합니다. 예: created_at, modified_at.
구분 기호	드롭다운 목록에서 구분 기호를 선택합니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.