Amazon S3
Amazon Simple Storage Service (Amazon S3)는 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 개체 저장소 서비스입니다.
인증 준비 중
데이터에 액세스하려면 계정 자격 증명을 사용하여 연결을 인증해야 합니다.
Amazon S3에 연결하려면 AWS IAM(Identity Access Management)에서 정책을 만들고, 역할을 만들고, 역할에 정책을 연결할 수 있는 권한이 필요합니다. S3 버킷에 권한을 부여하려면 다음이 필요합니다.
IAM 정책 만들기
IAM 정책은 버킷 리소스에 대한 권한을 관리하는 JSON 기반 액세스 정책 언어입니다.
권한 이름 | 작업 | 설명 |
s3:GetObject | GET 개체 |
Amazon S3에서 개체를 검색할 수 있습니다. |
s3:GetObject | HEAD 개체 | 개체 자체를 반환하지 않고도 개체에서 메타데이터를 검색할 수 있습니다. |
s3:ListBucket | GET 버킷(List 개체) |
버킷에 있는 개체 중 일부 또는 전체(최대 1,000개)를 반환할 수 있습니다. |
s3:ListBucket | HEAD 버킷 |
버킷이 존재하고 액세스가 허용되는지 결정하는 데 사용됩니다. |
IAM 정책을 만들려면:
- AWS에서 IAM 서비스로 이동하려면 다음을 클릭합니다. 서비스 메뉴와 IAM 입력.
- 결과에 IAM이 표시되면 클릭합니다.
- 페이지 왼쪽 메뉴에서 정책을 클릭합니다.
- 정책 만들기를 클릭합니다.
- 정책 만들기 페이지에서 JSON 탭을 클릭합니다.
- 현재 텍스트 필드에 있는 모든 내용을 선택하여 삭제합니다.
- 텍스트 필드에 다음 JSON을 붙여넣고 MyBucketName을 버킷 이름으로 바꿉니다.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "s3:GetObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::MyBucketName", "arn:aws:s3:::MyBucketName/*" ] } ] }
- 정책 검토를 클릭합니다.
- 정책 검토 페이지에서 정책 이름을 지정합니다. 예:
qlik_amazon_s3
. - 정책 만들기를 클릭합니다.
IAM 역할 만들기
이 단계를 완료하려면 다음 AWS IAM 권한이 필요합니다. CreateRole
및 AttachRolePolicy
. 자세한 내용은 Amazon 설명서를 참조하십시오.
여러 개의 Amazon S3 통합을 만드는 경우 연결하는 각 통합에 대해 이 단계를 완료해야 합니다.
- AWS에서 IAM 역할 페이지로 이동합니다.
- 역할 만들기를 클릭합니다.
- 역할 만들기 페이지에서:
- 신뢰할 수 있는 엔터티 유형 선택 섹션에서 다른 AWS 계정 옵션을 클릭합니다.
- 계정 ID 필드에
338144066592
를 붙여넣습니다. - 옵션 섹션에서 외부 ID 필요 확인란을 선택합니다.
- 표시되는 외부 ID 필드에
qlik_connection_<tenant-id>
를 붙여넣고 <tenant-id>를 테넌트 ID로 바꿉니다.테넌트 ID를 찾으려면 테넌트 정보 찾기를 참조하십시오.
- 다음: 권한을 클릭합니다.
- 권한 첨부 페이지에서:
- IAM 정책 만들기에서 만든 정책을 검색합니다.
- 찾으면 테이블에서 해당 항목 옆에 있는 상자를 체크합니다.
- 다음: 태그를 클릭합니다.
- 태그를 입력하려면 태그 추가 페이지에서 입력합니다. 그렇지 않으면 다음: 검토를 클릭합니다.
- 검토 페이지에서:
- 역할 이름 필드에
qlik_s3_<tenant-id>
를 붙여넣고 <tenant-id>를 테넌트 ID로 바꿉니다.테넌트 ID를 찾으려면 테넌트 정보 찾기를 참조하십시오.
- 역할 설명 필드에 설명을 입력합니다. 예:
Qlik role for Amazon S3 integration.
- 역할 만들기를 클릭합니다.
- 역할 이름 필드에
검색 패턴 정의
검색 패턴 필드는 Qlik가 파일을 선택하고 복제하는 데 사용해야 하는 검색 기준을 정의합니다. 이 필드는 정규 표현식을 허용하며, 이를 사용하여 단일 파일이나 여러 파일을 포함할 수 있습니다.
검색 패턴을 만들 때 다음 사항에 유의해야 합니다.
- 하나의 테이블에 여러 파일을 포함하는 경우, 각 파일은 동일한 헤더 행 값을 가져야 합니다.
- 마침표(
.
)와 같은 특수 문자는 정규 표현식에서 특별한 의미를 갖습니다. 정확하게 일치시키려면 이스케이프 처리가 필요합니다. 예:.\
- Qlik은 정규 표현식에 Python을 사용하는데, 이는 다른 종류와 구문이 다를 수 있습니다. 통합을 저장하기 전에 PyRegex를 사용하여 표현식을 테스트해 봅니다.
- 검색 패턴은 파일의 데이터가 어떻게 업데이트되는지 고려해야 합니다. 다음 예를 고려해 보십시오.
시나리오 | 단일 파일, 주기적으로 업데이트됨 | 매일 생성되는 여러 파일 |
업데이트되는 방법 | 단일 JSONL 파일은 새 고객 데이터와 업데이트된 고객 데이터로 주기적으로 업데이트됩니다. | 매일 새 고객 데이터와 업데이트된 고객 데이터가 포함된 새 CSV 파일이 만들어집니다. 오래된 파일은 만들어진 후에는 업데이트되지 않습니다. |
파일 이름 | customers.jsonl
|
customers-[STRING].csv , 여기서 [STRING] 은 고유한 임의 문자열입니다. |
검색 패턴 |
파일은 단 하나만 존재하므로 S3 버킷에 있는 파일의 정확한 이름을 입력할 수 있습니다.
|
새 파일과 업데이트된 파일을 식별하려면 파일 이름의 문자열에 관계없이
|
일치 | customer.jsonl , 정확히 |
|
파일 요구 사항
첫 번째 행 헤더(CSV 파일만 해당) |
|
파일 유형 |
|
압축 유형 |
이러한 파일은 올바르게 압축되어야 하며, 그렇지 않으면 추출하는 동안 오류가 발생합니다.
|
구분 기호(CSV 파일만 해당) |
|
문자 인코딩 |
UTF-8 |
연결 만들기
자세한 내용은 SaaS 응용 프로그램에 연결을 참조하십시오.
- 필요한 연결 속성을 입력합니다.
-
연결 이름에 연결 이름을 입력합니다.
-
연결이 만들어질 때 연결에 대한 메타데이터를 정의하려면 연결 메타데이터 열기를 선택합니다.
-
만들기를 클릭합니다.
설정 | 설명 |
---|---|
데이터 게이트웨이 |
사용 사례에 필요한 경우 Data Movement gateway를 선택합니다. 정보 메모
이 필드는 Data Movement gateway를 지원하지 않으므로 Qlik Talend Cloud 시작 구독에서는 사용할 수 없습니다. 다른 구독 계층이 있고 Data Movement gateway를 사용하지 않으려면 없음을 선택합니다. Data Movement gateway의 이점과 이를 필요로 하는 사용 사례에 대한 자세한 내용은 Qlik Data Gateway - Data Movement를 참조하십시오. |
시작 날짜 |
데이터를 소스에서 대상으로 복제해야 하는 날짜를 |
S3 버킷 | S3 버킷의 이름. |
AWS 계정 ID |
버킷이 있는 계정의 AWS 계정 ID. AWS 관리 콘솔의 계정 세부 정보에서 AWS 계정 ID를 찾을 수 있습니다. |
검색 패턴 | 테이블에 포함할 파일을 입력합니다. 단일 파일 이름이나 정규 표현식을 입력할 수 있습니다. 예: |
디렉터리 | 이 디렉터리 경로로 검색을 제한합니다. 정의된 경우, 이 위치에 있는 파일만 검색되고 검색 패턴과 일치하는 파일이 선택됩니다. 정규 표현식을 사용할 수 없습니다. 예: csv-exports-folder 또는 employee_jsonl_exports. |
테이블 구성
포함하려는 파일을 지정하여 테이블을 구성합니다. 여러 개의 테이블을 구성할 수 있습니다. |
|
테이블 이름 | 테이블 이름. 각 대상에는 테이블 이름을 지정하는 방법에 대한 고유한 규칙이 있습니다. 예를 들어, Amazon Redshift 테이블 이름은 127자를 초과할 수 없습니다. |
기본 키 | 고유한 행이나 레코드를 식별하려면 기본 키를 입력합니다. 두 개 이상의 키를 입력하는 경우 쉼표를 사용하여 값을 구분합니다.
예: id, name. |
날짜/시간 필드 지정 | 문자열 대신 datetime으로 표에 나타나야 하는 값을 입력합니다. 예: created_at, modified_at. |
구분 기호 | 드롭다운 목록에서 구분 기호를 선택합니다. |