AWS S3 데이터 스트림
AWS S3 데이터 스트림에 연결하여 Qlik 오픈 레이크하우스 프로젝트에서 데이터 소스로 사용합니다. AWS S3 데이터 스트림 연결은 스트리밍 랜딩 작업 및 스트리밍 변환 작업에서만 사용할 수 있습니다.
S3의 기존 배치 ETL과 달리 이 구현은 S3를 지속적인 모니터링 및 거의 실시간 데이터 수집을 제공하는 스트리밍 소스로 처리합니다. 새 파일이 도착하면 S3 버킷에서 데이터를 자동으로 수집하도록 스트림을 구성할 수 있습니다. AWS S3 데이터 스트림을 사용하면 파일 패턴 일치, 스키마 구성 및 초기 백필 옵션을 포함하여 S3에서 스트리밍 데이터 파이프라인을 구성할 수 있습니다. 스트림은 S3를 지속적으로 모니터링하고 거의 실시간(몇 분 이내)으로 새 데이터를 수집하며 로그, 이벤트, 외부 시스템에서 내보낸 데이터 또는 파트너 데이터 피드와 같은 조직 데이터에 이상적입니다.
전제 조건
AWS S3 데이터 스트림에 연결을 생성하려면 다음이 필요합니다.
-
버킷에 액세스하기 위해 역할 기반 인증을 사용하는 경우 다음이 필요합니다:
-
연결에 사용할 네트워크 통합에 액세스할 수 있는 권한.
-
ARN 역할, 또는 설정 프로세스 중에 생성할 수 있습니다. 네트워크 통합 클러스터는 ARN S3 계정에 액세스할 수 있어야 합니다.
-
-
버킷에 연결하기 위해 액세스 키 인증을 사용하는 경우, 다음이 필요합니다:
-
AWS 액세스 키 ID.
-
AWS 비밀 액세스 키.
-
S3 데이터 스트림 연결 속성 설정
S3 연결을 구성하려면 다음을 수행합니다:
-
연결에서 연결 만들기를 클릭합니다.
-
연결을 생성할 스페이스를 선택하거나 새 데이터 스페이스 생성을(를) 선택합니다.
-
커넥터 이름 목록에서 S3를 선택하거나 검색 상자를 사용합니다. 유형이 소스이고 범주가 스트리밍인지 확인합니다.
-
S3 URI에서 s3://<bucket-name>/<directory-name> 형식으로 S3 버킷의 URI를 입력합니다.
자세한 내용은 구문 예를 참조하십시오.
-
인증 유형에서 연결 방법을 선택하고 설정을 구성합니다.
역할 기반
역할 기반 인증을 사용하려면 다음 단계를 완료하십시오.
ARN 역할 생성
-
네트워크 통합: 목록에서 네트워크 통합을 선택합니다.
-
ARN 역할: AWS에서 생성된 ARN 역할을 입력합니다. 형식은 arn:aws:iam::{account number}:role/{role name}여야 합니다.
AWS 역할 생성
AWS 역할을 생성하려면 다음 단계를 따르십시오:
-
역할 만들기
-
AWS 콘솔에서 IAM으로 이동하십시오.
-
역할에서 역할 만들기를 클릭하고 다음과 같이 구성합니다.
-
신뢰할 수 있는 엔터티 유형: 사용자 지정 신뢰 정책을 선택합니다.
-
문: Qlik Cloud의 AWS 역할 생성에서 생성된 신뢰할 수 있는 엔터티 정책을 AWS의 코드 창으로 복사합니다.
-
역할을 만듭니다.
-
-
인라인 정책 만들기
-
AWS 콘솔의 역할에서 1단계에서 생성한 역할을 클릭합니다.
-
권한 정책에서 권한 추가 > 인라인 정책 만들기를 클릭합니다.
-
Qlik Cloud의 코드를 복사하여 AWS의 정책에 붙여넣습니다.
-
-
ARN 역할 복사
-
AWS 콘솔의 역할 페이지에서 요약 섹션에 있는 ARN 값을 찾습니다.
-
ARN을 복사하여 Qlik Cloud의 ARN 역할에 붙여넣습니다.
-
액세스 키
액세스 키를 사용하여 연결을 인증하려면 다음 단계를 완료하십시오.
-
액세스 키: 인증에 사용할 고유한 AWS 액세스 키 ID를 입력합니다.
-
비밀 키: 액세스 키와 함께 사용할 AWS 비밀 액세스 키를 입력합니다.
- 정책 만들기
-
AWS 콘솔에서 IAM으로 이동하십시오.
-
정책 > 정책 생성으로 이동하십시오.
-
Qlik Cloud에서 AWS 역할 생성 대화 상자의 정책을 복사합니다.
-
AWS에서 정책 편집기에 정책을 붙여넣습니다.
-
-
사용자에게 새 정책 연결
-
액세스를 제공하려는 사용자에게 새 정책을 연결합니다.
-
연결 만들기
보안 방법을 구성했으면 다음 단계를 완료하여 연결을 만듭니다.
-
이름에 연결의 표시 이름을 입력합니다(예: My AWS S3 Streaming Source connection).
-
자격 증명을 확인하려면 연결 테스트를 클릭합니다.
-
만들기를 클릭합니다.
구문 예시
| 문법 | 설명 | 예제 |
|---|---|---|
| 텍스트 | AWS Amazon S3 객체 이름 지정 지침에 기반한 일반 텍스트/문자열 입력. | s3://MyS3Bucket/MyDir/MyFile.csv |
| 와일드카드 | 경로/파일 이름에서 "와일드카드"로 작동하는 * 문자. 경로에 와일드카드를 사용하면 해당 경로의 모든 폴더와 하위 폴더가 포함됩니다. | myS3Bucket/myDir/* myS3Bucket/myDir/*.csv myS3Bucket/myDir/*_customers.csv myS3Bucket/regions/*/*_customers.csv |
| 패턴 | 날짜 패턴 구문은 파일 이름 내에서 날짜 패턴의 위치를 나타냅니다. | myS3Bucket/myDir/<yyyy>_<MM>_<dd>_<HH>_<mm>_orders.csv myS3Bucket/myDir/<yyyy>/<MM>/<dd>/<HH>_<mm>_orders.csv |
대상 데이터 집합 이름 지정 규칙
대상 데이터 집합 이름은 다음을 충족해야 합니다.
-
대상 카탈로그의 다른 데이터 집합에서 이미 사용되지 않고 고유해야 합니다.
-
대상 카탈로그 명명 규칙을 준수해야 합니다.
-
문자(A-Z, a-z) 또는 밑줄(_)로 시작해야 합니다.
-
문자, 밑줄, 숫자(0-9) 또는 달러 기호($)만 포함해야 합니다.
-
공백을 포함하여 255자를 초과하지 않아야 합니다.
-