Google Cloud Storage
Google Cloud Storage은(는) Google Cloud 인프라에서 데이터를 저장하고 액세스하기 위한 Google의 통합 객체 스토리지 서비스입니다.고가용성, 글로벌 이중화를 제공하며, 더 광범위한 Google Cloud 생태계와 통합됩니다.
Qlik Talend Cloud는 Google Cloud Storage(GCS)에 연결하기 위해 대상 버킷에 대한 읽기 액세스 권한이 있는 Google Cloud 서비스 계정을 사용합니다.커넥터는 지정된 버킷에서 파일을 검색하고, 파일 내용을 샘플링하여 스키마를 자동으로 검색하며, 파일 수정 日付と時刻을 기반으로 증분 데이터 복제를 수행합니다.
인증 준비 중
데이터에 액세스하려면 계정 자격 증명으로 연결을 인증해야 합니다.
Google Cloud Storage 계정을 설정하려면 다음이 필요합니다:
- Cloud Storage API가 활성화된 Google Cloud Platform (GCP) 프로젝트.
- 복제할 파일이 포함된 Google Cloud Storage (GCS) 버킷.
- 버킷에 대한 읽기 권한이 있는 서비스 계정
권장 역할은 Storage Object Viewer(
roles/storage.objectViewer)이며, 필요한storage.objects.get및storage.objects.list권한을 부여합니다.자세한 내용은 Google Cloud Storage IAM 역할 문서를 참조하세요. - 서비스 계정을 위해 다운로드된 서비스 계정 JSON 키 파일.
서비스 계정을 만들고 사용자 인증 정보를 검색하려면:
- 귀하의 구글 클라우드 계정에 로그인하세요.
- IAM 및 관리 > 서비스 계정으로 이동합니다.
- 서비스 계정 만들기를 클릭하세요.
- 서비스 계정의 이름과 설명을 입력한 다음, 생성 및 계속을 클릭하세요.
- 서비스 계정에 Storage 개체 뷰어 역할 또는
storage.objects.get및storage.objects.list권한이 있는 커스텀 역할을 부여합니다. - 계속 및 완료를 클릭하세요.
- 새로 생성된 서비스 계정에서 작업 메뉴를 클릭합니다.
- 다음으로 이동: 키 관리 > 키 추가 > 새 키 생성.
- JSON을 선택하고, 생성을 클릭합니다.
JSON 키 파일이 사용자 컴퓨터로 직접 다운로드됩니다.이 파일에는 연결을 설정하는 데 필요한
project_id,client_email,private_key필드가 포함되어 있습니다.키 파일을 한 번만 다운로드할 수 있습니다.Google Cloud 리소스에 대한 액세스를 제공하므로 안전하게 저장하고 백업해야 합니다.
지원되는 파일 형식
- 구분된 텍스트: CSV, TSV, PSV, TXT (구분 기호 구성 가능)
- JSON Lines (
.jsonl) - 파케이 (
.parquet) - 아브로 (
.avro) - 위 형식 중 하나를 포함하는 Gzip 압축 파일(
.gz) - CSV, JSON Lines, TXT, TSV, PSV 또는 Gzip 파일을 포함하는 ZIP 아카이브
연결 생성 중
자세한 내용은 SaaS 응용 프로그램에 연결을 참조하십시오.
- 필요한 연결 속성을 입력합니다.
-
연결 이름에 연결 이름을 입력합니다.
-
연결이 만들어질 때 연결에 대한 메타데이터를 정의하려면 연결 메타데이터 열기를 선택합니다.
-
만들기를 클릭합니다.
| 설정 | 설명 |
|---|---|
| 데이터 게이트웨이 |
사용 사례에 필요한 경우 데이터 이동 게이트웨이를 선택합니다. 정보 메모
이 필드는 데이터 이동 게이트웨이를 지원하지 않으므로 Qlik Talend Cloud 시작 구독에서는 사용할 수 없습니다. 다른 구독 계층이 있고 데이터 이동 게이트웨이를 사용하지 않으려면 없음을 선택합니다. 데이터 이동 게이트웨이의 이점과 이를 필요로 하는 사용 사례에 대한 자세한 내용은 Qlik 데이터 게이트웨이 - 데이터 이동를 참조하십시오. |
| 시작일 |
데이터를 소스에서 대상으로 복제해야 하는 날짜를 |
| 고객 이메일 | 서비스 계정 JSON 키 파일에 있는 클라이언트 이메일. |
| 프로젝트 ID | 서비스 계정 JSON 키 파일의 프로젝트 ID입니다. |
| 버킷 | 파일이 저장된 Google Cloud Storage (GCS) 버킷의 이름입니다. 예를 들어, my-gcs-bucket.
|
| 테이블 | 테이블을 구성하여 어떤 파일을 읽고 그 내용을 어떻게 해석할지 제어합니다.각 테이블 정의에는 파일 검색 패턴, 테이블 이름, 그리고 고급 동작을 위한 선택적 설정이 포함됩니다. |
| 개인 키 | 서비스 계정 JSON 키 파일의 비공개 키 |
테이블 구성
테이블 구성의 각 항목은 대상 버킷의 파일에서 생성된 논리 테이블을 지정합니다.각 테이블에 대해 다음 속성을 구성할 수 있습니다:
| 속성 | 필수 또는 선택 | 설명 |
|---|---|---|
| 테이블 이름 | 필수 | 논리 테이블의 이름을 지정하십시오. 예를 들어 my_orders_csv이 이름은 Qlik Talend Cloud에서 스트림 이름으로 표시됩니다. |
| 검색 패턴 | 필수 | 파일 이름을 일치시킬 정규 표현식을 입력하세요. 예를 들어 .csv$를(을) 사용하여 모든 CSV 파일을 선택합니다. |
| 검색 접두사 | 선택 사항 | 파일 검색 범위를 좁히기 위해 버킷 내 경로 접두사를 제공하십시오. 예시: exports/orders/접두사를 사용하면 검색되는 파일 수를 제한하여 성능이 향상됩니다. |
| 주요 속성 | 선택 사항 | 기본 키를 정의하려면 하나 이상의 열 이름을 쉼표로 구분하여 나열하세요.예시: id 또는 id,date. |
| 날짜 재정의 | 선택 사항 | 날짜/시간 필드로 처리할 열 이름을 쉼표로 구분하여 나열하십시오.이 필드가 스키마 검색 중에 자동으로 감지되지 않는 경우 이 옵션을 사용하세요. |
| 구분 기호 | 선택 사항 | 파일에서 값을 구분하는 문자를 지정합니다.기본값은 , (쉼표)입니다.탭으로 구분된 (TSV) 파일에는 \t을(를) 사용하거나, 파이프로 구분된 (PSV) 파일에는 |을(를) 사용하세요.비워두면, 시스템이 파일 확장자를 기반으로 구분 기호를 자동으로 감지합니다. |
테이블 복제됨
테이블은 테이블 구성(위 참조)에 따라 생성됩니다.각 테이블은 지정된 검색 패턴과 모든 선택적 프리픽스에 모두 일치하는 Google Cloud Storage (GCS) 버킷의 파일 세트에 해당합니다.커넥터는 테이블당 최대 5개 파일 샘플링을 통해 5번째 행마다 읽고, 파일당 최대 1,000개 레코드까지 읽어 스키마를 자동으로 검색합니다.
복제는 증분식이며 파일 수정 시간을 사용하여 변경 사항을 추적합니다.각 추출 시, 커넥터는 동기화 북마크에 기록된 대로 마지막 성공적인 동기화 이후 수정된 파일만 처리합니다.
각 테이블에는 기본적으로 다음 시스템 열이 추가됩니다:
| 열 | 설명 |
|---|---|
_sdc_source_bucket
|
레코드를 읽은 Google Cloud Storage (GCS) 버킷의 이름입니다. |
_sdc_source_file
|
레코드를 포함하는 파일의 전체 경로입니다. |
_sdc_source_lineno
|
파일 내 레코드의 줄 번호입니다. |
_sdc_extra
|
구문 분석 중 발견되었으나 발견된 스키마와 일치하지 않는 추가 열.JSONL 파일에만 적용됩니다. |
제한 사항 및 고려 사항
- 서비스 계정 사용자 인증 정보 (
project_id,client_email,private_key)는 JSON 키 파일에서 추출된 개별 값으로 제공되어야 하며, 파일 업로드는 지원되지 않습니다. - Gzip 압축 파일 (
.gz)이 지원됩니다.커넥터는 내부 파일 형식을 파악하기 위해 gzip 헤더에서 원본 파일 이름을 읽어옵니다.--no-name로 생성된 Gzip 파일(헤더에 파일 이름이 저장되지 않음)은 건너뜁니다. - 중첩 압축(예를 들어,
.gz안에 다른.gz또는.zip안에.zip)은(는) 지원되지 않습니다.이 파일들은 건너뛰었습니다. .csv,.txt,.tsv,.psv, 또는.jsonl확장자를 가진 파일은 gzip 매직 바이트를 검사하여 gzip으로 압축된 경우 압축을 해제합니다. 파일에.gz확장자가 없어도 압축 해제됩니다.search_pattern필드는 정규식 구문을 사용하며, 전역 패턴을 사용하지 않습니다.예를 들어,*.csv대신\.csv$를 사용하세요.- 커넥터는 Google Cloud Storage(GCS) API 속도 제한(
429) 및 일시적인 서버 오류(500,502,503,504)에 대해 지수 백오프가 적용된 내장 재시도 로직을 갖추고 있습니다.실패하기 전까지 최대 5번 시도합니다. - 인식된 확장자가 없는 파일은 건너뛰어지며 경고가 발행됩니다.