Standard, Premium 또는 Enterprise 구독을 통해 데이터 레이크에 데이터 랜딩
데이터 레이크의 데이터 랜딩 작업을 설정하여 데이터를 다음 대상에 전달할 수 있습니다.
Amazon S3
Amazon S3에 대한 연결 구성에 대한 자세한 내용은 Amazon S3을 참조하십시오.
Azure Data Lake Storage
Azure Data Lake Storage에 대한 연결 구성에 대한 자세한 내용은 Azure Data Lake Storage를 참조하십시오.
Google 클라우드 저장소
Google 클라우드 저장소 연결 구성에 대한 자세한 내용은 Google 클라우드 저장소를 참조하십시오.
데이터 소스 연결 구성에 대한 자세한 내용은 데이터 소스에 대한 연결 설정을 참조하십시오.
데이터 레이크 랜딩 작업을 설정하려면:
데이터 통합 > 프로젝트에서 프로젝트 만들기를 클릭합니다.
새 프로젝트 대화 상자에서 다음을 수행합니다.
프로젝트의 이름을 제공합니다.
- 프로젝트를 만들 공간을 선택합니다.
- 선택적으로 설명을 제공합니다.
- 사용 사례로 복제를 선택합니다.
- 선택적으로, 설정을 구성하지 않고 빈 프로젝트를 만들려면 열기 확인란을 선택 해제합니다.
만들기를 클릭합니다.
다음 중 하나가 발생합니다.
- 새 프로젝트 대화 상자에서 열기 확인란을 선택한 경우(기본값) 프로젝트가 열립니다.
- 새 프로젝트 대화 상자에서 열기 확인란을 선택 해제하면 프로젝트가 프로젝트 목록에 추가됩니다. 나중에 프로젝트의 메뉴에서 열기를 선택하여 프로젝트를 열 수 있습니다.
프로젝트가 열린 후 데이터 레이크의 데이터 랜딩을 클릭합니다.
데이터 레이크의 데이터 랜딩 마법사가 열립니다.
일반 탭에서 데이터 레이크 랜딩 작업의 이름과 설명을 지정합니다. 그런 다음 다음을 클릭합니다.
정보 메모슬래시(/) 또는 백슬래시(\) 문자가 포함된 이름은 지원되지 않습니다.소스 연결 선택 탭에서 소스 데이터에 대한 연결을 선택합니다. 선택적으로 작업 열의 메뉴에서 편집을 선택하여 연결 설정을 편집할 수 있습니다.
아직 소스 데이터에 대한 연결이 없으면 탭 오른쪽 위에 있는 연결 만들기를 클릭하여 먼저 연결을 만들어야 합니다.
왼쪽의 필터를 사용하여 연결 목록을 필터링할 수 있습니다. 소스 유형, 게이트웨이, 공간 및 소유자에 따라 연결을 필터링할 수 있습니다. 연결 목록 위의 모든 필터 버튼은 현재 필터의 수를 표시합니다. 이 버튼을 사용하여 왼쪽의 필터 패널을 닫거나 열 수 있습니다. 현재 활성 필터도 사용할 수 있는 연결 목록 위에 표시됩니다.
오른쪽 드롭다운 목록에서 마지막으로 수정한 날짜, 마지막으로 만든 날짜, 또는 사전순을 선택하여 목록을 정렬할 수도 있습니다. 정렬 순서를 변경하려면 목록 오른쪽에 있는 화살표를 클릭합니다.
데이터 소스 연결을 선택한 후 선택적으로 탭 오른쪽 위에 있는 연결 테스트를 클릭하고(권장), 다음을 클릭합니다.
데이터 집합 선택 탭에서 데이터 레이크 랜딩 작업에 포함할 테이블 및/또는 뷰를 선택합니다. 또한 데이터베이스에서 데이터 선택에 설명된 대로 와일드카드를 사용하고 선택 규칙을 만들 수도 있습니다.
정보 메모슬래시(/) 또는 백슬래시(\) 문자가 포함된 스키마 이름이나 테이블 이름은 지원되지 않습니다.대상 연결 선택 탭의 사용할 수 있는 연결 목록에서 대상을 선택한 후 다음을 클릭합니다. 기능적인 측면에서는 앞서 설명한 소스 연결 선택 탭과 동일합니다.
설정 탭에서 선택적으로 다음 설정을 변경한 후 다음을 클릭합니다.
업데이트 방법:
데이터 변경 내용 캡처(CDC): 데이터 레이크 랜딩 작업은 전체 로드로 시작됩니다(선택한 모든 테이블이 랜딩되는 동안). 랜딩된 데이터는 CDC(데이터 변경 내용 캡처) 기술을 사용하여 최신 상태로 유지됩니다.
정보 메모DDL 작업의 CDC(데이터 변경 내용 캡처)는 지원되지 않습니다.데이터 이동 게이트웨이 작업 시 변경 내용은 거의 실시간으로 소스에서 캡처됩니다. 데이터 이동 게이트웨이 없이 작업하는 경우 스케줄러 설정에 따라 변경 내용이 캡처됩니다. 자세한 내용은 데이터 이동 게이트웨이 없이 작업할 때 작업 예약을 참조하십시오.
- 다시 로드: 선택한 소스 테이블의 데이터를 대상 플랫폼으로 전체 로드하고 필요한 경우 대상 테이블을 만듭니다. 전체 로드는 작업이 시작될 때 자동으로 발생하지만 수동으로 수행하거나 필요에 따라 주기적으로 발생하도록 예약할 수도 있습니다.
데이터 변경 내용 캡처(CDC)를 선택하고 데이터에 CDC를 지원하지 않는 테이블이나 뷰도 포함되어 있는 경우 두 개의 데이터 파이프라인이 만들어집니다. CDC를 지원하는 모든 테이블이 포함된 하나의 파이프라인과 다시 로드를 사용하는 다른 모든 테이블 및 뷰가 포함된 또 다른 파이프라인입니다.
사용할 폴더:
파일을 쓰려는 버킷 폴더에 따라 다음 중 하나를 선택합니다.
- 기본 폴더: 기본 폴더 형식은 <프로젝트 이름>/<작업 이름>입니다.
- 루트 폴더: 파일을 버킷에 직접 기록합니다.
폴더: 폴더 이름을 입력합니다. 폴더가 없는 경우 데이터 레이크 랜딩 작업 중에 폴더가 만들어집니다.
정보 메모 폴더 이름에는 특수 문자(예: @, #, ! 등)를 포함할 수 없습니다.
요약 탭에는 데이터 파이프라인이 시각적으로 표시됩니다. <name> 작업 열기 또는 아무 작업도 하지 않음 중에서 선택합니다. 그런 다음 만들기를 클릭합니다.
선택에 따라 작업이 열리거나 프로젝트 목록이 표시됩니다.
작업 열기를 선택한 경우 데이터 집합 탭에 선택한 데이터 자산 테이블의 구조와 메타데이터가 표시됩니다. 여기에는 명시적으로 나열된 모든 테이블과 선택 규칙과 일치하는 테이블이 포함됩니다.
데이터 소스에서 더 많은 테이블을 추가하려면 소스 데이터 선택을 클릭합니다.
선택 사항으로 클라우드 저장소 대상 설정에 설명된 대로 작업 설정을 변경합니다.
데이터 집합에서 변환을 수행하거나 데이터를 필터링하거나 열을 추가할 수 있습니다.
자세한 내용은 데이터 집합 관리을 참조하십시오.
원하는 변환을 추가했으면 데이터 집합 유효성 검사를 클릭하여 데이터 집합의 유효성을 검사할 수 있습니다. 유효성 검사에 실패하면 계속 진행하기 전에 오류를 해결합니다.
자세한 내용은 데이터 집합 유효성 검사 및 조정을 참조하십시오.
준비가 되면 준비를 클릭하여 랜딩 작업을 분류하고 실행을 준비합니다.
데이터 작업이 준비되면 실행을 클릭합니다.
이제 데이터 레이크 랜딩 작업이 시작됩니다. 모니터링 보기에서 진행률을 모니터링할 수 있습니다. 자세한 내용은 개별 데이터 작업 모니터링를 참조하십시오.
데이터 집합의 로드 우선 순위 설정
각 데이터 집합에 로드 우선 순위를 할당하여 데이터 작업에서 데이터 집합의 로드 순서를 제어할 수 있습니다. 예를 들어, 큰 데이터 집합보다 작은 데이터 집합을 로드하려는 경우에 유용할 수 있습니다.
로드 우선 순위를 클릭합니다.
각 데이터 집합의 로드 우선 순위를 선택합니다.
기본 로드 우선 순위는 보통입니다. 데이터 집합은 다음 우선 순위에 따라 로드됩니다.
가장 높음
보다 높음
높음
기본
낮음
보다 낮음
가장 낮음
우선 순위가 동일한 데이터 집합은 특별한 순서 없이 로드됩니다.
확인을 클릭합니다.
메타데이터 새로 고침
작업의 설계 보기에서 소스 메타데이터의 변경 내용에 맞게 작업의 메타데이터를 새로 고칠 수 있습니다. Metadata Manager를 사용하는 SaaS 응용 프로그램의 경우 데이터 작업에서 메타데이터를 새로 고치려면 먼저 Metadata Manager를 새로 고쳐야 합니다.
다음 중 하나를 수행할 수 있습니다.
작업의 모든 데이터 집합에 대한 메타데이터를 새로 고치려면 ...를 클릭한 다음 메타데이터 새로 고침을 클릭합니다.
단일 데이터 집합에 대한 메타데이터를 새로 고치려면 데이터 집합의 데이터 집합에서 ...를 클릭한 다음 메타데이터 새로 고침을 클릭합니다.
화면 하단의 메타데이터 새로 고침에서 메타데이터 새로 고침 상태를 확인할 수 있습니다. 에 커서를 올려놓으면 메타데이터가 마지막으로 새로 고침된 시기를 확인할 수 있습니다.
변경 내용을 적용할 데이터 작업을 준비합니다.
데이터 작업을 준비하고 변경 내용을 적용하면 변경 내용이 메타데이터 새로 고침에서 제거됩니다.
변경 내용을 전파하려면 이 작업을 사용하는 저장소 작업을 준비해야 합니다.
열이 제거되면 저장소에서 기록 데이터가 손실되지 않도록 Null 값이 포함된 변환이 추가됩니다.
메타데이터 새로 고침에 대한 제한 사항
동일한 시간 슬롯에서 이전에 삭제된 열이 있으면 이름 바꾸기가 삭제된 열 이름 바꾸기로 해석됩니다(동일한 데이터 유형과 데이터 길이를 갖는 경우).
이전: a b c d
이후: a c1 d
이 예에서는 b가 삭제되고 c가 c1로 이름이 바뀌었으며, b와 c의 데이터 유형과 데이터 길이가 동일합니다.
이는 b의 이름이 c1로 변경되고 c가 삭제된 것으로 식별됩니다.
이전에 마지막 열 이름이 삭제된 경우에도 마지막 열 이름 바꾸기는 인식되지 않으며 이름이 바뀌기 전의 열도 인식되지 않습니다.
이전: a b c d
이후: a b c1
이 예에서는 d가 삭제되고 c가 c1로 이름이 바뀌었습니다.
이는 c 및 d가 삭제되고 c1이 추가된 것으로 식별됩니다.
새 열은 끝에 추가되는 것으로 가정됩니다. 다음 열과 동일한 데이터 타입으로 중간에 열이 추가되면 삭제 및 이름 바꾸기로 해석될 수 있습니다.
스키마 진화
스키마 진화를 사용하면 여러 데이터 소스의 구조적 변경 내용을 쉽게 감지하고 해당 변경 내용을 작업에 적용하는 방법을 제어할 수 있습니다. 스키마 진화는 소스 데이터 스키마에 대한 DDL 변경 내용을 감지하는 데 사용할 수 있습니다. 일부 변경 내용을 자동으로 적용할 수도 있습니다.
각 변경 유형에 대해 작업 설정의 스키마 진화 섹션에서 변경 내용을 처리하는 방법을 선택할 수 있습니다. 변경 내용을 적용하거나, 변경 내용을 무시하거나, 테이블을 일시 중단하거나, 작업 처리를 중지할 수 있습니다.
각 변경 유형에 대해 DDL 변경을 처리하는 데 사용할 작업을 설정할 수 있습니다. 일부 작업은 모든 변경 유형에 사용할 수 없습니다.
대상에 적용
변경 내용을 자동으로 적용합니다.
무시
변경 내용을 무시합니다.
일시 중단 테이블
테이블을 일시 중단합니다. 모니터에 표가 오류로 표시됩니다.
작업 중지
작업 처리를 중지합니다. 이 기능은 모든 스키마 변경 내용을 수동으로 처리하려는 경우에 유용합니다. 이렇게 하면 일정 예약도 중지되어 예약된 실행이 수행되지 않습니다.
다음과 같은 변경 내용이 지원됩니다.
열 추가
열 이름 바꾸기
열 데이터 유형 변경
선택 패턴과 일치하는 테이블 추가
선택 규칙을 사용하여 패턴과 일치하는 데이터 집합을 추가한 경우 패턴을 충족하는 새 테이블이 감지되어 추가됩니다.
작업 설정에 대한 자세한 내용은 스키마 진화를 참조하십시오.
스키마 진화를 통해 처리되는 변경 내용에 대한 알림을 받을 수도 있습니다. 자세한 내용은 작업 변경 알림 설정을 참조하십시오.
스키마 진화에 대한 제한 사항
스키마 진화에는 다음과 같은 제한이 적용됩니다.
스키마 진화는 CDC를 업데이트 방법으로 사용하는 경우에만 지원됩니다.
스키마 진화 설정을 변경한 경우 작업을 다시 준비해야 합니다.
테이블 이름을 바꾸면 스키마 진화가 지원되지 않습니다. 이 경우 작업을 준비하기 전에 메타데이터를 새로 고쳐야 합니다.
작업을 디자인하는 경우 스키마 진화 변경 사항을 적용하려면 브라우저를 새로 고쳐야 합니다. 변경 내용에 대해 알림을 받도록 설정할 수 있습니다.
랜딩 작업에서는 열을 삭제하는 것이 지원되지 않습니다. 열을 삭제하고 추가하면 테이블 오류가 발생합니다.
랜딩 작업에서 테이블 삭제 작업을 수행해도 테이블이 삭제되지 않습니다. 테이블을 삭제한 다음 다시 테이블을 추가하면 기존 테이블만 잘리고, 새 테이블이 추가되지 않습니다.
대상 데이터베이스의 지원 여부에 따라, 일부 대상에서는 열 길이를 변경할 수 없습니다.
열 이름이 변경되는 경우, 해당 열을 사용하여 정의된 명시적 변환은 열 이름을 기반으로 하므로 적용되지 않습니다.
메타데이터 새로 고침에 대한 제한은 스키마 진화에도 적용됩니다.
DDL 변경 사항을 캡처할 때 다음과 같은 제한이 적용됩니다.
소스 데이터베이스에서 빠른 일련의 작업(예: DDL>DML>DDL)이 발생하는 경우 Qlik Talend Data Integration이 잘못된 순서로 로그를 구문 분석하여 데이터가 누락되거나 예측할 수 없는 동작이 발생할 수 있습니다. 이러한 동작이 발생할 가능성을 최소화하려면 다음 작업을 수행하기 전에 대상에 변경 사항이 적용될 때까지 기다리는 것이 가장 좋습니다.
예를 들어, 변경 사항을 캡처하는 동안 원본 테이블 이름이 빠르게 여러 번 연속해서 바뀌고 두 번째 작업에서 원래 이름으로 다시 바뀌는 경우, 해당 테이블이 대상 데이터베이스에 이미 존재한다는 오류가 발생할 수 있습니다.
- 작업에서 사용된 테이블의 이름을 변경한 다음 작업을 중지하면 Qlik Talend Data Integration은 작업이 다시 시작된 후에 해당 테이블에 적용된 변경 사항을 캡처하지 않습니다.
작업이 중지된 동안에는 소스 테이블의 이름을 바꾸는 것이 지원되지 않습니다.
- 테이블의 기본 키 열 재할당은 지원되지 않습니다(따라서 DDL 기록 제어 테이블에 기록되지 않음).
- 열의 데이터 유형이 변경되고 작업이 중지된 상태에서 (동일한) 열의 이름이 변경되면, DDL 변경 사항은 DDL 기록 제어 테이블에 "열 삭제"로 표시되고 작업이 다시 시작되면 "열 추가"로 표시됩니다. 장시간 지연으로 인해 동일한 동작이 발생할 수도 있습니다.
- 작업이 중지된 동안 소스에서 수행된 CREATE TABLE 작업은 작업이 다시 시작될 때 대상에 적용되지만 DDL 기록 제어 테이블에 DDL로 기록되지 않습니다.
메타데이터 변경 사항과 관련된 작업(ALTER TABLE, reorg, 클러스터링된 인덱스 다시 빌드 등)은 다음 중 하나에서 수행되는 경우 예측할 수 없는 동작이 발생할 수 있습니다.
전체 로드 중
-또는-
변경 내용 처리 시작 타임스탬프와 현재 시간(즉, 사용자가 고급 실행 옵션 대화 상자에서 확인을 클릭하는 순간) 사이.
예:
IF:
지정된 변경 사항 처리 시작 시간은 오전 10시입니다.
AND:
Age라는 열이 오전 10시 10분에 Employees 테이블에 추가되었습니다.
AND:
사용자가 오전 10시 15분에 고급 실행 옵션 대화 상자에서 확인을 클릭합니다.
THEN:
10:00과 10:10 사이에 발생한 변경 사항으로 인해 CDC 오류가 발생할 수 있습니다.
정보 메모위의 어떤 경우든 영향을 가져오는 테이블을 다시 로드하여 데이터가 대상에 제대로 이동됨되도록 해야 합니다.
- DDL 문
ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <>
는 기본값을 대상에 복제하지 않으며 새 열 또는 수정된 열이 NULL로 설정됩니다. 과거에 열을 추가하거나 수정한 DDL이 실행된 경우에도 이런 동작이 발생할 수 있습니다. 새 열 또는 수정된 열이 Null 허용인 경우 소스 엔드포인트는 DDL 자체를 로깅하기 전에 모든 테이블 행을 업데이트합니다. 결과적으로 Qlik Talend Data Integration은 변경 사항을 캡처하지만 대상을 업데이트하지 않습니다. 새 열 또는 수정된 열이 NULL로 설정되어 대상 테이블에 기본 키 또는 고유 인덱스가 없는 경우, 후속 업데이트에서 "영향 받는 행 없음"이라는 메시지가 생성됩니다. TIMESTAMP 및 DATE 정밀도 열에 대한 수정 사항은 캡처되지 않습니다.
데이터 레이크에 데이터를 저장할 때의 제한 사항 및 고려 사항
변환에는 다음과 같은 제한이 적용됩니다.
- 오른쪽에서 왼쪽으로 쓰는 언어가 있는 열에는 변환이 지원되지 않습니다.
이름에 특수 문자(예: #, \, /, -)가 포함된 열에는 변환을 수행할 수 없습니다.
- LOB/CLOB 데이터 유형에 대해 지원되는 유일한 변환은 대상에서 열을 삭제하는 것입니다.
- 변환을 사용하여 열 이름을 바꾼 다음 같은 이름의 새 열을 추가하는 것은 지원되지 않습니다.
이동된 열에서는 Null 허용 여부를 직접 변경하거나 변환 규칙을 사용하여 변경하는 것이 지원되지 않습니다. 그러나 작업에서 만들어진 새 열은 기본적으로 Null이 허용됩니다.