Standard, Premium 또는 Enterprise 구독을 통해 데이터 레이크에 데이터 랜딩
데이터 레이크의 데이터 랜딩 작업을 설정하여 데이터를 다음 대상에 전달할 수 있습니다.
Amazon S3
Amazon S3에 대한 연결 구성에 대한 자세한 내용은 Amazon S3을 참조하십시오.
Azure Data Lake Storage
Azure Data Lake Storage에 대한 연결 구성에 대한 자세한 내용은 Azure Data Lake Storage를 참조하십시오.
Google 클라우드 저장소
Google 클라우드 저장소 연결 구성에 대한 자세한 내용은 Google 클라우드 저장소를 참조하십시오.
데이터 소스 연결 구성에 대한 자세한 내용은 데이터 소스에 대한 연결 설정을 참조하십시오.
데이터 레이크 랜딩 작업을 설정하려면:
데이터 통합 > 프로젝트에서 프로젝트 만들기를 클릭합니다.
새 프로젝트 대화 상자에서 다음을 수행합니다.
프로젝트의 이름을 제공합니다.
- 프로젝트를 만들 공간을 선택합니다.
- 선택적으로 설명을 제공합니다.
- 사용 사례로 복제를 선택합니다.
- 선택적으로, 설정을 구성하지 않고 빈 프로젝트를 만들려면 열기 확인란을 선택 해제합니다.
만들기를 클릭합니다.
다음 중 하나가 발생합니다.
- 새 프로젝트 대화 상자에서 열기 확인란을 선택한 경우(기본값) 프로젝트가 열립니다.
- 새 프로젝트 대화 상자에서 열기 확인란을 선택 해제하면 프로젝트가 프로젝트 목록에 추가됩니다. 나중에 프로젝트의 메뉴에서 열기를 선택하여 프로젝트를 열 수 있습니다.
프로젝트가 열린 후 데이터 레이크의 데이터 랜딩을 클릭합니다.
데이터 레이크의 데이터 랜딩 마법사가 열립니다.
일반 탭에서 데이터 레이크 랜딩 작업의 이름과 설명을 지정합니다. 그런 다음 다음을 클릭합니다.
정보 메모슬래시(/) 또는 백슬래시(\) 문자가 포함된 이름은 지원되지 않습니다.소스 연결 선택 탭에서 소스 데이터에 대한 연결을 선택합니다. 선택적으로 작업 열의 메뉴에서 편집을 선택하여 연결 설정을 편집할 수 있습니다.
아직 소스 데이터에 대한 연결이 없으면 탭 오른쪽 위에 있는 연결 만들기를 클릭하여 먼저 연결을 만들어야 합니다.
왼쪽의 필터를 사용하여 연결 목록을 필터링할 수 있습니다. 소스 유형, 게이트웨이, 공간 및 소유자에 따라 연결을 필터링할 수 있습니다. 연결 목록 위의 모든 필터 버튼은 현재 필터의 수를 표시합니다. 이 버튼을 사용하여 왼쪽의 필터 패널을 닫거나 열 수 있습니다. 현재 활성 필터도 사용할 수 있는 연결 목록 위에 표시됩니다.
오른쪽 드롭다운 목록에서 마지막으로 수정한 날짜, 마지막으로 만든 날짜, 또는 사전순을 선택하여 목록을 정렬할 수도 있습니다. 정렬 순서를 변경하려면 목록 오른쪽에 있는 화살표를 클릭합니다.
데이터 소스 연결을 선택한 후 선택적으로 탭 오른쪽 위에 있는 연결 테스트를 클릭하고(권장), 다음을 클릭합니다.
데이터 집합 선택 탭에서 데이터 레이크 랜딩 작업에 포함할 테이블 및/또는 뷰를 선택합니다. 또한 데이터베이스에서 데이터 선택에 설명된 대로 와일드카드를 사용하고 선택 규칙을 만들 수도 있습니다.
정보 메모슬래시(/) 또는 백슬래시(\) 문자가 포함된 스키마 이름이나 테이블 이름은 지원되지 않습니다.대상 연결 선택 탭의 사용할 수 있는 연결 목록에서 대상을 선택한 후 다음을 클릭합니다. 기능적인 측면에서는 앞서 설명한 소스 연결 선택 탭과 동일합니다.
설정 탭에서 선택적으로 다음 설정을 변경한 후 다음을 클릭합니다.
업데이트 방법:
데이터 변경 내용 캡처(CDC): 데이터 레이크 랜딩 작업은 전체 로드로 시작됩니다(선택한 모든 테이블이 랜딩되는 동안). 랜딩된 데이터는 CDC(데이터 변경 내용 캡처) 기술을 사용하여 최신 상태로 유지됩니다.
정보 메모DDL 작업의 CDC(데이터 변경 내용 캡처)는 지원되지 않습니다.데이터 이동 게이트웨이 작업 시 변경 내용은 거의 실시간으로 소스에서 캡처됩니다. 데이터 이동 게이트웨이 없이 작업하는 경우 스케줄러 설정에 따라 변경 내용이 캡처됩니다. 자세한 내용은 데이터 이동 게이트웨이 없이 작업할 때 작업 예약을 참조하십시오.
- 다시 로드: 선택한 소스 테이블의 데이터를 대상 플랫폼으로 전체 로드하고 필요한 경우 대상 테이블을 만듭니다. 전체 로드는 작업이 시작될 때 자동으로 발생하지만 수동으로 수행하거나 필요에 따라 주기적으로 발생하도록 예약할 수도 있습니다.
데이터 변경 내용 캡처(CDC)를 선택하고 데이터에 CDC를 지원하지 않는 테이블이나 뷰도 포함되어 있는 경우 두 개의 데이터 파이프라인이 만들어집니다. CDC를 지원하는 모든 테이블이 포함된 하나의 파이프라인과 다시 로드를 사용하는 다른 모든 테이블 및 뷰가 포함된 또 다른 파이프라인입니다.
사용할 폴더:
파일을 쓰려는 버킷 폴더에 따라 다음 중 하나를 선택합니다.
- 기본 폴더: 기본 폴더 형식은 <프로젝트 이름>/<작업 이름>입니다.
- 루트 폴더: 파일을 버킷에 직접 기록합니다.
폴더: 폴더 이름을 입력합니다. 폴더가 없는 경우 데이터 레이크 랜딩 작업 중에 폴더가 만들어집니다.
정보 메모 폴더 이름에는 특수 문자(예: @, #, ! 등)를 포함할 수 없습니다.
요약 탭에는 데이터 파이프라인이 시각적으로 표시됩니다. <name> 작업 열기 또는 아무 작업도 하지 않음 중에서 선택합니다. 그런 다음 만들기를 클릭합니다.
선택에 따라 작업이 열리거나 프로젝트 목록이 표시됩니다.
작업 열기를 선택한 경우 데이터 집합 탭에 선택한 데이터 자산 테이블의 구조와 메타데이터가 표시됩니다. 여기에는 명시적으로 나열된 모든 테이블과 선택 규칙과 일치하는 테이블이 포함됩니다.
데이터 소스에서 더 많은 테이블을 추가하려면 소스 데이터 선택을 클릭합니다.
선택 사항으로 클라우드 저장소 대상 설정에 설명된 대로 작업 설정을 변경합니다.
데이터 집합에서 변환을 수행하거나 데이터를 필터링하거나 열을 추가할 수 있습니다.
자세한 내용은 데이터 집합 관리을 참조하십시오.
원하는 변환을 추가했으면 데이터 집합 유효성 검사를 클릭하여 데이터 집합의 유효성을 검사할 수 있습니다. 유효성 검사에 실패하면 계속 진행하기 전에 오류를 해결합니다.
자세한 내용은 데이터 집합 유효성 검사 및 조정을 참조하십시오.
준비가 되면 준비를 클릭하여 랜딩 작업을 분류하고 실행을 준비합니다.
데이터 작업이 준비되면 실행을 클릭합니다.
이제 데이터 레이크 랜딩 작업이 시작됩니다. 모니터링 보기에서 진행률을 모니터링할 수 있습니다. 자세한 내용은 개별 데이터 작업 모니터링를 참조하십시오.
데이터 집합의 로드 우선 순위 설정
각 데이터 집합에 로드 우선 순위를 할당하여 데이터 작업에서 데이터 집합의 로드 순서를 제어할 수 있습니다. 예를 들어, 큰 데이터 집합보다 작은 데이터 집합을 로드하려는 경우에 유용할 수 있습니다.
로드 우선 순위를 클릭합니다.
각 데이터 집합의 로드 우선 순위를 선택합니다.
기본 로드 우선 순위는 보통입니다. 데이터 집합은 다음 우선 순위에 따라 로드됩니다.
가장 높음
보다 높음
높음
기본
낮음
보다 낮음
가장 낮음
우선 순위가 동일한 데이터 집합은 특별한 순서 없이 로드됩니다.
확인을 클릭합니다.
메타데이터 새로 고침
작업의 설계 보기에서 소스 메타데이터의 변경 내용에 맞게 작업의 메타데이터를 새로 고칠 수 있습니다. Metadata Manager를 사용하는 SaaS 응용 프로그램의 경우 데이터 작업에서 메타데이터를 새로 고치려면 먼저 Metadata Manager를 새로 고쳐야 합니다.
다음 중 하나를 수행할 수 있습니다.
작업의 모든 데이터 집합에 대한 메타데이터를 새로 고치려면 ...를 클릭한 다음 메타데이터 새로 고침을 클릭합니다.
단일 데이터 집합에 대한 메타데이터를 새로 고치려면 데이터 집합의 데이터 집합에서 ...를 클릭한 다음 메타데이터 새로 고침을 클릭합니다.
화면 하단의 메타데이터 새로 고침에서 메타데이터 새로 고침 상태를 확인할 수 있습니다. 에 커서를 올려놓으면 메타데이터가 마지막으로 새로 고침된 시기를 확인할 수 있습니다.
변경 내용을 적용할 데이터 작업을 준비합니다.
데이터 작업을 준비하고 변경 내용을 적용하면 변경 내용이 메타데이터 새로 고침에서 제거됩니다.
변경 내용을 전파하려면 이 작업을 사용하는 저장소 작업을 준비해야 합니다.
열이 제거되면 저장소에서 기록 데이터가 손실되지 않도록 Null 값이 포함된 변환이 추가됩니다.
제한 사항
동일한 시간 슬롯에서 이전에 삭제된 열이 있으면 이름 바꾸기가 삭제된 열 이름 바꾸기로 해석됩니다(동일한 데이터 유형과 데이터 길이를 갖는 경우).
이전: a b c d
이후: a c1 d
이 예에서는 b가 삭제되고 c가 c1로 이름이 바뀌었으며, b와 c의 데이터 유형과 데이터 길이가 동일합니다.
이는 b의 이름이 c1로 변경되고 c가 삭제된 것으로 식별됩니다.
이전에 마지막 열 이름이 삭제된 경우에도 마지막 열 이름 바꾸기는 인식되지 않으며 이름이 바뀌기 전의 열도 인식되지 않습니다.
이전: a b c d
이후: a b c1
이 예에서는 d가 삭제되고 c가 c1로 이름이 바뀌었습니다.
이는 c 및 d가 삭제되고 c1이 추가된 것으로 식별됩니다.
새 열은 끝에 추가되는 것으로 가정됩니다. 다음 열과 동일한 데이터 타입으로 중간에 열이 추가되면 삭제 및 이름 바꾸기로 해석될 수 있습니다.
데이터 레이크에 데이터를 저장할 때의 제한 사항 및 고려 사항
변환에는 다음과 같은 제한이 적용됩니다.
- 오른쪽에서 왼쪽으로 쓰는 언어가 있는 열에는 변환이 지원되지 않습니다.
이름에 특수 문자(예: #, \, /, -)가 포함된 열에는 변환을 수행할 수 없습니다.
- LOB/CLOB 데이터 유형에 대해 지원되는 유일한 변환은 대상에서 열을 삭제하는 것입니다.
- 변환을 사용하여 열 이름을 바꾼 다음 같은 이름의 새 열을 추가하는 것은 지원되지 않습니다.
이동된 열에서는 Null 허용 여부를 직접 변경하거나 변환 규칙을 사용하여 변경하는 것이 지원되지 않습니다. 그러나 작업에서 만들어진 새 열은 기본적으로 Null이 허용됩니다.