데이터 웨어하우스로 데이터 온보딩
Qlik Talend Data Integration 프로젝트에서 데이터 파이프라인을 만드는 첫 번째 단계는 데이터 온보딩입니다. 여기에는 데이터 소스에서 데이터를 전송하고 읽기에 최적화된 형식으로 데이터 집합을 저장하는 작업이 포함됩니다. 지속적인 변경 처리로 데이터를 업데이트하거나 예약된 다시 로드를 사용할 수 있습니다.
온보딩은 단일 작업으로 만들지만 두 단계로 수행됩니다.
-
데이터 랜딩
여기에는 랜딩 데이터 작업을 사용하여 온프레미스 데이터 소스에서 랜딩 영역으로 데이터를 지속적으로 전송하는 작업이 포함됩니다.
클라우드 파일 저장소에 데이터가 랜딩되는 레이크하우스에 데이터를 랜딩할 수도 있습니다. 이 기능은 Snowflake 프로젝트에서 사용할 수 있으며, 랜딩 대상은 클라우드 파일 저장소로 설정되어 있습니다.
레이크하우스에 랜딩 데이터의 앱 소스 예시를 참조하십시오.
-
데이터 집합 저장
여기에는 랜딩 데이터 또는 증분 로드의 초기 로드를 읽고 저장소 데이터 작업을 사용하여 읽기에 최적화된 형식으로 데이터를 적용하는 작업이 포함됩니다.
데이터를 온보딩하면 저장된 데이터 집합을 여러 가지 방법으로 사용할 수 있습니다.
-
분석 앱에서 데이터 집합을 사용할 수 있습니다.
-
변환을 만들 수 있습니다.
-
데이터 마트를 만들 수 있습니다.
데이터 온보딩
프로젝트에서 데이터 온보딩을 시작합니다. 데이터 집합은 프로젝트에 정의된 클라우드 데이터 웨어하우스에 저장됩니다. 프로젝트에 대한 자세한 내용은 데이터 파이프라인 프로젝트 만들기을 참조하십시오.
-
프로젝트에서 만들기를 클릭한 다음 데이터 온보딩을 클릭합니다.
팁 메모프로젝트의 기존 소스에서를 클릭한 다음 데이터 온보딩을 클릭할 수도 있습니다.
-
온보딩에 대한 이름 및 설명을 추가합니다.
다음을 클릭합니다.
-
소스 연결을 선택합니다.
기존 소스 연결을 선택하거나 소스에 대한 새 연결을 만들 수 있습니다.
자세한 내용은 데이터 소스에 대한 연결 설정을 참조하십시오.
다음을 클릭합니다.
-
로드할 데이터를 선택합니다.
자세한 내용은 데이터 선택을 참조하십시오.
다음을 클릭합니다.
업데이트 방법 및 기록 설정을 선택할 수 있는 설정이 표시됩니다.
-
업데이트 방법에서 데이터를 업데이트하는 데 사용할 방법을 선택합니다.
-
데이터 변경 내용 캡처(CDC)
데이터에 CDC를 지원하지 않는 테이블이나 뷰도 포함되어 있는 경우 두 개의 데이터 파이프라인이 만들어집니다. CDC를 지원하는 모든 테이블이 포함된 하나의 파이프라인과 다시 로드 및 비교를 사용하는 다른 모든 테이블 및 뷰가 포함된 또 다른 파이프라인입니다.
-
다시 로드 및 비교
-
-
Snowflake에 온보딩하는 경우 다음 로드 방법 중 하나를 선택할 수 있습니다.
-
대량으로 로드(기본값)
대량으로 로드를 선택하는 경우, 작업이 만들어지면 작업 설정의 데이터 업로드 탭에서 로딩 매개 변수를 조정할 수 있습니다.
-
Snowpipe Streaming
정보 메모Snowpipe Streaming은 다음 조건이 충족되는 경우에만 선택할 수 있습니다.
- 데이터 변경 내용 캡처(CDC) 업데이트 방법이 활성화되었습니다.
- Snowflake 커넥터의 인증 메커니즘은 키 쌍으로 설정됩니다.
- 데이터 이동 게이트웨이을 사용하는 경우 2024.11.45 이상 버전이 필요합니다.
Snowpipe Streaming을 선택하는 경우 이 방법을 사용할 때의 제한 사항 및 고려 사항을 잘 알고 있는지 확인합니다. 또한, Snowpipe Streaming을 선택한 다음 다시 로드 및 비교 업데이트 방법으로 전환하면 로드 방법이 자동으로 대량 로드로 다시 전환됩니다.
대량으로 로드 대신 Snowpipe Streaming을 선택하는 주요 이유는 다음과 같습니다.
-
비용 절감: Snowpipe Streaming은 Snowflake 웨어하우스를 사용하지 않으므로 운영 비용이 상당히 저렴합니다. 단, 이는 특정 사용 사례에 따라 다릅니다.
-
지연 시간 단축: 데이터가 스테이징을 거치지 않고 대상 테이블에 직접 스트리밍되므로 데이터 소스에서 대상으로의 복제가 더 빨라집니다.
팁 메모Snowpipe Streaming을 사용할 경우 초기 전체 로드가 대량 로드보다 상당히 느릴 수 있습니다. 특히 대용량 데이터 집합을 로드할 때 로드 성능을 최적화하려면 Snowpipe Streaming을 병렬 로드 기능과 함께 사용하는 것이 가장 좋습니다. -
-
기록의 현재 데이터 외에 이전 데이터의 기록을 복제하려면 선택합니다.
준비가 되면 다음을 클릭합니다.
-
데이터 소스에 액세스하기 위해 데이터 이동 게이트웨이를 사용하지 않는 경우 설정에 다음 섹션이 표시됩니다.
복제 스케줄러
-
데이터 복제 간격: 데이터 소스의 변경 내용을 캡처하는 빈도를 예약하고 시작 시간 및 시작 날짜를 설정할 수 있습니다. 소스 데이터 집합이 CDC(Change data Capture)를 지원하는 경우 소스 데이터의 변경 내용만 해당 대상 테이블에 복제되고 적용됩니다. 소스 데이터 집합이 CDC(예: 뷰)를 지원하지 않는 경우 모든 소스 데이터를 해당 대상 테이블에 다시 로드하여 변경 내용이 적용됩니다. 소스 데이터 집합 중 일부는 CDC를 지원하고 일부는 지원하지 않는 경우 두 개의 별도 하위 작업이 만들어집니다. 하나는 CDC를 지원하지 않는 데이터 집합을 다시 로드하기 위한 것이고 다른 하나는 CDC를 지원하는 데이터 집합에 대한 변경 내용을 캡처하기 위한 것입니다.
온보딩 설정 마법사를 사용하면 시간별 간격을 예약할 수 있습니다. 온보딩 마법사를 완료한 후에는 복제 설정에 설명된 대로 다양한 예약 옵션을 탐색할 수 있습니다.
데이터 소스 유형 및 구독 계층에 따른 최소 예약 간격에 대한 자세한 내용은 허용되는 최소 예약 간격을 참조하십시오.
-
-
데이터를 온보딩하기 위해 만들어진 데이터 작업을 미리 보고 원하는 경우 이름을 바꿉니다.
팁 메모이 이름은 저장소 데이터 작업에서 데이터베이스 스키마의 이름을 지정할 때 사용됩니다. 동일한 데이터 플랫폼을 사용하는 다른 프로젝트의 데이터 작업과 충돌을 피하기 위해 고유한 이름을 사용하는 것이 좋습니다. -
만들어진 데이터 작업을 열거나 프로젝트로 돌아가려면 선택합니다.
준비가 되면 마침을 클릭합니다.
이제 데이터 온보딩 작업이 만들어졌습니다. 데이터 복제를 시작하려면 다음을 수행해야 합니다.
-
랜딩 데이터 작업을 준비하고 실행합니다.
자세한 내용은 데이터 소스의 랜딩 데이터을 참조하십시오.
-
저장소 데이터 작업을 준비하고 실행합니다.
자세한 내용은 데이터 집합 저장를 참조하십시오.
데이터 선택
특정 테이블 또는 보기를 선택하거나 선택 규칙을 사용하여 테이블 그룹을 포함하거나 제외할 수 있습니다.
%를 와일드카드로 사용하여 스키마 및 테이블에 대한 선택 기준을 정의합니다.
-
%.%는 모든 스키마의 모든 테이블을 정의합니다.
-
Public.%는 Public 스키마의 모든 테이블을 정의합니다.
선택 기준은 선택에 따라 미리 보기를 제공합니다.
이제 다음 중 하나를 수행할 수 있습니다.
-
선택 기준에 따라 테이블 그룹을 포함하거나 제외하는 규칙을 만듭니다.
선택 기준에서 규칙 추가를 클릭하여 규칙을 만들고 포함 또는 제외를 선택합니다.
선택 규칙에서 규칙을 볼 수 있습니다.
-
하나 이상의 데이터 집합을 선택하고 선택한 데이터 집합 추가를 클릭합니다.
명시적으로 선택된 데이터 집합에서 추가된 데이터 집합을 볼 수 있습니다.
선택 규칙은 현재 테이블 및 뷰 집합에만 적용되며 향후에 추가되는 테이블 및 뷰에는 적용되지 않습니다.