기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

데이터 소스의 랜딩 데이터

온보딩 시 데이터 전송의 첫 번째 단계는 데이터 랜딩입니다. 여기에는 온프레미스 데이터 소스에서 랜딩 영역으로 데이터를 지속적으로 전송하는 작업이 포함됩니다.

소스 연결을 통해 여러 데이터 소스에서 데이터를 가져올 수 있습니다.

랜딩 영역은 프로젝트를 만들 때 정의됩니다.

  • Qlik Cloud(Amazon S3을 통해)

    Amazon S3을 통해 Qlik Cloud에 데이터를 랜딩하면 데이터를 사용하여 Qlik Cloud에서 분석할 준비가 된 QVD 테이블을 생성할 수 있습니다.

  • 클라우드 데이터 웨어하우스

    클라우드 데이터 웨어하우스(예: Snowflake 또는 Azure Synapse Analytics)에 데이터를 랜딩하면 동일한 클라우드 데이터 웨어하우스에 테이블을 저장할 수 있습니다.

정보 메모데이터 작업은 해당 작업이 속한 프로젝트 소유자의 컨텍스트에서 작동합니다. 필수 역할 및 권한에 대한 자세한 내용은 데이터 공간 역할 및 권한을 참조하십시오.

랜딩 데이터 작업 만들기 및 구성

랜딩 데이터 작업을 만드는 방법을 설명합니다. 데이터 파이프라인을 만드는 가장 빠른 방법은 랜딩 데이터 작업과 저장소 데이터 작업을 만들고 준비 및 실행할 준비가 된 데이터를 온보딩하는 것입니다. 자세한 내용은 데이터 온보딩을 참조하십시오.

  1. 프로젝트에서 새로 추가를 클릭하고 데이터 랜딩을 선택합니다.

  2. 데이터 랜딩 대화 상자에서 데이터 작업의 이름과 설명을 입력합니다.

    랜딩 데이터 작업이 만들어질 때 열려면 열기를 선택합니다.

    만들기를 클릭합니다.

  3. 소스 데이터 선택을 클릭합니다.

  4. 소스 데이터에 대한 연결을 선택하고 다음을 클릭합니다.

    왼쪽 패널의 필터를 사용하여 소스 유형, 공간 및 소유자에 대한 연결 목록을 필터링할 수 있습니다.

    아직 소스 데이터에 대한 연결이 없으면 먼저 연결 추가를 클릭하여 연결을 만들어야 합니다.

    지원되는 소스에 대한 연결 설정에 대한 자세한 내용은 데이터 소스에 대한 연결 설정을 참조하십시오.

    정보 메모다음 단계에서 테이블을 선택한 경우 온프레미스 데이터 소스에서 클라우드 데이터 소스로 또는 그 반대로 소스 연결을 변경할 수 없습니다. 동일한 유형의 다른 데이터 소스에 대한 연결만 변경할 수 있습니다.
  5. 데이터 작업에 포함할 데이터 집합을 선택합니다. 연결한 소스 유형에 따라 선택 대화 상자가 다릅니다.

    테이블 선택이 완료되면 저장을 클릭합니다.

    데이터 집합이 표시됩니다.

  6. 랜딩 설정을 변경할 수 있습니다. 이는 필수 사항이 아닙니다.

    • 설정을 클릭합니다.

    설정에 대한 자세한 내용은 랜딩 설정을 참조하십시오.

  7. 이제 선택한 데이터 자산 테이블의 구조와 메타데이터를 미리 볼 수 있습니다. 여기에는 명시적으로 나열된 모든 테이블과 선택 규칙과 일치하는 테이블이 포함됩니다.

    데이터 소스에서 더 많은 테이블을 추가하려면 소스 데이터 선택을 클릭합니다.

  8. 데이터 필터링, 열 추가 등 데이터 집합에 대한 기본 변환을 수행할 수 있습니다. 이는 필수 사항이 아닙니다.

    자세한 내용은 데이터 집합 관리을 참조하십시오.

  9. 원하는 변환을 추가했으면 데이터 집합 유효성 검사를 클릭하여 데이터 집합의 유효성을 검사할 수 있습니다. 유효성 검사에서 오류가 발견되면 계속하기 전에 오류를 수정합니다.

    자세한 내용은 데이터 집합 유효성 검사 및 조정을 참조하십시오.

  10. 준비가 되면 준비를 클릭하여 데이터 작업을 분류하고 실행할 준비를 합니다.

    화면 하단의 준비 진행률에서 진행률을 확인할 수 있습니다.

  11. 데이터 작업이 준비되고 데이터 복제를 시작할 준비가 되면 실행을 클릭합니다.

이제 복제가 시작되고 모니터링에서 진행률을 볼 수 있습니다. 자세한 내용은 개별 데이터 작업 모니터링을 참조하십시오.

데이터베이스에서 데이터 선택

특정 테이블 또는 보기를 선택하거나 선택 규칙을 사용하여 테이블 그룹을 포함하거나 제외할 수 있습니다.

정보 메모선택 항목에 보기가 포함된 경우 CDC가 지원되지 않습니다.

%를 와일드카드로 사용하여 스키마 및 테이블에 대한 선택 기준을 정의합니다.

  • %.%는 모든 스키마의 모든 테이블을 정의합니다.

  • Public.%Public 스키마의 모든 테이블을 정의합니다.

선택 기준은 선택에 따라 미리 보기를 제공합니다.

이제 다음 중 하나를 수행할 수 있습니다.

  • 선택 기준에 따라 테이블 그룹을 포함하거나 제외하는 규칙을 만듭니다.

    선택 기준에서 규칙 추가를 클릭하여 규칙을 만들고 포함 또는 제외를 선택합니다.

    선택 규칙에서 규칙을 볼 수 있습니다.

  • 하나 이상의 데이터 집합을 선택하고 선택한 데이터 집합 추가를 클릭합니다.

    명시적으로 선택된 데이터 집합에서 추가된 데이터 집합을 볼 수 있습니다.

선택 규칙은 현재 테이블 및 뷰 집합에만 적용되며 향후에 추가되는 테이블 및 뷰에는 적용되지 않습니다.

데이터 변경 내용 캡처(CDC)를 사용하여 랜딩 작업 실행

랜딩 작업이 준비되면 실행할 수 있습니다. 그러면 온프레미스 데이터 소스에서 랜딩 영역으로 데이터를 전송하는 복제가 시작됩니다.

  • 실행을 클릭하여 랜딩 데이터를 시작합니다.

이제 복제가 시작되고 데이터 작업이 실행 중 상태가 됩니다. 먼저 전체 데이터 소스를 복사한 다음 변경 내용을 추적합니다. 즉, 변경 사항이 발견되면 지속적으로 추적 및 전송됩니다. 이렇게 하면 랜딩 영역의 랜딩 데이터가 최신 상태로 유지됩니다.

Qlik Talend Data Integration 홈에서 상태, 랜딩 데이터의 업데이트 날짜와 시간 및 오류 테이블 수를 볼 수 있습니다. 또한 데이터 작업을 열고 테이블 탭을 선택하여 테이블에 대한 기본 메타데이터 정보를 볼 수도 있습니다.

모니터링 탭을 열어 진행률을 자세히 모니터링할 수 있습니다. 자세한 내용은 개별 데이터 작업 모니터링을 참조하십시오.

모든 테이블이 로드되고 첫 번째 변경 집합이 처리되면 데이터 작업 카드의 데이터가 다음으로 업데이트됩니다는 해당 시간까지의 소스 변경이 데이터 작업에서 사용 가능함을 나타냅니다.

테이블 다시 로드

소스에서 데이터를 다시 로드할 수 있습니다.

단일 테이블 다시 로드

데이터 변경 내용 캡처를 방해하지 않고 특정 테이블을 수동으로 다시 로드할 수 있습니다. 이는 하나 이상의 테이블에 CDC 문제가 있는 경우 유용합니다.

  1. 랜딩 데이터 작업을 열고 모니터링 탭을 선택합니다.

  2. 다시 로드할 테이블을 선택합니다.

  3. 테이블 다시 로드를 클릭합니다.

정보 메모이 옵션은 해당 랜딩 작업이 한 번 이상 실행된 후에 사용할 수 있습니다. 랜딩 작업이 실행되지 않는 동안 클릭하면 다음에 작업이 실행될 때 테이블이 다시 로드됩니다.

테이블을 다시 로드하여 문제를 해결할 수 없거나 전체 작업에 영향을 미치는 경우 대신 모든 테이블을 대상에 다시 로드할 수 있습니다. 데이터 변경 내용 캡처가 다시 시작됩니다.

모든 테이블을 대상으로 다시 로드

특정 테이블을 다시 로드하여 해결할 수 없는 CDC 문제가 발생하는 경우 모든 테이블을 대상에 다시 로드할 수 있습니다. 문제의 예로 이벤트 누락, 소스 데이터베이스 재구성으로 인한 문제 또는 소스 데이터베이스 이벤트 읽기 실패 등이 있습니다.

정보 메모이 작업은 업데이트 방법이 데이터 변경 내용 캡처(CDC)이고 한 번 이상 실행된 작업에만 사용할 수 있습니다.

  1. 데이터 작업과 이를 사용하는 모든 작업을 중지합니다.
  2. 데이터 작업을 열고 모니터링 탭을 선택합니다.

  3. ...를 클릭한 다음 대상 다시 로드를 클릭합니다.

그러면 Drop-Create를 사용하여 모든 테이블이 대상에 다시 로드되고 지금부터 모든 데이터 변경 내용 캡처가 다시 시작됩니다.

  • 데이터 랜딩 작업을 소비하는 저장소 작업은 비교를 통해 다시 로드되고 다음 실행 시 적용되어 동기화됩니다. 기존 기록은 유지됩니다. 유형 2 기록은 다시 로드 및 비교 프로세스가 실행된 후 변경 내용을 반영하도록 업데이트됩니다.

    유형 2 기록의 시작 날짜에 대한 타임스탬프는 다시 로드 날짜를 반영하며 반드시 소스에서 변경이 발생한 날짜는 아닙니다.

  • 대상 다시 로드 작업 중에는 저장소가 동기화될 때까지 저장소 라이브 보기를 신뢰할 수 없습니다. 다음과 같은 경우 저장소가 완전히 동기화됩니다.

    • 모든 테이블은 비교 및 적용을 사용하여 다시 로드됩니다.

    • 각 테이블에 대해 한 번의 변경 주기가 수행됩니다.

정보 메모메타데이터 변경은 지원되지 않습니다. 소스에 메타데이터 변경 내용이 있는 경우 데이터를 다시 로드할 때 랜딩으로 전파되지만 제대로 처리되지는 않습니다. 이로 인해 저장소 소비가 실패할 수 있습니다.

다시 로드 및 비교로 랜딩 데이터 작업 실행

랜딩 데이터 작업이 준비되면 데이터를 복사할 수 있습니다.

  • 실행을 클릭하여 전체 로드를 시작합니다.

이제 데이터 복사가 시작되고 데이터 작업이 실행 중 상태가 됩니다. 전체 데이터 소스가 복사되면 상태가 완료됨입니다.

Qlik Talend Data Integration 홈에서 상태, 랜딩 데이터의 업데이트 날짜와 시간 및 오류 테이블 수를 볼 수 있습니다. 또한 데이터 작업을 열고 테이블 탭을 선택하여 테이블에 대한 기본 메타데이터 정보를 볼 수도 있습니다.

모니터링 탭을 열어 진행률을 자세히 모니터링할 수 있습니다. 자세한 내용은 개별 데이터 작업 모니터링을 참조하십시오.

모든 테이블이 로드되면 데이터 작업 카드의 데이터가 다음으로 업데이트됩니다는 해당 시간까지의 소스 변경 내용이 데이터 작업에서 사용 가능함을 나타냅니다. 그러나 데이터 작업의 일부 테이블은 로드를 시작한 시기에 따라 나중에 업데이트될 수 있습니다. 즉, 데이터 일관성이 보장되지 않습니다. 예를 들어 로드가 08:00에 시작되어 4시간이 걸렸다면 로드가 완료될 때 데이터가 다음으로 업데이트됩니다에 08:00이 표시됩니다. 그러나 11.30에 다시 로드를 시작한 테이블에는 08:00에서 11:30 사이에 발생한 소스 변경 내용이 포함됩니다.

데이터가 다음으로 업데이트됩니다에 로드된 테이블만 반영됩니다. 다시 로드가 실패한 테이블과 관련하여 아무 것도 나타내지 않습니다. 클라우드 대상에서 모든 테이블에 오류가 있는 상태에서 다시 로드가 완료되면 필드가 비어 있습니다.

다시 로드 및 비교 사용 시 데이터 다시 로드

업데이트 방법으로 다시 로드 및 비교를 사용하는 경우 데이터 소스를 최신 상태로 유지하려면 데이터를 다시 로드해야 합니다.

  • 모든 테이블을 수동으로 다시 로드하려면 다시 로드를 클릭합니다.

  • 예약된 다시 로드를 설정합니다.

단일 테이블 다시 로드

특정 테이블을 수동으로 다시 로드할 수 있습니다. 이는 하나 이상의 테이블에 문제가 있는 경우 유용합니다.

  1. 랜딩 데이터 작업을 열고 모니터링 탭을 선택합니다.

  2. 다시 로드할 테이블을 선택합니다.

  3. 테이블 다시 로드를 클릭합니다.

정보 메모
  • 이 옵션은 랜딩 작업이 한 번 이상 실행된 후, 그리고 작업이 실행되고 있지 않을 때만 사용할 수 있습니다.
  • 메타데이터 변경은 지원되지 않습니다. 소스에 메타데이터 변경 내용이 있는 경우 데이터를 다시 로드할 때 랜딩으로 전파되지만 제대로 처리되지는 않습니다. 이로 인해 저장소 소비가 실패할 수 있습니다.

다시 로드 및 비교 랜딩 데이터 작업 예약

데이터 작업 공간에서 작동 가능 역할이 있는 경우 랜딩 데이터 작업에 대한 주기적 다시 로드를 예약할 수 있습니다. 일정이 활성화되려면 데이터 작업 상태가 준비됨 이상이어야 합니다.

  • 데이터 작업에서 ...을 클릭하고 예약을 선택합니다.

    시간 기반 일정을 설정할 수 있습니다.

    데이터 소스 유형 및 구독 계층에 따른 최소 예약 간격에 대한 자세한 내용은 허용되는 최소 예약 간격을 참조하십시오.

정보 메모예약된 다시 로드가 시작되려고 할 때 데이터 작업이 계속 다시 로드되는 경우 예약된 다시 로드는 다음 예약된 다시 로드 이벤트까지 건너뜁니다.

데이터 집합의 로드 우선 순위 설정

각 데이터 집합에 로드 우선 순위를 할당하여 데이터 작업에서 데이터 집합의 로드 순서를 제어할 수 있습니다. 예를 들어, 큰 데이터 집합보다 작은 데이터 집합을 로드하려는 경우에 유용할 수 있습니다.

  1. 로드 우선 순위를 클릭합니다.

  2. 각 데이터 집합의 로드 우선 순위를 선택합니다.

    기본 로드 우선 순위는 보통입니다. 데이터 집합은 다음 우선 순위에 따라 로드됩니다.

    • 가장 높음

    • 보다 높음

    • 높음

    • 기본

    • 낮음

    • 보다 낮음

    • 가장 낮음

    우선 순위가 동일한 데이터 집합은 특별한 순서 없이 로드됩니다.

  3. 확인을 클릭합니다.

정보 메모SaaS 응용 프로그램 소스의 데이터 집합에는 로드 순서에 따른 종속성이 포함될 수 있습니다. 로드 우선 순위를 설정할 때 이를 고려합니다.

랜딩 데이터 작업(task)에 대한 작업(operation)

작업 메뉴에서 랜딩 데이터 작업에 대해 다음 작업을 수행할 수 있습니다.

  • 열기

    랜딩 데이터 작업을 엽니다. 데이터 작업에 대한 테이블 구조 및 세부 사항을 볼 수 있습니다.

  • 편집

    작업의 이름과 설명을 편집할 수 있습니다.

  • 삭제

    데이터 작업을 삭제할 수 있습니다.

    다음 개체는 삭제되지 않으며 수동으로 삭제해야 합니다.

    • 랜딩 지역의 데이터입니다.

  • 실행

    데이터 작업을 실행하여 데이터 복사를 시작할 수 있습니다.

    데이터 변경 내용 캡처(CDC)를 사용하여 랜딩 작업 실행

    다시 로드 및 비교로 랜딩 데이터 작업 실행

  • 중지

    실행 중인 데이터 작업의 작업을 중지할 수 있습니다. 랜딩 영역은 변경된 데이터로 업데이트되지 않습니다.

    다시 로드 일정으로 전체 로드 데이터 작업을 중지하면 현재 다시 로드만 중지됩니다. 데이터 작업 상태가 중지됨이고 활성 다시 로드 일정이 있는 경우 예약된 다음 시간에 다시 로드됩니다. 다시 로드 예약에서 다시 로드 일정을 해제해야 합니다.

  • 다시 로드

    다시 로드 및 비교 업데이트 모드에서 데이터 작업을 수동으로 다시 로드할 수 있습니다.

  • 준비

    이는 실행을 위한 작업을 준비합니다. 여기에는 다음이 포함됩니다.

    • 설계가 유효한지 유효성을 검사합니다.

    • 설계와 일치하도록 물리적 테이블과 뷰를 만들거나 변경합니다.

    • 데이터 작업에 대한 SQL 코드 생성.

    • 작업 출력 데이터 집합에 대한 카탈로그 항목 만들기 또는 변경.

    화면 하단의 준비 진행률에서 진행률을 확인할 수 있습니다.

  • 테이블 다시 만들기

    그러면 소스에서 데이터 집합이 다시 만들어집니다.

  • 예약

    전체 로드 모드에서 랜딩 데이터 작업에 대해 예약된 다시 로드를 설정할 수 있습니다. 사용자 지정할 수 있는 시간 기반 일정을 설정할 수 있습니다.

    예약된 다시 로드를 켜거나 끌 수도 있습니다.

    다시 로드를 예약하려면 데이터 작업의 공간에 대해 작동할 수 있음 역할이 있어야 합니다.

  • 데이터 저장

    이 랜딩 데이터 작업의 데이터를 사용하는 저장소 데이터 작업을 만들 수 있습니다.

메타데이터 새로 고침

작업의 설계 보기에서 소스 메타데이터의 변경 내용에 맞게 작업의 메타데이터를 새로 고칠 수 있습니다. Metadata Manager를 사용하는 SaaS 응용 프로그램의 경우 데이터 작업에서 메타데이터를 새로 고치려면 먼저 Metadata Manager를 새로 고쳐야 합니다.

정보 메모이 작업은 작업의 설계 보기에 있는 테이블에만 영향을 미칩니다.
  1. 다음 중 하나를 수행할 수 있습니다.

    • 작업의 모든 데이터 집합에 대한 메타데이터를 새로 고치려면 ...를 클릭한 다음 메타데이터 새로 고침을 클릭합니다.

    • 단일 데이터 집합에 대한 메타데이터를 새로 고치려면 데이터 집합의 데이터 집합에서 ...를 클릭한 다음 메타데이터 새로 고침을 클릭합니다.

    화면 하단의 메타데이터 새로 고침에서 메타데이터 새로 고침 상태를 확인할 수 있습니다. 정보 버튼에 커서를 올려놓으면 메타데이터가 마지막으로 새로 고침된 시기를 확인할 수 있습니다.

  2. 변경 내용을 적용할 데이터 작업을 준비합니다.

    데이터 작업을 준비하고 변경 내용을 적용하면 변경 내용이 메타데이터 새로 고침에서 제거됩니다.

변경 내용을 전파하려면 이 작업을 사용하는 저장소 작업을 준비해야 합니다.

열이 제거되면 저장소에서 기록 데이터가 손실되지 않도록 Null 값이 포함된 변환이 추가됩니다.

제한 사항

  • 동일한 시간 슬롯에서 이전에 삭제된 열이 있으면 이름 바꾸기가 삭제된 열 이름 바꾸기로 해석됩니다(동일한 데이터 유형과 데이터 길이를 갖는 경우).

     

    이전: a b c d

    이후: a c1 d

    이 예에서는 b가 삭제되고 cc1로 이름이 바뀌었으며, bc의 데이터 유형과 데이터 길이가 동일합니다.

    이는 b의 이름이 c1로 변경되고 c가 삭제된 것으로 식별됩니다.

  • 이전에 마지막 열 이름이 삭제된 경우에도 마지막 열 이름 바꾸기는 인식되지 않으며 이름이 바뀌기 전의 열도 인식되지 않습니다.

     

    이전: a b c d

    이후: a b c1

    이 예에서는 d가 삭제되고 cc1로 이름이 바뀌었습니다.

    이는 cd가 삭제되고 c1이 추가된 것으로 식별됩니다.

  • 새 열은 끝에 추가되는 것으로 가정됩니다. 다음 열과 동일한 데이터 타입으로 중간에 열이 추가되면 삭제 및 이름 바꾸기로 해석될 수 있습니다.

열 제거

기록이 활성화된 저장소 데이터 작업에서 사용되는 열을 삭제하는 경우 기록을 보존하고 데이터 손실 가능성을 방지하려면 다음 단계를 수행해야 합니다.

  1. 랜딩 데이터 작업을 중지합니다.

  2. 저장 데이터 작업을 실행하여 모든 랜딩 데이터를 읽었는지 확인합니다.

  3. 랜딩에 열을 놓습니다.

  4. 랜딩 데이터 작업을 실행합니다.

  5. 저장소에서 기본 표현식(Null 또는 기본값)을 사용하여 열을 추가하거나 열을 삭제합니다.

랜딩 영역 관리

랜딩 영역의 자동 정리는 지원되지 않습니다. 이는 성능에 영향을 미칠 수 있습니다.
랜딩 영역에서 이전 전체 로드 데이터를 수동으로 정리하는 것이 좋습니다.

  • Qlik Cloud(Amazon S3을 통해)

    전체 로드 데이터의 폴더가 여러 개인 경우 가장 최근 폴더를 제외한 모든 폴더를 삭제할 수 있습니다. 처리된 변경 데이터 파티션을 삭제할 수도 있습니다.

  • 클라우드 데이터 웨어하우스

    전체 로드를 삭제하고 처리된 테이블 레코드를 변경할 수 있습니다.

권장 사항

  • 소스 테이블의 기본 키를 업데이트할 수 있는 경우 변경 처리 조정에서 기본 키 열 옵션을 업데이트할 때 DELETE 및 INSERT를 활성화합니다.

제한 사항

  • 8000바이트보다 긴 varchar 데이터 또는 4000바이트보다 긴 Nvarchar 복제는 지원되지 않습니다.

  • 이동된 열에서는 Null 허용 여부를 직접 변경하거나 변환 규칙을 사용하여 변경하는 것이 지원되지 않습니다. 그러나 작업에서 만들어진 새 열은 기본적으로 Null이 허용됩니다.

변환에는 다음과 같은 제한이 적용됩니다.

  • 오른쪽에서 왼쪽으로 쓰는 언어가 있는 열에는 변환이 지원되지 않습니다.
  • 이름에 특수 문자(예: #, \, /, -)가 포함된 열에는 변환을 수행할 수 없습니다.

  • LOB/CLOB 데이터 유형에 대해 지원되는 유일한 변환은 대상에서 열을 삭제하는 것입니다.
  • 변환을 사용하여 열 이름을 바꾼 다음 같은 이름의 새 열을 추가하는 것은 지원되지 않습니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!