기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

데이터 소스의 랜딩 데이터

데이터 전송의 첫 번째 단계로 데이터를 렌딩합니다. 여기에는 온프레미스 데이터 소스에서 랜딩 영역으로 데이터를 지속적으로 전송하는 작업이 포함됩니다.

소스 연결을 통해 여러 데이터 소스에서 데이터를 가져올 수 있습니다. 자세한 내용은 Qlik Cloud Data Integration에서 데이터 소스에 연결를 참조하십시오.

랜딩 영역은 데이터 프로젝트를 만들 때 정의됩니다.

  • Qlik Cloud(Amazon S3을 통해)

    Amazon S3을 통해 Qlik Cloud에 데이터를 랜딩하면 데이터를 사용하여 Qlik Cloud에서 분석할 준비가 된 QVD 테이블을 생성할 수 있습니다.

  • 클라우드 데이터 웨어하우스

    클라우드 데이터 웨어하우스(예: Snowflake 또는 Azure Synapse Analytics)에 데이터를 랜딩하면 동일한 클라우드 데이터 웨어하우스에 테이블을 저장할 수 있습니다.

랜딩 데이터 작업 만들기 및 구성

랜딩 데이터 작업을 만드는 방법을 설명합니다. 데이터 파이프라인을 만드는 가장 빠른 방법은 랜딩 데이터 작업과 저장소 데이터 작업을 만들고 준비 및 실행할 준비가 된 데이터를 온보딩하는 것입니다. 자세한 내용은 데이터 온보딩을 참조하십시오.

  1. Qlik Cloud Data Integration 홈에서 새로 추가를 클릭하고 데이터 랜딩을 선택합니다.
  2. 데이터 랜딩 대화 상자에서 데이터 작업의 이름과 설명을 입력합니다.

    랜딩 데이터 작업이 만들어질 때 열려면 열기를 선택합니다.

    만들기를 클릭합니다.

  3. 소스 데이터 선택을 클릭합니다.

  4. 소스 데이터에 대한 데이터 연결을 선택하고 다음을 클릭합니다.

    왼쪽 패널의 필터를 사용하여 소스 유형, 공간 및 소유자에 대한 연결 목록을 필터링할 수 있습니다.

    아직 소스 데이터에 대한 데이터 연결이 없는 경우 연결 추가를 클릭하여 먼저 연결을 만들어야 합니다.

    지원되는 소스에 대한 연결 설정에 대한 자세한 내용은 Qlik Cloud Data Integration에서 데이터 소스에 연결을 참조하십시오.

    정보 메모다음 단계에서 테이블을 선택한 경우 온프레미스 데이터 소스에서 클라우드 데이터 소스로 또는 그 반대로 소스 데이터 연결을 변경할 수 없습니다. 동일한 유형의 다른 데이터 소스에 대한 연결만 변경할 수 있습니다.
  5. 데이터 자산에 포함할 테이블 및 뷰를 선택합니다. 연결한 소스 유형에 따라 선택 대화 상자가 다릅니다.

    테이블을 선택할 준비가 되면 마침을 클릭합니다.

    데이터 집합이 표시됩니다.

  6. 랜딩 설정을 변경할 수 있습니다. 이는 필수 사항이 아닙니다.

    • 설정을 클릭합니다.

    설정에 대한 자세한 내용은 랜딩 설정을 참조하십시오.

  7. 이제 선택한 데이터 자산 테이블의 구조와 메타데이터를 미리 볼 수 있습니다. 여기에는 명시적으로 나열된 모든 테이블과 선택 규칙과 일치하는 테이블이 포함됩니다.

    데이터 소스에서 더 많은 테이블을 추가하려면 소스 데이터 선택을 클릭합니다.

  8. 데이터 집합에서 변환을 수행하거나 데이터를 필터링하거나 열을 추가할 수 있습니다.

    자세한 내용은 데이터 집합 관리을 참조하십시오.

    정보 메모변환은 Qlik 데이터 게이트웨이 - 데이터 이동를 통해 데이터를 랜딩하는 경우에만 지원됩니다.
  9. 원하는 변환을 추가했으면 데이터 집합 유효성 검사를 클릭하여 데이터 집합의 유효성을 검사할 수 있습니다. 유효성 검사에서 오류가 발견되면 계속하기 전에 오류를 수정합니다.

    자세한 내용은 데이터 집합 유효성 검사 및 조정을 참조하십시오.

  10. 준비가 되면 준비를 클릭하여 데이터 작업을 분류하고 실행할 준비를 합니다.

  11. 데이터 작업이 준비되고 데이터 복제를 시작할 준비가 되면 실행을 클릭합니다.

이제 복제가 시작되고 모니터링에서 진행률을 볼 수 있습니다. 자세한 내용은 랜딩 작업 모니터링를 참조하십시오.

Qlik 데이터 게이트웨이 - 데이터 이동 소스 연결에서 데이터 선택

특정 테이블 또는 보기를 선택하거나 선택 규칙을 사용하여 테이블 그룹을 포함하거나 제외할 수 있습니다.

정보 메모선택 항목에 보기가 포함된 경우 CDC가 지원되지 않습니다.

%를 와일드카드로 사용하여 스키마 및 테이블에 대한 선택 기준을 정의합니다.

  • %.%는 모든 스키마의 모든 테이블을 정의합니다.

  • Public.%Public 스키마의 모든 테이블을 정의합니다.

선택 기준은 선택에 따라 미리 보기를 제공합니다.

이제 다음 중 하나를 수행할 수 있습니다.

  • 선택 기준에 따라 테이블 그룹을 포함하거나 제외하는 규칙을 만듭니다.

    선택 기준에서 규칙 추가를 클릭하여 규칙을 만들고 포함 또는 제외를 선택합니다.

    선택 규칙에서 규칙을 볼 수 있습니다.

  • 하나 이상의 데이터 집합을 선택하고 선택한 데이터 집합 추가를 클릭합니다.

    명시적으로 선택된 데이터 집합에서 추가된 데이터 집합을 볼 수 있습니다.

선택 규칙은 현재 테이블 및 뷰 집합에만 적용되며 향후에 추가되는 테이블 및 뷰에는 적용되지 않습니다.

전체 로드 및 CDC로 랜딩 작업 실행

랜딩 작업이 준비되면 실행할 수 있습니다. 그러면 온프레미스 데이터 소스에서 랜딩 영역으로 데이터를 전송하는 복제가 시작됩니다.

  • 실행을 클릭하여 랜딩 데이터를 시작합니다.

이제 복제가 시작되고 데이터 자산은 실행 중 상태가 됩니다. 먼저 전체 데이터 소스를 복사한 다음 변경 내용을 추적합니다. 즉, 변경 사항이 발견되면 지속적으로 추적 및 전송됩니다. 이렇게 하면 랜딩 영역의 랜딩 데이터가 최신 상태로 유지됩니다.

Qlik Cloud Data Integration 홈에서 상태, 랜딩 데이터의 업데이트 날짜와 시간 및 오류 테이블 수를 볼 수 있습니다. 데이터 자산을 열고 테이블 탭을 선택하여 테이블에 대한 기본 메타데이터 정보를 볼 수도 있습니다.

모니터링 탭을 열어 진행률을 자세히 모니터링할 수 있습니다. 자세한 내용은 랜딩 작업 모니터링를 참조하십시오.

모든 테이블이 로드되고 첫 번째 변경 집합이 처리되면 데이터 자산 카드의 데이터가 다음으로 업데이트됩니다는 해당 시간까지의 소스 변경이 데이터 작업에서 사용 가능함을 나타냅니다.

전체 로드로 랜딩 데이터 작업 실행

랜딩 데이터 작업이 준비되면 데이터를 복사할 수 있습니다.

  • 실행을 클릭하여 전체 로드를 시작합니다.

이제 데이터 복사가 시작되고 데이터 작업이 실행 중 상태가 됩니다. 전체 데이터 소스가 복사되면 상태가 완료됨입니다.

Qlik Cloud Data Integration 홈에서 상태, 랜딩 데이터의 업데이트 날짜와 시간 및 오류 테이블 수를 볼 수 있습니다. 데이터 자산을 열고 테이블 탭을 선택하여 테이블에 대한 기본 메타데이터 정보를 볼 수도 있습니다.

모니터링 탭을 열어 진행률을 자세히 모니터링할 수 있습니다. 자세한 내용은 랜딩 작업 모니터링를 참조하십시오.

모든 테이블이 로드되면 데이터 작업 카드의 데이터가 다음으로 업데이트됩니다는 해당 시간까지의 소스 변경 내용이 데이터 작업에서 사용 가능함을 나타냅니다. 그러나 데이터 작업의 일부 테이블은 로드를 시작한 시기에 따라 나중에 업데이트될 수 있습니다. 즉, 데이터 일관성이 보장되지 않습니다. 예를 들어 로드가 08:00에 시작되어 4시간이 걸렸다면 로드가 완료될 때 데이터가 다음으로 업데이트됩니다에 08:00이 표시됩니다. 그러나 11.30에 다시 로드를 시작한 테이블에는 08:00에서 11:30 사이에 발생한 소스 변경 내용이 포함됩니다.

데이터가 다음으로 업데이트됩니다에 로드된 테이블만 반영됩니다. 다시 로드가 실패한 테이블과 관련하여 아무 것도 나타내지 않습니다. 클라우드 대상에서 모든 테이블에 오류가 있는 상태에서 다시 로드가 완료되면 필드가 비어 있습니다.

전체 로드를 사용할 때 데이터 다시 로드

CDC 없이 전체 로드를 사용하는 경우 데이터를 다시 로드하여 데이터 소스와 함께 최신 상태로 유지해야 합니다.

  • 실행을 클릭하여 데이터를 수동으로 다시 로드합니다.

  • 예약된 다시 로드를 설정합니다.

전체 로드 랜딩 데이터 작업 예약

데이터 작업 공간에서 작동 가능 역할이 있는 경우 랜딩 데이터 작업에 대한 주기적 다시 로드를 예약할 수 있습니다. 일정이 활성화되려면 데이터 작업 상태가 준비됨 이상이어야 합니다.

  • 데이터 작업에서 ...을 클릭하고 예약을 선택합니다.

    시간 기반 일정을 설정할 수 있습니다.

정보 메모예약된 다시 로드가 시작되려고 할 때 데이터 작업이 계속 다시 로드되는 경우 예약된 다시 로드는 다음 예약된 다시 로드 이벤트까지 건너뜁니다.

랜딩 작업 모니터링

모니터링을 클릭하여 랜딩 데이터 작업 만들기의 상태 및 진행률을 모니터링할 수 있습니다. 사용자는 온프레미스 소스에서 데이터를 랜딩할 때 전체 로드 또는 전체 로드 및 CDC 모드를 선택할 수 있습니다. 다음 섹션에서는 모니터링 탭에서 사용할 수 있는 전체 및 변경 처리 로드 유형 세부 정보를 자세히 설명합니다.

전체 로드 모니터링 세부 정보

전체 로드 상태에서 랜딩 작업에 대해 다음 세부 정보를 볼 수 있습니다.

  • 대기 중 - 현재 대기 중인 테이블 수입니다.

  • 로드 중 - 현재 로드 중인 테이블 수입니다.

  • 완료됨 - 완료된 테이블 수입니다.

  • 오류 - 오류가 발생한 테이블 수입니다.

랜딩 작업의 각 테이블에 대해 다음 세부 정보를 볼 수 있습니다.

  • 이름

    랜딩 작업에 있는 대상 테이블의 이름입니다.

  • 상태

    테이블 상태는 다음 중 하나입니다. 대기됨, 로드 중, 완료됨 또는 오류.

  • 시작됨

    로드가 시작된 시간입니다.

  • 종료됨

    로드가 종료된 시간입니다.

  • 기간

    hh:mm:ss 서식의 로드 기간입니다.

  • 레코드 수

    로드 중에 복제된 레코드 수입니다.

  • 메시지

    로드가 성공적으로 처리되지 않은 경우 오류 메시지를 표시합니다.

변경 처리 모니터링 세부 정보

랜딩 작업에 대한 다음 CDC 세부 정보를 보고 CDC 상태에서 변경 처리를 모니터링할 수 있습니다.

  • 변경 내용 수신 중 - 소스에 존재하고 처리 대기 중인 변경 내용의 수입니다. 누적된 횟수와 적용 중인 항목을 확인할 수 있습니다.

  • 변경 내용이 처리됨 - (지난 24시간 동안) 처리 및 적용된 변경 내용의 수입니다.

  • 처리량 - 평균 목표 처리량(KB/초)입니다. 이는 변경 레코드가 대상 종료 지점에 로드되는 속도를 나타냅니다.

  • 지연 - 데이터 자산의 현재 지연 시간(hh:mm:ss)입니다. 이 기간은 소스에서 변경 내용을 사용할 수 있을 때부터 변경 내용이 적용되고 대상 또는 랜딩 자산에서 사용할 수 있을 때까지의 시간을 나타냅니다.

랜딩 작업의 각 테이블에 대해 다음 세부 정보를 볼 수 있습니다.

  • 이름

    랜딩 자산에 있는 대상 테이블의 이름입니다.

  • 상태

    테이블 상태는 다음 중 하나입니다. 변경 내용 누적 중 또는 오류.

  • 마지막으로 처리됨

    테이블이 마지막으로 변경된 날짜 및 시간입니다.

  • 삽입

    삽입 작업 수입니다.

  • 업데이트

    업데이트 작업 수입니다.

  • 삭제

    삭제 작업 수입니다.

  • 메시지

    테이블 변경이 실패하고 처리되지 않으면 오류 메시지를 표시합니다.

온프레미스 소스에서 데이터를 랜딩하고 전체 로드 모드를 선택한 경우 랜딩 자산이 실행일 때 테이블이 자동으로 다시 로드됩니다.

온프레미스 소스에서 데이터를 랜딩하고 전체 로드 및 CDC 모드를 선택한 경우 테이블은 초기 전체 로드 후 새 데이터로 계속 업데이트됩니다.

랜딩 설정

랜딩 데이터 작업에 대한 속성을 설정할 수 있습니다.

  • 설정을 클릭합니다.

일반 설정

  • 데이터베이스

    대상에서 사용할 데이터베이스입니다.

    정보 메모이 옵션은 데이터를 Qlik Cloud(Amazon S3을 통해)에 랜딩할 때 사용할 수 없습니다.
  • 데이터 자산 스키마

    랜딩 데이터 자산 스키마의 이름을 변경할 수 있습니다. 기본 이름은 랜딩입니다.

    정보 메모이 옵션은 데이터를 Qlik Cloud(Amazon S3을 통해)에 랜딩할 때 사용할 수 없습니다.
  • 랜딩 모드

    두 가지 다른 모드에서 데이터를 랜딩할 수 있습니다. 모드는 데이터 프로젝트를 만들 때 설정됩니다. 랜딩 데이터 자산이 준비되면 모드를 변경할 수 없습니다.

    정보 메모데이터 소스가 CDC를 지원하지 않는 경우 이 옵션은 비활성화됩니다.
    • 전체 로드 및 CDC

      랜딩은 전체 로드로 시작됩니다. 랜딩된 데이터는 CDC(데이터 변경 내용 캡처) 기술을 사용하여 최신 상태로 유지됩니다. CDC는 일부 데이터 소스에서는 지원되지 않을 수 있습니다. CDC는 열 이름 바꾸기 또는 메타데이터 변경과 같은 DDL 작업을 캡처하지 않습니다.

    • 전체 로드

      랜딩은 소스에서만 전체 로드를 수행합니다. 이는 소스가 CDC를 지원하지 않지만 지원되는 모든 데이터 소스와 함께 사용할 수 있는 경우에 유용합니다.

      주기적으로 다시 로드를 예약할 수 있습니다.

  • 데이터 이동 게이트웨이 사용 시 프록시 서버

    데이터 이동 게이트웨이가 클라우드 데이터 웨어하우스 및 저장소 영역에 연결할 때 프록시 서버를 사용하도록 선택할 수 있습니다.

    프록시 서버를 사용하도록 데이터 이동 게이트웨이를 구성하는 방법에 대한 자세한 내용은 Qlik Cloud 테넌트 및 프록시 서버 설정을 참조하십시오.

    • 프록시를 사용하여 클라우드 데이터 웨어하우스에 연결

      정보 메모Snowflake, Google BigQuery 및 Databricks를 사용할 때 사용할 수 있습니다.
    • 프록시를 사용하여 저장소에 연결

      정보 메모Azure Synapse Analytics, Amazon Redshift 및 Databricks를 사용할 때 사용할 수 있습니다.
  • 사용할 폴더

    데이터를 랜딩할 때 사용할 폴더를 선택할 수 있습니다.

    정보 메모이 옵션은 데이터를 Qlik Cloud(Amazon S3을 통해)에 랜딩할 때만 사용할 수 있습니다.
    • 기본 폴더

      그러면 기본 이름이 <프로젝트 이름>/<데이터 작업 이름>인 폴더가 만들어집니다.

    • 루트 폴더

      저장소의 루트 폴더에 데이터를 저장합니다.

    • 폴더

      사용할 폴더 이름을 지정합니다.

런타임 설정

  • LOB(대형 개체)

    LOB 열을 포함하도록 선택하고 최대 LOB 크기를 설정할 수 있습니다. 최대 크기보다 큰 LOB는 잘립니다.

    정보 메모 Azure Synapse Analytics를 대상으로 사용할 경우 최대 LOB 크기는 7MB를 초과할 수 없습니다.
  • 병렬 실행

    전체 로드에 대한 최대 데이터 연결 수를 1에서 5 사이의 숫자로 설정할 수 있습니다.

  • 변경 처리 간격

    소스에서 변경 내용을 처리하는 간격을 설정할 수 있습니다.

    정보 메모이 옵션은 데이터를 Qlik Cloud(Amazon S3을 통해)에 랜딩할 때만 사용할 수 있습니다.

랜딩 데이터 작업(task)에 대한 작업(operation)

작업 메뉴에서 랜딩 데이터 작업에 대해 다음 작업을 수행할 수 있습니다.

  • 열기

    랜딩 데이터 작업을 엽니다. 데이터 작업에 대한 테이블 구조 및 세부 사항을 볼 수 있습니다.

  • 편집

    작업의 이름과 설명을 편집하고 태그를 추가할 수 있습니다.

  • 삭제

    데이터 작업을 삭제할 수 있습니다.

    다음 개체는 삭제되지 않으며 수동으로 삭제해야 합니다.

    • 랜딩 지역의 데이터입니다.

  • 실행

    데이터 작업을 실행하여 데이터 복사를 시작할 수 있습니다.

    전체 로드 및 CDC로 랜딩 작업 실행

    전체 로드로 랜딩 데이터 작업 실행

  • 중지

    실행 중인 데이터 작업의 작업을 중지할 수 있습니다. 랜딩 영역은 변경된 데이터로 업데이트되지 않습니다.

    다시 로드 일정으로 전체 로드 데이터 작업을 중지하면 현재 다시 로드만 중지됩니다. 데이터 작업 상태가 중지됨이고 활성 다시 로드 일정이 있는 경우 예약된 다음 시간에 다시 로드됩니다. 다시 로드 예약에서 다시 로드 일정을 해제해야 합니다.

  • 다시 로드

    전체 로드 모드에서 데이터 작업을 수동으로 다시 로드할 수 있습니다.

  • 준비

    이는 실행을 위한 작업을 준비합니다. 여기에는 다음이 포함됩니다.

    • 설계가 유효한지 유효성을 검사합니다.

    • 설계와 일치하도록 물리적 테이블과 뷰를 만들거나 변경합니다.

    • 데이터 작업에 대한 SQL 코드 생성.

    • 작업 출력 데이터 집합에 대한 카탈로그 항목 만들기 또는 변경.

  • 테이블 다시 만들기

    그러면 소스에서 데이터 집합이 다시 만들어집니다.

    또한 이 데이터 작업을 사용하는 모든 다운스트림 데이터 작업을 다시 만들어야 합니다.

  • 예약

    전체 로드 모드에서 랜딩 데이터 작업에 대해 예약된 다시 로드를 설정할 수 있습니다. 사용자 지정할 수 있는 시간 기반 일정을 설정할 수 있습니다.

    예약된 다시 로드를 켜거나 끌 수도 있습니다.

    다시 로드를 예약하려면 데이터 작업의 공간에 대해 작동할 수 있음 역할이 있어야 합니다.

  • 데이터 저장

    이 랜딩 데이터 작업의 데이터를 사용하는 저장소 데이터 작업을 만들 수 있습니다.

랜딩 영역 관리

랜딩 영역의 자동 정리는 지원되지 않습니다. 이는 성능에 영향을 미칠 수 있습니다.
랜딩 영역에서 이전 전체 로드 데이터를 수동으로 정리하는 것이 좋습니다.

  • Qlik Cloud(Amazon S3을 통해)

    전체 로드 데이터의 폴더가 여러 개인 경우 가장 최근 폴더를 제외한 모든 폴더를 삭제할 수 있습니다. 처리된 변경 데이터 파티션을 삭제할 수도 있습니다.

  • 클라우드 데이터 웨어하우스

    전체 로드를 삭제하고 처리된 테이블 레코드를 변경할 수 있습니다.

제한 사항

  • 자격 증명, SSL 및 프록시와 같은 소스 및 랜딩 연결 속성은 카탈로그화될 때만 랜딩으로 전파됩니다. 소스 또는 랜딩 연결 자격 증명이 변경되면 중지, 재개 또는 복구 시 새 자격 증명이 랜딩으로 전파되지 않습니다. 이는 랜딩이 실패할 수 있으며 복구하기 위해 다시 만들어야 함을 의미합니다.

  • 8000바이트보다 긴 varchar 데이터 또는 4000바이트보다 긴 Nvarchar 복제는 지원되지 않습니다.

자세한 정보

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!