데이터 파이프라인 프로젝트 만들기

데이터 작업을 사용하여 프로젝트 내에서 모든 데이터 통합을 수행하는 데이터 파이프라인을 만들 수 있습니다. 온보딩은 온프레미스 또는 클라우드에 있는 데이터 소스에서 프로젝트로 데이터를 이동하고 해당 데이터를 즉시 사용할 수 있는 데이터 집합에 저장합니다. 데이터를 데이터 웨어하우스 또는 Qlik 오픈 레이크하우스로 온보딩할 수 있습니다.

데이터를 데이터 웨어하우스로 온보딩할 때, 변환을 수행하고 데이터 마트를 만들어 생성 및 변환된 데이터 집합을 활용할 수 있습니다. 데이터 파이프라인은 단순한 선형일 수도 있고 여러 데이터 소스를 사용하고 많은 출력을 생성하는 복잡한 파이프라인일 수도 있습니다.

데이터 파이프라인 프로젝트는 SaaS 응용 프로그램 미리 보기 커넥터를 지원하지 않습니다. 커넥터가 미리 보기 상태에 있는지 확인하려면 커넥터 도움말을 참조하십시오.

모든 데이터 작업은 해당 작업이 속한 프로젝트와 동일한 공간에 만들어집니다.

또한 계보를 확인하여 원본 소스로의 데이터 및 데이터 변환을 추적하고, 데이터 작업, 데이터 집합 또는 필드 종속성에 대한 미래 지향적인 다운스트림 보기를 보여 주는 영향 분석을 수행할 수 있습니다. 자세한 내용은 데이터 통합에서 계보 및 영향 분석 작업을 참조하십시오.

데이터 웨어하우스로 데이터 온보딩

여기에는 데이터를 스테이징 영역에 랜딩한 다음 데이터 집합을 클라우드 데이터 웨어하우스에 저장하는 작업이 포함됩니다. 랜딩 및 저장소 데이터 작업은 단일 단계로 만들어집니다. 필요한 경우 별도의 작업으로 랜딩 및 저장소를 수행할 수도 있습니다.

Onboarding data to Qlik 오픈 레이크하우스

Qlik 오픈 레이크하우스 파이프라인 프로젝트를 생성하여 지원되는 모든 소스에서 Iceberg 오픈 테이블 형식으로 데이터를 복사합니다. Mirror 데이터 작업을 사용하여 데이터를 중복하지 않고 Snowflake에서 테이블에 액세스하고 쿼리할 수 있습니다.

데이터 플랫폼에 이미 있는 데이터 등록

데이터 플랫폼에 이미 존재하는 데이터를 등록하여 데이터를 조정 및 변환하고 데이터 마트를 만듭니다. 이를 통해 Qlik Talend Data Integration 이외의 다른 도구(예: Qlik Replicate 또는 Stitch)에 온보딩된 데이터를 사용할 수 있습니다.

데이터 변환

규칙 및 사용자 지정 SQL을 기반으로 온보딩된 데이터에 대해 재사용 가능한 행 수준 변환을 만듭니다. 이렇게 하면 데이터 변환 작업이 만들어집니다.

데이터 마트 만들기 및 관리

데이터 집합을 활용하기 위해 데이터 마트를 만듭니다. 이렇게 하면 데이터 마트 데이터 작업이 만들어집니다.

지식 마트 만들기

구조화된 데이터와 구조화되지 않은 데이터를 벡터 데이터베이스에 포함하고 저장하기 위해 지식 마트를 만듭니다. 이렇게 하면 지식 마트 데이터 작업이 만들어집니다.

대상 데이터 플랫폼

프로젝트는 모든 출력의 대상으로 사용되는 데이터 플랫폼과 연결됩니다.

지원되는 데이터 플랫폼에 대한 자세한 내용은 대상에 대한 연결 설정를 참조하십시오.

프로젝트 소개 비디오

프로젝트 만들기 예

다음 예에서는 온보딩 데이터를 수행하고 데이터를 변환하고 데이터 마트를 만듭니다. 이를 통해 더 많은 데이터 소스를 온보딩하여 확장할 수 있는 간단한 선형 데이터 파이프라인을 만들고, 더 많은 변환을 만들고, 만들어진 데이터 작업을 데이터 마트에 추가할 수 있습니다.

새 프로젝트를 만듭니다.

Data Integration > 프로젝트에서 새로 만들기 > 프로젝트를 클릭합니다.
1. 프로젝트의 이름과 설명을 입력합니다.
  
  정보 메모나중에 프로젝트에 대한 버전 제어를 활성화하는 경우, 버전 제어를 사용하는 동안에는 프로젝트 이름을 변경할 수 없습니다.
2. 프로젝트를 만들 공간을 선택합니다. 모든 데이터 작업은 해당 작업이 속한 프로젝트 공간에 만들어집니다.
3. 사용 사례에서 데이터 파이프라인을 선택합니다.
4. 프로젝트에서 사용할 데이터 플랫폼을 선택합니다.
5. 프로젝트에서 사용하려는 클라우드 데이터 웨어하우스에 대한 연결을 선택합니다. 이는 데이터 파일을 랜딩하고 데이터 집합과 보기를 저장하는 데 사용됩니다. 아직 연결을 준비하지 않은 경우 새로 만들기로 연결을 만듭니다.
  - Google BigQuery, Databricks 또는 Microsoft Azure Synapse Analytics를 데이터 플랫폼으로 선택한 경우에도 스테이징 영역에 연결해야 합니다.
  - Snowflake를 데이터 플랫폼으로 선택한 경우 데이터를 클라우드 저장소에 랜딩할 수 있습니다. 레이크하우스에 랜딩 데이터을 참조하십시오.
  - Qlik Cloud를 데이터 플랫폼으로 선택한 경우:
    
    Qlik에서 관리하는 저장소 또는 자체 관리형 Amazon S3 버킷에 데이터를 저장할 수 있습니다. 자체 Amazon S3 버킷을 사용하려면 해당 버킷에 대한 연결을 선택해야 합니다.
    
    두 경우 모두 Amazon S3 스테이징 영역에 대한 연결도 선택해야 합니다. 이전 단계에서 정의한 것과 동일한 버킷을 사용하는 경우 스테이징을 위해 버킷의 다른 폴더를 사용해야 합니다.
6. 만들기를 클릭합니다.
  
  프로젝트가 만들어지고, 데이터 작업을 추가하여 데이터 파이프라인을 만들 수 있습니다.
데이터 온보딩

프로젝트에서 만들기를 클릭한 다음 데이터 온보딩을 클릭합니다.

자세한 내용은 데이터 웨어하우스로 데이터 온보딩을 참조하십시오.

이렇게 하면 랜딩 데이터 작업과 저장소 데이터 작업이 만들어집니다. 데이터 복제를 시작하려면 다음을 수행해야 합니다.
- 랜딩 데이터 작업을 준비하고 실행합니다.
  
  자세한 내용은 데이터 소스의 랜딩 데이터을 참조하십시오.
- 저장소 데이터 작업을 준비하고 실행합니다.
  
  자세한 내용은 데이터 집합 저장을 참조하십시오.
데이터 변환

저장소 데이터 작업이 만들어지면 프로젝트로 돌아갑니다. 이제 만들어진 데이터 집합에서 변환을 수행할 수 있습니다.

저장소 데이터 작업에서 ...을 클릭하고 데이터 변환을 선택하여 이 저장소 데이터 작업을 기반으로 변환 데이터 작업을 만듭니다. 변환에 대한 지침은 데이터 변환을 참조하십시오.
데이터 마트 만들기

저장소 데이터 작업 또는 변환 데이터 작업을 기반으로 데이터 마트를 만들 수 있습니다.

데이터 작업에서 ...을 클릭하고 데이터 마트 만들기를 선택하여 데이터 마트 데이터 작업을 만듭니다. 데이터 마트 만들기에 대한 지침은 다음을 참조하십시오.

데이터 마트 만들기 및 관리

예를 들어, 저장 및 변환된 데이터 집합과 데이터 마트의 전체 로드를 수행한 경우 분석 앱에서 사용할 수 있습니다. 분석 앱 만들기에 대한 자세한 내용은 Data Integration에서 만들어진 데이터 집합을 사용하여 분석 앱 만들기를 참조하십시오.

더 많은 데이터 소스를 온보딩하여 데이터 파이프라인을 확장하고 변환 또는 데이터 마트에서 결합할 수도 있습니다.

프로젝트 간 파이프라인 구축

한 작업이 다른 프로젝트의 작업을 사용할 수 있는 프로젝트 간 파이프라인을 구축할 수 있습니다. 이를 통해 여러 가지 가능한 방법으로 분할을 달성할 수 있습니다.

각 조직 단위에 대해 별도의 데이터 이동 파이프라인을 만들고 단일 데이터 마트 파이프라인에서 출력을 사용할 수 있습니다.
단일 데이터 이동 파이프라인을 만들고 여러 변환 파이프라인에서 출력을 사용할 수 있습니다.

어떠한 경우에도 데이터 파이프라인 프로젝트에서 순환 작업 종속성을 만들지 마십시오. 순환적 작업 종속성은 안정성, 성능, 유지 관리성에 심각한 영향을 미칩니다.

변환 및 데이터 마트 작업은 다른 프로젝트에 있는 저장소 및 변환 작업을 사용할 수 있습니다.

소비되는 프로젝트의 공간에서 최소한 사용할 수 있음 역할이 있어야 합니다.
두 프로젝트는 동일한 데이터 플랫폼에 있어야 합니다.

모든 작업 데이터 집합은 다운스트림 프로젝트와 공유됩니다. 즉, 데이터 집합 분리를 달성하려면 변환 작업을 만들어 사용된 프로젝트에서 데이터 집합을 필터링해야 합니다.

프로젝트 보기에서는 다른 프로젝트에서 사용되는 작업과 현재 프로젝트에서 사용되는 다른 프로젝트의 작업을 볼 수 있습니다. 현재 프로젝트 외부의 모든 작업은 회색으로 표시됩니다. 종속성은 이름이 아닌 참조에 의한 것이므로 참조를 끊지 않고도 작업의 이름을 바꿀 수 있습니다. 이는 소비되는 작업을 삭제하고 같은 이름으로 새 작업을 만드는 경우 참조가 계속 끊어진다는 것을 의미합니다.

기존 데이터를 재사용하는 방법은 여러 가지가 있습니다.

새 프로젝트 만들기

프로젝트를 만든 후 다른 프로젝트의 데이터 사용 옵션을 선택합니다.

다른 파이프라인에서 온보딩된 데이터를 사용하여 변환이나 데이터 마트를 만들 수 있습니다.
변환 작업이나 데이터 마트 작업에서는 소스 데이터 선택에서 다른 프로젝트의 데이터를 선택할 수 있습니다.

소스 데이터를 선택할 때 프로젝트를 선택한 다음 데이터 작업을 선택하여 사용할 수 있는 데이터 집합을 확인합니다.

이 프로젝트의 작업을 사용하는 다른 프로젝트의 작업을 표시할지 여부를 선택할 수 있습니다.

레이어를 클릭하고 프로젝트 간 출력을 켜거나 끕니다.

현재 프로젝트 외부의 모든 작업은 회색으로 표시됩니다.

버전 제어 제한 사항

여러 프로젝트에 걸쳐 있는 파이프라인이 여러 프로젝트로 분할되면 버전 제어를 사용할 때 복잡성이 증가합니다. 이러한 예에서 Project1은 Project2에 의해 사용됩니다.

Project2는 Project1의 기본 분기만 사용할 수 있지만 Project2 자체는 다른 분기에 있을 수 있습니다.
Project1에 대한 분기를 만들 수 있지만, 분기 버전은 Project2에서 사용된다는 것을 보여 주지 않습니다.
Project2를 main에 병합할 수 있지만 종속성은 여전히 존재합니다.

모범 사례

소비된 프로젝트의 작업이 적어도 준비되었는지 확인하여 유효한지 확인합니다.
테넌트 간에 프로젝트를 내보내고 가져올 계획이라면, 테넌트 내의 공간과 프로젝트의 이름을 동일하게 유지하면 더 쉬울 것입니다. 이름이 다르면 프로젝트를 가져올 때 프로젝트와 작업을 매핑해야 합니다.
내보내기 및 가져오기를 사용하여 데이터 플랫폼을 변경하려면 종속성이 있는 모든 프로젝트가 동일한 플랫폼에 있어야 합니다.

안전하고 쉽게 플랫폼을 변경하려면 다음 단계를 따르십시오. 이 예에서 소비되는 프로젝트를 Consumed라고 하며, Consumed에서 읽는 프로젝트를 Consumer라고 합니다.
1. Consumed 및 Consumer를 내보냅니다.
2. Consumed를 Consumed_New로 가져와서 새 데이터 플랫폼으로 변경합니다.
3. Consumer를 Consumer_New로 가져오고, Consumed_New와 동일한 데이터 플랫폼으로 변경하고, 소스 프로젝트(Consumed)를 Consumed_New로 바꿉니다.

데이터 파이프라인 프로젝트의 작업

프로젝트 작업과 마찬가지로 데이터 작업에 사용할 수 있는 동일한 작업을 수행할 수 있습니다. 이를 통해 데이터 파이프라인에서 작업을 조정할 수 있습니다.

프로젝트당 한 번에 하나의 프로젝트 작업만 수행할 수 있습니다.

일정 켜기 및 끄기
설계 작업 수행
데이터 작업 실행 시작 및 중지
데이터 작업 삭제

작업을 클릭하면 진행 중인 작업의 상태나 최근에 수행된 작업을 볼 수 있습니다.

작업 중지를 클릭하여 진행 중인 작업을 중지할 수 있습니다. 진행 중인 데이터 작업은 중지되지 않지만 아직 시작되지 않은 작업은 취소됩니다.

일정 켜기 및 끄기

프로젝트 수준에서 데이터 작업의 일정을 제어할 수 있습니다.

...를 클릭한 다음 일정을 클릭합니다.

모든 데이터 작업 또는 선택한 작업에 대한 일정을 켜거나 끌 수 있습니다. 일정이 정의된 작업만 표시됩니다.

정보 메모데이터 플랫폼이 Qlik Cloud인 프로젝트에는 이 옵션을 사용할 수 없습니다.

개별 데이터 작업 예약에 대한 자세한 내용은 다음을 참조하십시오.

설계 작업 수행

프로젝트의 모든 데이터 작업 또는 선택한 작업에 대해 설계 작업을 수행할 수 있습니다. 이렇게 하면 각 작업에서 개별적으로 설계 작업을 수행하는 대신 프로젝트의 데이터 집합 작업을 더 쉽게 제어할 수 있습니다.

유효성 검사

유효성 검사를 클릭하여 모든 작업 또는 선택한 작업의 유효성을 검사합니다. 마지막 유효성 검사 작업 이후에 변경된 데이터 작업이 미리 선택됩니다.

데이터 작업은 파이프라인 순서로 유효성 검사됩니다.
준비

준비를 클릭하여 모든 작업 또는 선택한 작업을 준비합니다. 마지막 준비 작업 이후에 변경된 데이터 작업이 미리 선택됩니다.

데이터 플랫폼에서 지원하지 않는 구조 변경이 필요한 데이터 집합을 다시 만들도록 선택할 수 있습니다. 이로 인해 데이터가 손실될 수 있습니다.
다시 만들기

...를 클릭한 다음 테이블 다시 만들기를 클릭하면 모든 작업이나 선택한 작업에 대한 소스에서 데이터 집합을 다시 만들 수 있습니다.

정보 메모개별 테이블에 문제가 있는 경우 테이블을 다시 만드는 대신 먼저 테이블을 다시 로드해 보는 것이 좋습니다. 테이블을 다시 만들면 기록 데이터가 손실될 수 있습니다. 주요 변경 내용이 있는 경우 데이터를 다시 로드하기 위해 다시 만들어진 데이터 작업을 사용하는 다운스트림 데이터 작업도 준비해야 합니다.

데이터 작업 실행

작업을 개별적으로 실행하는 대신 프로젝트 또는 선택한 작업에 대해 모든 데이터 작업의 실행을 시작할 수 있습니다. 예를 들어, 시간 기반 일정으로 모든 작업을 실행할 수 있습니다. 이렇게 하면 이벤트 기반 일정으로 다운스트림 작업이 시작됩니다.

실행

모든 작업 또는 선택한 작업의 실행을 시작하려면 실행을 클릭합니다. 이렇게 하면 선택한 모든 작업의 실행이 시작되고 실행이 시작되는 즉시 완료됩니다.

실행할 준비가 된 모든 작업 중에서 선택할 수 있습니다. 시간 기반 일정이 있는 작업과 CDC를 사용하는 작업이 미리 선택됩니다. 이벤트 기반 일정이 있는 작업은 처리할 데이터가 있을 때 실행되므로 미리 선택되지 않습니다.

데이터 플랫폼으로 Qlik Cloud가 있는 프로젝트에서 모든 랜딩 및 저장소 작업이 미리 선택됩니다.

정보 메모모든 데이터 작업은 병렬로 실행됩니다. 이는 종속성 검사로 인해 일부 작업이 실행되지 않을 수 있음을 의미합니다.
중지

모든 작업 또는 선택한 작업을 중지하려면 중지를 클릭합니다.

실행 중인 작업에서 선택할 수 있습니다.

데이터 작업 삭제

삭제를 클릭하여 프로젝트의 모든 데이터 작업 또는 선택한 작업을 삭제합니다.

프로젝트 보기 변경

프로젝트에는 두 가지 다른 보기가 있습니다. 파이프라인 보기를 클릭하여 보기 간에 전환할 수 있습니다.

파이프라인 보기는 데이터 작업의 데이터 흐름을 보여 줍니다.

레이어를 클릭하여 데이터 작업에 대해 표시할 정보의 양을 선택할 수 있습니다. 다음 정보를 설정하거나 해제합니다.
- 상태
- 데이터 최신성
- 일정
- 프로젝트 간 출력
  
  이렇게 하면 이 프로젝트의 작업을 사용하는 다른 프로젝트의 작업이 표시됩니다. 현재 프로젝트 외부의 모든 작업은 회색으로 표시됩니다.
카드 보기에는 데이터 작업에 대한 정보가 있는 카드 보기가 표시됩니다.

자산 유형 및 소유자를 필터링할 수 있습니다.

데이터 보기

데이터 파이프라인을 설계할 때 데이터 샘플을 보고 데이터의 형태의 확인하고 유효성 검사할 수 있습니다.

다음 권한이 필요합니다.

관리의 테넌트 수준에서 데이터 보기가 활성화되었습니다.

설정 > 기능 제어 > 데이터 통합에서 데이터 보기를 활성화합니다.
연결이 있는 공간에서 데이터 볼 수 있음 역할이 할당됩니다.
프로젝트가 있는 공간에서 볼 수 있음 역할이 할당됩니다.

데이터 파이프라인 보기에서 샘플 데이터를 보려면 다음을 수행합니다.

파이프라인 보기 하단의 미리 보기 배너에서 을 클릭합니다.
데이터를 미리 볼 데이터 작업을 선택합니다.

데이터 샘플이 표시됩니다. 행 수를 사용하여 샘플에 포함할 데이터 행 수를 설정할 수 있습니다.

프로젝트 내보내기 및 가져오기

프로젝트를 재구성하는 데 필요한 모든 것이 포함된 JSON 파일로 프로젝트를 내보낼 수 있습니다. 내보낸 JSON 파일은 동일한 테넌트 또는 다른 테넌트에서 가져올 수 있습니다. 예를 들어, 이를 사용하여 한 테넌트에서 다른 테넌트로 프로젝트를 이동하거나 프로젝트의 백업 복사본을 만들 수 있습니다.

자세한 내용은 데이터 파이프라인 내보내기 및 가져오기을 참조하십시오.