데이터 파이프라인 만들기
데이터 작업을 사용하여 프로젝트 내에서 모든 데이터 통합을 수행하는 데이터 파이프라인을 만들 수 있습니다. 온보딩은 온프레미스 또는 클라우드에 있는 데이터 소스에서 프로젝트로 데이터를 이동하고 바로 사용할 수 있는 데이터 집합에 데이터를 저장합니다. 또한 변환을 수행하고 데이터 마트를 만들어 생성 및 변환된 데이터 집합을 활용할 수 있습니다. 데이터 파이프라인은 단순한 선형일 수도 있고 여러 데이터 소스를 사용하고 많은 출력을 생성하는 복잡한 파이프라인일 수도 있습니다.
모든 데이터 작업은 해당 작업이 속한 프로젝트와 동일한 공간에 만들어집니다.
또한 계보를 확인하여 원본 소스로의 데이터 및 데이터 변환을 추적하고, 데이터 작업, 데이터 집합 또는 필드 종속성에 대한 미래 지향적인 다운스트림 보기를 보여 주는 영향 분석을 수행할 수 있습니다. 자세한 내용은 데이터 통합에서 계보 및 영향 분석 작업을 참조하십시오.
데이터 온보딩
여기에는 데이터를 스테이징 영역에 랜딩한 다음 데이터 집합을 클라우드 데이터 웨어하우스에 저장하는 작업이 포함됩니다. 랜딩 및 저장소 데이터 작업은 단일 단계로 만들어집니다. 필요한 경우 별도의 작업으로 랜딩 및 저장소를 수행할 수도 있습니다.
데이터 플랫폼에 이미 있는 데이터 등록
데이터 플랫폼에 이미 존재하는 데이터를 등록하여 데이터를 조정 및 변환하고 데이터 마트를 만듭니다. 이를 통해 Qlik Talend Data Integration 이외의 다른 도구(예: Qlik Replicate 또는 Stitch)로 온보딩된 데이터를 사용할 수 있습니다.
데이터 변환
규칙 및 사용자 지정 SQL을 기반으로 온보딩된 데이터에 대해 재사용 가능한 행 수준 변환을 만듭니다. 이렇게 하면 데이터 변환 작업이 만들어집니다.
데이터 마트 만들기 및 관리
데이터 집합을 활용하기 위해 데이터 마트를 만듭니다. 이렇게 하면 데이터 마트 데이터 작업이 만들어집니다.
대상 데이터 플랫폼
프로젝트는 모든 출력의 대상으로 사용되는 데이터 플랫폼과 연결됩니다.
지원되는 데이터 플랫폼에 대한 자세한 내용은 대상에 대한 연결 설정를 참조하십시오.
프로젝트 소개 비디오
프로젝트 만들기 예
다음 예에서는 온보딩 데이터를 수행하고 데이터를 변환하고 데이터 마트를 만듭니다. 이를 통해 더 많은 데이터 소스를 온보딩하여 확장할 수 있는 간단한 선형 데이터 파이프라인을 만들고, 더 많은 변환을 만들고, 만들어진 데이터 작업을 데이터 마트에 추가할 수 있습니다.
-
새 프로젝트를 만듭니다.
데이터 통합 > 프로젝트에서 프로젝트 만들기를 클릭합니다.
-
프로젝트 이름과 설명을 입력하고 프로젝트를 만들 공간을 선택합니다. 모든 데이터 작업은 해당 작업이 속한 프로젝트 공간에 만들어집니다.
정보 메모나중에 프로젝트에 대한 버전 제어를 활성화하는 경우, 버전 제어를 사용하는 동안에는 프로젝트 이름을 변경할 수 없습니다. - 사용 사례에서 데이터 파이프라인을 선택합니다.
-
프로젝트에서 사용할 데이터 플랫폼을 선택합니다.
-
프로젝트에서 사용하려는 클라우드 데이터 웨어하우스에 대한 연결을 선택합니다. 이는 데이터 파일을 랜딩하고 데이터 집합과 보기를 저장하는 데 사용됩니다. 아직 연결을 준비하지 않은 경우 연결 추가를 사용하여 연결을 만듭니다.
Google BigQuery, Databricks 또는 Microsoft Azure Synapse Analytics를 데이터 플랫폼으로 선택한 경우 스테이징 영역에도 연결해야 합니다.
-
Qlik Cloud를 데이터 플랫폼으로 선택한 경우:
Qlik에서 관리하는 저장소 또는 자체 관리형 Amazon S3 버킷에 데이터를 저장할 수 있습니다. 자체 Amazon S3 버킷을 사용하려면 해당 버킷에 대한 연결을 선택해야 합니다.
두 경우 모두 Amazon S3 스테이징 영역에 대한 연결도 선택해야 합니다. 이전 단계에서 정의한 것과 동일한 버킷을 사용하는 경우 스테이징을 위해 버킷의 다른 폴더를 사용해야 합니다.
-
만들기를 클릭합니다.
프로젝트가 만들어지고, 데이터 작업을 추가하여 데이터 파이프라인을 만들 수 있습니다.
-
-
데이터 온보딩
프로젝트에서 만들기를 클릭한 다음 데이터 온보딩을 클릭합니다.
자세한 내용은 데이터 온보딩을 참조하십시오.
이렇게 하면 랜딩 데이터 작업과 저장소 데이터 작업이 만들어집니다. 데이터 복제를 시작하려면 다음을 수행해야 합니다.
-
랜딩 데이터 작업을 준비하고 실행합니다.
자세한 내용은 데이터 소스의 랜딩 데이터을 참조하십시오.
-
저장소 데이터 작업을 준비하고 실행합니다.
자세한 내용은 데이터 집합 저장을 참조하십시오.
-
-
데이터 변환
저장소 데이터 작업이 만들어지면 프로젝트로 돌아갑니다. 이제 만들어진 데이터 집합에서 변환을 수행할 수 있습니다.
저장소 데이터 작업에서 ...을 클릭하고 데이터 변환을 선택하여 이 저장소 데이터 작업을 기반으로 변환 데이터 작업을 만듭니다. 변환에 대한 지침은 데이터 변환을 참조하십시오.
-
데이터 마트 만들기
저장소 데이터 작업 또는 변환 데이터 작업을 기반으로 데이터 마트를 만들 수 있습니다.
데이터 작업에서 ...을 클릭하고 데이터 마트 만들기를 선택하여 데이터 마트 데이터 작업을 만듭니다. 데이터 마트 만들기에 대한 지침은 다음을 참조하십시오.
예를 들어, 저장 및 변환된 데이터 집합과 데이터 마트의 전체 로드를 수행한 경우 분석 앱에서 사용할 수 있습니다. 분석 앱 만들기에 대한 자세한 내용은 Qlik Talend Data Integration에서 생성된 데이터 집합을 사용한 분석 앱 만들기를 참조하십시오.
더 많은 데이터 소스를 온보딩하여 데이터 파이프라인을 확장하고 변환 또는 데이터 마트에서 결합할 수도 있습니다.
데이터 파이프라인 프로젝트의 작업
프로젝트 작업과 마찬가지로 데이터 작업에 사용할 수 있는 동일한 작업을 수행할 수 있습니다. 이를 통해 데이터 파이프라인에서 작업을 조정할 수 있습니다.
일정 켜기 및 끄기
설계 작업 수행
데이터 작업 실행 시작 및 중지
데이터 작업 삭제
작업을 클릭하면 진행 중인 작업의 상태나 최근에 수행된 작업을 볼 수 있습니다.
작업 중지를 클릭하여 진행 중인 작업을 중지할 수 있습니다. 진행 중인 데이터 작업은 중지되지 않지만 아직 시작되지 않은 작업은 취소됩니다.
일정 켜기 및 끄기
프로젝트 수준에서 데이터 작업의 일정을 제어할 수 있습니다.
...를 클릭한 다음 일정을 클릭합니다.
모든 데이터 작업 또는 선택한 작업에 대한 일정을 켜거나 끌 수 있습니다. 일정이 정의된 작업만 표시됩니다.
정보 메모데이터 플랫폼이 Qlik Cloud인 프로젝트에는 이 옵션을 사용할 수 없습니다.
개별 데이터 작업 예약에 대한 자세한 내용은 다음을 참조하십시오.
설계 작업 수행
프로젝트의 모든 데이터 작업 또는 선택한 작업에 대해 설계 작업을 수행할 수 있습니다. 이렇게 하면 각 작업에서 개별적으로 설계 작업을 수행하는 대신 프로젝트의 데이터 집합 작업을 더 쉽게 제어할 수 있습니다.
유효성 검사
유효성 검사를 클릭하여 모든 작업 또는 선택한 작업의 유효성을 검사합니다. 마지막 유효성 검사 작업 이후에 변경된 데이터 작업이 미리 선택됩니다.
데이터 작업은 파이프라인 순서로 유효성 검사됩니다.
준비
준비를 클릭하여 모든 작업 또는 선택한 작업을 준비합니다. 마지막 준비 작업 이후에 변경된 데이터 작업이 미리 선택됩니다.
데이터 플랫폼에서 지원하지 않는 구조 변경이 필요한 데이터 집합을 다시 만들도록 선택할 수 있습니다. 이로 인해 데이터가 손실될 수 있습니다.
다시 만들기
...를 클릭한 다음 다시 만들기를 클릭하여 모든 작업 또는 선택한 작업에 대해 소스에서 데이터 집합을 다시 만듭니다.
데이터 작업 실행
작업을 개별적으로 실행하는 대신 프로젝트 또는 선택한 작업에 대해 모든 데이터 작업의 실행을 시작할 수 있습니다. 예를 들어, 시간 기반 일정으로 모든 작업을 실행할 수 있습니다. 이렇게 하면 이벤트 기반 일정으로 다운스트림 작업이 시작됩니다.
실행
모든 작업 또는 선택한 작업의 실행을 시작하려면 실행을 클릭합니다. 이렇게 하면 선택한 모든 작업의 실행이 시작되고 실행이 시작되는 즉시 완료됩니다.
실행할 준비가 된 모든 작업 중에서 선택할 수 있습니다. 시간 기반 일정이 있는 작업과 CDC를 사용하는 작업이 미리 선택됩니다. 이벤트 기반 일정이 있는 작업은 처리할 데이터가 있을 때 실행되므로 미리 선택되지 않습니다.
데이터 플랫폼으로 Qlik Cloud가 있는 프로젝트에서 모든 랜딩 및 저장소 작업이 미리 선택됩니다.
정보 메모모든 데이터 작업은 병렬로 실행됩니다. 이는 종속성 검사로 인해 일부 작업이 실행되지 않을 수 있음을 의미합니다.중지
모든 작업 또는 선택한 작업을 중지하려면 중지를 클릭합니다.
실행 중인 작업에서 선택할 수 있습니다.
데이터 작업 삭제
삭제를 클릭하여 프로젝트의 모든 데이터 작업 또는 선택한 작업을 삭제합니다.
프로젝트 보기 변경
프로젝트에는 두 가지 다른 보기가 있습니다. 파이프라인 보기를 클릭하여 보기 간에 전환할 수 있습니다.
파이프라인 보기는 데이터 작업의 데이터 흐름을 보여 줍니다.
레이어를 클릭하여 데이터 작업에 대해 표시할 정보의 양을 선택할 수 있습니다. 다음 정보를 설정하거나 해제합니다.
상태
데이터 최신성
일정
카드 보기에는 데이터 작업에 대한 정보가 있는 카드 보기가 표시됩니다.
자산 유형 및 소유자를 필터링할 수 있습니다.
데이터 보기
데이터 파이프라인을 설계할 때 데이터 샘플을 보고 데이터의 형태의 확인하고 유효성 검사할 수 있습니다.
다음 권한이 필요합니다.
관리의 테넌트 수준에서 데이터 보기가 활성화되었습니다.
설정 > 기능 제어 > 데이터 통합에서 데이터 보기를 활성화합니다.
연결이 있는 공간에서 데이터 볼 수 있음 역할이 할당됩니다.
프로젝트가 있는 공간에서 볼 수 있음 역할이 할당됩니다.
데이터 파이프라인 보기에서 샘플 데이터를 보려면 다음을 수행합니다.
파이프라인 보기 하단의 미리 보기 배너에서 을 클릭합니다.
데이터를 미리 볼 데이터 작업을 선택합니다.
데이터 샘플이 표시됩니다. 행 수를 사용하여 샘플에 포함할 데이터 행 수를 설정할 수 있습니다.
프로젝트 내보내기 및 가져오기
프로젝트를 재구성하는 데 필요한 모든 것이 포함된 JSON 파일로 프로젝트를 내보낼 수 있습니다. 내보낸 JSON 파일은 동일한 테넌트 또는 다른 테넌트에서 가져올 수 있습니다. 예를 들어, 이를 사용하여 한 테넌트에서 다른 테넌트로 프로젝트를 이동하거나 프로젝트의 백업 복사본을 만들 수 있습니다.
자세한 내용은 데이터 파이프라인 내보내기 및 가져오기을 참조하십시오.
프로젝트 설정
프로젝트 및 포함된 모든 데이터 작업에 공통적인 속성을 설정할 수 있습니다.
설정을 클릭합니다.
자세한 내용은 데이터 파이프라인 프로젝트 설정을 참조하십시오.