기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

데이터 변환

데이터 파이프라인의 일부로 재사용 가능한 규칙 기반 데이터 변환을 만들 수 있습니다. 데이터 온보딩의 일부로 변환을 수행하거나 재사용 가능한 변환 데이터 작업을 만들 수 있습니다. 행 수준 변환을 수행하고 테이블로 구체화되거나 즉석에서 변환을 수행하는 보기로 만들어지는 데이터 집합을 만들 수 있습니다.

정보 메모Qlik Talend Cloud 프리미엄 또는 Qlik Talend Cloud 엔터프라이즈 구독을 통해 고급 변환을 사용할 수 있습니다.
  • 명시적인 데이터 집합 변환을 수행하거나 여러 데이터 집합을 변환하는 전역 규칙을 만들 수 있습니다. 데이터 집합을 필터링하여 행의 하위 집합을 만들 수도 있습니다.

  • SQL 변환을 추가할 수 있습니다. SQL 변환을 사용하면 파이프라인에 SQL SELECT 쿼리를 입력하여 복잡하거나 간단한 변환을 정의할 수 있습니다.

  • 소스, 프로세서 및 대상이 포함된 시각적 transformation flow를 추가하여 복잡하거나 간단한 변환을 정의할 수 있습니다.

정보 메모데이터 작업은 해당 작업이 속한 프로젝트 소유자의 컨텍스트에서 작동합니다. 필수 역할 및 권한에 대한 자세한 내용은 데이터 공간 역할 및 권한을 참조하십시오.

변환 데이터 작업에는 세 가지 보기가 포함됩니다.

  • 변형

    이 보기는 소스 데이터 집합에서 대상 데이터 집합으로의 흐름을 시각화하기 위해 모든 변환을 표시합니다.

  • 데이터 집합

    이 보기에는 데이터 필터링이나 열 추가와 같은 데이터 집합의 모든 기본 변환과 전역 변환을 수행하는 규칙이 표시됩니다.

  • 모델

    이 보기를 사용하면 포함된 데이터 집합 간의 관계를 사용하여 데이터 모델을 만들 수 있습니다.

변환 데이터 작업 만들기

변환 데이터 작업을 만드는 가장 쉬운 방법은 저장소 데이터 작업에서 ...을 클릭한 다음 데이터 변환을 선택하는 것입니다.

또한 프로젝트에서 만들기를 클릭하고 데이터 변환을 선택할 수도 있습니다. 이 경우 사용할 소스 데이터 작업을 정의해야 합니다.

  1. 변환에서 소스 데이터와 대상을 정의합니다.

    다음 중 하나를 수행할 수 있습니다.

    • 소스 데이터 집합을 선택하고 대상에 추가를 클릭하여 이를 대상에 추가합니다.

      그런 다음 데이터 집합에서 데이터 필터링, 열 추가 등 데이터 집합에 대한 기본 변환을 수행할 수 있습니다.

      자세한 내용은 데이터 집합 관리을 참조하십시오.

    • 소스 데이터 집합을 선택하고 SQL 변환 추가를 클릭합니다.

      SQL 변환을 사용하면 파이프라인에 SQL SELECT 쿼리를 입력하여 복잡하거나 간단한 변환을 정의할 수 있습니다.

      자세한 내용은 SQL 변환 추가을 참조하십시오.

    • 소스 데이터 집합을 선택하고 transformation flow 추가를 클릭합니다.

      흐름 설계자를 사용하면 소스, 프로세서 및 대상이 포함된 transformation flow를 만들어 복잡하거나 간단한 변환을 정의할 수 있습니다.

      자세한 내용은 transformation flow 추가을 참조하십시오.

    팁 메모소스 데이터 선택을 클릭하여 다른 저장소 데이터 작업에서 더 많은 데이터 집합을 추가할 수도 있습니다.
  2. 원하는 변환을 추가한 후 데이터 집합 유효성 검사를 클릭하여 데이터 집합의 유효성을 검사합니다. 유효성 검사에서 오류가 발견되면 계속하기 전에 오류를 수정합니다.

    자세한 내용은 데이터 집합 유효성 검사 및 조정을 참조하십시오.

  3. 데이터 모델 만들기

    모델을 클릭하여 포함된 데이터 집합 간의 관계를 설정합니다.

    자세한 내용은 데이터 모델 만들기을 참조하십시오.

  4. 준비를 클릭하여 데이터 작업 및 모든 필수 아티팩트를 준비합니다. 시간이 조금 걸릴 수 있습니다.

    화면 하단의 준비 진행률에서 진행률을 확인할 수 있습니다.

  5. 상태가 준비됨으로 표시되면 데이터 작업을 실행할 수 있습니다.

    ...을 클릭한 다음 실행을 클릭합니다.

이제 데이터 작업이 데이터를 변환하기 위한 데이터 집합 만들기를 시작합니다.

정보 메모데이터 집합 생성을 시작할 때 포함되는 데이터 집합을 변경할 수 없습니다.

변환 보기 사용

Transform에서는 모든 변환이 소스 데이터 집합에서 대상 데이터 집합으로의 흐름을 시각화하기 위해 표시됩니다.

  • 변환을 선택하여 어떤 소스 데이터 집합이 사용되고, 어떤 대상 데이터 집합이 만들어지는지 확인합니다.

  • 소스를 선택하면 해당 소스가 사용된 모든 변환과 모든 결과 대상을 볼 수 있습니다.

  • 대상을 선택하여 어떤 소스 데이터 집합이 있는지, 어떤 변환이 이 대상 데이터 집합을 만들었는지 확인합니다.

변환에서 변환 보기

변환의 보기 변환

표시 옵션을 클릭하면 다음 설정을 변경할 수 있습니다.

  • 변환 유형별로 필터링

    하나 또는 두 개의 변환 유형의 변환만 표시합니다.

  • 필터

    모든 변환을 표시하거나 선택한 변환만 표시합니다. 이 옵션을 사용하려면 변환을 선택해야 합니다.

  • 밀도

    컴팩트한 레이아웃으로 변환을 표시할지, 아니면 더 많은 공간을 사용하여 넓은 레이아웃으로 변환을 표시할지 선택합니다.

데이터 집합 보기 사용

데이터 집합에서 변환 작업의 모든 대상 데이터 집합을 보고 편집할 수 있습니다.

자세한 내용은 데이터 집합 관리도 참조하십시오.

대상 데이터 집합 추가

변환 작업에 더 많은 대상 데이터 집합을 추가할 수 있습니다.

  1. 데이터 집합 추가를 클릭합니다.

  2. 데이터 집합의 이름과 선택적으로 설명을 제공합니다.

  3. 소스 데이터 집합에서 작업에서 사용할 수 있는 데이터 집합 중에서 소스 데이터 집합을 선택합니다.

    팁 메모소스 데이터 집합 없음을 선택하면 어떤 소스에도 연결되지 않은 빈 데이터 집합을 만들 수 있습니다. 설계 중에 데이터 집합에 열을 추가할 수 있지만, 작업을 준비하기 전에 소스 데이터 집합에 연결해야 합니다.

이제 대상 데이터 집합이 추가되었습니다.

소스 데이터 집합 변경

대상 데이터 집합의 소스 데이터 집합을 변경할 수 있습니다.

  1. 소스: [소스 데이터 집합 이름] 뒤에 편집을 클릭합니다.

  2. 소스 데이터 집합에서 작업에서 사용할 수 있는 데이터 집합 중에서 다른 소스 데이터 집합을 선택합니다.

    팁 메모소스 데이터 집합 없음을 선택하면 대상 데이터 집합과 소스 데이터 집합의 연결을 끊을 수 있습니다. 설계 중에도 데이터 집합을 편집할 수 있지만, 작업을 준비하기 전에 소스 데이터 집합에 연결해야 합니다.

새로운 열 추가

대상 데이터 집합에 새로운 열을 추가할 수 있습니다.

  • + 추가를 클릭합니다.

    열의 이름을 지정하고 열 데이터를 정의하는 표현식을 설정합니다.

    자세한 내용은 데이터 집합에 열 추가을 참조하십시오.

  • 추가 옆에 있는 아래을 클릭하고 소스에서 열 추가를 선택합니다.

    소스 데이터 집합에서 열을 선택합니다.

열 순서 변경

열의 서수적 위치를 변경할 수 있습니다.

  1. 열을 선택합니다.

  2. 더 보기을 클릭한 다음 순서 변경을 클릭합니다.

  3. 화살표를 사용하여 열을 위아래로 이동합니다.

  4. 준비가 되면 서수 변경을 닫으십시오.

변환 규칙 만들기

재사용 가능한 변환 규칙을 만들어 데이터 집합에 대한 전역 변환을 수행할 수 있습니다.

규칙 만들기에 대한 자세한 내용은 데이터 집합을 변환하는 규칙 만들기을 참조하십시오.

팁 메모규칙 효과 보기를 선택하면 규칙의 효과를 볼 수 있습니다. 규칙 효과 표시가 활성화되어 있으면 데이터 집합을 변경할 수 없습니다.

데이터 집합 필터링

필요한 경우 데이터를 필터링하여 행의 하위 집합을 만들 수 있습니다.

  • 더 보기을 클릭한 다음 필터를 클릭합니다.

필터링에 대한 자세한 내용은 데이터 집합 필터링을 참조하십시오.

변환 작업 예약

정기적으로 업데이트되도록 변환 작업을 예약할 수 있습니다. 시간 기반 일정을 설정하거나, 입력 데이터 작업 실행이 완료되면 실행되도록 작업을 설정할 수 있습니다.

데이터 작업에서 ...을 클릭하고 예약을 선택하여 일정을 만듭니다. 기본 일정 설정은 프로젝트의 설정에서 상속됩니다. 기본 설정에 대한 자세한 내용은 기본값 변환을 참조하십시오.

일정을 사용하려면 항상 일정켜기로 설정해야 합니다.

정보 메모작업의 모든 데이터 집합이 구체화되지 않은 경우 보기를 사용하여 즉시 변환이 수행되므로 실행할 것이 없습니다. 일정 조건이 충족될 때 실행할 구체화되지 않은 변환 요청에 대한 일정을 계속 만들 수 있습니다. 이 작업은 데이터 마트와 같은 다운스트림 작업을 트리거할 수 있는 즉시 완료됩니다. 이를 통해 파이프라인 흐름을 중단하지 않고 구체화되지 않은 변환을 포함하는 이벤트 기반 파이프라인 일정을 구축할 수 있습니다.

시간 기반 일정

시간 기반 일정을 사용하여 다른 입력 소스가 업데이트되는 시기에 관계없이 작업을 실행할 수 있습니다.

  • 데이터 작업 실행에서 특정 시간에를 선택합니다.

시간별, 일별, 주별 또는 월별 일정을 설정할 수 있습니다.

이벤트 기반 일정

입력 데이터 작업 실행이 완료되면 이벤트 기반 일정을 사용하여 작업을 실행할 수 있습니다.

  • 데이터 작업 실행에서 특정 이벤트에를 선택합니다.

입력 작업이 성공적으로 완료된 경우 또는 선택한 입력 작업이 성공적으로 완료된 경우 작업을 실행할지 여부를 선택할 수 있습니다.

정보 메모일정이 트리거될 때 입력 작업 또는 다운스트림 작업이 실행 중인 경우 작업이 실행되지 않습니다. 예약된 다음 실행까지 작업을 건너뜁니다.

변환 작업 모니터링

모니터링을 클릭하여 변환 작업의 상태 및 진행률을 모니터링할 수 있습니다.

자세한 내용은 개별 데이터 작업 모니터링을 참조하십시오.

데이터 다시 로드

데이터가 물리적 테이블로 구체화된 경우 테이블을 수동으로 다시 로드할 수 있습니다. 이는 하나 이상의 테이블에 문제가 있는 경우 유용합니다.

정보 메모데이터 집합이 구체화되지 않은 경우 업스트림 데이터 작업에서 소스 데이터 집합을 다시 로드하여 데이터를 새로 고쳐야 합니다.
  1. 데이터 작업을 열고 모니터링 탭을 선택합니다.

  2. 다시 로드할 테이블을 선택합니다.

  3. 테이블 다시 로드를 클릭합니다.

다음에 작업이 실행될 때 다시 로드가 발생합니다. 다시 로드 프로세스는 각 데이터 집합의 기록 설정 및 변환 유형에 따라 다르게 동작합니다. 이는 다시 로드 프로세스가 데이터 작업의 데이터 집합마다 다를 수 있음을 의미합니다.

다시 로드 취소를 클릭하면 다시 로드 대기 중인 테이블의 다시 로드를 취소할 수 있습니다. 이는 이미 다시 로드된 테이블에는 영향을 미치지 않으며 현재 실행 중인 다시 로드가 완료됩니다.

변경 내용을 적용하고 소급 적용을 방지하기 위해 다운스트림 작업이 다시 로드됩니다.

Transform data 작업을 다시 로드한 후의 다운스트림 영향

변환 다시 로드 다운스트림 효과

다운스트림에 미치는 영향은 실행된 다시 로드 작업 유형과 즉각적인 다운스트림 데이터 집합의 유형에 따라 다릅니다. 표준 처리는 데이터 집합이 특정 데이터 집합에 대해 구성된 방법을 사용하여 데이터에 반응하고 처리한다는 것을 의미합니다.

자르기 및 로드를 통해 데이터 집합 다시 로드

  • 다음 데이터 집합이 데이터 집합 변환을 사용하는 경우 다음 실행 시 자르기 및 로드를 통해 다시 로드됩니다.

  • 다음 데이터 집합이 SQL 변환 또는 transformation flow인 경우 비교 및 적용을 통해 다시 로드됩니다.

기록이 없는 데이터 집합 다시 로드

이 경우 고려할 기록이 없습니다. 대상에 대한 처리를 줄이기 위해 다시 로드는 다음과 같이 수행됩니다.

  1. 테이블을 자릅니다.

  2. 업스트림 데이터 작업에서 현재 데이터를 로드합니다.

변경 내용을 적용하기 위해 다운스트림 작업이 다시 로드됩니다.

기록이 활성화된 데이터 집합 다시 로드

다시 로드는 다음을 통해 수행됩니다.

  1. 현재, 이전 및 변경 테이블을 자릅니다.

  2. 이전 테이블을 포함하여 업스트림 데이터 작업에서 데이터를 로드합니다.

SQL 변환 또는 transformation flow를 기반으로 데이터 집합 다시 로드

  • 자르기 및 다시 로드

    정보 메모이 옵션을 사용하면 기록이 손실될 수 있습니다.
    1. 현재 및 변경 테이블을 자릅니다.

    2. 쿼리를 실행하고 현재 테이블에 로드합니다.

  • 다시 로드 및 비교

    1. 쿼리를 실행하고 현재 테이블과 비교합니다.

    2. 변경 내용을 추가합니다.

정보 메모업스트림 작업 다시 로드로 인해 SQL 변환 또는 transformation flow 기반 데이터 집합이 다시 로드되면 항상 비교 및 적용을 통해 다시 로드됩니다. 이를 자르고 다시 로드하려면 해당 테이블에 대해 특정 다시 로드를 실행해야 합니다. 이 경우 다운스트림 테이블에 미치는 영향도 고려해야 합니다.

변환 설정

변환 데이터 작업의 속성을 설정할 수 있습니다.

  • 설정을 클릭합니다.

경고 메모작업이 이미 실행된 경우 런타임 설정 이외의 설정을 변경하려면 데이터 집합을 다시 만들어야 합니다.

일반 설정

  • 데이터베이스

    데이터 소스에서 사용할 데이터베이스입니다.

  • 작업 스키마

    데이터 작업 스키마의 이름을 변경할 수 있습니다. 기본 이름은 작업의 이름입니다.

  • 내부 스키마

    내부 저장소 스키마의 이름을 변경할 수 있습니다. 기본 이름은 작업 이름에 "__internal"을 붙인 것입니다.

  • 모든 테이블 및 보기에 대한 접두사

    이 작업으로 만들어진 모든 테이블 및 뷰에 대한 접두사를 설정할 수 있습니다.

    정보 메모여러 데이터 작업에서 데이터베이스 스키마를 사용하려는 경우 고유한 접두사를 사용해야 합니다.
  • 구체화됨

    즉시 변환을 수행하는 뷰만 만들도록 선택하거나(구체화되지 않음), 테이블과 뷰를 모두 만들도록 선택할 수 있습니다(구체화됨).

  • 기록

    기록 변경 데이터를 유지하여 특정 시점에서 본 데이터를 쉽게 다시 만들 수 있습니다. 기록 보기 및 라이브 기록 보기를 사용하여 기록 데이터를 볼 수 있습니다.

런타임 설정

  • 병렬 실행

    전체 로드에 대한 최대 연결 수를 1에서 5까지 설정할 수 있습니다.

  • 웨어하우스

    클라우드 데이터 웨어하우스의 이름입니다.

카탈로그 설정

  • 카탈로그에 게시

    이 버전의 데이터를 카탈로그에 데이터 집합으로 게시하려면 이 옵션을 선택합니다. 다음에 이 작업을 준비하면 카탈로그 콘텐츠가 업데이트됩니다.

카탈로그에 대한 자세한 내용은 카탈로그 도구를 사용하여 데이터 이해를 참조하십시오.

제한 사항

  • 구체화되지 않음 옵션을 선택한 경우 변환 데이터 작업의 데이터 유형을 변경할 수 없습니다.

  • SQL 변환이나 변환 흐름에서 만들어진 데이터 집합에는 필드 수준 계보를 사용할 수 없습니다.

자세한 정보

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!