기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

데이터 변환

데이터 파이프라인의 일부로 재사용 가능한 규칙 기반 데이터 변환을 만들 수 있습니다. 데이터 온보딩의 일부로 변환을 수행하거나 재사용 가능한 변환 데이터 작업을 만들 수 있습니다. 행 수준 변환을 수행하고 테이블로 구체화되거나 즉석에서 변환을 수행하는 보기로 만들어지는 데이터 집합을 만들 수 있습니다.

  • 데이터 집합마다 명시적 변환을 수행하거나 여러 데이터 집합을 변환하는 전역 규칙을 만들 수 있습니다. 데이터 집합을 필터링하여 행의 하위 집합을 만들 수도 있습니다.

  • SQL 변환을 추가할 수 있습니다.

정보 메모데이터 작업은 해당 소유자의 컨텍스트에서 작동합니다. 필수 역할 및 권한에 대한 자세한 내용은 데이터 공간 역할 및 권한을 참조하십시오.

변환 데이터 작업 만들기

변환 데이터 작업을 만드는 가장 쉬운 방법은 저장소 데이터 작업에서 ...을 클릭한 다음 데이터 변환을 선택하는 것입니다.

데이터 프로젝트에서 새로 추가를 클릭하고 데이터 변환을 선택할 수도 있습니다. 이 경우 사용할 소스 데이터 작업을 정의해야 합니다.

  1. 데이터 집합 변환에서 소스 데이터를 정의합니다.

    소스 데이터 집합을 선택하고 추가를 클릭하여 이를 대상에 추가합니다.

    데이터 집합을 선택하고 SQL 기반 데이터 집합 추가를 클릭하여 SQL 변환을 추가할 수 있습니다.

    SQL 변환 추가

    팁 메모소스 데이터 선택을 클릭하여 다른 저장소 데이터 자산에서 더 많은 데이터 집합을 추가할 수도 있습니다.
  2. 변환, 데이터 필터링 또는 열 추가와 같이 포함된 데이터 집합에 필요한 모든 변경을 수행합니다.

    자세한 내용은 데이터 집합 관리을 참조하십시오.

  3. 원하는 변환을 추가한 후 데이터 집합 유효성 검사를 클릭하여 데이터 집합의 유효성을 검사합니다. 유효성 검사에서 오류가 발견되면 계속하기 전에 오류를 수정합니다.

    자세한 내용은 데이터 집합 유효성 검사 및 조정을 참조하십시오.

  4. 데이터 모델 만들기

    모델을 클릭하여 포함된 데이터 집합 간의 관계를 설정합니다.

    자세한 내용은 데이터 모델 만들기을 참조하십시오.

  5. 준비를 클릭하여 데이터 작업 및 모든 필수 아티팩트를 준비합니다. 시간이 조금 걸릴 수 있습니다.

    화면 하단의 준비 진행률에서 진행률을 확인할 수 있습니다.

  6. 상태가 준비됨으로 표시되면 데이터 작업을 실행할 수 있습니다.

    ...을 클릭한 다음 실행을 클릭합니다.

이제 데이터 작업이 데이터를 변환하기 위한 데이터 집합 만들기를 시작합니다.

정보 메모데이터 집합 생성을 시작할 때 포함되는 데이터 집합을 변경할 수 없습니다.

SQL 변환 추가

변환 작업에 SQL 변환을 포함할 수 있습니다. SQL 변환을 사용하면 파이프라인에 SQL SELECT 쿼리를 입력하여 복잡하거나 간단한 변환을 정의할 수 있습니다.

  • 데이터 집합 변환에서 쿼리에 포함할 데이터 집합을 선택하고 SQL 변환 추가를 클릭합니다.

자세한 내용은 SQL 변환 추가을 참조하십시오.

변환 작업 예약

정기적으로 업데이트되도록 변환 작업을 예약할 수 있습니다. 시간 기반 일정을 설정하거나, 입력 데이터 작업 실행이 완료되면 실행되도록 작업을 설정할 수 있습니다.

데이터 작업에서 ...을 클릭하고 예약을 선택하여 일정을 만듭니다. 기본 일정 설정은 데이터 프로젝트의 설정에서 상속됩니다. 기본 설정에 대한 자세한 내용은 기본값 변환을 참조하십시오.

일정을 사용하려면 항상 일정켜기로 설정해야 합니다.

정보 메모작업의 모든 데이터 집합이 구체화되지 않은 경우 보기를 사용하여 즉시 변환이 수행되므로 실행할 것이 없습니다. 일정 조건이 충족될 때 실행할 구체화되지 않은 변환 요청에 대한 일정을 계속 만들 수 있습니다. 이 작업은 데이터 마트와 같은 다운스트림 작업을 트리거할 수 있는 즉시 완료됩니다. 이를 통해 파이프라인 흐름을 중단하지 않고 구체화되지 않은 변환을 포함하는 이벤트 기반 파이프라인 일정을 구축할 수 있습니다.

시간 기반 일정

시간 기반 일정을 사용하여 다른 입력 소스가 업데이트되는 시기에 관계없이 작업을 실행할 수 있습니다.

  • 데이터 작업 실행에서 특정 시간에를 선택합니다.

시간별, 일별, 주별 또는 월별 일정을 설정할 수 있습니다.

이벤트 기반 일정

입력 데이터 작업 실행이 완료되면 이벤트 기반 일정을 사용하여 작업을 실행할 수 있습니다.

  • 데이터 작업 실행에서 특정 이벤트에를 선택합니다.

입력 작업이 성공적으로 완료된 경우 또는 선택한 입력 작업이 성공적으로 완료된 경우 작업을 실행할지 여부를 선택할 수 있습니다.

정보 메모일정이 트리거될 때 입력 작업 또는 다운스트림 작업이 실행 중인 경우 작업이 실행되지 않습니다. 예약된 다음 실행까지 작업을 건너뜁니다.

변환 작업 모니터링

모니터링을 클릭하여 변환 작업의 상태 및 진행률을 모니터링할 수 있습니다.

자세한 내용은 개별 데이터 작업 모니터링을 참조하십시오.

데이터 다시 로드

데이터가 물리적 테이블로 구체화된 경우 테이블을 수동으로 다시 로드할 수 있습니다. 이는 하나 이상의 테이블에 문제가 있는 경우 유용합니다. 데이터 집합이 구체화되지 않은 경우 업스트림 데이터 작업에서 소스 데이터 집합을 다시 로드하여 데이터를 새로 고쳐야 합니다.

  1. 데이터 작업을 열고 모니터링 탭을 선택합니다.

  2. 다시 로드할 테이블을 선택합니다.

  3. 테이블 다시 로드를 클릭합니다.

다음에 작업이 실행될 때 다시 로드가 발생합니다. 다시 로드 프로세스는 각 데이터 집합의 기록 설정 및 변환 유형에 따라 다르게 동작합니다. 이는 다시 로드 프로세스가 데이터 작업의 데이터 집합마다 다를 수 있음을 의미합니다.

다시 로드 취소를 클릭하면 다시 로드 대기 중인 테이블의 다시 로드를 취소할 수 있습니다. 이는 이미 다시 로드된 테이블에는 영향을 미치지 않으며 현재 실행 중인 다시 로드가 완료됩니다.

변경 내용을 적용하고 소급 적용을 방지하기 위해 다운스트림 작업이 다시 로드됩니다. 이는 다음에 의해 수행됩니다.

  1. 전체 로드와 비교하고 변경 내용을 적용합니다.

  2. 다시 로드한 후 변경 내용을 적용합니다.

기록이 없는 데이터 집합 다시 로드

이 경우 고려할 기록이 없습니다. 대상에 대한 처리를 줄이기 위해 다시 로드는 다음과 같이 수행됩니다.

  1. 테이블을 자릅니다.

  2. 업스트림 데이터 작업에서 현재 데이터를 로드합니다.

변경 내용을 적용하기 위해 다운스트림 작업이 다시 로드됩니다.

기록이 활성화된 데이터 집합 다시 로드

다시 로드는 다음을 통해 수행됩니다.

  1. 현재, 이전 및 변경 테이블을 자릅니다.

  2. 이전 테이블을 포함하여 업스트림 데이터 작업에서 데이터를 로드합니다.

SQL 변환을 기반으로 데이터 집합 다시 로드

  • 자르기 및 다시 로드

    정보 메모이 옵션을 사용하면 기록이 손실될 수 있습니다.
    1. 현재 및 변경 테이블을 자릅니다.

    2. 쿼리를 실행하고 현재 테이블에 로드합니다.

  • 다시 로드 및 비교

    1. 쿼리를 실행하고 현재 테이블과 비교합니다.

    2. 변경 내용을 추가합니다.

정보 메모업스트림 작업 다시 로드로 인해 SQL 변환 기반 데이터 집합이 다시 로드되면 항상 비교 및 적용을 통해 다시 로드됩니다. 이를 자르고 다시 로드하려면 해당 테이블에 대해 특정 다시 로드를 실행해야 합니다. 이 경우 다운스트림 테이블에 미치는 영향도 고려해야 합니다.

변환 설정

변환 데이터 작업의 속성을 설정할 수 있습니다.

  • 설정을 클릭합니다.

경고 메모작업이 이미 실행된 경우 런타임 설정 이외의 설정을 변경하려면 데이터 집합을 다시 만들어야 합니다.

일반 설정

  • 데이터베이스

    데이터 소스에서 사용할 데이터베이스입니다.

  • 데이터 작업 스키마

    저장소 데이터 작업 스키마의 이름을 변경할 수 있습니다. 기본 이름은 store입니다.

  • 내부 스키마

    내부 저장소 스키마의 이름을 변경할 수 있습니다. 기본 이름은 store__internal입니다.

  • 모든 테이블 및 보기에 대한 접두사

    이 작업으로 만들어진 모든 테이블 및 뷰에 대한 접두사를 설정할 수 있습니다.

    정보 메모여러 데이터 작업에서 데이터베이스 스키마를 사용하려는 경우 고유한 접두사를 사용해야 합니다.
  • 구체화됨

    즉시 변환을 수행하는 뷰만 만들도록 선택하거나(구체화되지 않음), 테이블과 뷰를 모두 만들도록 선택할 수 있습니다(구체화됨).

  • 기록

    기록 변경 데이터를 유지하여 특정 시점에서 본 데이터를 쉽게 다시 만들 수 있습니다. 기록 보기 및 라이브 기록 보기를 사용하여 기록 데이터를 볼 수 있습니다.

런타임 설정

  • 병렬 실행

    전체 로드에 대한 최대 데이터 연결 수를 1에서 5 사이의 숫자로 설정할 수 있습니다.

  • 웨어하우스

    클라우드 데이터 웨어하우스의 이름입니다.

제한 사항

  • 구체화되지 않음 옵션을 선택한 경우 변환 데이터 작업의 데이터 유형을 변경할 수 없습니다.

  • 구체화되지 않은 SQL 기반 데이터 집합은 전체 결과 집합만 제공하며 증분 필터링은 지원되지 않습니다. 구체화되지 않은 SQL 기반 데이터 집합은 또한 현재 데이터만 제공하고 기록 레코드를 보관하지 않습니다.

자세한 정보

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!