transformation flow 추가

변환 작업에 흐름을 포함할 수 있습니다. 흐름 설계자를 사용하면 소스, 프로세서 및 대상을 사용하여 복잡하거나 간단한 변환을 정의하는 transformation flow를 만들 수 있습니다.

Transformation flow와 프로세서는 논리적 표현입니다. 이는 ELT 작업에서는 각 대상에 대해 하나의 테이블만 만들어지고 모든 프로세서가 대상당 단일 SQL 문으로 컴파일된다는 것을 의미합니다.

지원되는 대상 플랫폼

변환 흐름에서는 다음 플랫폼이 지원됩니다.

Snowflake
Databricks
Google BigQuery
Azure Synapse Analytics
Microsoft Fabric
Microsoft SQL Server
Amazon Redshift

정보 메모다음 Amazon Redshift 기능을 사용할 수 없습니다(UUID 문자열 생성 및 거리 편집).

전제 조건

transformation flow를 만들기 전에 다음을 수행해야 합니다.

transformation flow에서 사용하려는 온보딩 데이터로 저장소 작업을 채우거나 기존 데이터를 등록합니다. 데이터 온보딩 및 등록 방법에 대한 자세한 내용은 데이터 온보딩 및 데이터 플랫폼에 이미 있는 데이터 등록을 참조하십시오.
transformation flow에서 소스로 사용되는 저장소 또는 변환 작업을 준비하고 실행합니다. 저장소 작업 실행은 필수는 아니지만 흐름의 모든 단계에서 데이터 미리 보기를 표시할 수 있는 것이 좋습니다.

transformation flow 만들기

유효한 transformation flow를 만들려면 하나 이상의 소스 데이터 집합과 정의된 키가 있는 명명된 대상 하나가 필요합니다.

데이터 파이프라인에서 Transform data 작업을 엽니다.
변환에서 transformation flow에 포함할 소스 데이터 집합을 선택하고 transformation flow 추가를 클릭합니다.
변환에 대한 설정을 제공할 수 있는 transformation flow 추가가 표시됩니다.
이름에 대상 데이터 집합의 이름을 입력합니다.

설명에 더 긴 설명을 추가할 수도 있습니다.
구체화에서 변환된 출력을 구체화할지 여부를 선택합니다. 데이터 작업 설정에서 설정을 상속하도록 선택할 수 있습니다.
- 켜기는 테이블을 만들고 관련 ELT 처리를 처리합니다.
- 끄기를 선택하면 즉시 변환을 수행하는 보기가 만들어집니다.
기록 데이터 저장소(유형 2)에서 기록 데이터를 보관할지 여부를 선택합니다. 데이터 작업 설정에서 설정을 상속하도록 선택할 수 있습니다. 이 설정을 사용하려면 실체화가 켜져 있어야 합니다.
증분 로드를 사용하면 매크로를 사용하여 처리되는 데이터 집합을 줄이기 위해 필터나 기타 조건을 적용하여 증분 데이터 로드에 대한 쿼리를 조정할 수 있습니다. 증분 로드는 데이터가 테이블로 구체화된 경우에만 사용할 수 있습니다.
- 증분 로드가 켜기인 경우
  
  작업을 처음 실행하면 초기 로드가 수행되어 쿼리의 모든 결과가 대상 테이블에 삽입됩니다. 후속 실행에서는 증분 처리를 위해 정의한 필터 또는 특정 조건을 활용하여 증분 로드를 실행합니다. 증분 로드 중에 작업은 데이터를 업데이트 또는 삽입으로만 처리하며 삭제는 관리되지 않습니다.
- 증분 로드가 끄기인 경우
  
  작업을 처음 실행하면 초기 로드가 수행되어 쿼리의 모든 결과가 대상 테이블에 삽입됩니다. 후속 실행에서는 대상 테이블과 비교하고 신규, 변경 또는 삭제된 레코드를 처리하여 쿼리의 모든 결과를 처리합니다.
정보 메모쿼리가 대상에 있어야 하는 모든 레코드를 선택하는 경우 증분 로드를 끄기로 설정합니다. 선택되지 않은 레코드는 대상에서 삭제됩니다.
transformation flow를 만들 준비가 되면 추가를 클릭합니다.

흐름 설계자가 열리고 대상이 만들어져 흐름에 대상 구성 요소로 표시됩니다.

정보 메모흐름 대상에 대한 고유한 이름을 제공하는 것이 필수입니다. 나중에 흐름 대상의 이름을 바꾸려면 대상을 선택하고 데이터 집합 이름에 새 이름을 입력합니다.
대상에 정의된 키가 없으면 키 및 null 허용 필드 옆에 있는 편집을 클릭합니다. 구성 창이 열립니다.
정보 메모키는 소스 데이터 집합에서 상속되지 않으며 수동으로 정의해야 합니다. Null 허용은 소스 데이터 집합에서 상속되며 수정될 수 있습니다.
키 및 null 허용 구성에서 기본 키로 정의하려는 열에서 키를 선택하고, Null 허용으로 정의하려는 열에서 Null 허용을 선택합니다.
확인을 클릭하여 변경 내용을 저장하고 구성 창을 닫습니다.

transformation flow의 상태가 유효하면 흐름을 닫고 데이터를 준비할 수 있습니다.

나중에 대상 설정에서 구체화 및 증분 로드 설정을 변경할 수 있습니다.

대상을 선택하고 대상 구성의 설정 옆에 있는 편집을 클릭합니다.

프로세서 추가

흐름에 프로세서를 추가할 수 있습니다.

프로세서는 수신 데이터를 변환하고 변환된 데이터를 흐름의 다음 단계로 반환하기 위해 흐름에 추가할 수 있는 구성 요소입니다.

흐름 설계자에서 프로세서를 추가하려는 흐름 구성 요소를 선택합니다.
흐름 구성 요소에서 을 클릭한 다음 프로세서 추가를 클릭하고 추가할 프로세서를 선택합니다. 왼쪽 패널에서 캔버스로 프로세서를 끌 수도 있습니다.

프로세서 패널에서 프로세서를 선택하면 프로세서에 대한 간단한 설명이 표시될 수 있습니다.

필요에 따라 프로세서를 구성하고 저장을 클릭하여 변경 내용을 저장하고 데이터 미리 보기를 업데이트합니다.
정보 메모SQL 및 데이터 미리 보기를 사용하여 데이터 샘플을 미리 볼 수 있습니다. 자세한 내용은 데이터 미리 보기을 참조하십시오.

사용할 수 있는 프로세서

집계 프로세서

AI 프로세서

정리 프로세서

결합 프로세서

필터 프로세서

Fork 프로세서

해시 프로세서

증분 필터 프로세서

조인 프로세서

수학 프로세서

숫자 프로세서

열 제거 프로세서

열 선택 프로세서

SQL 표현식 프로세서

문자열 프로세서

통합 프로세서

사용 사례: Snowflake에서 데이터 조인, 집계 및 필터링

이 사용 사례에서는 Snowflake 고객 데이터를 프로세서를 통해 변환해야 합니다. 고객 정보는 두 개의 데이터 집합에서 나오므로 먼저 조인 프로세서를 추가하여 레코드를 결합하려고 합니다. 또한 집계 프로세서를 사용하여 주문의 평균 가격을 계산하고 필터 프로세서를 사용하여 출력 데이터 집합에 보관하려는 고객 레코드 유형을 필터링하려고 합니다.

조인 프로세서, 집계 프로세서 및 필터 프로세서를 사용한 transformation flow입니다.

첫 번째 데이터 집합은 CUSTOMER_ACCOUNT라는 Snowflake 테이블을 기반으로 하며 해당 스키마는 다음과 같습니다.

두 번째 데이터 집합은 CUSTOMER_ORDER라는 Snowflake 테이블을 기반으로 하며 해당 스키마는 다음과 같습니다.

고객 주문에 대한 Snowflake 테이블 스키마

프로세서 왼쪽 패널에서 조인 프로세서를 캔버스로 끕니다.
두 데이터 집합의 데이터를 결합할 수 있도록 두 번째 소스를 조인 프로세서에 연결합니다.
고객 ID 키(CUSTOMER_ID)에서 두 소스 데이터 집합을 조인하도록 조인 프로세서를 구성합니다.
조인 프로세서 뒤에 집계 프로세서를 끕니다.
평균 고객 구매 금액(ORDER_TOTAL_PRICE)을 계산하도록 집계 프로세서를 구성하고 이를 고객 세그먼트 유형(LEFT_CUSTOMER_SEGMENT)별로 레코드를 그룹화하는 동시에 avg_order_price라는 이름을 지정할 수 있는 새 열에 저장합니다.
프로세서 왼쪽 패널에서 필터 프로세서를 캔버스로 끌어서 놓습니다.
비즈니스 고객 유형(비즈니스)을 필터링하도록 필터 프로세서를 구성합니다.
필터 프로세서에서 을 선택하여 메뉴를 열고 일치하지 않는 대상 추가를 클릭하여 두 번째 대상을 흐름에 추가합니다.
이 대상에는 필터 기준, 개별 고객 유형(개인)과 일치하지 않는 레코드가 포함됩니다.
새 대상 데이터 집합의 이름(예: individual_cust)을 입력합니다.
두 대상 모두에서 출력 미리 보기를 확인합니다.
business_cust 대상은 비즈니스 고객 유형의 평균 주문 가격(여기서는 157.463687151)을 표시합니다.
individual_cust 대상은 개별 고객 유형의 평균 주문 가격(여기서는 153.576530612)을 표시합니다.
transformation flow가 유효한 상태인지 확인한 다음 닫습니다.
변환 창에서 준비를 클릭하여 데이터를 준비합니다.

모범 사례

흐름에 소스 또는 대상 데이터 집합을 추가할 때 대상 데이터 집합의 구성 패널에서 키와 null 허용을 설정해야 합니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!

여기에 피드백을 남겨주십시오.