데이터 집합 관리
랜딩, 저장소, 변환, 데이터 마트 및 복제 데이터 작업에 포함된 데이터 집합을 관리하여 변환을 만들고 데이터를 필터링하고 열을 추가할 수 있습니다.
포함된 데이터 집합은 디자인 보기에 있는 데이터 집합 아래에 나열됩니다. 열 선택기()를 사용하여 표시할 열을 선택할 수 있습니다.
변환 규칙 및 명시적 변환
전역 및 명시적 변환을 모두 수행할 수 있습니다.
변환 규칙
일치하는 모든 데이터 집합에 적용할 범위에서 %를 와일드카드로 사용하는 변환 규칙을 만들어 전역 변환을 수행할 수 있습니다.
-
규칙을 클릭한 다음 규칙 추가를 클릭하여 새 변환 규칙을 만듭니다.
자세한 내용은 데이터 집합을 변환하는 규칙 만들기을 참조하십시오.
변환 규칙은 영향을 받는 특성에서 진한 보라색 모서리로 표시됩니다.
명시적 변환
명시적 변환은 다음과 같은 경우에 만들어집니다.
-
편집을 사용하여 열 특성을 변경하는 경우
-
데이터 집합에서 이름 바꾸기를 사용하는 경우
-
열을 추가하는 경우
명시적 변환은 전역 변환을 재정의하고 영향을 받는 특성에 밝은 자주색 모서리로 표시됩니다.
데이터 집합
데이터 집합은 작업 유형과 작업의 작업에 따라 소스 기반이거나 대상 기반일 수 있습니다. 사용되는 데이터 집합 모델은 소스 변경 시 파이프라인의 동작과 수행할 수 있는 작업에 영향을 미칩니다.
-
소스 기반 데이터 집합
이 데이터 집합은 소스 데이터 집합을 기반으로 하며 메타데이터의 변경 내용만 포함합니다. 소스 데이터가 변경되면 자동으로 적용되어 모든 다운스트림 작업이 변경될 수 있습니다. 열 순서를 변경하거나, 소스 데이터 집합을 변경할 수 없습니다.
다음 작업 유형은 항상 소스 기반 데이터 집합 모델을 사용합니다. 데이터 레이크에서의 랜딩, 저장, 등록된 데이터, 복제 및 랜딩.
-
대상 기반 데이터 집합
데이터 집합은 대상 메타데이터를 기반으로 합니다. 소스에서 열이 추가되거나 제거된 경우 해당 열은 다음 다운스트림 작업에 자동으로 적용되지 않습니다. 열 순서를 변경하고, 소스 데이터 집합을 변경할 수 있습니다. 즉, 작업이 더 독립적이며 소스 변경의 효과를 제어할 수 있습니다.
다음 작업 유형은 대상 기반 데이터 집합 모델을 사용할 수 있습니다. 변환, 데이터 마트. 작업에 따라 소스 기반 모델이 변환 작업에 사용되는 경우가 있습니다.
-
SQL 변환이나 변환 흐름이 열 선택을 수행하는 경우 데이터 집합은 대상 기반이 됩니다. 예를 들어, SQL 변환에서 SELECT A, B, C from XYZ를 사용하거나 변환 흐름에서 열 선택 프로세서를 사용하는 경우입니다.
-
기본 열이 유지되면 데이터 집합은 소스 기반입니다. 예를 들어, SQL 변환에서 SELECT * from XYZ을 사용하는 경우.
-
소스 기반 모델에서 대상 기반 모델로 프로젝트 업데이트
해당되는 경우 기존 프로젝트가 대상 기반 데이터 집합 모델로 업데이트됩니다. 프로젝트를 처음 열면 업데이트 과정으로 안내해 드립니다. 다양한 데이터 집합 모델이 포함된 프로젝트를 가져오고 내보낼 때 고려해야 할 사항이 몇 가지 있습니다.
-
소스 기반 모델이 있는 프로젝트를 대상 기반 모델이 있는 프로젝트로 가져올 수 없습니다.
소스 기반 모델이 있는 프로젝트를 새 프로젝트로 가져온 다음, 새 프로젝트를 업데이트한 다음 결과 프로젝트를 내보냅니다. 이제 이 프로젝트를 대상 기반 모델이 있는 프로젝트로 다시 가져올 수 있습니다.
-
소스 기반 모델이 있는 프로젝트로 대상 기반 모델이 있는 프로젝트를 가져올 수 없습니다.
대상 기반 모델이 포함된 프로젝트를 가져오기 전에 프로젝트를 대상 기반 모델로 업데이트합니다.
데이터 집합 필터링
필요한 경우 데이터를 필터링하여 행의 하위 집합을 만들 수 있습니다.
-
필터를 클릭합니다.
자세한 내용은 데이터 집합 필터링을 참조하십시오.
데이터 집합 이름 바꾸기
데이터 집합의 이름을 바꿀 수 있습니다.
-
데이터 집합에서 을 클릭한 다음 편집을 클릭합니다.
열 추가
필요한 경우 행 수준 변환이 있는 열을 추가할 수 있습니다.
-
열 추가를 클릭합니다.
자세한 내용은 데이터 집합에 열 추가을 참조하십시오.
열 편집
열을 선택하고 편집을 클릭하여 열 속성을 편집할 수 있습니다.
-
이름
-
키
열을 기본 키로 설정합니다. 키 열에서 선택하거나 선택 취소하여 키를 설정할 수도 있습니다.
-
Null 허용
-
데이터 유형
열의 데이터 유형을 설정합니다. 일부 데이터 유형의 경우 길이와 같은 추가 속성을 설정할 수 있습니다.
데이터 유형 변경이 미치는 영향 이해
데이터 유형 크기를 변경하거나 다른 데이터 유형으로 전환하는 데는 두 가지 일반적인 사용 사례가 있습니다.
- 현재 데이터 유형에 맞지 않는 데이터 수집.
- 더 높은 수치 정확도에 대한 요구 사항. 예: SMALLINT를 DECIMAL(p,s)로 변경.
대부분의 경우 데이터 유형을 변경하면 ALTER TABLE 작업이 발생하므로 데이터 손실이 방지됩니다. 예를 들어, 이전 데이터 유형이 STRING(25)이고 새 데이터 유형이 STRING(50)인 경우 새 데이터 유형이 있는 열의 데이터는 문제 없이 업데이트됩니다. 그러나 데이터 유형을 변경하면 테이블이 삭제되고 다시 만들어지는 경우도 있습니다. 예를 들어, 이전 열의 데이터 유형이 NUMBER인데 이를 DATE로 변경하면 숫자를 날짜로 변환할 수 없으므로 테이블이 삭제되고 다시 만들어집니다. 마찬가지로 대상 플랫폼이 ALTER 테이블 작업(예: Databricks)을 지원하지 않으면 테이블이 삭제되고 다시 만들어집니다.
이론적으로 테이블을 변경하는 것이 가능하지만 기본 복잡성으로 인해 데이터 작업이 테이블을 삭제하고 다시 만드는 경우가 있습니다. 마지막으로 실제 데이터 손실이 아닌 잠재적인 데이터 손실로 인해 삭제 및 다시 만들기 작업이 트리거되는 경우가 있습니다. 예를 들어, STRING(25)을 STRING(1)로 변경하면 수집된 데이터가 STRING(1)에 맞지 않으면 데이터 손실이 발생합니다. 그러나 STRING(25)에는 항상 하나의 문자만 포함될 수 있으므로 실제로는 데이터 손실이 발생하지 않지만 잠재적인 데이터 손실로 인해 테이블이 계속 삭제되고 다시 만들어집니다.
대상 플랫폼에 관계없이 테이블을 삭제하고 다시 만들어야 하는 데이터 유형 변경
다음 데이터 유형을 변경하면 테이블이 삭제되고 다시 만들어집니다.
- BYTES
- BLOB
- CLOB
- NCLOB
테이블을 삭제하고 다시 만들지 않고도 데이터 유형 크기 변경을 지원하는 대상 플랫폼
Snowflake, Google BigQuery, Amazon Redshift, Microsoft SQL Server 및 Azure Synapse Analytics로 작업할 때 테이블을 삭제하고 다시 만들지 않고도 특정 데이터 유형의 크기를 변경할 수 있습니다. 다음 표에는 앞서 언급한 각 플랫폼에 대해 지원되는 데이터 유형이 나열되어 있습니다.
데이터 유형 | Snowflake | Google BigQuery | Azure Synapse Analytics | Microsoft SQL Server | Amazon Redshift |
---|---|---|---|---|---|
INT1 |
아니요 |
예 |
예 |
예 |
아니요 |
INT2 |
아니요 |
예 |
예 |
예 |
아니요 |
INT4 |
아니요 |
예 |
예 |
예 |
아니요 |
INT8 |
아니요 |
예 |
예 |
예 |
아니요 |
REAL4 |
아니요 |
없음 |
예 |
예 |
아니요 |
REAL8 |
아니요 |
없음 |
예 |
예 |
아니요 |
UINT1 |
아니요 |
예 |
예 |
예 |
아니요 |
UINT2 |
아니요 |
예 |
예 |
예 |
아니요 |
UNIT4 |
아니요 |
예 |
예 |
예 |
아니요 |
UNIT8 |
아니요 |
예 |
예 |
예 |
아니요 |
NUMERIC |
예 |
예 |
예 |
예 |
아니요 |
STRING |
예 |
예 |
예 |
예 |
예 |
WSTRING |
아니요 |
예 |
예 |
예 |
아니요 |
테이블을 삭제하고 다시 만들지 않고 데이터 유형을 STRING으로 변경하는 것을 지원하는 대상 플랫폼
데이터를 Microsoft SQL Server 및 Azure Synapse Analytics로 이동할 때 테이블을 삭제하고 다시 만들지 않고도 다음 데이터 유형을 STRING으로 변경할 수 있습니다.
- BOOLEAN
- DATE
- TIME
- DATETIME
- INT1
- INT2
- INT4
- INT8
- REAL4
- REAL8
- UINT1
- UINT2
- UNIT4
- UNIT8
- NUMERIC
- WSTRING(Azure Synapse Analytics에서만 지원됨)
열 제거
데이터 집합에서 하나 이상의 열을 제거할 수 있습니다.
-
제거할 열을 선택하고 제거를 클릭합니다.
제거된 열을 보려면 제거된 열 표시를 클릭합니다. 제거된 열은 취소선이 표시된 텍스트로 나타납니다. 제거된 열을 선택하고 되돌리기를 클릭하여 검색할 수 있습니다.
열에 대한 명시적 변경 내용 되돌리기
하나 이상의 열에 대한 모든 명시적 변경 내용을 되돌릴 수 있습니다.
-
변경 내용을 되돌릴 열을 선택하고 되돌리기를 클릭합니다.
전역 변환 규칙의 변경 내용은 되돌릴 수 없습니다.
추가된 열을 되돌리면 제거됩니다.
데이터 집합 설정
데이터 집합에 대한 설정을 변경할 수 있습니다. 기본 설정은 데이터 자산의 설정을 상속하는 것이지만 설정을 명시적으로 켜기 또는 끄기로 변경할 수도 있습니다.
-
데이터 집합에서 을 클릭한 다음 설정을 클릭합니다.
데이터 보기
데이터 파이프라인을 설계할 때 데이터 샘플을 보고 데이터의 형태의 확인하고 유효성 검사할 수 있습니다.
다음 요구 사항을 충족해야 합니다.
-
관리의 테넌트 수준에서 데이터 보기가 활성화되었습니다.
설정 > 기능 제어 > 데이터 통합에서 데이터 보기를 활성화합니다.
-
연결이 있는 공간에서 데이터 볼 수 있음 역할이 할당됩니다.
-
프로젝트가 있는 공간에서 볼 수 있음 역할이 할당됩니다.
설계 보기의 데이터 집합 탭에서 샘플 데이터를 보려면 다음 단계를 따르십시오.
-
물리적 개체에서 데이터 보기를 클릭합니다.
데이터 샘플이 표시됩니다. 행 수를 사용하여 샘플에 포함할 데이터 행 수를 설정할 수 있습니다.
데이터 집합과 테이블 간을 변경하려면 다음 안내를 따르십시오.
-
데이터의 논리적 표현을 보려면 데이터 집합를 선택합니다.
-
데이터베이스의 물리적 표현을 테이블과 뷰로 보려면 물리적 개체를 선택합니다.
뉴스 메모물리적 표현이 아직 만들어지지 않은 경우에는 이 옵션을 사용할 수 없습니다.
다음 두 가지 방법으로 샘플 데이터를 필터링할 수 있습니다.
-
을 사용하여 검색할 샘플 데이터를 필터링합니다.
예를 들어, ${OrderYear}>2023 필터를 사용하고 행 수가 10으로 설정된 경우 2024년 주문 10개의 샘플을 가져오게 됩니다.
-
특정 열을 기준으로 샘플 데이터를 필터링합니다.
이는 기존 샘플 데이터에만 영향을 미칩니다. 을 사용하여 2024년 주문만 포함하고 열 필터를 2022년 주문을 표시하도록 설정한 경우 결과는 빈 샘플입니다.
특정 열을 기준으로 데이터 샘플을 정렬할 수도 있습니다. 정렬은 기존 샘플 데이터에만 영향을 미칩니다. 을 사용하여 2024년 주문만 포함하고 역순으로 정렬한 경우 샘플 데이터에는 여전히 2024년 주문만 포함됩니다.
데이터 보기에서 열을 숨길 수 있습니다.
-
열에서 을 클릭한 다음 열 숨기기를 클릭하여 단일 열을 숨깁니다.
-
임의의 열에서 를 클릭한 다음 열 표시를 클릭하여 여러 열을 숨깁니다. 이를 통해 보기의 모든 열에 대한 가시성을 제어할 수 있습니다.
데이터 집합 유효성 검사 및 조정
데이터 작업에 포함된 모든 데이터 집합의 유효성을 검사할 수 있습니다.
모든 유효성 검사 오류와 설계 변경 내용을 보려면 유효성 검사 및 조정을 확장합니다.
데이터 집합 유효성 검사
-
데이터 집합 유효성 검사를 클릭하여 데이터 집합의 유효성을 검사합니다.
유효성 검사에는 다음을 확인하는 것이 포함됩니다.
-
모든 테이블에는 기본 키가 있습니다.
-
누락된 특성이 없습니다.
-
중복된 테이블 또는 열 이름이 없습니다.
또한 소스와 비교하여 설계 변경 내용 목록을 얻을 수 있습니다.
-
추가된 테이블 및 열
-
삭제된 테이블 및 열
-
이름이 변경된 테이블 및 열
-
변경된 기본 키 및 데이터 유형
모든 유효성 검사 오류와 설계 변경 내용을 보려면 유효성 검사 및 조정을 확장합니다.
-
유효성 검사 오류를 수정한 다음 데이터 집합의 유효성을 다시 검사합니다.
-
변경된 기본 키 또는 데이터 유형을 제외하고 대부분의 설계 변경 내용은 자동으로 조정될 수 있습니다. 이 경우 데이터 집합을 동기화해야 합니다.
데이터 집합 준비
가능한 경우 데이터 손실 없이 설계 변경을 조정하도록 데이터 집합을 준비할 수 있습니다. 데이터 손실 없이 조정할 수 없는 설계 변경 내용이 있는 경우 데이터 손실이 있는 소스에서 테이블을 다시 만들 수 있습니다.
이를 위해서는 작업을 중지해야 합니다.
-
을 클릭한 다음 준비를 클릭합니다.
데이터 집합이 준비되면 저장소 작업을 다시 시작하기 전에 데이터 집합의 유효성을 검사합니다.
데이터 집합 다시 만들기
소스에서 데이터 집합을 다시 만들 수 있습니다. 데이터 집합을 다시 만들면 데이터가 손실됩니다. 소스 데이터가 있으면 소스에서 다시 로드할 수 있습니다.
이를 위해서는 작업을 중지해야 합니다.
-
을 클릭한 다음 다시 만들기를 클릭합니다.
제한 사항
-
Google BigQuery에서 열을 삭제하거나 이름을 바꾸면 테이블이 다시 만들어져 데이터가 손실됩니다.