데이터 플랫폼에 이미 있는 데이터 등록
데이터 플랫폼에 이미 존재하는 데이터를 등록하여 데이터를 조정 및 변환하고 데이터 마트를 만들 수 있습니다. 이를 통해 Qlik Talend Data Integration 이외의 다른 도구(예: Qlik Replicate 또는 Stitch)로 온보딩된 데이터를 사용할 수 있습니다.
데이터를 등록하면 두 개의 데이터 작업이 만들어집니다.
-
등록된 데이터
데이터를 등록하는 동안 데이터 집합을 만들 데이터를 준비하기 위한 보기를 만들 수 있습니다.
-
저장소
여기에는 등록된 데이터를 기반으로 데이터 집합을 생성하고 저장하는 작업이 포함됩니다.
데이터를 등록하면 생성된 데이터 집합을 여러 가지 방법으로 사용할 수 있습니다.
-
분석 앱에서 데이터 집합을 사용할 수 있습니다.
-
변환을 만들 수 있습니다.
-
데이터 마트를 만들 수 있습니다.
데이터 등록
프로젝트에 정의된 클라우드 데이터 웨어하우스에 존재하는 데이터를 등록할 수 있습니다. 생성된 데이터 집합은 동일한 클라우드 데이터 웨어하우스에 저장됩니다.
프로젝트에 대한 자세한 내용은 데이터 파이프라인 만들기을 참조하십시오.
-
프로젝트에서 새로 추가를 클릭한 다음 데이터 등록을 클릭합니다.
-
데이터 작업에 대한 이름 및 설명을 추가합니다.
다음을 클릭합니다.
-
등록할 데이터를 선택합니다.
다음을 클릭합니다.
설정이 표시됩니다.
-
업데이트 방법에서 데이터 업데이트 방법을 선택합니다.
데이터가 Qlik Replicate 또는 Stitch에 의해 복제되는 경우 높은 워터마크를 사용한 증분을 선택합니다.
-
높은 워터마크를 사용하는 증분을 사용하여 높은 워터마크 패턴을 사용하여 증분식으로 데이터 변경을 처리합니다. 이는 데이터가 Qlik Replicate(전체 로드 및 저장 변경 내용 활성화됨) 또는 Stitch에 의해 복제되는 경우 권장되는 방법입니다.
자세한 내용은 업데이트 방법을 참조하십시오.
-
데이터가 한 번만 로드되었거나 전체 다시 로드를 사용하여 업데이트된 경우 현재 저장소와 비교를 사용합니다.
-
-
요약에서 만들어진 두 데이터 작업을 미리 보고 원하는 경우 이름을 바꿉니다.
팁 메모이 이름은 저장소 데이터 작업에서 데이터베이스 스키마의 이름을 지정할 때 사용됩니다. 스키마는 하나의 작업에만 연결할 수 있으므로 동일한 데이터 플랫폼을 사용하는 다른 프로젝트의 데이터 작업과의 충돌을 방지하려면 고유한 이름을 사용하는 것이 좋습니다. -
등록된 데이터 작업을 열 것인지, 아니면 프로젝트로 돌아갈 것인지 선택합니다.
준비가 되면 마침을 클릭합니다.
이제 두 개의 데이터 작업이 만들어집니다. 데이터 복제를 시작하려면 다음을 수행해야 합니다.
-
등록된 데이터 작업을 준비합니다.
데이터 작업에서 준비를 클릭합니다.
아티팩트가 만들어지면 데이터 작업 상태는 등록됨입니다.
-
저장소 데이터 작업을 준비하고 실행합니다.
자세한 내용은 데이터 집합 저장를 참조하십시오.
포함할 데이터 선택
포함할 데이터를 선택할 때 특정 테이블 또는 뷰를 선택하거나 선택 규칙을 사용하여 테이블 그룹을 포함하거나 제외할 수 있습니다.
%를 와일드카드로 사용하여 스키마 및 테이블에 대한 선택 기준을 정의합니다.
-
%.%는 모든 스키마의 모든 테이블을 정의합니다.
-
Public.%는 Public 스키마의 모든 테이블을 정의합니다.
선택 기준은 선택에 따라 미리 보기를 제공합니다.
이제 다음 중 하나를 수행할 수 있습니다.
-
선택 기준에 따라 테이블 그룹을 포함하거나 제외하는 규칙을 만듭니다.
선택 기준에서 규칙 추가를 클릭하여 규칙을 만들고 포함 또는 제외를 선택합니다.
선택 규칙에서 규칙을 볼 수 있습니다.
-
하나 이상의 데이터 집합을 선택하고 선택한 데이터 집합 추가를 클릭합니다.
명시적으로 선택된 데이터 집합에서 추가된 데이터 집합을 볼 수 있습니다.
선택 규칙은 현재 테이블 및 뷰 집합에만 적용되며 향후에 추가되는 테이블 및 뷰에는 적용되지 않습니다.
메타데이터 새로 고침
작업의 설계 보기에서 소스 메타데이터의 변경 내용에 맞게 작업의 메타데이터를 새로 고칠 수 있습니다. Metadata Manager를 사용하는 SaaS 응용 프로그램의 경우 데이터 작업에서 메타데이터를 새로 고치려면 먼저 Metadata Manager를 새로 고쳐야 합니다.
-
다음 중 하나를 수행할 수 있습니다.
-
작업의 모든 데이터 집합에 대한 메타데이터를 새로 고치려면 ...를 클릭한 다음 메타데이터 새로 고침을 클릭합니다.
-
단일 데이터 집합에 대한 메타데이터를 새로 고치려면 데이터 집합의 데이터 집합에서 ...를 클릭한 다음 메타데이터 새로 고침을 클릭합니다.
화면 하단의 메타데이터 새로 고침에서 메타데이터 새로 고침 상태를 확인할 수 있습니다. 에 커서를 올려놓으면 메타데이터가 마지막으로 새로 고침된 시기를 확인할 수 있습니다.
-
-
변경 내용을 적용할 데이터 작업을 준비합니다.
데이터 작업을 준비하고 변경 내용을 적용하면 변경 내용이 메타데이터 새로 고침에서 제거됩니다.
변경 내용을 전파하려면 이 작업을 사용하는 저장소 작업을 준비해야 합니다.
열이 제거되면 저장소에서 기록 데이터가 손실되지 않도록 Null 값이 포함된 변환이 추가됩니다.
제한 사항
-
동일한 시간 슬롯에서 이전에 삭제된 열이 있으면 이름 바꾸기가 삭제된 열 이름 바꾸기로 해석됩니다(동일한 데이터 유형과 데이터 길이를 갖는 경우).
이전: a b c d
이후: a c1 d
이 예에서는 b가 삭제되고 c가 c1로 이름이 바뀌었으며, b와 c의 데이터 유형과 데이터 길이가 동일합니다.
이는 b의 이름이 c1로 변경되고 c가 삭제된 것으로 식별됩니다.
-
이전에 마지막 열 이름이 삭제된 경우에도 마지막 열 이름 바꾸기는 인식되지 않으며 이름이 바뀌기 전의 열도 인식되지 않습니다.
이전: a b c d
이후: a b c1
이 예에서는 d가 삭제되고 c가 c1로 이름이 바뀌었습니다.
이는 c 및 d가 삭제되고 c1이 추가된 것으로 식별됩니다.
-
새 열은 끝에 추가되는 것으로 가정됩니다. 다음 열과 동일한 데이터 타입으로 중간에 열이 추가되면 삭제 및 이름 바꾸기로 해석될 수 있습니다.
등록된 데이터 설정
등록된 데이터 작업에 대한 속성을 설정할 수 있습니다.
-
설정을 클릭합니다.
일반 설정
-
데이터베이스
대상에서 사용할 데이터베이스입니다.
-
작업 스키마
데이터 작업의 스키마 이름을 변경할 수 있습니다.
- 모든 테이블 및 보기에 대한 접두사
이 작업으로 만들어진 모든 테이블 및 뷰에 대한 접두사를 설정할 수 있습니다.
정보 메모여러 데이터 작업에서 데이터베이스 스키마를 사용하려는 경우 고유한 접두사를 사용해야 합니다.
업데이트 방법
변경 감지
-
데이터가 한 번만 로드되었거나 전체 다시 로드를 사용하여 업데이트된 경우 현재 저장소와 비교를 사용합니다.
-
높은 워터마크를 사용하는 증분을 사용하여 높은 워터마크 방법을 사용하여 증분식으로 데이터 변경을 처리합니다.
이 옵션을 사용하려면 모든 테이블에 기본 키가 정의되어 있어야 합니다. 기본 키가 누락된 테이블의 경우 데이터 집합 보기에서 기본 키를 수동으로 정의할 수 있습니다.
증분 로드 설정
이러한 설정은 높은 워터마크를 사용한 증분이 선택된 경우 사용할 수 있습니다.
-
데이터가 전체 로드 및 변경 내용 저장이 있는 Qlik Replicate 작업에 의해 복제되는 경우 증분 로드 설정을 Qlik Replicate설정으로 설정합니다.
-
데이터가 Stitch 데이터 파이프라인에 의해 복제되고 소스 테이블에 기본 키가 정의되어 있는 경우 증분 로드 설정을 Stitch 기본 설정으로 설정합니다.
-
그렇지 않으면 증분 로드 설정을 사용자 지정으로 설정하고 설정을 직접 정의합니다.
설정 | 사용자 지정 | Qlik Replicate 설정 | Stitch 기본 설정 |
---|---|---|---|
변경 테이블 |
변경 내용이 동일한 테이블에 있는 경우 변경 내용이 동일한 테이블 내에 있음을 선택합니다. 그렇지 않은 경우 변경 내용이 동일한 테이블 내에 있음을 선택 취소하고 테이블 패턴 변경에서 변경 테이블 패턴을 지정합니다. |
${SOURCE_TABLE_NAME}__ct table | 변경 내용은 동일한 테이블 내에 있습니다. |
워터마크 열 | 이름에 워터마크 열의 이름을 설정합니다. | header__change_seq | _SDC_BATCHED_AT |
"시작 날짜" 열 |
배치 시작 시간 또는 선택한 열을 사용하여 "시작 날짜"를 표시할 수 있습니다. 선택한 "시작 날짜" 열을 선택하는 경우 "시작 날짜" 패턴을 정의해야 합니다. |
header__timestamp | _SDC_BATCHED_AT
일괄 시작 시간으로 "시작 날짜"를 표시하도록 변경하거나 다른 열을 선택하여 변경할 수 있습니다. |
일시 삭제 |
변경 내용에 일시 삭제 포함을 선택하고 표시 표현식을 정의하여 변경 내용에 일시 삭제를 포함할 수 있습니다. 변경 내용이 일시 삭제인 경우 표시 표현식은 True로 평가되어야 합니다. 예: ${is_deleted} = 1 |
${header__change_oper} = 'D' |
변경 내용에 일시 삭제 포함을 선택하고 표시 표현식을 정의하여 변경 내용에 일시 삭제를 포함할 수 있습니다. 변경 내용이 일시 삭제인 경우 표시 표현식은 True로 평가되어야 합니다. 예: ${is_deleted} = 1 |
이전 이미지 |
이미지 이전을 선택하고 표시 표현식을 정의하여 변경 테이블의 이미지 레코드가 변경되기 전에 필터링할 수 있습니다. 행에 업데이트 전의 이미지가 포함된 경우 표시 표현식은 True로 평가되어야 합니다. 예: ${header__change_oper} = 'B' |
${header__change_oper} = 'B' | 데이터에 이전 이미지 레코드가 없습니다. |
카탈로그 설정
-
카탈로그에 게시
이 버전의 데이터를 카탈로그에 데이터 집합으로 게시하려면 이 옵션을 선택합니다. 다음에 이 작업을 준비하면 카탈로그 콘텐츠가 업데이트됩니다.
카탈로그에 대한 자세한 내용은 카탈로그 도구를 사용하여 데이터 이해를 참조하십시오.
권장되는 Qlik Replicate 구성
이러한 Qlik Replicate 작업 설정은 변경 내용을 저장하는 Qlik Replicate 작업을 사용하여 복제되는 데이터를 등록할 때 권장됩니다.
-
Qlik Replicate 작업은 전체 로드 및 변경 내용 저장 옵션으로 구성해야 합니다.
-
변경 내용 저장 설정 > 변경 테이블에서 기본 이름을 사용하여 다음 변경 테이블 열이 포함되어 있는지 확인합니다.
-
[header__]change_seq
-
[header__]change_oper
-
[header__] timestamp
-
-
변경 내용 저장 설정 > 변경 테이블에서 UPDATE 중을 이후 이미지만 저장으로 설정합니다.
이렇게 하면 이전 이미지가 포함되지 않으므로 각 업데이트의 공간이 줄어듭니다. 이전 이미지를 사용하지 않으려는 경우 이 옵션을 사용합니다.
-
변경 내용 저장 설정 > 변경 테이블에서 접미사를 기본값 __ct로 설정합니다.
-
다음 전역 변환을 적용하지 마십시오.
-
변경 테이블 이름 바꾸기
-
변경 테이블 스키마 이름 바꾸기
-
-
소스 테이블의 기본 키를 업데이트할 수 있는 경우 변경 처리 조정에서 기본 키 열 옵션을 업데이트할 때 DELETE 및 INSERT를 활성화합니다.
이전 레코드의 기록은 새 레코드에 보존되지 않습니다.
정보 메모이 옵션은 Qlik Replicate November 2022에서 지원됩니다.
등록된 데이터 작업에 대한 작업
작업 메뉴에서 등록된 데이터 작업에 대해 다음 작업을 수행할 수 있습니다.
-
열기
이렇게 하면 데이터 작업이 열립니다. 데이터 작업에 대한 테이블 구조 및 세부 사항을 볼 수 있습니다.
-
편집
작업의 이름과 설명을 편집하고 태그를 추가할 수 있습니다.
-
삭제
데이터 작업을 삭제할 수 있습니다.
소스 데이터는 삭제되지 않습니다.
- 데이터 집합 동기화
자동으로 조정할 수 없는 설계 변경 내용을 동기화합니다.
-
테이블 다시 만들기
그러면 소스에서 데이터 집합이 다시 만들어집니다.
-
데이터 저장
이 랜딩 데이터 작업의 데이터를 사용하는 저장소 데이터 작업을 만들 수 있습니다.
"시작 날짜" 열 설정 시 기록 고려사항
다운스트림 작업에서 기록 데이터가 활성화되어 있고 "시작 날짜" 열을 사용하는 경우 소급 적용이 지원되지 않습니다. 즉, 변경 배치에 저장소에 없는 이전 버전의 레코드가 포함되어 있는 경우 변경 배치에는 해당 레코드의 최신 버전도 모두 포함되어야 합니다. 최신 버전이 포함되지 않으면 삭제됩니다.
이 예에서 저장소에는 처음부터 다음 레코드가 포함됩니다.
시작 날짜 | 이름 | 도시 |
---|---|---|
2023년 10월 2일 | Joe | 뉴욕 |
2023년 10월 3일 | Joe | 런던 |
예 1:
다음 변경 배치를 삽입하는 경우:
시작 날짜 | 이름 | 도시 |
---|---|---|
2023년 10월 4일 | Joe | 파리 |
예상대로 저장소 결과는 다음과 같습니다.
시작 날짜 | 이름 | 도시 |
---|---|---|
2023년 10월 2일 | Joe | 뉴욕 |
2023년 10월 3일 | Joe | 런던 |
2023년 10월 4일 | Joe | 파리 |
예 2:
그러나 일괄 변경에 다음과 같은 이전 레코드를 삽입하는 경우:
시작 날짜 | 이름 | 도시 |
---|---|---|
2023년 10월 1일 | Joe | 베를린 |
이로 인해 최신 레코드가 저장소에서 제거됩니다.
시작 날짜 | 이름 | 도시 |
---|---|---|
2023년 10월 1일 | Joe | 베를린 |
예 3:
레코드를 유지하려면 변경 배치에 최신 레코드가 포함되어야 합니다.
시작 날짜 | 이름 | 도시 |
---|---|---|
2023년 10월 1일 | Joe | 베를린 |
2023년 10월 2일 | Joe | 뉴욕 |
2023년 10월 3일 | Joe | 런던 |
이렇게 하면 기록이 저장소에도 유지됩니다.
시작 날짜 | 이름 | 도시 |
---|---|---|
2023년 10월 1일 | Joe | 베를린 |
2023년 10월 2일 | Joe | 뉴욕 |
2023년 10월 3일 | Joe | 런던 |
고려사항
-
Stitch 복제에서는 기록 옵션을 사용하지 않습니다. Qlik Talend Data Integration에 기록 데이터를 보관하려면 옵션을 사용합니다.
데이터 용량 고려 사항
-
등록된 테이블에 기본 키가 없으면 실행될 때마다 전체 다시 로드가 실행됩니다. 이는 월별 등록 데이터 용량 할당량에 포함됩니다. 저장소에서 변경 내용을 찾기 위해 모든 레코드를 비교해야 하기 때문입니다.
-
저장소에서 등록된 데이터의 데이터 용량이 계산됩니다. 즉, 등록된 데이터의 삭제는 저장소의 삽입 또는 업데이트(일시 삭제)로 변환되어 데이터 용량에 계산됩니다.
-
등록된 데이터의 테이블이 두 개의 저장소 데이터 작업에서 사용되는 경우 일시 삭제, 삽입 및 업데이트는 데이터 용량에 두 번 계산됩니다.