기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

클라우드 데이터 웨어하우스의 데이터 집합 아키텍처

Qlik Talend Data Integration을 사용하면 분석 데이터 파이프라인을 만들고, 관리하고, 제어하여 소비자에게 데이터를 제공할 수 있습니다. Qlik Talend Data Integration을 사용하여 클라우드 데이터 웨어하우스에서 데이터 집합을 생성하면 저장소 테이블, 변경 테이블 및 보기가 생성됩니다.

직관적이고 안내된 사용자 인터페이스를 통해 데이터 파이프라인을 구축, 모델링 및 실행할 수 있습니다. 수동 코딩 없이 운영 데이터 저장소(ODS) 및 기록 데이터 저장소(HDS)에 대한 스키마를 자동으로 생성합니다.

Qlik 데이터 게이트웨이 - 데이터 이동 및 CDC를 사용하는 Qlik Talend Data Integration 데이터 파이프라인 아키텍처

  • 랜딩

    Qlik Talend Data Integration의 랜딩 작업은 데이터 소스에서 랜딩 영역으로의 데이터 연속 랜딩을 제어합니다. 다이어그램의 예에서는 CDC를 사용하여 데이터를 최신 상태로 유지하는 데이터 소스에 액세스하기 위해 Qlik 데이터 게이트웨이 - 데이터 이동를 사용하는 방법을 설명합니다. Qlik Cloud 소스 연결을 사용하여 주기적으로 다시 로드하도록 예약할 수 있는 전체 로드를 수행할 수도 있습니다.

    데이터 이동 게이트웨이를 사용해야 하는 경우에 대한 자세한 내용은 데이터 이동 게이트웨이는 언제 필요합니까?를 참조하십시오.

    정보 메모랜딩 영역의 테이블은 Qlik Talend Data Integration 저장소 데이터 작업에서 내부용으로 생성됩니다. 다른 다운스트림 프로세스에서 랜딩 테이블을 사용하지 마십시오.
  • 저장소

    저장소 작업은 데이터가 저장소 테이블에 적용되는 시기를 제어하고 테이블 및 외부 보기를 만들고 관리합니다.

  • 외부 보기

    데이터를 사용할 때 가장 좋은 방법은 보기를 사용하는 것입니다. 보기는 향상된 데이터 동시성을 포함하여 테이블에 비해 여러 이점을 제공합니다.

라이브 보기 사용

라이브 보기를 사용하여 현재 데이터(ODS)와 기록 데이터(HDS)에 모두 액세스할 수 있습니다. 라이브 보기에는 현재 또는 이전 테이블에 아직 적용되지 않은 변경 테이블의 데이터가 포함됩니다. 이렇게 하면 변경된 데이터를 자주 적용하지 않고도 대기 시간이 짧은 데이터를 볼 수 있습니다. 병합을 지연할 수 있으므로 대상 플랫폼에서 비용과 처리 요구 사항을 줄일 수 있습니다.

라이브 보기의 또 다른 이점은 컴퓨팅 계층을 항상 실행할 필요가 없다는 것입니다.

  • 랜딩은 빠른 실행을 위해 INSERT 작업만 수행하므로 작을 수 있는 명시적 웨어하우스를 가리킬 수 있습니다.

  • 예를 들어, 하루에 한 번 실행되는 저장소 프로세스는 처리를 위해 대규모 컴퓨팅 레이어가 작동하도록 할 수 있습니다.

  • 더 이상 하루 종일 변경 내용을 적용할 필요가 없으므로 지연을 개선할 수 있습니다. 삽입된 새 레코드를 변경 테이블에서 사용할 수 있는 경우 라이브 보기에서 바로 사용할 수 있습니다.

스키마

아티팩트는 내부 스키마 및 데이터 작업 스키마에서 생성됩니다.

  • 내부 스키마에는 물리적 데이터 테이블이 포함됩니다.

  • 데이터 작업 스키마에는 데이터를 소비하는 데 사용할 수 있는 보기가 포함되어 있습니다.

    스키마가 둘 이상의 데이터 작업과 연결된 경우 각 데이터 작업은 테이블 및 뷰에 대해 고유한 접두사를 사용해야 합니다. 데이터 작업 설정에서 접두사를 설정할 수 있습니다.

이름 충돌에 대해 내부 스키마만 확인합니다. 다른 스키마의 경우 테이블 이름에 이름 충돌이 없는지 확인해야 합니다. 가장 좋은 방법은 내부 스키마 이름을 _internal이 추가된 데이터 작업 스키마와 동일한 이름으로 지정하는 것입니다. 이렇게 하면 모든 스키마와 접두사 조합이 고유한지 효과적으로 확인할 수 있습니다.

정보 메모모든 테이블과 보기는 Qlik Talend Data Integration으로 관리됩니다. 다른 도구를 사용하여 데이터를 변경하지 마십시오.

테이블

내부 스키마에는 다음 테이블이 만들어집니다.

  • 현재 테이블(ODS)

    이 테이블에는 최신 적용 간격 동안 변경 내용으로 업데이트된 데이터 소스의 복제본이 포함되어 있습니다.

  • 이전 테이블(HDS)

    이 테이블에는 유형 2 기록 데이터가 포함되어 있습니다. 데이터 작업 설정에서 기록이 활성화된 경우에만 생성됩니다.

    소스 테이블 레코드가 업데이트되면 매번 이전 테이블에 새 레코드가 추가됩니다. 기록 레코드는 업데이트된 내용과 유효한 시기를 포함하는 이전 현재 레코드의 복사본입니다.

    기록 보기 또는 기록 라이브 보기를 사용하여 기록 데이터를 봅니다. 자세한 내용은 기록 보기기록 라이브 보기를 참조하십시오.

  • 변경 테이블

    이 테이블에는 현재 테이블에 아직 적용되지 않은 모든 변경 내용이 포함되어 있습니다. 랜딩 모드 전체 로드 및 CDC를 사용하는 경우에만 생성됩니다.

보기

데이터 작업 대상 스키마에 다음 보기가 만들어집니다. 라이브 보기 및 기록을 활성화했는지 여부와 변경 처리를 사용하는지 여부에 따라 보기가 다르게 만들어집니다.

  • 현재 보기

  • 라이브 보기

  • 변경 보기

  • 기록 보기

  • 기록 라이브 보기

정보 메모hdr__로 시작하는 모든 헤더 열 이름은 예약되어 있습니다. 저장소 작업에서 보기를 사용하는 경우, 저장소 작업에서 동일한 헤더 열이 있는 보기가 생성되므로 저장소 작업에서 사용된 헤더 열의 이름을 바꿔야 이름 충돌이 발생하지 않습니다.

현재 보기

명명: <외부 스키마>.[<접두사>]<테이블 이름>_current

다음 헤더 열이 테이블 구조에 추가됩니다.

테이블 헤더 필드
필드 유형 설명
hdr__key_hash varbinary(20)

모든 레코드 기본 키의 해시입니다. 해시 형식은 SHA1입니다. 열은 백스페이스 문자로 구분됩니다.

이 열은 데이터 마트 데이터 작업에서 생성되지 않습니다.

hdr__key_id int64

레코드당 증분되는 시퀀스입니다.

이 열은 데이터 마트 데이터 작업에서만 생성됩니다.

hdr__from_timestamp 타임스탬프

타임스탬프(UTC)

  • 전체 로드에서 가져온 데이터의 경우 전체 로드 시작 시간이 됩니다.

  • 변경 테이블에서 발생한 변경의 경우 레코드의 타임스탬프 필드가 됩니다.

hdr__operation string(1)

이 레코드의 최신 작업입니다.

  • D - 변경 테이블에서 삭제됩니다.

  • U - 변경 테이블에서 업데이트되었습니다.

  • I - 변경 테이블에서 삽입되었습니다.

  • L - 전체 로드 작업에 의해 삽입되었습니다.

  • d - 비교 및 적용에서 삭제됩니다.

  • u - 비교 및 적용에서 업데이트됩니다.

  • i - 비교 및 적용에서 삽입됩니다.

hdr__inserted_timestamp 타임스탬프 키가 처음 추가된 UTC 타임스탬프입니다. 전체 로드를 사용할 때 전체 로드의 시작 시간입니다.
hdr__modified_timestamp 타임스탬프 마지막 업데이트가 적용된 UTC 타임스탬프입니다.

라이브 보기

라이브 보기는 테이블을 변경 테이블의 변경 사항과 병합하는 선택된 각 소스 테이블에 대한 보기를 보여 줍니다. 이렇게 하면 다음 적용 주기를 기다릴 필요 없이 쿼리에 데이터의 라이브 보기가 제공됩니다. 변경 테이블 뷰에서 병합된 변경 내용은 테이블 간에 트랜잭션 일관성이 없습니다.

라이브 보기는 데이터 작업 설정에서 라이브 보기를 활성화한 경우에만 만들어집니다.

명명: <외부 스키마>.[<접두사>]<테이블 이름>< 라이브 보기에 대한 접미사>

테이블 헤더 필드
필드 유형 설명
hdr__key_hash varbinary(20)

모든 레코드 기본 키의 해시입니다. 해시 형식은 SHA1입니다. 열은 백스페이스 문자로 구분됩니다.

이 열은 데이터 마트 데이터 작업에서 생성되지 않습니다.

hdr__key_id int64

레코드당 증분되는 시퀀스입니다.

이 열은 데이터 마트 데이터 작업에서만 생성됩니다.

hdr__from_timestamp 타임스탬프

타임스탬프(UTC)

  • 전체 로드에서 가져온 데이터의 경우 전체 로드 시작 시간이 됩니다.

  • 변경 테이블에서 발생한 변경의 경우 레코드의 타임스탬프 필드가 됩니다.

hdr__operation string(1)

이 레코드의 최신 작업입니다.

  • D - 변경 테이블에서 삭제됩니다.

  • U - 변경 테이블에서 업데이트되었습니다.

  • I - 변경 테이블에서 삽입되었습니다.

  • L - 전체 로드 작업에 의해 삽입되었습니다.

  • d - 비교 및 적용에서 삭제됩니다.

  • u - 비교 및 적용에서 업데이트됩니다.

  • i - 비교 및 적용에서 삽입됩니다.

hdr__inserted_timestamp 타임스탬프 키가 처음 추가된 UTC 타임스탬프입니다. 전체 로드를 사용할 때 전체 로드의 시작 시간입니다.
hdr__modified_timestamp 타임스탬프 마지막 업데이트가 적용된 UTC 타임스탬프입니다.
hdr__store varchar(10)

이는 레코드가 있는 위치를 나타냅니다.

  • CURRENT - 레코드가 현재 물리적 테이블에 있는 경우.

  • CHANGES - 레코드가 변경 테이블에 있는 경우.

변경 보기

선택한 각 소스 테이블에 대한 랜딩 스키마의 변경 테이블 보기입니다.

명명: <외부 스키마>.[<접두사>]<테이블 이름>_changes

다음 헤더 필드가 테이블 구조에 추가됩니다.

테이블 헤더 필드 변경
필드 유형 설명
hdr__change_identifier string(50)

변경 식별자는 두 부분으로 구성된 문자열입니다.

  • 1970년 1월 1일 이후의 배치 실행 시작 타임스탬프(10자리 문자열)

  • 복제 게이트웨이에서 시퀀스 변경(35자)

hdr__from_timestamp 타임스탬프

타임스탬프(UTC)

  • 전체 로드에서 가져온 데이터의 경우 전체 로드 시작 시간이 됩니다.

  • 변경 테이블에서 발생한 변경의 경우 레코드의 타임스탬프 필드가 됩니다.

hdr__to_timestamp 타임스탬프

타임스탬프(UTC)

  • 전체 로드에서 가져온 데이터의 경우 전체 로드 시작 시간이 됩니다.

  • 변경 테이블에서 발생한 변경의 경우 레코드의 타임스탬프 필드가 됩니다.

hdr__operation string(1)

이 레코드의 최신 작업입니다.

  • D - 변경 테이블에서 삭제됩니다.

  • U - 변경 테이블에서 업데이트되었습니다.

  • I - 변경 테이블에서 삽입되었습니다.

  • L - 전체 로드 작업에 의해 삽입되었습니다.

  • d - 비교 및 적용에서 삭제됩니다.

  • u - 비교 및 적용에서 업데이트됩니다.

  • i - 비교 및 적용에서 삽입됩니다.

hdr__timestamp 타임스탬프

타임스탬프(UTC)입니다.

hdr__key_hash binary(20)

모든 레코드 기본 키의 해시입니다.

이 열은 데이터 마트 데이터 작업에서 생성되지 않습니다.

hdr__key_id int64

레코드당 증분되는 시퀀스입니다.

이 열은 데이터 마트 데이터 작업에서만 생성됩니다.

기록 보기

데이터 작업 설정에서 기록이 활성화된 경우 선택한 각 소스 테이블에 대한 데이터 자산 스키마에 기록 보기가 생성됩니다. 다음 헤더 필드가 추가됩니다.

명명: <외부 스키마>.[<접두사>]<테이블 이름><기록 보기에 대한 접미사>

기록 보기 헤더 필드
필드 유형 설명
hdr__key_hash binary(20)

모든 레코드 기본 키의 해시입니다.

이 열은 데이터 마트 데이터 작업에서 생성되지 않습니다.

hdr__key_id int64

레코드당 증분되는 시퀀스입니다.

이 열은 데이터 마트 데이터 작업에서만 생성됩니다.

hdr__store varchar(10)

이는 레코드가 있는 위치를 나타냅니다.

  • CURRENT - 레코드가 현재 물리적 테이블에 있는 경우.

  • PRIORS - 레코드가 기록 데이터가 있는 이전 테이블에 있는 경우.

hdr__operation string(1)

이 레코드의 최신 작업입니다.

  • D - 변경 테이블에서 삭제됩니다.

  • U - 변경 테이블에서 업데이트되었습니다.

  • I - 변경 테이블에서 삽입되었습니다.

  • L - 전체 로드 작업에 의해 삽입되었습니다.

  • d - 비교 및 적용에서 삭제됩니다.

  • u - 비교 및 적용에서 업데이트됩니다.

  • i - 비교 및 적용에서 삽입됩니다.

hdr__deleted bit

hdr__operation이 D인지 d인지에 따라 레코드가 일시 삭제되었는지 여부를 나타냅니다.

hdr__was _current_from_timestamp 타임스탬프

처음으로 레코드가 현재인 타임스탬프(UTC)입니다.

hdr__was _current_to_timestamp 타임스탬프

마지막으로 레코드가 현재인 타임스탬프(UTC)입니다.

기록 라이브 보기

변경 테이블의 변경 내용과 병합된 선택한 각 소스 테이블에 대해 선택한 각 소스 테이블의 데이터 자산 스키마에서 기록 라이브 보기가 생성됩니다. 다음 헤더 필드가 추가됩니다.

명명: <외부 스키마>.[<접두사>]<테이블 이름><라이브 기록 보기에 대한 접미사>

라이브 기록 보기 헤더 필드
필드 유형 설명
hdr__key_hash binary(20)

모든 레코드 기본 키의 해시입니다.

이 열은 데이터 마트 데이터 작업에서 생성되지 않습니다.

hdr__key_id int64

레코드당 증분되는 시퀀스입니다.

이 열은 데이터 마트 데이터 작업에서만 생성됩니다.

hdr__store varchar(10)

이는 레코드가 있는 위치를 나타냅니다.

  • CURRENT - 레코드가 현재 물리적 테이블에 있는 경우.

  • PRIORS - 레코드가 기록 데이터가 있는 이전 테이블에 있는 경우.

  • CHANGES - 레코드가 변경 테이블에 있는 경우.

hdr__operation string(1)

이 레코드의 최신 작업입니다.

  • D - 변경 테이블에서 삭제됩니다.

  • U - 변경 테이블에서 업데이트되었습니다.

  • I - 변경 테이블에서 삽입되었습니다.

  • L - 전체 로드 작업에 의해 삽입되었습니다.

  • d - 비교 및 적용에서 삭제됩니다.

  • u - 비교 및 적용에서 업데이트됩니다.

  • i - 비교 및 적용에서 삽입됩니다.

hdr__deleted bit

hdr__operation이 D인지 d인지에 따라 레코드가 일시 삭제되었는지 여부를 나타냅니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!