기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

데이터 온보딩

Qlik 오픈 레이크하우스 프로젝트에서 데이터 파이프라인을 만드는 첫 번째 단계는 데이터 온보딩입니다. 이 프로세스에는 소스에서 데이터를 전송하고 최적화된 Iceberg 테이블에 데이터 집합을 저장하는 작업이 포함됩니다.

온보딩은 단일 작업으로 만들어지지만 두 단계로 수행됩니다. 데이터 소스 유형(CDC 또는 스트리밍)에 따라 프로젝트의 작업이 결정됩니다.

CDC 소스

  • 데이터 가져오기

    여기에는 랜딩 데이터 작업을 사용하여 온프레미스 데이터 소스에서 랜딩 영역으로 데이터를 연속적인 미니 배치로 전송하는 작업이 포함됩니다.

    데이터 소스의 랜딩 데이터

    데이터를 레이크하우스에 저장할 수도 있고, 레이크하우스에서는 데이터를 S3 파일 저장소에 저장할 수도 있습니다.

    Qlik 오픈 레이크하우스에 대한 랜딩 데이터

  • 데이터 집합 저장

    여기에는 랜딩 데이터 또는 증분 로드의 초기 로드를 읽고 저장소 데이터 작업을 사용하여 읽기에 최적화된 형식으로 데이터를 적용하는 작업이 포함됩니다.

    데이터 집합 저장

스트리밍 소스

  • 데이터 가져오기

    여기에는 스트리밍 랜딩 데이터 작업을 사용하여 소스에서 랜딩 영역으로 데이터를 지속적으로 스트리밍하는 작업이 포함됩니다.

    Qlik 오픈 레이크하우스에 스트리밍 데이터 랜딩

  • 데이터 집합 저장

    여기에는 랜딩 데이터의 초기 로드를 읽고, Storage 데이터 변환 작업을 사용하여 읽기에 최적화된 형식으로 데이터를 적용하는 작업이 포함됩니다.

    스트림 데이터 집합 저장

온보딩된 데이터 사용

데이터를 온보딩하면 저장된 데이터 집합을 다음과 같은 여러 가지 방법으로 사용할 수 있습니다.

  • 데이터 집합을 분석 응용 프로그램에서 사용할 수 있습니다.

  • CDC 소스의 경우 Storage 데이터 작업에 미러 데이터 작업을 직접 추가하거나 스트리밍 소스의 경우 스트리밍 변환 작업을 추가하여 Amazon Redshift 및 Snowflake를 포함한 하나 이상의 클라우드 데이터 웨어하우스에 데이터를 미러링할 수 있습니다.

    자세한 내용은 클라우드 데이터웨어하우스에 데이터 미러링을 참조하십시오.

  • 온보딩 프로젝트의 데이터를 사용하는 프로젝트 간 파이프라인을 만들어 클라우드 데이터 웨어하우스에서 데이터를 변환할 수 있습니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!