데이터 관리를 통해 데이터 유효성 검사 및 수정
Qlik Talend Cloud에서 데이터 관리를 통해 주제 전문가의 도움을 받아 데이터의 유효성을 검사하고 수정할 수 있습니다. 기존의 의미 유형과 유효성 검사 규칙을 사용하여 데이터가 일관되게 형성되었는지 확인하십시오. 이는 도메인 전문 지식을 활용한 휴먼 인 더 루프(human-in-the-loop) 방식의 문제 해결을 통해 자동화된 파이프라인을 확장합니다. 데이터 유효성 검사가 완료되면 원래 데이터 소스 또는 모든 다운스트림 시스템으로 다시 주입할 수 있습니다.
유효성 검사 및 수정 작업의 주요 본문인 스프린트를 생성합니다. 스프린트에는 다음 정보가 포함됩니다.
-
소스 데이터
-
유효성 검사에 사용할 데이터 스키마
-
스프린트의 소유자
-
정의된 데이터 스튜어드
-
스프린트 데이터에 사용되는 데이터 스토리지
-
워크플로 설정
스프린트 중에는 모든 스프린트 데이터가 Qlik Talend Cloud가 아닌 사용자 고유의 클라우드 데이터 웨어하우스에 저장됩니다. 현재 Snowflake는 유일하게 지원되는 클라우드 데이터 웨어하우스입니다.
다음 사용자 역할을 정의할 수 있습니다:
-
Sprint 소유자
Sprint 소유자는 데이터 관리자가 해결한 레코드의 유효성을 검사할 수 있습니다. 또한 해결된 레코드에 액세스하고 데이터를 내보낼 수 있습니다.
-
데이터 관리자
데이터 관리자에게 품질 문제를 해결하기 위한 레코드가 할당됩니다.
사용자는 Qlik Talend Data Integration 활동 센터의 데이터 관리에서 스프린트를 생성합니다. 유효성 검사가 필요한 데이터 세트의 하나 이상의 필드에서 데이터를 수정하고 큐레이션하는 해결 스프린트를 생성할 수 있습니다. 워크플로는 다음과 같습니다:
-
스프린트를 생성하고 유효성을 검사할 데이터를 정의합니다. 스프린트에 Talend Studio 작업을 채우거나 데이터를 포함하는 CSV 파일을 가져올 수 있습니다.
데이터 관리자는 유효성 검사를 수행하도록 정의됩니다. 레코드를 수동으로 또는 자동으로 할당할 수 있습니다.
-
데이터 관리자는 할당된 레코드의 데이터를 검증합니다.
-
-
스프린트에 Talend Studio 작업을 채웠다면, 검증된 레코드를 검색하여 원래 데이터 소스 또는 필요한 다른 대상으로 반환하는 Talend Studio 작업을 생성합니다.
-
CSV 파일로 스프린트를 채웠다면, 유효성 검사된 데이터를 CSV 파일로 내보내서 스프린트가 완료됩니다. 내보낸 CSV 파일을 가져와서 유효성 검사된 데이터로 데이터 소스를 업데이트할 수 있습니다.
-