자습서 - 초보자를 위한 데이터 흐름

이 자습서에서는 기본적인 데이터 준비 사용 사례를 소개하여 데이터 흐름을 구축하는 데 필요한 다양한 단계와 제공되는 다양한 가능성에 익숙해지도록 도와드립니다. 첨부된 패키지에는 몇 가지 데이터 집합이 포함되어 있으며, 이를 사용하면 이 자습서의 모든 단계를 재현할 수 있습니다.

이 시나리오에서는 전 세계 고객의 판매 데이터 샘플과 이름, 주문 날짜 및 상태, 원산지, 주, 주소, 전화번호 등에 대한 정보에 중점을 둡니다. 예를 들어, 미국 고객에 초점을 맞춰 데이터를 준비하려고 한다고 가정해 보겠습니다. 미국 고객에 대한 모든 데이터를 격리하고, 원산지에 대한 누락된 정보를 추가하고, 서식을 약간 변경한 후, 해당 데이터를 새 파일에 내보내서 예를 들어, 분석 응용 프로그램의 소스로 사용할 수 있게 합니다.

전제 조건

이 패키지를 다운로드하고 데스크톱에 압축을 풉니다:

데이터 흐름 초보자 자습서

패키지에는 자습서를 완료하는 데 필요한 다음과 같은 데이터 파일이 포함되어 있습니다.

sales_data_sample.xlsx
states.xlsx

카탈로그에 소스 파일 추가

데이터 흐름 만들기를 시작하기 전에, 패키지의 두 파일을 분석 플랫폼에서 사용할 수 있어야 합니다. 카탈로그에 소스 데이터를 추가하려면:

시작 관리자 메뉴에서 분석 > 카탈로그를 선택합니다.
오른쪽 위의 새로 만들기 버튼을 클릭하고 데이터 집합을 선택합니다.
열리는 창에서 데이터 파일 업로드를 클릭합니다.
자습서 파일을 바탕 화면에서 파일 추가 창의 전용 영역으로 끌어서 놓거나, 찾아보기를 클릭하여 해당 위치에서 선택합니다.
업로드를 클릭합니다.

데이터 흐름 만들기 및 소스 추가

이제 모든 것이 설정되었으므로 소스부터 시작하여 데이터 흐름을 만들 수 있습니다.

시작 관리자 메뉴에서 분석 > 데이터 준비를 선택합니다.
데이터 흐름 타일을 클릭하거나 새로 만들기 > 데이터 흐름을 클릭합니다.
새 데이터 흐름 만들기 창에서 다음과 같이 데이터 흐름 정보를 설정하고 만들기를 클릭합니다.
- 데이터 흐름 자습서를 이름으로 설정
- 개인을 공간으로 설정
- 미국 고객을 중심으로 판매 데이터를 준비하기 위한 데이터 흐름을 설명으로 설정
- 자습서를 태그로 설정
빈 데이터 흐름이 열립니다.
빈 캔버스에서 카탈로그 탐색을 클릭하여 카탈로그에 추가된 데이터 집합을 살펴봅니다.
필터링된 검색을 사용하여 이전에 업로드한 sales_data_sample.xlsx 및 states.xlsx 데이터 집합을 찾고 이름 앞에 있는 확인란을 선택합니다.
다음을 클릭합니다.
요약에서 데이터 집합과 해당 필드를 검토하고 데이터 흐름에 로드를 클릭합니다.

두 소스 데이터 집합이 캔버스에 추가되고 프로세서를 사용하여 데이터 준비를 시작할 수 있습니다. sales_data_sample.xlsx는 작업할 기본 데이터 집합이고, states.xlsx는 추가 데이터로 사용됩니다.

미국 고객에 대한 데이터 필터링

이제 프로세서를 사용하여 연속적인 변경 내용을 적용하여 데이터 준비를 시작할 수 있습니다. 첫 번째 단계는 데이터 집합의 범위를 줄이고 미국 고객에게만 집중하는 것입니다. 이렇게 하려면 필터 프로세서를 사용하여 COUNTRY 필드에 USA 값이 있는 행만 선택합니다.

캔버스에서 sales_data_sample 소스의 작업 메뉴()를 클릭합니다.
열리는 메뉴에서 프로세서 추가 > 필터를 선택합니다.

필터 프로세서는 이미 소스 노드에 연결된 캔버스에 배치됩니다.

정보 메모프로세서 왼쪽 패널에서 프로세서를 수동으로 끌어서 놓고 노드를 수동으로 연결할 수도 있습니다.
아직 열려 있지 않으면 캔버스 오른쪽 위에 있는 속성을 클릭하여 프로세서 속성 패널을 엽니다. 여기서 프로세서를 구성하고 데이터 미리 보기와 스크립트를 살펴볼 수 있습니다.
속성 패널에서 프로세서 이름 옆에 있는 편집 아이콘()을 클릭하여 프로세서에 미국 필터와 같은 더 의미 있는 이름과 미국 고객 필터링과 같은 짧은 설명을 지정합니다.
처리할 필드 드롭다운 목록에서 국가를 선택합니다.
연산자 드롭다운 목록에서 =을 선택합니다.
사용 필드에서 값을 선택하고 USA를 입력합니다.
일치하는 행 선택 목록에서 모든 필터를 선택합니다.

이러한 매개 변수는 두 개 이상의 필터를 결합할 때 더 유용합니다.
적용을 클릭합니다.

프로세서 구성은 유효하지만 프로세서에 아직 출력 흐름이 없기 때문에 연결되지 않음 메시지가 계속 표시됩니다.
하단 패널에서 데이터 미리 보기를 클릭합니다.

미리 보기를 살펴보면 이 단계에서는 국가가 USA인 행만 유지되고 출력 흐름에 전파되는 것을 볼 수 있습니다. 지금까지의 데이터 흐름은 다음과 같습니다.

다른 데이터 집합에서 상태 이름 추가

나머지 미국 고객의 경우 STATE 필드에는 원산지가 2자리 코드로 포함됩니다. 이상적으로는 주의 전체 이름을 포함하여 이 정보를 읽기 쉽게 만들려고 할 것입니다.

이전에 소스로 가져온 states.xlsx 데이터 집합에는 두 문자 코드와 함께 모든 미국 주에 대한 참조와 해당 전체 이름이 포함되어 있습니다. 두 데이터 집합을 조인하여 주 이름을 검색하고 주요 흐름을 보완합니다.

주 이름이 있는 참조 데이터 집합

두 데이터 집합은 조인에 적합하려면 최소한 하나의 공통 필드가 있어야 합니다.

조인을 수행하려면:

필터 프로세서의 작업 메뉴()를 클릭하고 일치하는 분기에 프로세서 추가 > 조인을 선택합니다.
속성 패널의 편집 아이콘()을 사용하여 프로세서의 이름을 전체 상태 이름으로 변경합니다.
주 소스를 조인 프로세서의 하단 앵커 포인트에 연조인니다. 링크를 만들려면 소스 노드 오른쪽에 있는 점을 클릭하고, 길게 눌러 링크를 프로세서 노드 왼쪽 아래에 있는 점으로 끌어서 놓습니다.
조인 유형 드롭다운 목록에서 왼쪽 외부 조인을 선택합니다.
왼쪽 키 드롭다운 목록에서 STATE 필드를 선택합니다.
오른쪽 키 드롭다운 목록에서 약어 필드를 선택합니다.

선택된 두 열에는 공통 정보가 포함되어 있으며 두 입력 흐름 간의 연결이 가능합니다. 왼쪽 외부 조인을 사용하면 두 번째 데이터 집합의 추가 필드만 기본 흐름에 추가됩니다.
적용을 클릭합니다.

데이터 집합의 끝에 각 고객의 전체 주 이름이 포함된 새 필드 State가 추가되었습니다.

필드 이름 바꾸기 및 이동

이제 열의 명명 및 서식에 몇 가지 문제가 있습니다. STATE와 State는 너무 유사하고 혼란스러우며, 두 필드는 너무 멀리 떨어져 있습니다. 필드의 일관성과 균일성을 개선하려면 필드 선택 프로세서를 사용하여 필드의 이름을 바꾸고 필드를 이동할 수 있습니다.

조인 프로세서의 작업 메뉴()를 클릭하고 프로세서 추가 > 필드 선택을 선택합니다.
조인 프로세서를 필드 선택 프로세서에 연결합니다.
속성 패널의 편집 아이콘()을 사용하여 프로세서의 이름을 상태 필드 재구성으로 변경합니다.
흐름의 모든 필드를 유지하려면 모두 선택 확인란을 클릭합니다.
이름을 바꾸려는 필드 위에 마우스를 놓고 편집 아이콘을 클릭하여 다음과 같이 두 필드 이름을 편집합니다.
- STATE를 STATECODE로 편집
- State를 STATENAME으로 편집
= 아이콘을 사용하여 새 STATENAME 열을 STATECODE 옆으로 끌어서 놓습니다.
적용을 클릭합니다.

필드를 재구성하면 데이터 흐름이 다음과 같습니다.

고객 이름을 대문자로 표시

고객의 성을 강조 표시하여 이름과 쉽게 구분할 수 있도록 문자열 프로세서의 간단한 서식 지정 함수를 사용하여 성을 대문자로 표시합니다.

필드 선택 프로세서의 작업 메뉴()를 클릭하고 프로세서 추가 > 문자열을 선택합니다.
필드 선택 프로세서를 문자열 프로세서에 연결합니다.
속성 패널에서 편집 아이콘()을 사용하여 프로세서 이름을 대문자로 바꾸십시오.
함수 이름 드롭다운 목록에서 대문자로 변경을 선택합니다.
처리할 필드 드롭다운 목록에서 CONTACTLASTNAME을 선택합니다.
적용을 클릭합니다.

대상 추가 및 데이터 흐름 실행

주요 준비 단계가 완료되었으며, 이제 결과 데이터를 내보내는 방법을 구성하여 데이터 흐름을 마무리할 수 있습니다. 이 시나리오에서는 준비된 데이터를 카탈로그에 직접 저장된 .qvd 파일로 내보내 나중에 예를 들어, 분석 응용 프로그램에서 편리하게 사용할 수 있습니다.

문자열 프로세서의 작업 메뉴()를 클릭하고 대상 추가 > 데이터 파일을 선택합니다.
문자열 프로세서를 데이터 파일 대상에 연결합니다.
속성 패널의 편집 아이콘()을 사용하여 프로세서 이름을 QVD 대상으로 변경합니다.
공간 드롭다운 목록에서 개인을 선택합니다.
파일 이름 필드에 tutorial_output을 입력합니다.
확장자 드롭다운 목록에서 .qvd를 선택합니다.
적용을 클릭합니다.

이제 헤더 바의 상태와 각 소스, 프로세서 및 대상 노드 아래의 녹색 확인 표시를 통해 데이터 흐름이 완벽하고 유효합니다.
창 오른쪽 위에 있는 흐름 실행 버튼을 클릭합니다.

모달이 열려 실행 진행률을 보여 줍니다.

잠시 후 창이 닫히고, 실행이 성공했는지 여부를 알려 주는 알림이 열립니다. 이제 데이터 흐름의 출력을 카탈로그에서 찾을 수 있거나 데이터 흐름 개요 패널의 출력 섹션에서 찾을 수 있습니다.

다음 주제

소스 데이터를 카탈로그로 가져오는 방법, 데이터를 필터링하고 개선하기 위한 간단한 데이터 흐름을 구축하는 방법, 준비한 결과를 즉시 사용할 수 있는 파일로 내보내는 방법을 알아보았습니다.

자신의 사용 사례에 맞게 데이터 흐름을 사용하는 다양한 방법에 대해 알아보려면 데이터 흐름 프로세서의 전체 목록과 해당 함수 목록을 살펴보십시오.

준비한 데이터를 분석 응용 프로그램에서 사용하는 방법을 알아보려면 분석 만들기 및 데이터 시각화를 참조하십시오.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.