이 페이지에서

기본 콘텐츠로 건너뛰기

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

샘플 프로세서

첫 번째 행 또는 행의 임의 하위 집합만 유지합니다.

샘플 프로세서를 사용하면 입력 흐름에서 특정 수 또는 비율의 레코드를 선택하여 데이터 샘플이 전체 데이터 세트를 더 잘 대표하도록 만들 수 있습니다.

입력에서 레코드의 하위 집합을 선택하도록 구성할 속성입니다.

구성
속성	구성
샘플링 방법	입력 흐름에서 고정된 수의 행을 추출할지 또는 전체 행의 백분율을 추출할지 선택합니다: 임의 행: 데이터세트 전체에서 행의 백분율을 유지합니다. 첫 번째 행: 데이터세트의 시작부터 고정된 수의 행을 유지합니다. 고정된 수의 임의 행: 데이터세트 전체에서 고정된 수의 행을 임의로 유지합니다. 임의 계층화 샘플링: 계층 필드의 각 값에 대해 선택한 행의 백분율을 유지합니다. 정보 메모반올림으로 인해 이 방법을 사용하면 예상되는 전체 행 수에서 상당한 편차가 발생할 수 있으며, 특히 작은 계층을 선택할 때 더욱 그렇습니다. 또한, 샘플링할 행의 비율이 낮은 경우 행이 하나만 있는 계층은 출력에 전혀 나타나지 않을 수 있습니다.
추출할 행 수	유지할 행의 수를 입력합니다.
샘플링 비율(%)	유지할 행의 비율을 입력합니다.
계층 필드	드롭다운 목록에서 계층으로 사용할 필드를 선택합니다.

프로세서의 이름을 바꾸거나 설명을 편집하려면 속성 패널에서 변경할 이름이나 설명 위에 마우스를 놓고 편집 아이콘을 클릭합니다.

이 예시에서는 동부, 서부, 중부 세 지역의 판매 거래 정보를 포함하는 데이터세트에서 작업합니다.

고객 정보를 포함하는 데이터 집합

현재 샘플에는 20개의 행이 포함되어 있지만, 각 지역이 샘플링된 데이터에 균등하게 표현되도록 하면서 크기를 줄이고자 합니다. 샘플 크기를 변경하려면 샘플 프로세서를 사용합니다.

프로세서 속성에서 무작위 계층 샘플링을 샘플링 방법으로 선택하고, 샘플링 비율(%)을 50으로 설정한 다음, 지역을 계층 필드로 선택합니다.

계층 샘플링을 50%로 설정하면 반올림 후 각 지역에서 대략 절반의 행이 샘플에 포함됩니다.

지역별로 데이터세트를 샘플링하기 위한 데이터 흐름 구성

프로세서의 출력에서 샘플은 이제 원본 행의 약 절반만 포함하며, 동일한 지역 분포를 유지합니다.

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!