取樣處理器
僅保留前幾列或列的隨機子集。
取樣處理器可讓您從輸入流程中選取特定數量或百分比的記錄,並讓資料取樣更能代表整個資料集。
使用
-
取樣處理器需要一個輸入流程,並且只能產生一個輸出流程。
-
如果在輸入流程中使用排序處理器,使用此處理器將會取消資料排序。
屬性
要設定的屬性,用來從輸入中選取記錄子集。
| 屬性 | 設定 |
|---|---|
| 取樣方法 |
選取您是要從輸入流程中擷取固定列數,還是總列數的百分比:
|
| 要擷取的列數 | 輸入要保留的列數。 |
| 取樣率 (%) | 輸入要保留的列百分比。 |
| 分層欄位 | 從下拉式清單中,選取要用作分層的欄位。 |
若要重新命名處理器或編輯其描述,請將滑鼠移動到名稱或描述上方,以在屬性面板中變更,並按一下 編輯圖示。
範例
在此範例中,您正在處理一個資料集,其中包含來自三個區域的銷售交易資訊:東部、西部和中部。
目前,樣本包含 20 列,但您希望縮小其大小,同時確保每個區域在樣本資料中均勻分佈。您將使用取樣處理器來變更樣本的大小。
在處理器屬性中,選取隨機分層取樣作為取樣方法,將取樣比例 (%) 設定為 50,並選取區域作為分層欄位。
將分層取樣設定為 50% 表示經過四捨五入後,樣本將包含來自每個區域大約一半的列。
在處理器的輸出中,樣本現在只包含原始資料大約一半的列,同時保持相同的區域分佈。