跳到主要內容 跳至補充內容

取樣處理器

僅保留前幾列或列的隨機子集。

取樣處理器可讓您從輸入流程中選取特定數量或百分比的記錄,並讓資料取樣更能代表整個資料集。

使用

  • 取樣處理器需要一個輸入流程,並且只能產生一個輸出流程。

  • 如果在輸入流程中使用排序處理器,使用此處理器將會取消資料排序。

屬性

要設定的屬性,用來從輸入中選取記錄子集。

設定
屬性 設定
取樣方法

選取您是要從輸入流程中擷取固定列數,還是總列數的百分比:

  • 隨機列:從您的資料集中保留一定百分比的列。

  • 前幾列:從您的資料集開頭開始保留固定的列數。

  • 固定的隨機列數:從您的資料集中隨機保留固定的列數。

  • 隨機分層取樣:針對分層欄位的每個值,保留所選百分比的列。

    資訊備註由於四捨五入,使用此方法可能會導致與預期的總列數產生顯著偏差,尤其是在選擇小型分層時。此外,如果取樣的列百分比很低,則只有一列的分層可能根本不會在輸出中顯示。
要擷取的列數 輸入要保留的列數。
取樣率 (%) 輸入要保留的列百分比。
分層欄位 從下拉式清單中,選取要用作分層的欄位。

若要重新命名處理器或編輯其描述,請將滑鼠移動到名稱或描述上方,以在屬性面板中變更,並按一下 編輯 編輯圖示。

範例

在此範例中,您正在處理一個資料集,其中包含來自三個區域的銷售交易資訊:東部、西部和中部。

包含客戶資訊的資料集

目前,樣本包含 20 列,但您希望縮小其大小,同時確保每個區域在樣本資料中均勻分佈。您將使用取樣處理器來變更樣本的大小。

在處理器屬性中,選取隨機分層取樣作為取樣方法,將取樣比例 (%) 設定為 50,並選取區域作為分層欄位。

將分層取樣設定為 50% 表示經過四捨五入後,樣本將包含來自每個區域大約一半的列。

一個依區域對資料集進行取樣的資料流程設定

在處理器的輸出中,樣本現在只包含原始資料大約一半的列,同時保持相同的區域分佈。

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們!