メイン コンテンツをスキップする 補完的コンテンツへスキップ

Sample プロセッサー

最初の行のみ、またはランダムな行のサブセットのみ保持します。

Sample プロセッサーを使用すると、入力フローから特定の数または割合のレコードを選択し、データセット全体をより代表するデータ サンプルにできます。

使用方法

  • Sample プロセッサーは、1 つの入力フローを必要とし、1 つの出力フローのみを生成できます。

  • 入力フローで Sort プロセッサーが使用されていた場合、このプロセッサーを使用するとデータのソートが解除されます。

プロパティ

入力からレコードのサブセットを選択するために設定するプロパティ。

構成
プロパティ 構成
サンプリング方法

入力フローから、固定行数を抽出するか、全行数の割合で抽出するかを選択します。

  • ランダム行: データセット全体から行の割合を保持します。

  • 最初の行: データセットの先頭から固定行数を保持します。

  • ランダムな固定行数: データセット全体からランダムに固定行数を保持します。

  • ランダム層化抽出: 層化項目の各値について、選択された割合の行を保持します。

    情報メモ端数処理のため、この方法を使用すると、特に小さな層を選択した場合に、期待される全体の行数から大幅に逸脱する可能性があります。さらに、サンプリングする行の割合が低い場合、1 行のみの層は出力にまったく含まれないことがあります。
抽出する行の数 保持する行数を入力します。
サンプリング比 (%) 保持する行の割合を入力します。
層化項目 ドロップダウン リストから、層として使用する項目を選択します。

プロセッサーの名前を変更したり、その説明を変更したりするには、[プロパティ] パネルで変更する名前または説明にマウスを合わせ、[編集 編集] アイコンをクリックします。

この例では、東部、西部、中央部の 3 つの地域の販売取引に関する情報を含むデータセットを操作しています。

顧客情報を含むデータセット

現在、サンプルには 20 行が含まれていますが、サンプル データ内で各地域が均等に表現されるようにしながら、サイズを縮小したいと考えています。サンプルのサイズを変更するには、Sample プロセッサーを使用します。

プロセッサーのプロパティで、サンプリング方法として [ランダム層化サンプリング] を選択し、 [サンプリング比率 (%)] を 50 に設定し、層化項目として [地域] を選択します。

層化サンプリングを 50% に設定すると、四捨五入後のサンプルには各地域の行が約半分含まれることになります。

地域ごとにデータセットをサンプリングするデータ フロー構成

プロセッサーの出力では、地域の分布は同じまま、サンプルには元の行の約半分だけが含まれるようになりました。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。