Sample プロセッサー
最初の行のみ、またはランダムな行のサブセットのみ保持します。
Sample プロセッサーを使用すると、入力フローから特定の数または割合のレコードを選択し、データセット全体をより代表するデータ サンプルにできます。
使用方法
-
Sample プロセッサーは、1 つの入力フローを必要とし、1 つの出力フローのみを生成できます。
-
入力フローで Sort プロセッサーが使用されていた場合、このプロセッサーを使用するとデータのソートが解除されます。
プロパティ
入力からレコードのサブセットを選択するために設定するプロパティ。
| プロパティ | 構成 |
|---|---|
| サンプリング方法 |
入力フローから、固定行数を抽出するか、全行数の割合で抽出するかを選択します。
|
| 抽出する行の数 | 保持する行数を入力します。 |
| サンプリング比 (%) | 保持する行の割合を入力します。 |
| 層化項目 | ドロップダウン リストから、層として使用する項目を選択します。 |
プロセッサーの名前を変更したり、その説明を変更したりするには、[プロパティ] パネルで変更する名前または説明にマウスを合わせ、[ 編集] アイコンをクリックします。
例
この例では、東部、西部、中央部の 3 つの地域の販売取引に関する情報を含むデータセットを操作しています。
現在、サンプルには 20 行が含まれていますが、サンプル データ内で各地域が均等に表現されるようにしながら、サイズを縮小したいと考えています。サンプルのサイズを変更するには、Sample プロセッサーを使用します。
プロセッサーのプロパティで、サンプリング方法として [ランダム層化サンプリング] を選択し、 [サンプリング比率 (%)] を 50 に設定し、層化項目として [地域] を選択します。
層化サンプリングを 50% に設定すると、四捨五入後のサンプルには各地域の行が約半分含まれることになります。
プロセッサーの出力では、地域の分布は同じまま、サンプルには元の行の約半分だけが含まれるようになりました。