在该页面上

跳到主要内容

本页面有帮助吗？

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们！

样本处理器

仅保留第一行或行的随机子集。

样本处理器可让您从输入流中选择特定数量或百分比的记录，并使数据样本更能代表整个数据集。

要配置的属性，用于从输入中选择记录子集。

配置
属性	配置
采样方法	选择您是要从输入流中提取固定行数还是总行数的百分比：随机行：从您的数据集中保留一定百分比的行。前几行：从您的数据集开头开始保留固定数量的行固定数量的随机行：从您的数据集之中随机保留固定数量的行随机分层抽样：对于分层字段的每个值，保留所选百分比的行。信息注释由于四舍五入，利用此方法可能导致与预期的总行数出现显著偏差，尤其是在选择小分层时。此外，如果采样的行百分比很低，则仅包含一行的分层可能根本不会在输出内显示。
要提取的行数	输入要保留的行数。
采样率 (%)	输入要保留的行的百分比。
Stratum 字段	从下拉列表内，选择用作分层的字段。

要重命名处理器或编辑其描述，请将鼠标指向属性面板中要更改的名称或描述，然后单击编辑图标。

在此示例中，您正在处理一个包含来自三个区域（东部、西部及中部）的销售交易信息的数据集。

包含客户信息的数据集

当前，样本包含 20 行，但是您希望减小其大小，同时确保每个区域在采样数据中得到均匀表示。您将使用样本处理器来更改样本大小。

在处理器属性中，选择随机分层抽样作为采样方法，将采样比 (%) 设置为 50，并选择区域作为分层字段。

将分层抽样设置为 50% 意味着样本在四舍五入后将包含每个区域大约一半的行。

一个按区域对于数据集进行采样的数据流配置

在处理器输出中，样本现在只包含原始数据大约一半的行，同时保持相同的区域分布。

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们！