Процессор Sample
Сохраняет только первые строки или случайную выборку строк.
Процессор Sample позволяет выбрать определенное количество или процент записей из входного потока и сделать выборку данных более репрезентативной для всего набора данных.
Использование
-
Процессор Sample принимает один входной поток и может генерировать только один выходной поток.
-
Использование этого процессора отменит сортировку данных, если во входном потоке использовался процессор Sort.
Свойства
Свойства для настройки выбора подмножества записей из входных данных.
| Свойство | Конфигурация |
|---|---|
| Метод выборки |
Выберите, если вы хотите извлечь фиксированное количество строк или процент от общего числа строк из входного потока:
|
| Число извлекаемых строк | Введите число сохраняемых строк. |
| Доля выборки (%) | Введите процент сохраняемых строк. |
| Поле страты | Из раскрывающегося списка выберите поле для использования в качестве страты. |
Чтобы переименовать процессор или отредактировать его описание, откройте панель Свойства, наведите указатель мыши на имя или описание, которое нужно изменить, и нажмите значок Изменить.
Пример
В этом примере вы работаете с набором данных, содержащим информацию о транзакциях продаж из трех регионов: Восточного, Западного и Центрального.
В настоящее время выборка содержит 20 строк, но вы хотели бы уменьшить ее размер, при этом убедившись, что каждый регион равномерно представлен в выборочных данных. Вы будете использовать процессор Выборка, чтобы изменить размер выборки.
В свойствах процессора выберите Случайная стратифицированная выборка в качестве метода выборки, установите Коэффициент выборки (%) на 50 и выберите Регион в качестве поля страты.
Установка стратифицированной выборки на 50% означает, что выборка будет содержать примерно половину строк из каждого региона после округления.
В выходных данных процессора выборка теперь содержит только примерно половину строк исходного набора данных, сохраняя при этом то же распределение регионов.