Перейти к основному содержимому Перейти к дополнительному содержимому

Процессор Sample

Сохраняет только первые строки или случайную выборку строк.

Процессор Sample позволяет выбрать определенное количество или процент записей из входного потока и сделать выборку данных более репрезентативной для всего набора данных.

Использование

  • Процессор Sample принимает один входной поток и может генерировать только один выходной поток.

  • Использование этого процессора отменит сортировку данных, если во входном потоке использовался процессор Sort.

Свойства

Свойства для настройки выбора подмножества записей из входных данных.

Конфигурация
Свойство Конфигурация
Метод выборки

Выберите, если вы хотите извлечь фиксированное количество строк или процент от общего числа строк из входного потока:

  • Случайные строки: Сохраняет процент строк из всего набора данных.

  • Первые строки: Сохраняет фиксированное количество строк, начиная с начала вашего набора данных

  • Фиксированное количество случайных строк: Сохраняет фиксированное количество строк случайным образом из всего набора данных

  • Случайная стратифицированная выборка: Сохраняет выбранный процент строк для каждого значения поля страты.

    Примечание к информацииИз-за округления использование этого метода может привести к значительным отклонениям от ожидаемого общего количества строк, особенно при выборе небольших страт. Кроме того, страты, содержащие только одну строку, могут вообще не быть представлены в выходных данных, если процент строк для выборки низок.
Число извлекаемых строк Введите число сохраняемых строк.
Доля выборки (%) Введите процент сохраняемых строк.
Поле страты Из раскрывающегося списка выберите поле для использования в качестве страты.

Чтобы переименовать процессор или отредактировать его описание, откройте панель Свойства, наведите указатель мыши на имя или описание, которое нужно изменить, и нажмите значок Изменить Изменить.

Пример

В этом примере вы работаете с набором данных, содержащим информацию о транзакциях продаж из трех регионов: Восточного, Западного и Центрального.

набор данных, содержащий информацию о клиенте

В настоящее время выборка содержит 20 строк, но вы хотели бы уменьшить ее размер, при этом убедившись, что каждый регион равномерно представлен в выборочных данных. Вы будете использовать процессор Выборка, чтобы изменить размер выборки.

В свойствах процессора выберите Случайная стратифицированная выборка в качестве метода выборки, установите Коэффициент выборки (%) на 50 и выберите Регион в качестве поля страты.

Установка стратифицированной выборки на 50% означает, что выборка будет содержать примерно половину строк из каждого региона после округления.

конфигурация потока данных для выборки набора данных по регионам

В выходных данных процессора выборка теперь содержит только примерно половину строк исходного набора данных, сохраняя при этом то же распределение регионов.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице или с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом!