El procesador Muestra
Mantiene solo las primeras filas o un subconjunto aleatorio de filas.
El procesador Muestra le permite seleccionar un número o porcentaje específico de registros de su flujo de entrada y hacer que la muestra de datos sea más representativa de todo el conjunto de datos.
Uso
-
El procesador Muestra requiere un flujo de entrada y únicamente puede generar un flujo de salida.
-
El uso de este procesador desordenará los datos si se utilizó un procesador Ordenar en el flujo de entrada.
Propiedades
Propiedades que se deben configurar para seleccionar un subconjunto de registros de entrada.
| Propiedad | Configuración |
|---|---|
| Método de muestreo |
Seleccione si desea extraer un número fijo de filas o un porcentaje del total de filas del flujo de entrada:
|
| Número de filas que extraer | Indique el número de filas que desea conservar. |
| Ratio de muestreo (%) | Indique el porcentaje de filas que desea conservar. |
| Campo de estrato | En la lista desplegable, seleccione el campo que se utilizará como estrato. |
Para cambiar el nombre del procesador o editar su descripción, apunte con el ratón sobre el nombre o la descripción que desee cambiar en el panel de Propiedades y pulse el icono Editar.
Ejemplo
En este ejemplo estamos trabajando en un conjunto de datos que contiene información sobre transacciones de ventas de tres regiones: Este, Oeste y Central.
Actualmente, la muestra contiene 20 filas, pero le gustaría reducir su tamaño, asegurándose de que cada región esté representada equitativamente en los datos muestreados. Utilizará el procesador Muestra para cambiar el tamaño de la muestra.
En las propiedades del procesador, seleccione Muestreo estratificado aleatorio como método de muestreo, establezca la Ratio de muestreo (%) en 50 y seleccione Region como campo de estrato.
Establecer el muestreo estratificado en el 50% significa que la muestra contendrá aproximadamente la mitad de las filas de cada región después del redondeo.
En el resultado de salida del procesador, la muestra ahora solo contiene aproximadamente la mitad de las filas del original, manteniendo la misma distribución de regiones.