Saltar al contenido principal Saltar al contenido complementario

El procesador Muestra

Mantiene solo las primeras filas o un subconjunto aleatorio de filas.

El procesador Muestra le permite seleccionar un número o porcentaje específico de registros de su flujo de entrada y hacer que la muestra de datos sea más representativa de todo el conjunto de datos.

Uso

  • El procesador Muestra requiere un flujo de entrada y únicamente puede generar un flujo de salida.

  • El uso de este procesador desordenará los datos si se utilizó un procesador Ordenar en el flujo de entrada.

Propiedades

Propiedades que se deben configurar para seleccionar un subconjunto de registros de entrada.

Configuración
Propiedad Configuración
Método de muestreo

Seleccione si desea extraer un número fijo de filas o un porcentaje del total de filas del flujo de entrada:

  • Filas aleatorias: mantiene un porcentaje de filas de todo su conjunto de datos.

  • Primeras filas: mantiene un número fijo de filas a partir del inicio de su conjunto de datos

  • Número fijo de filas aleatorias: mantiene un número fijo de filas de forma aleatoria de todo su conjunto de datos

  • Muestreo aleatorio estratificado: mantiene el porcentaje elegido de filas para cada valor del campo de estrato.

    Nota informativaDebido al redondeo, el uso de este método puede dar lugar a desviaciones significativas del recuento total de filas esperado, especialmente al seleccionar estratos pequeños. Además, los estratos con una sola fila puede que no estén representados en absoluto en la salida si el porcentaje de filas que se va a muestrear es bajo.
Número de filas que extraer Indique el número de filas que desea conservar.
Ratio de muestreo (%) Indique el porcentaje de filas que desea conservar.
Campo de estrato En la lista desplegable, seleccione el campo que se utilizará como estrato.

Para cambiar el nombre del procesador o editar su descripción, apunte con el ratón sobre el nombre o la descripción que desee cambiar en el panel de Propiedades y pulse el icono Editar Editar.

Ejemplo

En este ejemplo estamos trabajando en un conjunto de datos que contiene información sobre transacciones de ventas de tres regiones: Este, Oeste y Central.

Conjunto de datos que contiene información sobre clientes

Actualmente, la muestra contiene 20 filas, pero le gustaría reducir su tamaño, asegurándose de que cada región esté representada equitativamente en los datos muestreados. Utilizará el procesador Muestra para cambiar el tamaño de la muestra.

En las propiedades del procesador, seleccione Muestreo estratificado aleatorio como método de muestreo, establezca la Ratio de muestreo (%) en 50 y seleccione Region como campo de estrato.

Establecer el muestreo estratificado en el 50% significa que la muestra contendrá aproximadamente la mitad de las filas de cada región después del redondeo.

Una configuración de flujo de datos para muestrear el conjunto de datos por región

En el resultado de salida del procesador, la muestra ahora solo contiene aproximadamente la mitad de las filas del original, manteniendo la misma distribución de regiones.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.