Tutorial - Flujo de datos para principiantes
Este tutorial presenta un caso de uso básico de preparación de datos, para que se familiarice con los distintos pasos necesarios para construir un flujo de datos y las diferentes posibilidades que se ofrecen. Con el paquete adjunto, que contiene un par de conjuntos de datos, podrá reproducir todos los pasos de este tutorial.
Este escenario se centrará en una muestra de datos de ventas con clientes de todo el mundo e información sobre sus nombres, fechas y estado de los pedidos, país de origen, estados, direcciones, números de teléfono, etc. Supongamos que desea preparar los datos para que se centren en los clientes de Estados Unidos. Aislará todos los datos de los clientes estadounidenses, añadirá la información que falta sobre los estados de origen, realizará un pequeño cambio de formato y exportará los datos a un nuevo archivo que podrá utilizar como fuente para una app de análisis, por ejemplo.
Requisitos previos
Descargue este paquete y descomprímalo en su escritorio:
Flujo de datos: tutorial para principiantes
El paquete contiene los siguientes archivos de datos que necesita para completar el tutorial:
-
sales_data_sample.xlsx
-
states.xlsx
Añadir los archivos fuente a su catálogo
Antes de comenzar con la creación del flujo de datos, los dos archivos del paquete deben estar disponibles en la plataforma de análisis. Para añadir los datos de origen a su catálogo:
-
En el menú Inicio, seleccione Análisis > Catálogo.
-
Haga clic en el botón Crear nuevo de la parte superior derecha y seleccione Conjunto de datos.
-
En la ventana que se abre, haga clic en Cargar archivo de datos.
-
Arrastre y suelte los archivos del tutorial desde su escritorio hasta el área específica de la ventana Añadir archivo, o haga clic en Examinar para seleccionarlos desde su ubicación.
-
Haga clic en Cargar.
Crear el flujo de datos y agregar una fuente
Ahora que las piezas están colocadas, puede empezar a crear el flujo de datos, empezando por la fuente.
-
En el menú del Inicio, seleccione Análisis > Preparar datos.
-
Haga clic en el mosaico Flujo de datos o en Crear nuevo > Flujo de datos.
-
En la ventana Crear un nuevo flujo de datos, establezca la información de su flujo de datos como sigue y haga clic en Crear:
-
Tutorial Flujo de datos como Nombre.
-
Personal como espacio.
-
Flujo de datos para preparar los datos de ventas centrados en los clientes de EE.UU. como Descripción.
-
Tutorial como Etiqueta.
Se abre su flujo de datos vacío.
-
-
Haga clic en Examinar catálogo en el lienzo vacío, para empezar a ver los conjuntos de datos que se han añadido a su catálogo.
-
Utilice la búsqueda filtrada para encontrar los conjuntos de datos sales_data_sample.xlsx y states.xlsx cargados anteriormente y marque las casillas de verificación situadas delante de sus nombres.
-
Haga clic en Siguiente.
-
Revise los conjuntos de datos y sus campos en el resumen y haga clic en Cargar en el flujo de datos.
Ambos conjuntos de datos fuente se añaden al lienzo y puede empezar a preparar los datos utilizando procesadores. sales_data_sample.xlsx es el conjunto de datos principal con el que trabajará, mientras que states.xlsx se utilizará como datos adicionales.
Filtrar los datos en los clientes estadounidenses
Ahora puede empezar a preparar los datos con cambios sucesivos mediante el uso de procesadores. El primer paso consiste en reducir el alcance del conjunto de datos y centrarse únicamente en los clientes con sede en Estados Unidos. Para ello, utilice el procesador Filtro para seleccionar solo las filas que tengan un valor USA en el campo COUNTRY.
-
Haga clic en el menú de acciones (
) de la fuente sales_data_sample en el lienzo.
-
En el menú que se abre, seleccione Añadir procesador > Filtro.
El procesador Filtro se coloca en el lienzo, ya conectado al nodo de origen.
Nota informativaTambién es posible arrastrar y soltar manualmente los procesadores desde el panel izquierdo Procesadores y conectar los nodos manualmente. -
Si aún no está abierto, haga clic en Propiedades en la parte superior derecha del lienzo para abrir el panel de propiedades del procesador, donde podrá configurar sus procesadores y ver la vista previa de los datos y el script.
-
En el panel de propiedades, haga clic en el icono Editar (
) situado junto al nombre del procesador para darle un nombre más significativo, como Filtro de EE.UU., y una breve descripción, como Filtro de clientes de EE.UU., por ejemplo.
-
En la lista desplegable Campo que procesar, seleccione COUNTRY.
-
En la lista desplegable Operador, seleccione =.
-
En el campo Usar con, seleccione Valor e introduzca EE.UU..
-
En la lista Seleccionar filas que coincidan, seleccione Todos los filtros.
Estos parámetros son más útiles cuando se combina más de un filtro.
-
Haga clic en Aplicar.
La configuración del procesador es válida, pero sigue apareciendo el mensaje No conectado porque el procesador aún no tiene un flujo de salida.
-
Haga clic en Vista previa de datos en el panel inferior.
Observando la vista previa, puede ver que solo las filas con EE.UU. como país se han conservado en esta fase y se propagarán en el flujo de salida. Su flujo de datos hasta ahora debería mostra el siguiente aspecto:
Añadir nombres de estados de otro conjunto de datos
En el caso del resto de clientes radicados en EE.UU., el campo STATE contiene el estado de origen, pero como un código de dos letras. Si desea que esta información sea más fácil de leer, lo ideal sería que incluyera el nombre completo del estado.
Resulta que el conjunto de datos states.xlsx que ha importado antes como fuente contiene una referencia de todos los estados de EE.UU. con los códigos de dos letras, así como los nombres completos correspondientes. Realizará una unión entre esos dos conjuntos de datos para recuperar los nombres de los estados y complementar su flujo principal.
Para realizar la unión:
-
Haga clic en el menú de acciones (
) del procesador Filtro y seleccione Añadir procesador a rama coincidente > Unir.
-
Cambie el nombre del procesador por el de Estado completo utilizando el icono Editar (
) del panel de propiedades.
-
Conecte la fuente de estados al punto de anclaje inferior del procesador Join. Para crear un enlace, haga clic en el punto situado a la derecha del nodo fuente, manténgalo pulsado y arrastre el enlace hasta el punto inferior situado a la izquierda del nodo procesador.
-
En la lista desplegable Tipo de unión, seleccione Unión externa izquierda - Left outer join.
-
En la lista desplegable Clave izquierda, seleccione el campo STATE.
-
En la lista desplegable Clave derecha, seleccione el campo Abbreviation.
Las dos columnas seleccionadas contienen la información común y permiten establecer un vínculo entre los dos flujos de entrada. Con una unión externa izquierda, solo se añaden al flujo principal los campos adicionales del segundo conjunto de datos.
-
Haga clic en Aplicar.
Se ha añadido un nuevo campo Estado al final del conjunto de datos, con el nombre completo del estado de cada cliente.
Renombrar y mover campos
Ahora hay varios problemas con la denominación y el formato de sus columnas. STATE y State son demasiado similares y confusos, y los dos campos están demasiado alejados. Para mejorar la uniformidad de sus campos puede utilizar el procesador Seleccionar campos para renombrar y desplazar los campos.
-
Haga clic en el menú de acciones (
) del procesador Join y seleccione Añadir procesador > Seleccionar campos.
-
Conecte el procesador Join al procesador Seleccionar campos.
-
Cambie el nombre del procesador como Renombrar campos de estados usando el icono Editar (
) en el panel de propiedades.
-
Sitúe el ratón sobre los campos que renombrar y pulse el icono
Editar para editar los dos nombres de campo como sigue:
-
STATE como STATECODE
-
State como STATENAME
-
-
Utilice el icono = para arrastrar y soltar la nueva columna STATENAME junto a STATECODE.
-
Haga clic en Aplicar.
Ha reorganizado sus campos y el flujo de datos tiene este aspecto:
Poner los nombres de los clientes en mayúscula
Para resaltar los apellidos de los clientes y distinguirlos más fácilmente de los nombres, utilizará una sencilla función de formato del procesador Cadenas para poner los apellidos en mayúsculas.
-
Haga clic en el menú de acciones (
) del procesador Seleccionar campos y seleccione Añadir procesador > Cadenas.
-
Conecte el procesador Seleccionar campos al procesador Cadenas.
-
Cambie el nombre del procesador a Mayúsculas utilizando el icono Editar (
) del panel de propiedades.
-
En la lista desplegable Nombre de la función, seleccione Cambiar a mayúsculas.
-
En la lista desplegable Campos que procesar, seleccione CONTACTLASTNAME.
-
Haga clic en Aplicar.
Añadir un objetivo y ejecutar el flujo de datos
Los principales pasos de la preparación ya están hechos y ahora puede finalizar el flujo de datos configurando cómo exportar los datos resultantes. En este caso, exportará los datos preparados como un archivo .qvd almacenado directamente en su catálogo, lo que le permitirá utilizarlos más adelante en una aplicación de análisis, por ejemplo.
-
Haga clic en el menú de acciones (
) del procesador de Cadenas y seleccione Añadir destino > Archivos de datos.
-
Conecte el procesador de Cadenas al Destino de los archivos de datos.
-
Cambie el nombre del procesador como Destino QVD utilizando el icono Editar (
) del panel de propiedades.
-
En la lista desplegable Espacios, seleccione Personal.
-
En el campo Nombre de archivo, escriba tutorial_output.
-
En la lista desplegable Extensión, seleccione .qvd.
-
Haga clic en Aplicar.
Su flujo de datos está ahora completo y es válido, como muestran el estado en la barra de cabecera y las marcas verdes bajo cada nodo fuente, procesador y destino.
-
Pulse el botón Ejecutar flujo en la parte superior derecha de la ventana.
Se abre un modal que mostrará el progreso de la ejecución.
Transcurrido un tiempo, la ventana se cierra y se abre una notificación para indicarle si la ejecución se ha realizado correctamente o no. El resultado de salida del flujo de datos puede encontrarse ahora en su catálogo o en la sección Salidas del panel Vista general del flujo de datos.
Qué viene a continuación
Ha aprendido a importar datos de origen en su catálogo, a construir un flujo de datos sencillo para filtrar y mejorar sus datos, y a exportar el resultado de su preparación como un archivo listo para usar.
Para conocer las múltiples formas de utilizar el flujo de datos en sus propios casos de uso, puede echar un vistazo a la lista completa de Procesadores de un flujo de datos y las funciones que ofrecen.
Para saber cómo utilizar los datos preparados en aplicaciones de análisis, consulte Crear análisis y visualizar datos.