Saltar al contenido principal Saltar al contenido complementario

Agregar flujos de transformación

Podemos incluir flujos en las tareas de transformación. El diseñador de flujos permite crear un flujo de transformación utilizando fuentes, procesadores y destinos para definir transformaciones complejas o sencillas.

Los flujos de transformación y los procesadores son representaciones lógicas. Significa que en las tareas ELT solo se crea una tabla por cada objetivo y que todos los procesadores se compilan en una única sentencia SQL por objetivo.

Plataformas de destino compatibles

Las siguientes plataformas son compatibles con los flujos de transformación:

  • Snowflake

  • Databricks

  • Google BigQuery

  • Azure Synapse Analytics

  • Microsoft Fabric

  • Microsoft SQL Server

  • Amazon Redshift

    Nota informativaLas siguientes funciones de Amazon Redshift no están disponibles: Generar cadena UUID y Editar distancia.

Requisitos previos

Antes de crear un flujo de transformación, debe: hacer lo siguiente

  • Complete la tarea de almacenamiento con los datos incorporados que desee utilizar en el flujo de transformación o registrar los datos existentes. Para obtener más información sobre cómo incorporar y registrar datos, consulte Incorporar datos y Registrar datos que ya están en la plataforma de datos.
  • Prepare y ejecute la tarea de almacenamiento o transformación que se utiliza como fuente en su flujo de transformación. La ejecución de la tarea de almacenamiento no es obligatoria, pero se recomienda para poder visualizar la vista previa de los datos en cada paso del flujo.

Crear un flujo de transformación

Para crear un flujo de transformación válido, necesita al menos un conjunto de datos de origen y un destino con nombre y claves definidas.

  1. Abra la tarea Transformar datos en su canal de datos.
  2. En Transformar, seleccione los conjuntos de datos de origen que desea incluir en el flujo de transformación y haga clic en Agregar flujo de transformación.

    Agregar flujo de transformación se muestra, donde podrá configurar los parámetros de la transformación.

  3. Indique un nombre para el conjunto de datos de destino en Nombre.

    También puede agregar una descripción más extensa en Descripción.

  4. En Materialización, seleccione si la salida transformada deberá materializarse o no. Puede optar por heredar las opciones de configuración de la tarea de datos.

    • Activado creará tablas y gestionará el procesamiento ELT asociado.

    • Desactivado creará vistas que realizarán transformaciones sobre la marcha.

  5. La carga incremental le permite ajustar la consulta para una carga de datos incremental mediante la aplicación de filtros u otras condiciones para reducir el conjunto de datos que se procesan mediante macros. La carga incremental solo está disponible si los datos se materializan como tablas.

    • Cuando la carga incremental está activa

      La primera ejecución de la tarea realizará una carga inicial, insertando todos los resultados de la consulta en su tabla de destino. Las ejecuciones posteriores ejecutarán cargas incrementales aprovechando filtros o condiciones específicas que haya definido para el procesamiento incremental. Durante la carga incremental, la tarea sólo procesará datos como una actualización o una inserción; las eliminaciones no se administran.

    • Cuando la carga incremental está desactivada

      La primera ejecución de la tarea realizará una carga inicial, insertando todos los resultados de la consulta en su tabla de destino. Las ejecuciones posteriores procesarán todos los resultados de la consulta comparándolos con su tabla de destino y procesando registros nuevos, modificados o eliminados.

    Nota informativaDesactive la carga incremental si la consulta seleccionará todos los registros que deberían existir en el destino. Los registros que no estén seleccionados se eliminarán en el destino.
  6. Haga clic en Añadir cuando esté listo para crear el flujo de transformación.

    El diseñador de flujos se abre, se crea el objetivo y se muestra en su flujo de datos como un componente de objetivo

    Nota informativaEs obligatorio proporcionar un nombre único para su objetivo de flujo. Si desea cambiar el nombre del objetivo de flujo más adelante, seleccione el objetivo y escriba el nuevo nombre en Nombre del conjunto de datos.
  7. Si no hay claves definidas para su objetivo, haga clic en Editar junto al campo Key(s) & nullables. Se abre la ventana de configuración.
    Nota informativaLas claves no se heredan de los conjuntos de datos de origen y deben definirse manualmente. Los nulos se heredan de los conjuntos de datos de origen y pueden modificarse.
  8. En Configure keys and nullables, seleccione Key en la columna que desee definir como clave primaria y seleccione Nullables en la columna o columnas que desee definir como anulables.
  9. Haga clic en Confirmar para guardar los cambios y cerrar la ventana de configuración.

Si el estado de su flujo de transformación es válido, puede cerrar el flujo y preparar sus datos.

Podrá cambiar la configuración de Materialización y Carga incremental más adelante en Configuración de destino.

  • Seleccione el destino y haga clic en Editar junto a Configuración en la configuración de destino.

Añadir un procesador

Puede añadir procesadores a sus flujos de datos.

Los procesadores son componentes que puede añadir a sus flujos para transformar los datos entrantes y devolver los datos transformados al siguiente paso del flujo.

  1. En el diseñador de flujos, seleccione el componente del flujo tras el que desea añadir un procesador.
  2. Haga clic en el Icono de elipsis vertical en el componente de flujo, y después en Añadir procesador y seleccione qué procesador desea añadir. También puede arrastrar el procesador del panel izquierdo al lienzo.
  3. Nota de sugerenciaSe puede mostrar una breve descripción del procesador seleccionándolo en el panel Procesadores.
  4. Configure su procesador según sus necesidades y haga clic en Guardar para guardar los cambios y actualizar la vista previa de datos.
    Nota informativaPuede visualizar una muestra previa de sus datos utilizando SQL y Vista previa de datos. Para obtener más información, consulte Vista previa de los datos.

Procesadores disponibles

Caso práctico: Unir, agregar y filtrar datos en Snowflake

En este caso de uso, los datos de los clientes de Snowflake deben transformarse con procesadores. Dado que la información de los clientes procede de dos conjuntos de datos, primero debe añadir un procesador Join para combinar los registros. También desea utilizar un procesador Aggregate para calcular el precio medio de los pedidos y un procesador Filter para filtrar el tipo de registros de clientes que desea conservar en los conjuntos de datos de salida.

Un flujo de transformación con un procesador Join, un procesador Aggregate y un procesador Filter.

El primer conjunto de datos se basa en una tabla Snowflake llamada CUSTOMER_ACCOUNT y su esquema tiene el siguiente aspecto:

Esquema de la tabla Snowflake sobre cuentas de clientes

El segundo conjunto de datos se basa en una tabla Snowflake llamada CUSTOMER_ORDER y su esquema tiene el siguiente aspecto:

Esquema de la tabla Snowflake sobre pedidos de clientes

  1. Arrastre un procesador Join del panel izquierdo de Procesadores al lienzo.
  2. Enlace la segunda fuente al procesador Join para poder combinar los datos de ambos conjuntos de datos.
  3. Configure el procesador Join para unir los dos conjuntos de datos de origen en las claves de ID de cliente (CUSTOMER_ID) .
  4. Arrastre un procesador Aggregate después del procesador Join.
  5. Configure el procesador Aggregate para calcular el importe medio de compra del cliente (ORDER_TOTAL_PRICE) y almacenarlo en una nueva columna que puede denominar precio_medio_pedido, mientras agrupa los registros por tipo de segmento de cliente (LEFT_CUSTOMER_SEGMENT).
  6. Arrastre y suelte un procesador Filter del panel izquierdo de Procesadores al lienzo.
  7. Configure el procesador Filter para filtrar los tipos de clientes empresariales (Business).
  8. Seleccione Icono de elipsis vertical en el procesador Filter para abrir el menú y haga clic en Add non-matching target para añadir un segundo objetivo a su flujo.

    Este objetivo contendrá los registros que no coincidan con los criterios de filtrado, los tipos de clientes individuales (Individual).

  9. Escriba un nombre para el nuevo conjunto de datos de destino, cliente_individual, por ejemplo.
  10. Compruebe la vista previa del resultado de salida en ambos objetivos:

    El objetivo cliente_individual muestra el precio medio de pedido para los tipos de cliente Business, aquí: 157,463687151.

    Resultado de salida que muestra el precio medio de los pedidos de los tipos de clientes comerciales

    El objetivo cliente_individual muestra el precio medio de pedido para los tipos de cliente Individual, aquí: 153,576530612.

    Resultados que muestran el precio medio de los pedidos de los distintos tipos de clientes
  11. Asegúrese de que su flujo de transformación sea válido y, a continuación, ciérrelo.
  12. En la ventana Transformar , haga clic en Preparar para preparar los datos.

Prácticas recomendadas

Cuando añada conjuntos de datos de origen o de destino a sus flujos, deberá establecer las claves y los nulos en el panel de configuración de los conjuntos de datos de destino.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.