Agregar flujos de transformación

Podemos incluir flujos en las tareas de transformación. El diseñador de flujos permite crear un flujo de transformación utilizando fuentes, procesadores y destinos para definir transformaciones complejas o sencillas.

Los flujos de transformación y los procesadores son representaciones lógicas. Significa que en las tareas ELT solo se crea una tabla por cada objetivo y que todos los procesadores se compilan en una única sentencia SQL por objetivo.

Plataformas de destino compatibles

Las siguientes plataformas son compatibles con los flujos de transformación:

Snowflake
Databricks
Google BigQuery
Azure Synapse Analytics
Microsoft Fabric
Microsoft SQL Server
Amazon Redshift

Nota informativaLas siguientes funciones de Amazon Redshift no están disponibles: Generar cadena UUID y Editar distancia.

Requisitos previos

Antes de crear un flujo de transformación, debe: hacer lo siguiente

Complete la tarea de almacenamiento con los datos incorporados que desee utilizar en el flujo de transformación o registrar los datos existentes. Para obtener más información sobre cómo incorporar y registrar datos, consulte Incorporación de datos a un almacén de datos y Registrar datos que ya están en la plataforma de datos.
Prepare y ejecute la tarea de almacenamiento o transformación que se utiliza como fuente en su flujo de transformación. La ejecución de la tarea de almacenamiento no es obligatoria, pero se recomienda para poder visualizar la vista previa de los datos en cada paso del flujo.

Crear un flujo de transformación

Para crear un flujo de transformación válido, necesita al menos un conjunto de datos de origen y un destino con nombre y claves definidas.

Abra la tarea Transformar datos en su canal de datos.
En Transformar, seleccione los conjuntos de datos de origen que desea incluir en el flujo de transformación y haga clic en Agregar flujo de transformación.
Agregar flujo de transformación se muestra, donde podrá configurar los parámetros de la transformación.
Indique un nombre para el conjunto de datos de destino en Nombre.

También puede agregar una descripción más extensa en Descripción.
En Materialización, seleccione si la salida transformada deberá materializarse o no. Puede optar por heredar las opciones de configuración de la tarea de datos.
- Activado creará tablas y gestionará el procesamiento ELT asociado.
- Desactivado creará vistas que realizarán transformaciones sobre la marcha.
En Almacén de datos históricos (Tipo 2), seleccione si desea conservar los datos históricos. Puede optar por heredar las opciones de configuración de la tarea de datos. Este ajuste requiere que la Materialización esté habilitada.
La carga incremental le permite ajustar la consulta para una carga de datos incremental mediante la aplicación de filtros u otras condiciones para reducir el conjunto de datos que se procesan mediante macros. La carga incremental solo está disponible si los datos se materializan como tablas.
- Cuando la carga incremental está activa
  
  La primera ejecución de la tarea realizará una carga inicial, insertando todos los resultados de la consulta en su tabla de destino. Las ejecuciones posteriores ejecutarán cargas incrementales aprovechando filtros o condiciones específicas que haya definido para el procesamiento incremental. Durante la carga incremental, la tarea sólo procesará datos como una actualización o una inserción; las eliminaciones no se administran.
- Cuando la carga incremental está desactivada
  
  La primera ejecución de la tarea realizará una carga inicial, insertando todos los resultados de la consulta en su tabla de destino. Las ejecuciones posteriores procesarán todos los resultados de la consulta comparándolos con su tabla de destino y procesando los registros nuevos, modificados o eliminados.
Nota informativaSi la consulta va a seleccionar todos los registros que deben existir en el destino, configure Carga incremental en desactivado. Los registros que no estén seleccionados se eliminarán en el destino.
Haga clic en Añadir cuando esté listo para crear el flujo de transformación.

El diseñador de flujos se abre, se crea el objetivo y se muestra en su flujo de datos como un componente de objetivo

Nota informativaEs obligatorio proporcionar un nombre único para su objetivo de flujo. Si desea cambiar el nombre del objetivo de flujo más adelante, seleccione el objetivo y escriba el nuevo nombre en Nombre del conjunto de datos.
Si no hay claves definidas para su objetivo, haga clic en Editar junto al campo Key(s) & nullables. Se abre la ventana de configuración.
Nota informativaLas claves no se heredan de los conjuntos de datos de origen y deben definirse manualmente. Los nulos se heredan de los conjuntos de datos de origen y pueden modificarse.
En Configure keys and nullables, seleccione Key en la columna que desee definir como clave primaria y seleccione Nullables en la columna o columnas que desee definir como anulables.
Haga clic en Confirmar para guardar los cambios y cerrar la ventana de configuración.

Si el estado de su flujo de transformación es válido, puede cerrar el flujo y preparar sus datos.

Podrá cambiar la configuración de Materialización y Carga incremental más adelante en Configuración de destino.

Seleccione el destino y haga clic en Editar junto a Configuración en la configuración de destino.

Añadir un procesador

Puede añadir procesadores a sus flujos de datos.

Los procesadores son componentes que puede añadir a sus flujos para transformar los datos entrantes y devolver los datos transformados al siguiente paso del flujo.

En el diseñador de flujos, seleccione el componente del flujo tras el que desea añadir un procesador.
Haga clic en el en el componente de flujo, y después en Añadir procesador y seleccione qué procesador desea añadir. También puede arrastrar el procesador del panel izquierdo al lienzo.

Se puede mostrar una breve descripción del procesador seleccionándolo en el panel Procesadores.

Configure su procesador según sus necesidades y haga clic en Guardar para guardar los cambios y actualizar la vista previa de datos.
Nota informativaPuede visualizar una muestra previa de sus datos utilizando SQL y Vista previa de datos. Para obtener más información, consulte Vista previa de los datos.

Procesadores disponibles

El procesador Aggregate

El procesador de IA

El procesador Cleanse

El procesador Concatenate

El procesador Filter

El procesador Fork

El procesador Hash

El procesador Incremental filter

El procesador Join

El procesador Math

El procesador Numbers

El procesador Remove columns

El procesador Select columns

Procesador de expresiones SQL

El procesador Strings

El procesador Union

Caso práctico: Unir, agregar y filtrar datos en Snowflake

En este caso de uso, los datos de los clientes de Snowflake deben transformarse con procesadores. Dado que la información de los clientes procede de dos conjuntos de datos, primero debe añadir un procesador Join para combinar los registros. También desea utilizar un procesador Aggregate para calcular el precio medio de los pedidos y un procesador Filter para filtrar el tipo de registros de clientes que desea conservar en los conjuntos de datos de salida.

Un flujo de transformación con un procesador Join, un procesador Aggregate y un procesador Filter.

El primer conjunto de datos se basa en una tabla Snowflake llamada CUSTOMER_ACCOUNT y su esquema tiene el siguiente aspecto:

Esquema de la tabla Snowflake sobre cuentas de clientes

El segundo conjunto de datos se basa en una tabla Snowflake llamada CUSTOMER_ORDER y su esquema tiene el siguiente aspecto:

Esquema de la tabla Snowflake sobre pedidos de clientes

Arrastre un procesador Join del panel izquierdo de Procesadores al lienzo.
Enlace la segunda fuente al procesador Join para poder combinar los datos de ambos conjuntos de datos.
Configure el procesador Join para unir los dos conjuntos de datos de origen en las claves de ID de cliente (CUSTOMER_ID) .
Arrastre un procesador Aggregate después del procesador Join.
Configure el procesador Aggregate para calcular el importe medio de compra del cliente (ORDER_TOTAL_PRICE) y almacenarlo en una nueva columna que puede denominar precio_medio_pedido, mientras agrupa los registros por tipo de segmento de cliente (LEFT_CUSTOMER_SEGMENT).
Arrastre y suelte un procesador Filter del panel izquierdo de Procesadores al lienzo.
Configure el procesador Filter para filtrar los tipos de clientes empresariales (Business).
Seleccione en el procesador Filter para abrir el menú y haga clic en Add non-matching target para añadir un segundo objetivo a su flujo.
Este objetivo contendrá los registros que no coincidan con los criterios de filtrado, los tipos de clientes individuales (Individual).
Escriba un nombre para el nuevo conjunto de datos de destino, cliente_individual, por ejemplo.
Compruebe la vista previa del resultado de salida en ambos objetivos:
El objetivo cliente_individual muestra el precio medio de pedido para los tipos de cliente Business, aquí: 157,463687151.
El objetivo cliente_individual muestra el precio medio de pedido para los tipos de cliente Individual, aquí: 153,576530612.
Asegúrese de que su flujo de transformación sea válido y, a continuación, ciérrelo.
En la ventana Transformar , haga clic en Preparar para preparar los datos.

Limitaciones y consideraciones

En los flujos de transformación, los siguientes tipos de datos no pueden utilizarse directamente como valores en procesadores como Cleanse (Limpiar), Hash o Filtro:

TIME
DATE
DATETIME
JSON

Para trabajar con estos tipos de datos, conviértalos primero en formatos compatibles (por ejemplo, STRING o NUMERIC) y utilícelos después en estos procesadores.

Prácticas recomendadas

Cuando añada conjuntos de datos de origen o de destino a sus flujos, deberá establecer las claves y los nulos en el panel de configuración de los conjuntos de datos de destino.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios