Saltar al contenido principal Saltar al contenido complementario

Transformar datos

Puede crear transformaciones de datos reutilizables y basadas en reglas como parte de su canalización de datos. Puede realizar transformaciones como parte de su incorporación de datos o crear tareas de datos de transformación reutilizables. Puede realizar transformaciones a nivel de fila y crear conjuntos de datos que o bien se materialicen como tablas, o bien se creen como vistas que realizan transformaciones sobre la marcha.

  • Puede realizar transformaciones explícitas de conjunto de datos o crear reglas globales que transformen varios conjuntos de datos. También puede filtrar un conjunto de datos para crear un subconjunto de filas.

  • Puede agregar transformaciones SQL. Una transformación SQL le permite insertar una consulta SQL SELECT en una canalización para definir transformaciones complejas o simples.

  • Puede agregar flujos de transformación visualmente utilizando fuentes, procesadores y destinos para definir transformaciones complejas o sencillas.

Nota informativaLas tareas de datos operan en el contexto de su propietario. Para más información sobre los roles y permisos necesarios, vea Roles y permisos en un espacio de datos.

Crear una tarea de transformación de datos

La forma más fácil de crear una tarea de transformación de datos es hacer clic en ... en una tarea de almacenamiento de datos y luego seleccionar Transformar datos.

También puede hacer clic en Añadir nuevo en un proyecto de datos y seleccionar Transformar datos. En este caso, debe definir qué tarea de datos de origen utilizar.

  1. Defina sus datos de origen y destinos en Transformar.

    Puede, o bien:

    • Seleccione conjuntos de datos de origen y haga clic en Agregar al destino para agregarlos al Destino.

      Luego puede realizar transformaciones básicas en los conjuntos de datos, como filtrar datos o agregar columnas, en Conjuntos de datos.

      Para más información, vea Administrar conjuntos de datos.

    • Seleccione conjuntos de datos de origen y haga clic en Agregar transformación SQL.

      Una transformación SQL le permite insertar una consulta SQL SELECT en una canalización para definir transformaciones complejas o simples.

      Para más información, vea Agregar transformaciones SQL.

    • Seleccione conjuntos de datos de origen y haga clic en Agregar flujo de transformación.

      El diseñador de flujo le permite crear un flujo de transformación con fuentes, procesadores y destinos para definir transformaciones complejas o simples.

      Para más información, vea Agregar flujos de transformación.

    Nota de sugerenciaTambién puede agregar más conjuntos de datos de otras tareas de almacenamiento de datos haciendo clic en Seleccionar datos de origen.
  2. Cuando haya agregado las transformaciones que desea, puede validar los conjuntos de datos haciendo clic en Validar conjuntos de datos. Si la validación encuentra errores, corríjalos antes de continuar.

    Para más información, vea Validar y ajustar los conjuntos de datos.

  3. Crear un modelo de datos

    Haga clic en Modelo para establecer las relaciones entre los conjuntos de datos incluidos.

    Para más información, vea Crear un modelo de datos.

  4. Haga clic en Preparar para preparar la tarea de datos y todos los artefactos necesarios. Esto puede tomar un poco de tiempo.

    Puede seguir el progreso en Progreso de la preparación, en la parte inferior de la pantalla.

  5. Cuando el estado muestra Preparado, puede ejecutar la tarea de datos.

    Haga clic en ... y después en Ejecutar.

La tarea de datos ahora comenzará a crear conjuntos de datos para transformar los datos.

Nota informativaNo es posible cambiar qué conjuntos de datos se incluyen cuando ha comenzado a generar conjuntos de datos.

Supervisar una tarea de transformación

Puede programar una tarea de transformación para que se actualice periódicamente. Puede establecer una programación basada en el tiempo o configurar la tarea para que se ejecute cuando las tareas de datos de entrada hayan terminado de ejecutarse.

Haga clic en ... en una tarea de datos y seleccione Programación para crear una programación. La configuración de programación predeterminada se hereda de la configuración del proyecto de datos. Para obtener más información sobre la configuración predeterminada, vea Transformar valores predeterminados.

Siempre debe establecer Programación en Activado para habilitar la programación.

Nota informativaSi todos los conjuntos de datos de la tarea son No materializado, no hay nada que ejecutar, ya que la transformación se realiza sobre la marcha con vistas. Todavía puede crear una programación para que se ejecute una solicitud de transformación No materializada cuando se cumpla la condición de la programación. La tarea se completará de inmediato, lo que puede desencadenar una tarea posterior, por ejemplo, un data mart. Esto le permite crear una programación de la canalización basado en eventos que incluya transformaciones no materializadas sin interrumpir el flujo de la canalización.

Programaciones basadas en el tiempo

Puede utilizar una programación basada en el tiempo para ejecutar la tarea independientemente de cuándo se actualicen las distintas fuentes de entrada.

  • Seleccione A una hora específica en Ejecutar la tarea de datos.

Puede establecer una programación por hora, diaria, semanal o mensual.

Programaciones basadas en eventos

Puede usar un programa basado en eventos para ejecutar la tarea cuando las tareas de datos de entrada hayan terminado de ejecutarse.

  • Seleccione En un evento específico en Ejecutar la tarea de datos.

Puede seleccionar si desea ejecutar la tarea cuando cualquiera de las tareas de entrada se haya completado correctamente, o cuando alguna de las tareas de entrada seleccionadas se haya completado correctamente.

Nota informativaLa tarea no se ejecutará si se está ejecutando alguna tarea de entrada o de nivel inferior cuando se activa la programación. La tarea se omite hasta la siguiente ejecución programada.

Supervisar una tarea de transformación

Puede supervisar el estado y el progreso de una tarea de transformación haciendo clic en Supervisar.

Para más información, vea Supervisión de una tarea de datos individual.

Recargar datos

Puede realizar una recarga manual de tablas si los datos se materializan como tablas físicas. Esto resulta útil cuando hay problemas con una o más tablas.

Nota informativaPuede realizar una recarga manual de tablas si los datos se materializan como tablas físicas.
  1. Abra la tarea de datos y seleccione la pestaña Supervisar.

  2. Seleccione las tablas que desea cargar.

  3. Haga clic en Cargar tablas.

La recarga se producirá la próxima vez que se ejecute la tarea. El proceso de recarga se comporta de manera diferente según la configuración del historial y el tipo de transformación de cada conjunto de datos. Esto significa que el proceso de recarga puede diferir entre conjuntos de datos en una tarea de datos.

Puede cancelar la recarga de las tablas pendientes de recarga haciendo clic en Cancelar recarga. Esto no afectará a las tablas que ya estén recargadas, y las recargas que se estén ejecutando en ese momento se completarán.

Las tareas posteriores se recargarán para aplicar los cambios y evitar la retroactivación.

Impacto en sentido descendente tras recargar una tarea de transformación

Efectos posteriores de la recarga de transformación

El impacto en sentido descendente depende del tipo de operación de recarga ejecutada y del tipo de conjunto de datos inmediatamente posterior. El procesamiento estándar significa que el conjunto de datos reaccionará y procesará los datos utilizando el método configurado para el conjunto de datos específico.

Ejemplo: Recargar un conjunto de datos mediante truncar y cargar

  • Si el siguiente conjunto de datos utiliza transformaciones del conjunto de datos, se recargará en la siguiente ejecución mediante truncamiento y carga.

  • Si el siguiente conjunto de datos es una transformación SQL o un flujo de transformación, se recargará mediante comparar y aplicar.

Recargar un conjunto de datos sin historial

En este caso, no hay antecedentes que considerar. Para reducir el procesamiento en el destino, la recarga se realiza:

  1. Truncando las tablas.

  2. Cargando datos actuales de la tarea de datos ascendente.

Las tareas posteriores se recargarán para aplicar los cambios.

Recargar un conjunto de datos con el historial habilitado

La recarga se realiza:

  1. Truncando las tablas actuales, anteriores y de cambios.

  2. Cargando datos de la tarea de datos previa, incluidas las tablas anteriores.

Recargar un conjunto de datos basado en una transformación SQL o un flujo de transformación

  • Truncar y volver a cargar

    Nota informativaEsta opción puede provocar la pérdida del historial.
    1. Truncar las tablas actuales y de cambios.

    2. Ejecutar la consulta y cargarla en las tablas actuales.

  • Volver a cargar y comparar

    1. Ejecutar la consulta y compararla con las tablas actuales.

    2. Agregar los cambios.

Nota informativaCuando un conjunto de datos basado en la transformación de SQL o en un flujo de trasformación se recarga debido a una recarga de tarea previa, siempre se recarga comparando y aplicando. Si desea truncarlo y recargarlo, debe emitir una recarga específica para estas tablas. En este caso, también debe considerar el efecto en las tablas posteriores.

Opciones de configuración de la transformación

Puede establecer propiedades para la tarea de transformación de datos.

  • Haga clic en Configuración.

Nota de avisoSi la tarea ya se ejecutó, cambiar una configuración que no sea la configuración de tiempo de ejecución requiere volver a crear los conjuntos de datos.

Configuración general

  • Base de datos

    Base de datos que se utilizará en el origen de datos.

  • Esquema de tarea de datos

    Puede cambiar el nombre del esquema de la tarea de almacenamiento de datos. El nombre predeterminado es store.

  • Esquema interno

    Puede cambiar el nombre del esquema de almacenamiento interno. El nombre predeterminado es store__internal.

  • Prefijo para todas las tablas y vistas

    Puede establecer un prefijo para todas las tablas y vistas creadas con esta tarea.

    Nota informativaDebe usar un prefijo único cuando desee usar un esquema de base de datos en varias tareas de datos.
  • Materializado

    Puede seleccionar crear solo vistas que realicen transformaciones sobre la marcha (No materializadas) o crear tablas y vistas (Materializadas).

  • Historial

    Puede conservar los datos de cambios históricos para permitirle recrear fácilmente los datos tal y como se veían en un punto específico en el tiempo. Puede usar las vistas del historial y las vistas del historial en vivo para ver los datos históricos.

Configuración de tiempo de ejecución

  • Ejecución en paralelo

    Puede establecer el número máximo de conexiones de datos para cargas completas en un número del 1 al 5.

  • Almacén

    El nombre del almacén de datos en la nube.

Limitaciones

  • No es posible cambiar los tipos de datos en una tarea de transformación de datos cuando se selecciona la opción No materializado.

  • Los conjuntos de datos basados en SQL no materializados proporcionan únicamente el conjunto de resultados completo; no se admite el filtrado incremental. Los conjuntos de datos no materializados basados en SQL también proporcionan únicamente datos actuales y no mantienen registros históricos.

Más información

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.