Transformar datos
Puede crear transformaciones de datos reutilizables y basadas en reglas como parte de su canalización de datos. Puede realizar transformaciones como parte de su incorporación de datos o crear tareas de datos de transformación reutilizables. Puede realizar transformaciones a nivel de fila y crear conjuntos de datos que o bien se materialicen como tablas, o bien se creen como vistas que realizan transformaciones sobre la marcha.
-
Puede realizar transformaciones explícitas de conjunto de datos o crear reglas globales que transformen varios conjuntos de datos. También puede filtrar un conjunto de datos para crear un subconjunto de filas.
-
Puede agregar transformaciones SQL. Una transformación SQL le permite insertar una consulta SQL SELECT en una canalización para definir transformaciones complejas o simples.
-
Puede agregar flujos de transformación visualmente utilizando fuentes, procesadores y destinos para definir transformaciones complejas o sencillas.
Crear una tarea de transformación de datos
La forma más fácil de crear una tarea de transformación de datos es hacer clic en ... en una tarea de almacenamiento de datos y luego seleccionar Transformar datos.
También puede hacer clic en Añadir nuevo en un proyecto de datos y seleccionar Transformar datos. En este caso, debe definir qué tarea de datos de origen utilizar.
-
Defina sus datos de origen y destinos en Transformar.
Puede, o bien:
-
Realizar transformaciones de conjuntos de datos
Seleccione conjuntos de datos de origen y haga clic en Agregar al destino para agregarlos al Destino.
Luego puede realizar transformaciones básicas en los conjuntos de datos, como filtrar datos o agregar columnas, en Conjuntos de datos.
Para más información, vea Administrar conjuntos de datos.
-
Agregar una transformación SQL
Seleccione conjuntos de datos de origen y haga clic en Agregar transformación SQL.
Una transformación SQL le permite insertar una consulta SQL SELECT en una canalización para definir transformaciones complejas o simples.
Para más información, vea Agregar transformaciones SQL.
-
Agregar un flujo de transformación
Seleccione conjuntos de datos de origen y haga clic en Agregar flujo de transformación.
El diseñador de flujo le permite crear un flujo de transformación con fuentes, procesadores y destinos para definir transformaciones complejas o simples.
Para más información, vea Agregar flujos de transformación.
Nota de sugerenciaTambién puede agregar más conjuntos de datos de otras tareas de almacenamiento de datos haciendo clic en Seleccionar datos de origen. -
-
Cuando haya agregado las transformaciones que desea, puede validar los conjuntos de datos haciendo clic en Validar conjuntos de datos. Si la validación encuentra errores, corríjalos antes de continuar.
Para más información, vea Validar y ajustar los conjuntos de datos.
-
Crear un modelo de datos
Haga clic en Modelo para establecer las relaciones entre los conjuntos de datos incluidos.
Para más información, vea Crear un modelo de datos.
-
Haga clic en Preparar para preparar la tarea de datos y todos los artefactos necesarios. Esto puede tomar un poco de tiempo.
Puede seguir el progreso en Progreso de la preparación, en la parte inferior de la pantalla.
-
Cuando el estado muestra Preparado, puede ejecutar la tarea de datos.
Haga clic en ... y después en Ejecutar.
La tarea de datos ahora comenzará a crear conjuntos de datos para transformar los datos.
Supervisar una tarea de transformación
Puede programar una tarea de transformación para que se actualice periódicamente. Puede establecer una programación basada en el tiempo o configurar la tarea para que se ejecute cuando las tareas de datos de entrada hayan terminado de ejecutarse.
Haga clic en ... en una tarea de datos y seleccione Programación para crear una programación. La configuración de programación predeterminada se hereda de la configuración del proyecto de datos. Para obtener más información sobre la configuración predeterminada, vea Transformar valores predeterminados.
Siempre debe establecer Programación en Activado para habilitar la programación.
Programaciones basadas en el tiempo
Puede utilizar una programación basada en el tiempo para ejecutar la tarea independientemente de cuándo se actualicen las distintas fuentes de entrada.
Seleccione A una hora específica en Ejecutar la tarea de datos.
Puede establecer una programación por hora, diaria, semanal o mensual.
Programaciones basadas en eventos
Puede usar un programa basado en eventos para ejecutar la tarea cuando las tareas de datos de entrada hayan terminado de ejecutarse.
Seleccione En un evento específico en Ejecutar la tarea de datos.
Puede seleccionar si desea ejecutar la tarea cuando cualquiera de las tareas de entrada se haya completado correctamente, o cuando alguna de las tareas de entrada seleccionadas se haya completado correctamente.
Supervisar una tarea de transformación
Puede supervisar el estado y el progreso de una tarea de transformación haciendo clic en Supervisar.
Para más información, vea Supervisión de una tarea de datos individual.
Recargar datos
Puede realizar una recarga manual de tablas si los datos se materializan como tablas físicas. Esto resulta útil cuando hay problemas con una o más tablas.
Abra la tarea de datos y seleccione la pestaña Supervisar.
Seleccione las tablas que desea cargar.
Haga clic en Cargar tablas.
La recarga se producirá la próxima vez que se ejecute la tarea. El proceso de recarga se comporta de manera diferente según la configuración del historial y el tipo de transformación de cada conjunto de datos. Esto significa que el proceso de recarga puede diferir entre conjuntos de datos en una tarea de datos.
Las transformaciones de conjuntos de datos se recargan truncando y cargando.
Las transformaciones de SQL y los flujos de transformación se pueden recargar truncándolos y cargándolos o comparándolos con la carga completa y aplicando los cambios. La mejor práctica es comparar y aplicar los camios.
Recargar un conjunto de datos basado en una transformación SQL o un flujo de transformación
Puede cancelar la recarga de las tablas pendientes de recarga haciendo clic en Cancelar recarga. Esto no afectará a las tablas que ya estén recargadas, y las recargas que se estén ejecutando en ese momento se completarán.
Las tareas posteriores se recargarán para aplicar los cambios y evitar la retroactivación.
El impacto en sentido descendente depende del tipo de operación de recarga ejecutada y del tipo de conjunto de datos inmediatamente posterior. El procesamiento estándar significa que el conjunto de datos reaccionará y procesará los datos utilizando el método configurado para el conjunto de datos específico.
Ejemplo: Recargar un conjunto de datos mediante truncar y cargar
Si el siguiente conjunto de datos utiliza transformaciones del conjunto de datos, se recargará en la siguiente ejecución mediante truncamiento y carga.
Si el siguiente conjunto de datos es una transformación SQL o un flujo de transformación, se recargará mediante comparar y aplicar.
Recargar un conjunto de datos sin historial
En este caso, no hay antecedentes que considerar. Para reducir el procesamiento en el destino, la recarga se realiza:
Truncando las tablas.
Cargando datos actuales de la tarea de datos ascendente.
Las tareas posteriores se recargarán para aplicar los cambios.
Recargar un conjunto de datos con el historial habilitado
La recarga se realiza:
Truncando las tablas actuales, anteriores y de cambios.
Cargando datos de la tarea de datos previa, incluidas las tablas anteriores.
Recargar un conjunto de datos basado en una transformación SQL o un flujo de transformación
Truncar y volver a cargar
Nota informativaEsta opción puede provocar la pérdida del historial.Truncar las tablas actuales y de cambios.
Ejecutar la consulta y cargarla en las tablas actuales.
Volver a cargar y comparar
Ejecutar la consulta y compararla con las tablas actuales.
Agregar los cambios.
Opciones de configuración de la transformación
Puede establecer propiedades para la tarea de transformación de datos.
Haga clic en Configuración.
Configuración general
Base de datos
Base de datos que se utilizará en el origen de datos.
Esquema de tarea de datos
Puede cambiar el nombre del esquema de la tarea de almacenamiento de datos. El nombre predeterminado es store.
Esquema interno
Puede cambiar el nombre del esquema de almacenamiento interno. El nombre predeterminado es store__internal.
- Prefijo para todas las tablas y vistas
Puede establecer un prefijo para todas las tablas y vistas creadas con esta tarea.
Nota informativaDebe usar un prefijo único cuando desee usar un esquema de base de datos en varias tareas de datos. Materializado
Puede seleccionar crear solo vistas que realicen transformaciones sobre la marcha (No materializadas) o crear tablas y vistas (Materializadas).
Historial
Puede conservar los datos de cambios históricos para permitirle recrear fácilmente los datos tal y como se veían en un punto específico en el tiempo. Puede usar las vistas del historial y las vistas del historial en vivo para ver los datos históricos.
Configuración de tiempo de ejecución
Ejecución en paralelo
Puede establecer el número máximo de conexiones de datos para cargas completas en un número del 1 al 5.
Almacén
El nombre del almacén de datos en la nube.
Limitaciones
No es posible cambiar los tipos de datos en una tarea de transformación de datos cuando se selecciona la opción No materializado.
Los conjuntos de datos basados en SQL no materializados proporcionan únicamente el conjunto de resultados completo; no se admite el filtrado incremental. Los conjuntos de datos no materializados basados en SQL también proporcionan únicamente datos actuales y no mantienen registros históricos.