Saltar al contenido principal Saltar al contenido complementario

Aterrizaje de datos en un data lake con una suscripción Estándar, Premium o Enterprise

Puede configurar una tarea Aterrizar datos en un lago de datos para enviar datos a los siguientes destinos:

  • Amazon S3

    Para obtener información sobre cómo configurar una conexión a su depósito de Amazon S3, consulte Amazon S3.

  • Azure Data Lake Storage

    Para obtener información sobre cómo configurar una conexión a Azure Data Lake Storage, consulte Azure Data Lake Storage.

  • Google Cloud Storage

    Para obtener información sobre cómo configurar una conexión a su Google Cloud Storage, consulte Google Cloud Storage.

Nota de sugerenciaAunque puede configurar los ajustes de conexión de fuente y de destino de la tarea Aterrizar datos en un lago de datos en el asistente de configuración de las tareas, para simplificar el procedimiento de configuración, se recomienda hacerlo antes de crear la tarea.

Para obtener información sobre cómo configurar conexiones con sus fuentes de datos, consulte Creación de conexiones con fuentes de datos

Para configurar una tarea de aterrizaje en un data lake:

  1. En Integración de datos > Proyectos, haga clic en Crear proyecto.

  2. En el cuadro de diálogo Nuevo proyecto, haga lo siguiente:

    1. Dé un Nombre a su proyecto.

    2. Seleccione el Espacio en el que desea que se cree el proyecto.
    3. Si lo desea, proporcione una Descripción.
    4. Seleccione Replication como el Caso de uso.
    5. Opcionalmente, desmarque la casilla de verificación Abrir si desea crear un proyecto vacío sin configurar ninguna opción.
    6. Haga clic en Crear.

      Ocurrirá una de las siguientes situaciones:

      • Si seleccionó la casilla de verificación Abrir en el cuadro de diálogo Nuevo proyecto (opción predeterminada), se abrirá el proyecto.
      • Si desmarcó la casilla de verificación Abrir en el cuadro de diálogo Nuevo proyecto, el proyecto se agregará a su lista de proyectos. Puede abrir el proyecto más tarde seleccionando Abrir en el menú del proyecto .
  3. Una vez que el proyecto se abra, haga clic en Aterrizar datos en un data lake.

    Se abre el asistente Aterrizar datos en un data lake.

  4. En la pestaña General, especifique un nombre y una descripción para la tarea de aterrizaje del lago de datos. Haga clic en Siguiente.

    Nota informativaNo se admiten nombres que contengan caracteres de barra diagonal (/) o barra invertida (\).
  5. En la pestaña Seleccionar conexión de fuente, seleccione una conexión con los datos de origen. Opcionalmente, puede editar la configuración de conexión seleccionando Editar en el menú en la columna Acciones.

    Si aún no tiene una conexión con los datos de origen, primero debe crear una haciendo clic en Crear conexión en la parte superior derecha de la pestaña.

    Puede filtrar la lista de conexiones usando los filtros a la izquierda. Las conexiones se pueden filtrar según el tipo de fuente, puerta de enlace, espacio y propietario. El botón Todos los filtros encima de la lista de conexiones muestra el número de filtros actuales. Puede utilizar este botón para cerrar o abrir el panel Filtros a la izquierda. Los filtros actualmente activos también se muestran encima de la lista de conexiones disponibles.

    También puede ordenar la lista seleccionando Modificado por última vez, Creado por última vez o Alfabéticamente en la lista desplegable de la derecha. Haga clic en la flecha a la derecha de la lista para cambiar el criterio de ordenación.

    Una vez que haya seleccionado una conexión de fuente de datos, haga clic si lo desea en Probar conexión, en la parte superior derecha de la pestaña (recomendado) y, a continuación, haga clic en Siguiente.

  6. En la pestaña Seleccionar conjuntos de datos, seleccione las tablas y/o vistas que desee incluir en la tarea de aterrizaje en el lago de datos. También puede utilizar comodines y crear reglas de selección, como se describe en Seleccionar datos de una base de datos.

    Nota informativaNo se admiten nombres de esquema ni nombres de tabla que contengan caracteres de barra (/) o barra invertida (\).
  7. En la pestaña Seleccionar conexión de destino, seleccione el destino de la lista de conexiones disponibles y luego haga clic en Siguiente. En términos de funcionalidad, la pestaña es la misma que la pestaña Seleccionar conexión de fuente descrita anteriormente.

  8. En la pestaña Configuración, cambie si lo desea los siguientes parámetros y luego haga clic en Siguiente.

    • Captura de Datos de Cambios (CDC): Las tareas de aterrizaje en el lago de datos comienzan con una carga completa (durante la cual se transfieren todas las tablas seleccionadas). Los datos desembarcados se mantienen actualizados mediante la tecnología CDC (Change Data Capture: Captura de datos de cambios, también conocido como Captura de datos modificados).

      Nota informativaNo se admite CDC (Captura de Datos de Cambios) en operaciones DDL.

      Cuando se trabaja con Pasarela Data Movement, los cambios se capturan desde la fuente casi en tiempo real. Cuando se trabaja sin Pasarela Data Movement, los cambios se capturan según la configuración del programador. Para obtener más información, consulte Programación de tareas al trabajar sin Pasarela Data Movement.

    • Recargar: Realiza una carga completa de los datos de las tablas de origen seleccionadas en la plataforma de destino y crea las tablas de destino, si es necesario. La carga completa se produce automáticamente cuando se inicia la tarea, pero también se puede realizar manualmente o programarse para que se realice de forma periódica según sea necesario.

    Si selecciona Captura de datos de cambios (CDC) y sus datos también contienen tablas que no admiten CDC o vistas, se crearán dos canalizaciones de datos. Una canalización con todas las tablas que admiten CDC y otra canalización con todas las demás tablas y vistas que utilizan Recargar.

    Seleccione una de las siguientes opciones, según la carpeta de depósitos en la que desee que se escriban los archivos:

    • Carpeta predeterminada: El formato de carpeta por defecto es <nombre-de-su-proyecto>/<nombre-de-su-tarea>.
    • Carpeta raíz: Los archivos se escribirán directamente en el depósito.
    • Carpeta: Escriba el nombre de la carpeta. La carpeta se creará durante la tarea de aterrizaje en el lago de datos, si no existe.

      Nota informativa El nombre de la carpeta no puede incluir caracteres especiales (por ejemplo, @, #, !, etc.).
  9. En la pestaña Resumen se muestra una vista de la canalización de datos. Elija si desea Abrir la tarea <nombre> o No hacer nada. Después haga clic en Crear.

    Dependiendo de su elección, se abrirá la tarea o se mostrará una lista de proyectos.

  10. Si decide abrir la tarea, la pestaña Conjuntos de datos mostrará la estructura y los metadatos de las tablas de activos de datos seleccionadas. Esto incluye todas las tablas enumeradas explícitamente, así como las tablas que coinciden con las reglas de selección.

    Si desea agregar más tablas del origen de datos, haga clic en Seleccionar datos de origen.

  11. Opcional, cambie la configuración de la tarea como se describe en Configuración de los objetivos de almacenamiento en la nube.

  12. Puede realizar transformaciones en los conjuntos de datos, filtrar datos o agregar columnas.

    Para obtener más información, consulte Administrar conjuntos de datos.

  13. Cuando haya agregado las transformaciones que desea, puede validar los conjuntos de datos haciendo clic en Validar conjuntos de datos. Si la validación falla, resuelva los errores antes de continuar.

    Para obtener más información, consulte Validar y ajustar los conjuntos de datos.

  14. Cuando esté listo, haga clic en Preparar para catalogar la tarea de destino y prepararla para su ejecución.

  15. Una vez preparada la tarea de datos, haga clic en Ejecutar.

  16. Ahora debería iniciarse la tarea de aterrizaje en el lago de datos. Puede supervisar su progreso en la vista Supervisar. Para más información, vea Supervisión de una tarea de datos individual.

Establecer prioridad de carga para conjuntos de datos

Puede controlar el orden de carga de los conjuntos de datos en su tarea de datos asignando una prioridad de carga a cada conjunto de datos. Esto puede resultar útil, por ejemplo, si desea cargar conjuntos de datos más pequeños antes que conjuntos de datos grandes.

  1. Haga clic en Prioridad de carga.

  2. Seleccione una prioridad de carga para cada conjunto de datos.

    La prioridad de carga predeterminada es Normal. Los conjuntos de datos se cargarán en el siguiente orden de prioridad:

    • La más alta

    • Más alta

    • Alta

    • Normal

    • Baja

    • Más baja

    • La más baja

    Los conjuntos de datos con la misma prioridad se cargan sin ningún orden en particular.

  3. Haga clic en Aceptar.

Nota informativaLos conjuntos de datos de fuentes de aplicaciones SaaS pueden contener dependencias en el orden de carga. Tenga esto en cuenta al establecer la prioridad de carga.

Actualizar los metadatos

Puede actualizar los metadatos de la tarea para alinearlos con los cambios en los metadatos de la fuente en la vista Diseño de una tarea. Para aplicaciones SaaS que utilizan el administrador de metadatos, este debe actualizarse antes de poder actualizar los metadatos en la tarea de datos.

Nota informativaEsta operación solo afecta a las tablas en la vista de Diseño de una tarea.
  1. Tiene una de dos opciones:

    • Haga clic en ... y luego en Actualizar metadatos para actualizar los metadatos de todos los conjuntos de datos de la tarea.

    • Haga clic en ... en un conjunto de datos de Conjuntos de datos y luego en Actualizar metadatos, para actualizar los metadatos de un único conjunto de datos.

    Puede ver el estado de la actualización de metadatos en Actualizar metadatos en la parte inferior de la pantalla. Puede ver cuándo se actualizaron los metadatos por última vez pasando el cursor del ratón sobre botón de info.

  2. Prepare la tarea de datos para aplicar los cambios.

    Una vez preparada la tarea de datos y aplicados los cambios, estos se eliminan de Actualizar metadatos.

Debe preparar tareas de almacenamiento que consuman esta tarea para propagar los cambios.

Si se elimina una columna, se añade una transformación con valores Null para garantizar que el almacenamiento no perderá datos históricos.

Limitaciones en la actualización de metadatos

  • Un cambio de nombre con una columna eliminada antes de eso, en el mismo intervalo de tiempo, se traducirá en el cambio de nombre de la columna eliminada si tienen el mismo tipo y longitud de datos.

    Ejemplo:  

    Antes: a b c d

    Después: a c1 d

    En este ejemplo, se eliminó b y se cambió el nombre de c a c1, y b y c tienen el mismo tipo y longitud de datos.

    Esto se identificará como un cambio de nombre de b a c1 y una eliminación de c.

  • El cambio de nombre de la última columna no se reconoce, incluso si se eliminó la última columna y se cambió el nombre de la anterior.

    Ejemplo:  

    Antes: a b c d

    Después: a b c1

    En este ejemplo, se eliminó d y se cambió el nombre de c a c1.

    Esto se identificará como una eliminación de c y d y una adición de c1.

  • Se supone que se agregarán nuevas columnas al final. Si se agregan columnas en el medio con el mismo tipo de datos que la siguiente columna, pueden interpretarse como retirar y cambiar el nombre.

Evolución del esquema

La evolución del esquema le permite detectar fácilmente cambios estructurales en múltiples fuentes de datos y luego controlar cómo se aplicarán esos cambios a su tarea. La evolución del esquema puede utilizarse para detectar cambios de DDL realizados en el esquema de datos de origen. También puede aplicar algunos cambios automáticamente.

Nota informativaLa evolución del esquema no está disponible con fuentes de aplicaciones web o con una suscripción a Qlik Talend Cloud Starter.

Para cada tipo de cambio, puede seleccionar cómo gestionar los cambios en la sección Evolución del esquema de la configuración de tareas. Puede aplicar los cambios, ignorar los cambios, suspender la tabla o detener el procesamiento de tareas.

Puede definir qué acción usar para gestionar los cambios en los DDL en cada tipo de cambio. Algunas acciones no están disponibles para todos los tipos de cambios.

  • Aplicar al objetivo

    Aplica los cambios automáticamente.

  • Ignorar

    Ignora los cambios.

  • Suspender tabla

    Suspende la tabla. La tabla se mostrará como que da error en Supervisar.

  • Detener tarea

    Detiene el procesamiento de la tarea. Esto es útil si desea manejar todos los cambios de esquema manualmente. Esto también detendrá la programación, es decir, no se realizarán las ejecuciones programadas.

Se admiten los siguientes cambios:

  • Añadir columna

  • Renombrar columna

  • Cambiar tipo de datos de columna

  • Añadir tabla que coincida con el patrón de selección

    Si ha utilizado una regla de selección para añadir conjuntos de datos que coinciden con un patrón, se detectarán y añadirán nuevas tablas que cumplan el patrón.

Para más información sobre la configuración de tareas, consulte Evolución del esquema

También puede recibir notificaciones sobre los cambios que se gestionan con la evolución del esquema. Para más información, vea Configuración de notificaciones sobre cambios.

Limitaciones en la evolución del esquema

Las siguientes limitaciones se aplican a la evolución del esquema:

  • La evolución de un esquema solo se admite cuando se utiliza CDC como método de actualización.

  • Cuando haya modificado las opciones de evolución del esquema, deberá preparar de nuevo la tarea.

  • Si cambia el nombre de las tablas, no se admitirá la evolución del esquema. En ese caso deberá actualizar los metadatos antes de preparar la tarea.

  • Si está diseñando una tarea, debe actualizar el navegador para recibir los cambios de evolución del esquema. Puede configurar notificaciones para recibir alertas sobre los cambios.

  • En las tareas de ubicación de destino/aterrizaje, no es posible soltar una columna. Si elimina una columna y la añade, se producirá un error en la tabla.

  • En las tareas de ubicación de destino o aterrizaje, una operación de soltar tabla no soltará la tabla. Si se elimina una tabla y luego se añade otra, solo se truncará la tabla antigua y no se añadirá una nueva tabla.

  • Modificar la longitud de una columna no es posible para todos los objetivos dependiendo del soporte en la base de datos de destino.

  • Si se cambia el nombre de una columna, las transformaciones explícitas definidas utilizando esa columna no surtirán efecto, ya que se basan en el nombre de la columna.

  • Las limitaciones para actualizar los metadatos también se aplican a la evolución de los esquemas.

Al capturar cambios DDL, se aplican las siguientes limitaciones:

  • Cuando se produce una secuencia rápida de operaciones en la base de datos de origen (por ejemplo, DDL>DML>DDL), Qlik Talend Data Integration podría analizar el registro en el orden incorrecto, lo que provocaría la falta de datos o un comportamiento impredecible. Para minimizar las posibilidades de que esto ocurra, la mejor práctica consiste en esperar a que los cambios se apliquen al objetivo antes de realizar la siguiente operación.

    Como ejemplo de ello, durante la captura de cambios, si una tabla de origen se renombra varias veces en rápida sucesión (y la segunda operación la nombra de nuevo como su nombre original), puede producirse un error que indique que la tabla ya existe en la base de datos de destino.

  • Si cambia el nombre de una tabla utilizada en una tarea y luego detiene la tarea, Qlik Talend Data Integration no capturará ningún cambio realizado en esa tabla después de reanudar la tarea.
  • No es posible renombrar una tabla de origen mientras una tarea está detenida.

  • No se admite la reasignación de las columnas de clave primaria de una tabla (y, por tanto, no se escribirá en la tabla de control del historial de DDL).
  • Cuando se cambia el tipo de datos de una columna y luego se cambia el nombre de la (misma) columna mientras la tarea está detenida, el cambio de DDL aparecerá en la tabla de control del Historial de DDL como "Soltar columna" y luego como "Añadir columna" cuando se reanude la tarea. Tenga en cuenta que el mismo comportamiento también puede producirse como resultado de una latencia prolongada.
  • Las operaciones CREATE TABLE realizadas en el origen mientras una tarea está detenida se aplicarán en el destino cuando se reanude la tarea, pero no se registrarán como DDL en la tabla de control del Historial de DDL.
  • Las operaciones asociadas a cambios en los metadatos (como ALTER TABLE, reorg, reconstrucción de un índice agrupado, etc.) pueden provocar un comportamiento impredecible si se realizan:

    • Durante la carga completa

      O bien:

    • Entre la hora especificada en Comenzar a procesar cambios desde y la hora actual (es decir, el momento en que el usuario hace clic en Aceptar en el cuadro de diálogo Opciones de ejecución avanzadas ).

      Ejemplo:

      SI:

      La hora especificada para Comenzar a procesar cambios desde son las 10:00 horas.

      Y:

      Se ha añadido una columna denominada Edad a la tabla de Empleados a las 10:10 horas.

      Y:

      El usuario hace clic en Aceptar en el cuadro de diálogo Opciones de ejecución avanzadas a las 10:15 horas.

      ENTONCES

      Los cambios ocurridos entre las 10:00 y las 10:10 pueden provocar errores en el CDC.

    Nota informativa

    En cualquiera de los casos anteriores, la(s) tabla(s) afectada(s) deberá(n) recargarse para que los datos se transfieran o desplazado correctamente al destino.

  • La sentencia ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <> del DDL no replica el valor por defecto en el destino y la columna nueva/modificada se establece en NULL. Tenga en cuenta que esto puede ocurrir incluso si el DDL que añadió/modificó la columna se ejecutó en el pasado. Si la columna nueva/modificada es anulable, el punto final de origen actualiza todas las filas de la tabla antes de registrar el propio DDL. Como resultado, Qlik Talend Data Integration captura los cambios pero no actualiza el destino. Como la columna nueva/modificada se establece en NULL, si la tabla de destino no tiene clave primaria/índice único, las actualizaciones posteriores generarán un mensaje de "cero filas afectadas".
  • Las modificaciones de las columnas de precisión TIMESTAMP y DATE no se capturarán.

Limitaciones y consideraciones al aterrizar datos en un lago de datos.

Las transformaciones están sujetas a las siguientes limitaciones:

  • No se admiten transformaciones en columnas con idiomas que se escriben de derecha a izquierda.
  • Las transformaciones no pueden llevarse a cabo en columnas que contengan caracteres especiales (por ejemplo #, \, /, -) en el nombre.

  • La única transformación admitida para los tipos de datos LOB/CLOB consiste en soltar la columna en el objetivo.
  • No se admite el uso de una transformación para renombrar una columna y luego añadir otra nueva con el mismo nombre.

No se admite el cambio de admitir valores nulos en columnas que se mueven, ya sea cambiándolo directamente o usando una regla de transformación. Sin embargo, las nuevas columnas creadas en la tarea son anulables por defecto.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.