Saltar al contenido principal Saltar al contenido complementario

Aterrizaje de datos en un data lake con una suscripción Estándar, Premium o Enterprise

Puede configurar una tarea Aterrizar datos en un lago de datos para enviar datos a los siguientes destinos:

  • Amazon S3

    Para obtener información sobre cómo configurar una conexión a su depósito de Amazon S3, consulte Amazon S3.

  • Azure Data Lake Storage

    Para obtener información sobre cómo configurar una conexión a Azure Data Lake Storage, consulte Azure Data Lake Storage.

  • Google Cloud Storage

    Para obtener información sobre cómo configurar una conexión a su Google Cloud Storage, consulte Google Cloud Storage.

Nota de sugerenciaAunque puede configurar los ajustes de conexión de fuente y de destino de la tarea Aterrizar datos en un lago de datos en el asistente de configuración de las tareas, para simplificar el procedimiento de configuración, se recomienda hacerlo antes de crear la tarea.

Para obtener información sobre cómo configurar conexiones con sus fuentes de datos, consulte Creación de conexiones con fuentes de datos

Para configurar una tarea de aterrizaje en un data lake:

  1. En Integración de datos > Proyectos, haga clic en Crear proyecto.

  2. En el cuadro de diálogo Nuevo proyecto, haga lo siguiente:

    1. Dé un Nombre a su proyecto.

    2. Seleccione el Espacio en el que desea que se cree el proyecto.
    3. Si lo desea, proporcione una Descripción.
    4. Seleccione Replication como el Caso de uso.
    5. Opcionalmente, desmarque la casilla de verificación Abrir si desea crear un proyecto vacío sin configurar ninguna opción.
    6. Haga clic en Crear.

      Ocurrirá una de las siguientes situaciones:

      • Si seleccionó la casilla de verificación Abrir en el cuadro de diálogo Nuevo proyecto (opción predeterminada), se abrirá el proyecto.
      • Si desmarcó la casilla de verificación Abrir en el cuadro de diálogo Nuevo proyecto, el proyecto se agregará a su lista de proyectos. Puede abrir el proyecto más tarde seleccionando Abrir en el menú del proyecto .
  3. Una vez que el proyecto se abra, haga clic en Aterrizar datos en un data lake.

    Se abre el asistente Aterrizar datos en un data lake.

  4. En la pestaña General, especifique un nombre y una descripción para la tarea de aterrizaje del lago de datos. Haga clic en Siguiente.

    Nota informativaNo se admiten nombres que contengan caracteres de barra diagonal (/) o barra invertida (\).
  5. En la pestaña Seleccionar conexión de fuente, seleccione una conexión con los datos de origen. Opcionalmente, puede editar la configuración de conexión seleccionando Editar en el menú en la columna Acciones.

    Si aún no tiene una conexión con los datos de origen, primero debe crear una haciendo clic en Crear conexión en la parte superior derecha de la pestaña.

    Puede filtrar la lista de conexiones usando los filtros a la izquierda. Las conexiones se pueden filtrar según el tipo de fuente, puerta de enlace, espacio y propietario. El botón Todos los filtros encima de la lista de conexiones muestra el número de filtros actuales. Puede utilizar este botón para cerrar o abrir el panel Filtros a la izquierda. Los filtros actualmente activos también se muestran encima de la lista de conexiones disponibles.

    También puede ordenar la lista seleccionando Modificado por última vez, Creado por última vez o Alfabéticamente en la lista desplegable de la derecha. Haga clic en la flecha a la derecha de la lista para cambiar el criterio de ordenación.

    Una vez que haya seleccionado una conexión de fuente de datos, haga clic si lo desea en Probar conexión, en la parte superior derecha de la pestaña (recomendado) y, a continuación, haga clic en Siguiente.

  6. En la pestaña Seleccionar conjuntos de datos, seleccione las tablas y/o vistas que desee incluir en la tarea de aterrizaje en el lago de datos. También puede utilizar comodines y crear reglas de selección, como se describe en Seleccionar datos de una base de datos.

    Nota informativaNo se admiten nombres de esquema ni nombres de tabla que contengan caracteres de barra (/) o barra invertida (\).
  7. En la pestaña Seleccionar conexión de destino, seleccione el destino de la lista de conexiones disponibles y luego haga clic en Siguiente. En términos de funcionalidad, la pestaña es la misma que la pestaña Seleccionar conexión de fuente descrita anteriormente.

  8. En la pestaña Configuración, cambie si lo desea los siguientes parámetros y luego haga clic en Siguiente.

    • Captura de Datos de Cambios (CDC): Las tareas de aterrizaje en el lago de datos comienzan con una carga completa (durante la cual se transfieren todas las tablas seleccionadas). Los datos desembarcados se mantienen actualizados mediante la tecnología CDC (Change Data Capture: Captura de datos de cambios, también conocido como Captura de datos modificados).

      Nota informativaNo se admite CDC (Captura de Datos de Cambios) en operaciones DDL.

      Cuando se trabaja con Pasarela Data Movement, los cambios se capturan desde la fuente casi en tiempo real. Cuando se trabaja sin Pasarela Data Movement, los cambios se capturan según la configuración del programador. Para obtener más información, consulte Programación de tareas al trabajar sin Pasarela Data Movement.

    • Recargar: Realiza una carga completa de los datos de las tablas de origen seleccionadas en la plataforma de destino y crea las tablas de destino, si es necesario. La carga completa se produce automáticamente cuando se inicia la tarea, pero también se puede realizar manualmente o programarse para que se realice de forma periódica según sea necesario.

    Si selecciona Captura de datos de cambios (CDC) y sus datos también contienen tablas que no admiten CDC o vistas, se crearán dos canalizaciones de datos. Una canalización con todas las tablas que admiten CDC y otra canalización con todas las demás tablas y vistas que utilizan Recargar.

    Seleccione una de las siguientes opciones, según la carpeta de depósitos en la que desee que se escriban los archivos:

    • Carpeta predeterminada: El formato de carpeta por defecto es <nombre-de-su-proyecto>/<nombre-de-su-tarea>.
    • Carpeta raíz: Los archivos se escribirán directamente en el depósito.
    • Carpeta: Escriba el nombre de la carpeta. La carpeta se creará durante la tarea de aterrizaje en el lago de datos, si no existe.

      Nota informativa El nombre de la carpeta no puede incluir caracteres especiales (por ejemplo, @, #, !, etc.).
  9. En la pestaña Resumen se muestra una vista de la canalización de datos. Elija si desea Abrir la tarea <nombre> o No hacer nada. Después haga clic en Crear.

    Dependiendo de su elección, se abrirá la tarea o se mostrará una lista de proyectos.

  10. Si decide abrir la tarea, la pestaña Conjuntos de datos mostrará la estructura y los metadatos de las tablas de activos de datos seleccionadas. Esto incluye todas las tablas enumeradas explícitamente, así como las tablas que coinciden con las reglas de selección.

    Si desea agregar más tablas del origen de datos, haga clic en Seleccionar datos de origen.

  11. Opcional, cambie la configuración de la tarea como se describe en Configuración de los objetivos de almacenamiento en la nube.

  12. Puede realizar transformaciones en los conjuntos de datos, filtrar datos o agregar columnas.

    Para obtener más información, consulte Administrar conjuntos de datos.

  13. Cuando haya agregado las transformaciones que desea, puede validar los conjuntos de datos haciendo clic en Validar conjuntos de datos. Si la validación falla, resuelva los errores antes de continuar.

    Para obtener más información, consulte Validar y ajustar los conjuntos de datos.

  14. Cuando esté listo, haga clic en Preparar para catalogar la tarea de destino y prepararla para su ejecución.

  15. Una vez preparada la tarea de datos, haga clic en Ejecutar.

  16. Ahora debería iniciarse la tarea de aterrizaje en el lago de datos. Puede supervisar su progreso en la vista Supervisar. Para más información, vea Supervisión de una tarea de datos individual.

Establecer prioridad de carga para conjuntos de datos

Puede controlar el orden de carga de los conjuntos de datos en su tarea de datos asignando una prioridad de carga a cada conjunto de datos. Esto puede resultar útil, por ejemplo, si desea cargar conjuntos de datos más pequeños antes que conjuntos de datos grandes.

  1. Haga clic en Prioridad de carga.

  2. Seleccione una prioridad de carga para cada conjunto de datos.

    La prioridad de carga predeterminada es Normal. Los conjuntos de datos se cargarán en el siguiente orden de prioridad:

    • La más alta

    • Más alta

    • Alta

    • Normal

    • Baja

    • Más baja

    • La más baja

    Los conjuntos de datos con la misma prioridad se cargan sin ningún orden en particular.

  3. Haga clic en Aceptar.

Nota informativaLos conjuntos de datos de fuentes de aplicaciones SaaS pueden contener dependencias en el orden de carga. Tenga esto en cuenta al establecer la prioridad de carga.

Actualizar los metadatos

Puede actualizar los metadatos de la tarea para alinearlos con los cambios en los metadatos de la fuente en la vista Diseño de una tarea. Para aplicaciones SaaS que utilizan el administrador de metadatos, este debe actualizarse antes de poder actualizar los metadatos en la tarea de datos.

Nota informativaEsta operación solo afecta a las tablas en la vista de Diseño de una tarea.
  1. Tiene una de dos opciones:

    • Haga clic en ... y luego en Actualizar metadatos para actualizar los metadatos de todos los conjuntos de datos de la tarea.

    • Haga clic en ... en un conjunto de datos de Conjuntos de datos y luego en Actualizar metadatos, para actualizar los metadatos de un único conjunto de datos.

    Puede ver el estado de la actualización de metadatos en Actualizar metadatos en la parte inferior de la pantalla. Puede ver cuándo se actualizaron los metadatos por última vez pasando el cursor del ratón sobre botón de info.

  2. Prepare la tarea de datos para aplicar los cambios.

    Una vez preparada la tarea de datos y aplicados los cambios, estos se eliminan de Actualizar metadatos.

Debe preparar tareas de almacenamiento que consuman esta tarea para propagar los cambios.

Si se elimina una columna, se añade una transformación con valores Null para garantizar que el almacenamiento no perderá datos históricos.

Limitaciones

  • Un cambio de nombre con una columna eliminada antes de eso, en el mismo intervalo de tiempo, se traducirá en el cambio de nombre de la columna eliminada si tienen el mismo tipo y longitud de datos.

    Ejemplo:  

    Antes: a b c d

    Después: a c1 d

    En este ejemplo, se eliminó b y se cambió el nombre de c a c1, y b y c tienen el mismo tipo y longitud de datos.

    Esto se identificará como un cambio de nombre de b a c1 y una eliminación de c.

  • El cambio de nombre de la última columna no se reconoce, incluso si se eliminó la última columna y se cambió el nombre de la anterior.

    Ejemplo:  

    Antes: a b c d

    Después: a b c1

    En este ejemplo, se eliminó d y se cambió el nombre de c a c1.

    Esto se identificará como una eliminación de c y d y una adición de c1.

  • Se supone que se agregarán nuevas columnas al final. Si se agregan columnas en el medio con el mismo tipo de datos que la siguiente columna, pueden interpretarse como retirar y cambiar el nombre.

Limitaciones y consideraciones al aterrizar datos en un lago de datos.

Las transformaciones están sujetas a las siguientes limitaciones:

  • No se admiten transformaciones en columnas con idiomas que se escriben de derecha a izquierda.
  • Las transformaciones no pueden llevarse a cabo en columnas que contengan caracteres especiales (por ejemplo #, \, /, -) en el nombre.

  • La única transformación admitida para los tipos de datos LOB/CLOB consiste en soltar la columna en el objetivo.
  • No se admite el uso de una transformación para renombrar una columna y luego añadir otra nueva con el mismo nombre.

No se admite el cambio de admitir valores nulos en columnas que se mueven, ya sea cambiándolo directamente o usando una regla de transformación. Sin embargo, las nuevas columnas creadas en la tarea son anulables por defecto.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.