Saltar al contenido principal Saltar al contenido complementario

Aterrizar datos en un data lake

Puede configurar una tarea Aterrizar datos en un lago de datos para enviar datos a los siguientes destinos:

  • Amazon S3

    Para obtener información sobre cómo configurar una conexión a su depósito de Amazon S3, vea Amazon S3.

  • Azure Data Lake Storage

    ara obtener información sobre cómo configurar una conexión a Azure Data Lake Storage, vea Azure Data Lake Storage.

  • Google Cloud Storage

    Para obtener información sobre cómo configurar una conexión a su Google Cloud Storage, vea Google Cloud Storage.

Nota de sugerenciaAunque puede configurar los ajustes de conexión de origen y de destino de la tarea Aterrizar datos en un lago de datos en el asistente de configuración de las tareas, para simplificar el procedimiento de configuración, se recomienda hacerlo antes de crear la tarea.

Para obtener información sobre cómo configurar conexiones con sus fuentes de datos, vea Conectar con fuentes de datos

Para configurar una tarea de aterrizaje en un data lake:

  1. Haga clic en el botón Añadir nuevo en la parte superior derecha y luego seleccione Crear proyecto de datos en el menú desplegable.

  2. En el cuadro de diálogo Nuevo proyecto de datos, haga lo siguiente:

    1. Dé un Nombre a su proyecto.

    2. Seleccione el Espacio en el que desea que se cree el proyecto.
    3. Si así lo quiere, proporcione una Descripción.
    4. Seleccione Replication como el Caso de uso.
    5. Opcionalmente, desmarque la casilla de verificación Abrir si desea crear un proyecto vacío sin configurar ninguna opción.
    6. Haga clic en Crear.

      Ocurrirá una de las siguientes situaciones:

      • Si seleccionó la casilla de verificación Abrir en el cuadro de diálogo Nuevo proyecto de datos (opción predeterminada), se abrirá el proyecto.
      • Si desmarcó la casilla de verificación Abrir en el cuadro de diálogo Nuevo proyecto de datos, el proyecto se agregará a su lista de proyectos. Puede abrir el proyecto más tarde seleccionando Abrir en el menú del proyecto .
  3. Una vez que el proyecto se abra, haga clic en Aterrizar datos en un data lake.

    Se abre el asistente Aterrizar datos en un data lake.

  4. En la pestaña General, especifique un nombre y una descripción para la tarea de aterrizaje del lago de datos. Haga clic en Siguiente.

    Nota informativaNo se admiten nombres que contengan caracteres de barra diagonal (/) o barra invertida (\).
  5. En la pestaña Seleccionar conexión de origen, seleccione una conexión a los datos de origen. Opcionalmente, puede editar la configuración de conexión seleccionando Editar en el menú en la columna Acciones.

    Si aún no tiene una conexión de datos con los datos de origen, primero debe crear una haciendo clic en Crear conexión en la parte superior derecha de la pestaña.

    Puede filtrar la lista de conexiones usando los filtros a la izquierda. Las conexiones se pueden filtrar según el tipo de fuente, puerta de enlace, espacio y propietario. El botón Todos los filtros encima de la lista de conexiones muestra el número de filtros actuales. Puede utilizar este botón para cerrar o abrir el panel Filtros a la izquierda. Los filtros actualmente activos también se muestran encima de la lista de conexiones de datos disponibles.

    También puede ordenar la lista seleccionando Modificado por última vez, Creado por última vez o Alfabéticamente en la lista desplegable de la derecha. Haga clic en la flecha a la derecha de la lista para cambiar el criterio de ordenación.

    Una vez que haya seleccionado una conexión de origen de datos, haga clic si lo desea en Probar conexión, en la parte superior derecha de la pestaña (recomendado) y, a continuación, haga clic en Siguiente.

  6. En la pestaña Seleccionar conjuntos de datos, seleccione las tablas y/o vistas que desee incluir en la tarea de aterrizaje en el lago de datos. También puede utilizar comodines y crear reglas de selección, como se describe en Seleccionar datos de una base de datos.

    Nota informativaNo se admiten nombres de esquema ni nombres de tabla que contengan caracteres de barra (/) o barra invertida (\).
  7. En la pestaña Seleccionar conexión de destino, seleccione el destino de la lista de conexiones disponibles y luego haga clic en Siguiente. En términos de funcionalidad, la pestaña es la misma que la pestaña Seleccionar conexión de origen descrita anteriormente.

  8. En la pestaña Configuración, cambie si lo desea los siguientes parámetros y luego haga clic en Siguiente.

    • Captura de Datos de Cambios (CDC): Las tareas de aterrizaje en el lago de datos comienzan con una carga completa (durante la cual se transfieren todas las tablas seleccionadas). Los datos desembarcados se mantienen actualizados mediante la tecnología CDC (Change Data Capture: Captura de datos de cambios, también conocido como Captura de datos modificados).

      Nota informativaNo se admite CDC (Captura de Datos de Cambios) en operaciones DDL.
    • Recargar: Realiza una carga completa de los datos de las tablas de origen seleccionadas en la plataforma de destino y crea las tablas de destino, si es necesario. La carga completa se produce automáticamente cuando se inicia la tarea, pero también se puede realizar manualmente o programarse para que se realice periódicamente según sea necesario.

    Si selecciona Captura de datos de cambios (CDC) y sus datos también contienen tablas que no admiten CDC o vistas, se crearán dos canalizaciones de datos. Una canalización con todas las tablas que admiten CDC y otra canalización con todas las demás tablas y vistas que utilizan Recargar.

    Seleccione una de las siguientes opciones, según la carpeta de depósitos en la que desee que se escriban los archivos:

    • Carpeta predeterminada: El formato de carpeta por defecto es <nombre-de-su-proyecto>/<nombre-de-su-tarea>.
    • Carpeta raíz: Los archivos se escribirán directamente en el depósito.
    • Carpeta: Escriba el nombre de la carpeta. La carpeta se creará durante la tarea de aterrizaje en el lago de datos, si no existe.

      Nota informativa El nombre de la carpeta no puede incluir caracteres especiales (por ejemplo, @, #, !, etc.).
  9. En la pestaña Resumen se muestra una vista de la canalización de datos. Elija si desea Abrir la tarea <nombre> o No hacer nada. Después haga clic en Crear.

    Dependiendo de su elección, se abrirá la tarea o se mostrará una lista de proyectos.

  10. Si decide abrir la tarea, la pestaña Conjuntos de datos mostrará la estructura y los metadatos de las tablas de activos de datos seleccionadas. Esto incluye todas las tablas enumeradas explícitamente, así como las tablas que coinciden con las reglas de selección.

    Si desea agregar más tablas del origen de datos, haga clic en Seleccionar datos de origen.

  11. Opcional, cambie la configuración de la tarea como se describe en Configuración de aterrizaje en un lago de datos.

  12. Puede realizar transformaciones en los conjuntos de datos, filtrar datos o agregar columnas.

    Para más información, vea Administrar conjuntos de datos.

  13. Cuando haya agregado las transformaciones que desea, puede validar los conjuntos de datos haciendo clic en Validar conjuntos de datos. Si la validación falla, resuelva los errores antes de continuar.

    Para más información, vea Validar y ajustar los conjuntos de datos.

  14. Cuando esté listo, haga clic en Preparar para catalogar la tarea de destino y prepararla para su ejecución.

  15. Una vez preparada la tarea de datos, haga clic en Ejecutar.

  16. Ahora debería iniciarse la tarea de aterrizaje en el lago de datos. Puede supervisar su progreso en la vista Supervisar. Para más información, vea Supervisión de una tarea de datos individual.

Establecer prioridad de carga para conjuntos de datos

Puede controlar el orden de carga de los conjuntos de datos en su tarea de datos asignando una prioridad de carga a cada conjunto de datos. Esto puede resultar útil, por ejemplo, si desea cargar conjuntos de datos más pequeños antes que conjuntos de datos grandes.

  1. Haga clic en Prioridad de carga.

  2. Seleccione una prioridad de carga para cada conjunto de datos.

    La prioridad de carga predeterminada es Normal. Los conjuntos de datos se cargarán en el siguiente orden de prioridad:

    • La más alta

    • Más alta

    • Alta

    • Normal

    • Baja

    • Más baja

    • La más baja

    Los conjuntos de datos con la misma prioridad se cargan sin ningún orden en particular.

  3. Haga clic en Aceptar.

Nota informativaLos conjuntos de datos de fuentes de aplicaciones SaaS pueden contener dependencias en el orden de carga. Tenga esto en cuenta al establecer la prioridad de carga.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.