Crear una canalización de datos
Puede crear una canalización de datos para realizar toda su integración de datos dentro de un proyecto utilizando tareas de datos. La incorporación mueve datos al proyecto desde fuentes de datos que están en las instalaciones o en la nube y almacena los datos en conjuntos de datos listos para consumir. También puede realizar transformaciones y crear data marts para aprovechar sus conjuntos de datos generados y transformados. La canalización de datos puede ser simple y lineal, o puede ser una canalización compleja que consuma varias fuentes de datos y genere muchas salidas.
Todas las tareas de datos se crearán en el mismo espacio que el proyecto al que pertenecen.
También puede ver el linaje para rastrear los datos y las transformaciones de datos hacia atrás hasta la fuente original, y realizar un análisis de impacto que muestre la vista descendente y prospectiva de las dependencias de tareas, conjuntos de datos o campos. Para obtener más información, consulte Trabajar con el análisis de linaje e impacto en Integración de datos.
Incorporar datos
Esto incluye enviar los datos a un área de preparación y luego almacenar los conjuntos de datos en un almacén de datos en la nube. Las tareas de ubicación de destino y almacenamiento de datos se crean en un solo paso. Si lo necesita, también puede realizar ubicación de destino y almacenamiento como tareas aparte.
Registrar datos que ya están en la plataforma de datos
Registre los datos que ya existen en la plataforma de datos para conservarlos y transformarlos, y crear data marts. Esto le permite utilizar datos que estén integrados con otras herramientas además de Qlik Talend Data Integration, por ejemplo, Qlik Replicate o Stitch.
Transformar datos
Cree transformaciones reutilizables a nivel de fila en los datos incorporados según reglas y SQL personalizado. Esto crea una tarea de Transformación de datos.
Crear y administrar data marts
Cree un data mart para aprovechar sus conjuntos de datos. Esto crea una tarea de datos de Data Mart.
Plataformas de datos de destino
El proyecto va asociado a una plataforma de datos que se utiliza como destino para toda la salida de datos.
Para obtener más información sobre plataformas de datos compatibles, vea Creación de conexiones con destinos.
Vídeo de introducción a los proyectos
Ejemplo de creación de un proyecto
El siguiente ejemplo realiza la incorporación de datos, la transformación de los datos y la creación de un data mart. Esto creará una canalización de datos lineal simple que podría expandir al incorporar más fuentes de datos, crear más transformaciones y agregar los conjuntos de datos generados al data mart.
-
Cree un nuevo proyecto.
En Integración de datos > Proyectos, haga clic en Crear proyecto.
-
Escriba un nombre y una descripción para el proyecto y seleccione un espacio en el que crear el proyecto. Todas las tareas de datos se crearán en el espacio del proyecto al que pertenecen.
- Seleccione Canalización de datos en Caso de uso.
-
Seleccione qué plataforma de datos usar en el proyecto.
-
Seleccione una conexión al almacén de datos en la nube que desea usar en el proyecto. Esto se utilizará para transferir archivos de datos y almacenar conjuntos de datos y vistas. Si aún no ha preparado una conexión, cree una con Agregar conexión.
Si seleccionó Google BigQuery, Databricks o Microsoft Azure Synapse Analytics como plataforma de datos, también debe conectarse a un área de preparación.
-
Si seleccionó Qlik Cloud como plataforma de datos:
Puede almacenar datos en el almacenamiento administrado de Qlik o en su propio depósito de Amazon S3 administrado. Si desea utilizar su propio depósito de Amazon S3, debe seleccionar una conexión con ese depósito.
En ambos casos, también debe seleccionar una conexión con un área de preparación de Amazon S3. Si utiliza el mismo depósito que definió en el paso anterior, asegúrese de usar otra carpeta en el depósito para la preparación.
-
Haga clic en Crear.
Se crea el proyecto y puede crear su canalización de datos agregando tareas de datos.
-
-
Incorporar los datos
En el proyecto, haga clic en Añadir nuevo y luego en Incorporar datos.
Para obtener más información, consulte Incorporar datos.
Esto creará una tarea de aterrizaje de datos y una tarea de almacenamiento de datos. Para comenzar a replicar datos, necesita hacer lo siguiente:
-
Preparar y ejecutar la tarea de aterrizaje de datos.
Para obtener más información, consulte Transferir datos desde fuentes de datos.
-
Preparar y ejecutar la tarea de almacenamiento de datos.
Para obtener más información, consulte Almacenar conjuntos de datos.
-
-
Transformar los datos
Cuando se haya creado la tarea de almacenamiento de datos, vuelva al proyecto. Ahora puede realizar transformaciones en los conjuntos de datos creados.
Haga clic en ... en la tarea de almacenamiento de datos y seleccione Transformar datos para crear una tarea de datos de transformación basada en esta tarea de almacenamiento de datos. Para obtener instrucciones acerca de las transformaciones, vea Transformar datos.
-
Crear una galería de datos (data mart)
Puede crear una galería de datos o data mart basado en una tarea de almacenamiento de datos o una tarea de transformación de datos.
Haga clic en ... en la tarea de datos y seleccione Crear data mart para crear una tarea de data mart. Para obtener instrucciones sobre cómo crear un data mart, consulte:
Cuando haya realizado la primera carga completa de los conjuntos de datos y data marts almacenados y transformados, puede usarlos en una app de analítica, por ejemplo. Para obtener más información sobre cómo crear apps de analítica, consulte Crear una app de análisis usando conjuntos de datos generados por Qlik Talend Data Integration .
También puede ampliar la canalización de datos incorporando más orígenes de datos y combinándolos en la transformación o en el data mart.
Operaciones en un proyecto
Puede realizar las mismas operaciones que están disponibles para una tarea de datos como operaciones del proyecto. Esto le permite orquestar las operaciones en la canalización de datos.
-
Activar y desactivar programaciones
-
Realizar operaciones de diseño
-
Iniciar y detener la ejecución de tareas de datos
-
Eliminar tareas de datos
Haga clic en Operaciones para ver el estado de una operación en curso o la última operación realizada.
Puede detener una operación en curso haciendo clic en Detener operación. Las tareas de datos que están en progreso no se detendrán, pero cancelará cualquier tarea que aún no haya comenzado.
Activar y desactivar programaciones
Puede controlar las programaciones de las tareas de datos a nivel de proyecto.
-
Haga clic en ..., y luego en Programación.
Puede activar o desactivar la programación para todas las tareas de datos o para una selección de tareas. Solo se muestran las tareas que tienen una programación definida.
Nota informativaEsta opción no está disponible para proyectos con Qlik Cloud como plataforma de datos.
Para obtener más información sobre la programación de tareas de datos individuales, vea:
Realizar operaciones de diseño.
Puede realizar operaciones de diseño en todas las tareas de datos del proyecto o en una selección de tareas. Esto facilita el control de las tareas del conjunto de datos en el proyecto, en lugar de realizar las operaciones de diseño individualmente en cada tarea.
-
Validar
Haga clic en Validar para validar todas las tareas, o una selección de las mismas. Las tareas de datos que se cambiaron desde la última operación de validación están preseleccionadas.
Las tareas de datos se validan en orden de canalización.
-
Preparar
Haga clic en Preparar para preparar todas las tareas, o una selección de tareas. Las tareas de datos que se cambiaron desde la última operación de preparación están preseleccionadas.
Puede optar por recrear conjuntos de datos que requieran un cambio de estructura no admitido por la plataforma de datos. Esto puede conducir a la pérdida de datos.
-
Volver a crear
Haga clic en ... y luego en Volver a crear para volver a crear los conjuntos de datos desde el origen para todas las tareas o para una selección de tareas.
Ejecutar tareas de datos
Puede iniciar la ejecución de todas las tareas de datos en el proyecto, o en una selección de tareas, en lugar de ejecutar las tareas individualmente. Por ejemplo, puede ejecutar todas las tareas conforme a una programación basada en el tiempo. Esto iniciará las tareas posteriores según una programación basada en eventos.
-
Ejecutar
Haga clic en Ejecutar para iniciar la ejecución de todas las tareas, o una selección de tareas. Esto inicia la ejecución de todas las tareas seleccionadas y finaliza en cuanto comienzan a ejecutarse.
Puede seleccionar entre todas las tareas que están listas para ejecutarse. Las tareas con una programación basada en el tiempo y las tareas que utilizan CDC están preseleccionadas. Las tareas con una programación basada en eventos no se preseleccionan, ya que se ejecutarán cuando tengan datos para procesar.
En un proyecto con Qlik Cloud como plataforma de datos, todas las tareas de aterrizaje y almacenamiento están preseleccionadas.
Nota informativaTodas las tareas de datos se ejecutan en paralelo. Esto significa que las comprobaciones de dependencia pueden impedir que se ejecuten algunas tareas. -
Detener
Haga clic en Detener para detener todas las tareas, o una selección de tareas.
Puede seleccionar entre las tareas que se están ejecutando.
Eliminar tareas de datos
-
Haga clic en Eliminar para eliminar todas las tareas de datos del proyecto o una selección de tareas.
Cambiar la vista de un proyecto
Hay dos vistas de proyecto diferentes. Puede cambiar entre las vistas haciendo clic en Vista de canalización.
-
La vista de canalización muestra el flujo de datos de las tareas de datos.
Puede elegir cuánta información mostrar para las tareas de datos haciendo clic en Capas. Active o desactive la siguiente información:
-
Estado
-
Actualización de datos
-
Programar
-
-
La vista del panel muestra una vista con un panel que contiene información sobre la tarea de datos.
Puede filtrar por tipo de activo y propietario.
Ver datos
Puede ver una muestra de los datos para ver y validar la forma de sus datos mientras diseña su canalización de datos.
Se requieren los siguientes permisos:
-
La visualización de datos se activa a nivel de espacio empresarial inquilino en Administración.
Habilite Configuración > Control de funciones > Ver datos en Integración de datos.
-
Se le asigna el rol Puede ver datos en el espacio donde reside la conexión.
-
Se le asigna el rol Puede ver en el espacio donde reside el proyecto.
Para ver datos de muestra en la vista de canalización de datos:
-
Haga clic en en el banner de vista previa en la parte inferior de la vista de la canalización.
-
Seleccione para qué tarea de datos desea obtener una vista previa de los datos.
Se visualiza una muestra de los datos. Puede establecer cuántas filas de datos incluir en la muestra con Número de filas.
Exportar e importar proyectos
Puede exportar un proyecto a un archivo JSON que contenga todo lo necesario para reconstruir el proyecto. El archivo JSON exportado se puede importar en el mismo espacio empresarial inquilino o en otro. Puede usar esto, por ejemplo, para mover proyectos de un espacio empresarial inquilino a otro, o para hacer copias de seguridad de proyectos.
Para obtener más información, consulte Exportar e importar canalizaciones de datos.
Opciones de configuración del proyecto
Puede establecer propiedades que son comunes al proyecto y todas las tareas de datos incluidas.
Haga clic en Configuración.
Para obtener más información, consulte Configuraciones de datos de un proyecto de canalización o proceso analítico de datos (data pipeline).