Registrar datos que ya están en la plataforma de datos
Puede registrar datos que ya existen en la plataforma de datos, para seleccionar y transformar datos y crear data marts. Esto le permite utilizar datos que ya estén integrados con otras herramientas además de Qlik Talend Data Integration, por ejemplo, Qlik Replicate o Stitch.
Cuando registra datos, se crean dos tareas de datos.
-
Datos registrados
Registrar los datos implica crear vistas para preparar los datos para que estén listos para crear conjuntos de datos.
-
Almacenamiento
Esto implica generar y almacenar conjuntos de datos basados en los datos registrados.
Cuando haya registrado los datos, puede utilizar los conjuntos de datos generados de varias maneras.
-
Puede usar los conjuntos de datos en una app de análisis.
-
Puede crear transformaciones.
-
Puede crear una galería de datos o data mart.
Registrar datos
Puede registrar datos que existen en el almacenamiento de datos en la nube definido en el proyecto. Los conjuntos de datos generados se almacenarán en el mismo almacén de datos en la nube.
Para más información sobre los proyectos, vea Crear una canalización de datos.
-
Haga clic en Añadir nuevo y luego en Registrar datos en un proyecto.
-
Agregue un Nombre y Descripción para la tarea de datos.
Haga clic en Siguiente.
-
Seleccione los datos que se han de registrar. .
Seleccionar los datos que incluir
Haga clic en Siguiente.
Se muestra la Configuración.
-
Seleccione cómo se actualizarán los datos en Método de actualización.
Seleccione Incremental usando límite máximo si los datos se replican mediante Qlik Replicate o Stitch.
-
Utilice Incremental usando límite máximo para procesar los cambios de datos de forma incremental utilizando un patrón de marca de límite máximo. Este es el método sugerido si los datos se replican mediante Qlik Replicate (con Carga completa y almacenar cambios habilitado) o Stitch.
Para más información, vea Método de actualización.
-
Utilice Comparar con el almacenamiento actual cuando los datos se cargaron solo una vez, o si se actualizan mediante recargas completas.
-
-
Obtenga una vista previa de las dos tareas de datos que se crean en Resumen y cámbieles el nombre si lo prefiere.
Nota de sugerenciaLos nombres se utilizan al nombrar esquemas de bases de datos en la tarea de almacenamiento de datos. Como un esquema solo se puede asociar con una tarea, considere usar nombres que sean únicos para evitar conflictos con tareas de datos en otros proyectos que utilicen la misma plataforma de datos. -
Seleccione si desea abrir la tarea de datos registrada o volver al proyecto.
Cuando esté listo, haga clic en Finalizar.
Las dos tareas de datos se han creado. Para comenzar a replicar datos, necesita hacer lo siguiente:
-
Prepare la tarea de datos registrados.
Haga clic en Preparar en la tarea de datos.
Cuando se hayan creado artefactos, el estado de la tarea de datos es Registrados.
-
Preparar y ejecutar la tarea de almacenamiento de datos.
Para más información, vea Almacenar conjuntos de datos.
Seleccionar los datos que incluir
Cuando selecciona datos para incluirlos, puede seleccionar tablas o vistas específicas, o usar reglas de selección para incluir o excluir grupos de tablas.
Utilice % como comodín para definir un criterio de selección para esquemas y tablas.
-
%.% define todas las tablas en todos los esquemas.
-
Public.% define todas las tablas del esquema Público.
Criterios de selección le ofrece una vista previa basada en sus selecciones.
Ahora puede o bien:
-
Crear una regla para incluir o excluir un grupo de tablas según los criterios de selección.
Haga clic en Agregar regla desde los criterios de selección para crear una regla y seleccione o bien Incluir o Excluir.
Puede ver la regla bajo Reglas de selección.
-
Seleccione uno o más conjuntos de datos y haga clic en Agregar conjuntos de datos seleccionados.
Puede ver los conjuntos de datos agregados en Conjuntos de datos seleccionados de forma explícita.
Las reglas de selección solo se aplican al conjunto actual de tablas y vistas, no a las tablas y vistas que se agreguen en el futuro.
Actualizar los metadatos
Puede actualizar los metadatos de la tarea para alinearlos con los cambios en los metadatos de la fuente en la vista Diseño de una tarea. Para aplicaciones SaaS que utilizan el administrador de metadatos, este debe actualizarse antes de poder actualizar los metadatos en la tarea de datos.
-
Tiene una de dos opciones:
-
Haga clic en ... y luego en Actualizar metadatos para actualizar los metadatos de todos los conjuntos de datos de la tarea.
-
Haga clic en ... en un conjunto de datos de Conjuntos de datos y luego en Actualizar metadatos, para actualizar los metadatos de un único conjunto de datos.
Puede ver el estado de la actualización de metadatos en Actualizar metadatos en la parte inferior de la pantalla. Puede ver cuándo se actualizaron los metadatos por última vez pasando el cursor del ratón sobre .
-
-
Prepare la tarea de datos para aplicar los cambios.
Una vez preparada la tarea de datos y aplicados los cambios, estos se eliminan de Actualizar metadatos.
Debe preparar tareas de almacenamiento que consuman esta tarea para propagar los cambios.
Si se elimina una columna, se añade una transformación con valores Null para garantizar que el almacenamiento no perderá datos históricos.
Limitaciones
-
Un cambio de nombre con una columna eliminada antes de eso, en el mismo intervalo de tiempo, se traducirá en el cambio de nombre de la columna eliminada si tienen el mismo tipo y longitud de datos.
Ejemplo:
Antes: a b c d
Después: a c1 d
En este ejemplo, se eliminó b y se cambió el nombre de c a c1, y b y c tienen el mismo tipo y longitud de datos.
Esto se identificará como un cambio de nombre de b a c1 y una eliminación de c.
-
El cambio de nombre de la última columna no se reconoce, incluso si se eliminó la última columna y se cambió el nombre de la anterior.
Ejemplo:
Antes: a b c d
Después: a b c1
En este ejemplo, se eliminó d y se cambió el nombre de c a c1.
Esto se identificará como una eliminación de c y d y una adición de c1.
-
Se supone que se agregarán nuevas columnas al final. Si se agregan columnas en el medio con el mismo tipo de datos que la siguiente columna, pueden interpretarse como retirar y cambiar el nombre.
Opciones de configuración de los datos registrados
Puede establecer propiedades para la tarea de datos registrados.
-
Haga clic en Configuración.
Configuración general
-
Base de datos
Base de datos que se ha de utilizar en el destino.
-
Esquema de tarea
Puede cambiar el nombre del esquema de la tarea de datos.
- Prefijo para todas las tablas y vistas
Puede establecer un prefijo para todas las tablas y vistas creadas con esta tarea.
Nota informativaDebe usar un prefijo único cuando desee usar un esquema de base de datos en varias tareas de datos.
Método de actualización
Detección de cambios
-
Utilice Comparar con el almacenamiento actual cuando los datos se cargaron solo una vez, o si se actualizan mediante recargas completas.
-
Utilice Incremental usando límite máximo para procesar los cambios de datos de forma incremental utilizando el método de límite máximo.
Esta opción requiere que todas las tablas tengan definida una clave principal. Puede definir una clave principal manualmente en la vista Conjuntos de datos para las tablas que carecen de clave principal.
Configuraciones de carga incremental
Estos ajustes están disponibles cuando se selecciona Incremental usando límite máximo.
-
Si los datos son replicados por una tarea Qlik Replicate con Carga completa y almacenar cambios, establezca las Configuraciones de carga incremental en la Qlik Replicateconfiguración.
-
Si los datos se replican mediante una canalización de datos de Stitch y sus tablas de origen tienen una clave principal definida, establezca la configuración de carga incremental en la configuración predeterminada de Stitch..
-
De lo contrario, establezca las Configuraciones de carga incremental en Personalizado y defina la configuración usted mismo.
Configuración | Personalizado | Configuración de Qlik Replicate | Ajustes de Stitch por defecto |
---|---|---|---|
Tablas de cambios |
Si los cambios están en la misma tabla, seleccione Los cambios están dentro de la misma tabla. Si no es así, desmarque la opción Los cambios están dentro de la misma tabla y especifique un patrón de tabla de cambios en Patrón de tablas de cambios. |
${SOURCE_TABLE_NAME}__ct table | Los cambios están dentro de la misma tabla. |
Columna de límite máximo | Establezca el nombre de la columna de límite máximo en Nombre. | header__change_seq | _SDC_BATCHED_AT |
Columna "Desde la fecha" |
Puede indicar la fecha de inicio en "Desde la fecha" por la hora de inicio del lote o mediante una columna seleccionada. Si selecciona Columna "Desde la fecha" seleccionada, debe definir un Patrón "Desde la fecha". |
header__timestamp | _SDC_BATCHED_AT
Puede cambiar esto para indicar "Desde la fecha" según la hora de inicio del lote o seleccionando una columna diferente. |
Eliminación temporal |
Puede incluir eliminaciones temporales en los cambios seleccionando Los cambios incluyen eliminaciones temporales y definiendo una expresión que lo indique. La expresión de la indicación debe evaluarse como True si el cambio es una eliminación temporal. Ejemplo: ${is_deleted} = 1 |
${header__change_oper} = 'D' |
Puede incluir eliminaciones temporales en los cambios seleccionando Los cambios incluyen eliminaciones temporales y definiendo una expresión que lo indique. La expresión de la indicación debe evaluarse como True si el cambio es una eliminación temporal. Ejemplo: ${is_deleted} = 1 |
Antes de la imagen |
Puede filtrar los registros de imágenes antes de que cambien las tablas de cambios seleccionando Antes de la imagen y definiendo una expresión de indicación. La expresión de la indicación debe evaluarse como True si la fila contiene la imagen antes de la actualización. Ejemplo: ${header__change_oper} = 'B' |
${header__change_oper} = 'B' | No hay registros de imágenes anteriores en los datos. |
Configuración del catálogo
-
Publicar en el catálogo
Seleccione esta opción para publicar esta versión de los datos en el Catálogo como un conjunto de datos. El contenido del catálogo se actualizará la próxima vez que prepare esta tarea.
Para obtener más información sobre el catálogo, consulte Comprender sus datos con las herramientas del catálogo.
Configuración recomendada de Qlik Replicate
Se recomienda esta configuración de tareas de Qlik Replicate cuando se registran datos que se replican mediante una tarea de Qlik Replicate que almacena cambios.
-
La tarea Qlik Replicate debe configurarse con las opciones Carga completa y Almacenar cambios.
-
En Store Changes Settings > Change Tables, asegúrese de que se incluyan las siguientes columnas de la tabla de cambios, utilizando sus nombres predeterminados:
-
[header__]change_seq
-
[header__]change_oper
-
[header__] timestamp
-
-
En Store Changes Settings > Change Tables, configure On UPDATE en Store after image only.
Esto reduce el espacio para cada actualización ya que la imagen anterior no está incluida. Use esta opción si no planea usar la imagen anterior.
-
En Store Changes Settings > Change Tables, configure Suffix en su valor predeterminado __ct.
-
No aplique las siguientes transformaciones globales:
-
Rename Change Table
-
Rename Change Table Schema
-
-
Si se puede actualizar una Clave primaria de una Tabla de origen, habilite DELETE e INSERT al actualizar una opción de columna de clave primaria en Change Processing Tuning.
El historial del antiguo registro no se conservará en el nuevo registro.
Nota informativaEsta opción es compatible desde Qlik Replicate November 2022.
Operaciones en la tarea de datos registrados
Puede realizar las siguientes operaciones en una tarea de datos registrados desde el menú de tareas.
-
Abrir
Esto abre la tarea de datos. Puede ver la estructura de la tabla y los detalles sobre la tarea de datos.
-
Editar
Puede editar el nombre y la descripción de la tarea y agregar etiquetas.
-
Eliminar
Puede eliminar la tarea de datos.
Los datos de origen no se eliminan.
- Sincronizar conjuntos de datos
Esto sincroniza los cambios de diseño que no se pueden ajustar automáticamente.
-
Volver a crear las tablas
Esto vuelve a crear los conjuntos de datos a partir de la fuente.
-
Almacenar datos
Puede crear una tarea de almacenamiento de datos que utilice datos de esta tarea de aterrizaje de datos.
Consideraciones históricas al establecer una columna "Desde la fecha"
Si los datos históricos están habilitados en una tarea posterior y utiliza una columna "Desde la fecha", no se admite la retroactividad. Esto significa que si un lote de cambios contiene una versión anterior de un registro que no existe en el almacenamiento, el lote de cambios también debe incluir todas las versiones más recientes del registro. Si no se incluyen las versiones más recientes, se eliminarán.
En estos ejemplos, el almacenamiento contiene estos registros desde el principio:
Desde la fecha | Nombre | Ciudad |
---|---|---|
2/Oct/2023 | Joe | Nueva York |
3/Oct/2023 | Joe | Londres |
Ejemplo 1:
Si inserta el siguiente lote de cambios:
Desde la fecha | Nombre | Ciudad |
---|---|---|
4/Oct/2023 | Joe | París |
El resultado en el almacenamiento es el esperado:
Desde la fecha | Nombre | Ciudad |
---|---|---|
2/Oct/2023 | Joe | Nueva York |
3/Oct/2023 | Joe | Londres |
4/Oct/2023 | Joe | París |
Ejemplo 2:
Pero si inserta el siguiente registro más antiguo en un lote de cambios:
Desde la fecha | Nombre | Ciudad |
---|---|---|
1/Oct/2023 | Joe | Berlín |
Esto da como resultado que los registros más recientes se eliminen del almacenamiento:
Desde la fecha | Nombre | Ciudad |
---|---|---|
1/Oct/2023 | Joe | Berlín |
Ejemplo 3:
Para mantener el historial, el lote de cambios debe incluir los registros más recientes:
Desde la fecha | Nombre | Ciudad |
---|---|---|
1/Oct/2023 | Joe | Berlín |
2/Oct/2023 | Joe | Nueva York |
3/Oct/2023 | Joe | Londres |
Esto garantizará que el historial se mantenga también en el almacén:
Desde la fecha | Nombre | Ciudad |
---|---|---|
1/Oct/2023 | Joe | Berlín |
2/Oct/2023 | Joe | Nueva York |
3/Oct/2023 | Joe | Londres |
Consideraciones
-
No utilice la opción de historial en la replicación de Stitch. Utilice las opciones para mantener los datos históricos en Qlik Talend Data Integration.
Consideraciones sobre la capacidad de datos
-
Si una tabla registrada no tiene clave principal, se ejecutará una recarga completa para cada ejecución. Esto contará para su cuota mensual de capacidad de datos registrados. Esto se debe a que el almacenamiento necesitará comparar todos los registros para encontrar cambios.
-
La capacidad de datos para los datos registrados se cuenta en el almacenamiento. Esto significa que una eliminación en los datos registrados se traduce en una inserción o actualización del almacenamiento (una eliminación temporal) y se cuenta en la capacidad de datos.
-
Las eliminaciones temporales, las inserciones y las actualizaciones se contabilizarán dos veces en la capacidad de datos si se utiliza una tabla de datos registrados en dos tareas de almacenamiento de datos.