Calidad de los datos para conjuntos de datos basados en conexiones.

Necesita una suscripción a Qlik Talend Cloud Enterprise.

Para beneficiarse de la detección de los tipos semánticos y de las lecturas de calidad de los datos en sus conjuntos de datos basados en conexiones, necesita establecer un requisito previo importante para sus conexiones de datos en el contexto de los productos de datos.

La calidad de los datos es compatible tanto en modo pullup como pushdown para los conjuntos de datos de Snowflake y Databricks .
La calidad de los datos es compatible en el modo pullup para los conjuntos de datos basados en las siguientes bases de datos:
- Amazon Athena
- Amazon Redshift
- Apache Hive
- Apache Phoenix
- Apache Spark
- Base de datos Azure SQL
- Azure Synapse Analytics
- Cassandra
- Cloudera Impala
- Couchbase
- DynamoDB
- Google BigQuery
- Marketo
- Microsoft SQL Server
- MongoDB
- MySQL Entreprise Edition
- Oracle
- PostgreSQL
- Presto
- SAP Hana
- Snowflake
- Teradata

Configuración de la conexión

Para poder crear conjuntos de datos a partir de una conexión, y posteriormente tener acceso a su esquema y calidad en la vista general de conjuntos de datos y en la vista general de productos de datos, es necesario configurar la misma conexión tanto en Qlik Talend Data Integration, como en Analítica de Qlik Cloud.

Supongamos que desea trasladar datos almacenados en una base de datos, añadirlos a su Catálogo como conjuntos de datos y agruparlos en un producto de datos que utilizará para una app de análisis.

En Qlik Talend Data Integration > Conexiones, haga clic en Crear conexión.
Configure su acceso a la base de datos utilizando las credenciales de un usuario que tenga los permisos adecuados y acceso a las tablas que desea importar.
En Analítica de Qlik Cloud, haga clic en Crear y, a continuación, en Conexión de datos.
Configure el acceso a la misma base de datos que realizó anteriormente, utilizando idealmente las credenciales del mismo usuario, o de uno que tenga al menos los permisos de LECTURA en las tablas.
(Solo para Snowflake) En el campo Rol debe introducir un rol que corresponda a un rol existente creado en la base de datos de Snowflake y que tenga los siguientes privilegios sobre estos objetos.
- USAGE on WAREHOUSE
- USAGE en DATABASE
- USAGE en SCHEMA
- CREATE TABLE en SCHEMA
- CREATE FUNCTION en SCHEMA
- CREATE VIEW en SCHEMA
- SELECT en TABLE
(solo para Databricks) En Databricks debe definir los siguientes privilegios en la base de datos:
- CREATE TABLE
- CREATE VOLUME
- MODIFY
- READ VOLUME
- SELECCIONAR
- USE SCHEMA
- WRITE VOLUME
De vuelta en la página de inicio de Qlik Talend Data Integration, haga clic en Añadir nuevo y luego en Crear proyecto de datos.
Utilice su conexión del paso 2 como fuente para su proyecto y comience a crear su canalización de datos. Consulte Crear un proyecto de canalización de datos si desea obtener más información.
En cualquier punto de su canalización, seleccione una tarea de datos, vaya a Configuración y, a continuación, a la pestaña Catálogo, donde podrá seleccionar la casilla de verificación Publicar en Catálogo.

Significa que esta versión del conjunto de datos se publicará en el Catálogo cuando se prepare y ejecute el proyecto de datos. También es posible marcar esta opción a nivel de proyecto.
Ejecute su proyecto de datos.

Tras ejecutar su proyecto de datos, el nuevo conjunto de datos se añade al Catálogo y podrá acceder a los indicadores de calidad y a más información sobre su contenido. Esta configuración también permite utilizar los conjuntos de datos como fuente para las apps de análisis.

Puede añadir tantos conjuntos de datos como sea necesario antes de crear su producto de datos.Dado que se puede acceder al Catálogo tanto desde el centro de control de Qlik Talend Data Integration, como desde el centro de servicios de Analítica de Qlik Cloud, puede abrir sus conjuntos de datos en la ubicación que prefiera y se utilizará la conexión adecuada en función del contexto.

Calcular la calidad en los modos pullup/pushdown

Al utilizar el botón Calcular o Actualizar en la Vista general de su conjunto de datos, se desencadena un cálculo de la calidad de los datos en una muestra de 1000 filas de la base de datos.

Esta operación se produce en modo pullup de manera predeterminada. Para los conjuntos de datos de Snowflake y Databricks, esta operación puede producirse tanto en modo pullup (opción predeterminada), como en modo pushdown, en el lado de la base de datos.

A continuación, una muestra de 100 filas se envía de nuevo a Qlik Cloud, donde puede visualizarla como vista previa con tipos semánticos actualizados y estadísticas de validez y exhaustividad. Después, esta muestra se almacena en MongoDB.

La calidad de los datos no puede calcularse para conjuntos de datos que tengan más de 500 columnas.

Requisitos previos para la calidad de los datos en modo pushdown en Databricks

Para calcular la calidad de los datos en modo pushdown en Databricks, Qlik necesita sincronizar ciertos datos de referencia de calidad, como los tipos semánticos, con su instancia de Databricks. También aprovecha algunas funciones avanzadas de Databricks.

Para que esta función opere correctamente deben cumplirse los siguientes requisitos previos en su instancia de Databricks:

El Catálogo Unity debe estar activado.
Los usuarios asociados mediante la conexión de Databricks deben tener permisos para crear una tabla, crear un esquema, crear un volumen y escribir en un volumen.

Qlik creará un esquema llamado qlik_internal en la base de datos especificada en su conexión. Este esquema no será eliminado automáticamente por Qlik. Tendrá que borrarlo manualmente si deja de utilizar Infraestructura SaaS cloud.
Las intercalaciones deben estar activadas.

En cuanto a las limitaciones, tenga en cuenta que el reconocimiento de fechas en columnas de cadenas se limita al formato ISO-8601.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios