Calidad de los datos para conjuntos de datos basados en conexiones.
Para beneficiarse de la detección de los tipos semánticos y de las lecturas de calidad de los datos en sus conjuntos de datos basados en conexiones, necesita establecer un requisito previo importante para sus conexiones de datos en el contexto de los productos de datos.
-
La calidad de los datos es compatible tanto en modo pullup como pushdown para los conjuntos de datos de Snowflake y Databricks .
-
La calidad de los datos es compatible en el modo pullup para los conjuntos de datos basados en las siguientes bases de datos:
-
Amazon Athena
-
Amazon Redshift
-
Apache Hive
-
Apache Phoenix
-
Apache Spark
-
Azure SQL Database
-
Azure Synapse Analytics
-
Cassandra
-
Cloudera Impala
-
Couchbase
-
DynamoDB
-
Google BigQuery
-
Marketo
-
Microsoft SQL Server
-
MongoDB
-
MySQL Entreprise Edition
-
Oracle
-
PostgreSQL
-
Presto
-
SAP Hana
-
Snowflake
-
Teradata
-
Crear conjuntos de datos basados en conexiones
Puede crear conjuntos de datos basados en conexiones desde el Catálogo, pero también puede usar proyectos de canalización.
La creación de conjuntos de datos desde un proyecto de canalización le permite realizar toda la integración de datos dentro de un proyecto mediante tareas de datos. Para obtener más información, consulte Crear un proyecto de canalización de datos.
Crear conjuntos de datos desde el Catálogo
Cuando no necesite usar un proyecto de canalización, puede crear conjuntos de datos para calcular la calidad de los datos y consumir los conjuntos de datos mediante productos de datos.
- En Qlik Talend Data Integration > Catálogo, haga clic en Crear nuevo > Conjunto de datos.
- Seleccione la conexión y haga clic en Siguiente.
- Seleccione los conjuntos de datos y haga clic en Siguiente.
Cuando un conjunto de datos no está en la lista, significa que no está en uno de los formatos admitidos:
- Archivos de Excel:
.xls,.xlsx - Archivos de texto delimitados:
.csv,.txt - Archivos Excel:
.xls,.xlsx - Archivos JSON:
.json - Archivos XML:
.xml - Archivos de datos de Qlik:
.qvd (QlikView Data),.qvx (QlikView Exchange) - Archivos Parquet:
.parquet - Archivos KML:
.kml (Geographic data)
- Archivos de Excel:
- Seleccione el espacio y haga clic en Crear conjuntos de datos. Se le redirige al Catálogo y verá los nuevos conjuntos de datos en la lista.
Ahora puede calcular la calidad de los datos y añadir los conjuntos de datos a los productos de datos. Para obtener más información, consulte Configurar el cálculo de la calidad de los datos.
Crear conjuntos de datos a partir de un proyecto de canalización
-
En Qlik Talend Data Integration > Conexiones, haga clic en Crear conexión.
-
Configure su acceso a la base de datos utilizando las credenciales de un usuario que tenga los permisos adecuados y acceso a las tablas que desea importar.
-
En Qlik Cloud Analytics, haga clic en Crear y, a continuación, en Conexión de datos.
-
Configure el acceso a la misma base de datos que realizó anteriormente, utilizando idealmente las credenciales del mismo usuario, o de uno que tenga al menos los permisos de LECTURA en las tablas.
-
(Solo para Snowflake) En el campo Rol, debe introducir un rol que corresponda a un rol existente creado en la base de datos de Snowflake y que tenga los siguientes privilegios sobre estos objetos.
-
USAGE en WAREHOUSE
-
USAGE en DATABASE
-
USAGE en SCHEMA
-
CREATE TABLE en SCHEMA
-
CREATE FUNCTION en SCHEMA
-
CREATE VIEW en SCHEMA
-
SELECT en TABLE
-
-
(solo para Databricks) En Databricks debe definir los siguientes privilegios en la base de datos:
-
CREATE TABLE
-
CREATE VOLUME
-
MODIFY
-
READ VOLUME
-
SELECT
-
USE SCHEMA
-
WRITE VOLUME
-
-
De vuelta en la página de inicio de Qlik Talend Data Integration, haga clic en Añadir nuevo y luego en Crear proyecto de datos.
-
Utilice su conexión del paso 2 como fuente para su proyecto y comience a crear su canalización de datos. Vea Crear un proyecto de canalización de datos si desea más información.
-
En cualquier punto de su canalización, seleccione una tarea de datos, vaya a Configuración y, a continuación, a la pestaña Catálogo, donde podrá seleccionar la casilla de verificación Publicar en Catálogo.
Significa que esta versión del conjunto de datos se publicará en el Catálogo cuando se prepare y ejecute el proyecto de datos. También es posible marcar esta opción a nivel de proyecto.
-
Ejecute su proyecto de datos.
Tras ejecutar su proyecto de datos, el nuevo conjunto de datos se añade al Catálogo y podrá acceder a los indicadores de calidad y a más información sobre su contenido. Esta configuración también permite utilizar los conjuntos de datos como fuente para las apps de análisis.
Puede añadir tantos conjuntos de datos como necesite antes de crear su producto de datos.Dado que se puede acceder al Catálogo tanto desde el centro de control de Qlik Talend Data Integration, como desde el centro de servicios de Qlik Cloud Analytics, puede abrir sus conjuntos de datos en la ubicación que prefiera y se utilizará la conexión adecuada en función del contexto.
Cálculo de la calidad en pullup/pushdown
Al utilizar el botón Calcular o Actualizar en la Vista general de su conjunto de datos, se desencadena un cálculo de calidad en una muestra de 1000 filas de la base de datos.
Esta operación se produce en modo de extracción (pullup) de manera predeterminada. Para los conjuntos de datos de Snowflake y Databricks, esta operación puede producirse tanto en modo pullup (opción predeterminada), como en modo pushdown, en el lado de la base de datos.
A continuación, una muestra de 100 filas se envía de nuevo a Qlik Cloud, donde puede visualizarla como vista previa con tipos semánticos actualizados y estadísticas de validez y exhaustividad. Después, esta muestra se almacena en MongoDB.
Requisitos previos para la calidad de los datos en modo pushdown en Databricks
Para calcular la calidad de los datos en modo pushdown en Databricks, Qlik necesita sincronizar ciertos datos de referencia de calidad, como los tipos semánticos, con su instancia de Databricks. También aprovecha algunas funciones avanzadas de Databricks.
Para que esta función opere correctamente deben cumplirse los siguientes requisitos previos en su instancia de Databricks:
-
El Catálogo Unity debe estar activado.
-
Los usuarios asociados mediante la conexión de Databricks deben tener permisos para crear una tabla, crear un esquema, crear un volumen y escribir en un volumen.
Qlik creará un esquema llamado qlik_internal en la base de datos especificada en su conexión. Este esquema no será eliminado automáticamente por Qlik. Tendrá que borrarlo manualmente si deja de utilizar Infrastructura SaaS en la nube.
-
Las intercalaciones deben estar activadas.
En cuanto a las limitaciones, tenga en cuenta que el reconocimiento de fechas en columnas de cadenas se limita al formato ISO-8601.