Qualité des données des jeux de données basés sur des connexions

Vous avez besoin de l'un des abonnements suivants :

Qlik Talend Cloud Enterprise
Qlik Talend Cloud Premium
Qlik Cloud Analytics - Premium
Qlik Cloud Analytics Enterprise
Qlik Sense Enterprise SaaS

Pour bénéficier de la découverte des types sémantiques et des relevés de qualité des données sur vos jeux de données basés sur des connexions, vous devez configurer une condition préalable importante avec vos connexions de données dans le contexte de produits de données.

La qualité des données est supportée en modes pullup et pushdown pour les jeux de données Snowflake et Databricks.
La qualité des données est supportée en mode pullup pour les jeux de données basés sur les bases de données suivantes :
- Amazon Athena
- Amazon Redshift
- Apache Hive
- Apache Phoenix
- Apache Spark
- Azure SQL Database
- Azure Synapse Analytics
- Cassandra
- Cloudera Impala
- Couchbase
- DynamoDB
- Google BigQuery
- Marketo
- Microsoft SQL Server
- MongoDB
- MySQL Entreprise Edition
- Oracle
- PostgreSQL
- Presto
- SAP HANA
- Snowflake
- Teradata

Création de jeux de données basés sur des connexions

Vous pouvez créer des jeux de données basés sur des connexions à partir du Catalogue, mais vous pouvez également utiliser des projets de pipeline.

La création de jeux de données à partir d'un projet de pipeline vous permet d'effectuer toutes vos intégrations de données au sein d'un projet à l'aide de tâches de données. Pour plus d'informations, consultez Création d'un projet de pipeline de données.

Création de jeux de données depuis le Catalogue

Lorsque vous n'avez pas besoin d'utiliser de projet de pipeline, vous pouvez créer des jeux de données pour calculer la qualité des données et consommer les jeux de données via des produits de données.

Dans Qlik Talend Data Integration > Catalogue, cliquez sur Créer > Jeu de données.
Sélectionnez la connexion et cliquez sur Suivant.
Sélectionnez les jeux de données et cliquez sur Suivant.
Lorsqu'un jeu de données ne figure pas dans la liste, cela signifie qu'il ne se présente pas dans l'un des formats compatibles :
- Fichiers Excel :.xls, .xlsx
- Fichiers texte délimités :.csv, .txt
- Fichiers Excel :.xls, .xlsx
- Fichieres JSON :.json
- Fichiers XML :.xml
- Fichiers de données Qlik :.qvd (QlikView Data), .qvx (QlikView Exchange)
- Fichiers Parquet :.parquet
- Fichiers KML :.kml (Geographic data)
Sélectionnez l'espace et cliquez sur Créer des jeux de données. Vous êtes redirigé vers le Catalogue et vous voyez les nouveaux jeux de données dans la liste.

Vous pouvez maintenant calculer la qualité des données et ajouter les jeux de données à des produits de données. Pour plus d'informations, consultez Configuration du calcul de la qualité des données.

Création de jeux de données à partir d'un projet de pipeline

Dans Qlik Talend Data Integration > Connexions, cliquez sur Créer une connexion.
Configurez votre accès à la base de données via les informations d'identification d'un utilisateur disposant d'autorisations suffisantes et accédez aux tables à importer.
Dans Qlik Cloud Analytics, cliquez sur Créer, puis sur Connexion de données.
Configurez votre accès à la même base de données que précédemment via les informations d'identification du même utilisateur, dans l'idéal, ou d'un utilisateur qui dispose au moins des autorisations READ (Accès en lecture) sur les tables.
(Pour Snowflake uniquement) Dans le champ Rôle, vous devez saisir un rôle correspondant à un rôle existant créé dans la base de données Snowflake et qui a les privilèges suivants sur ces objets.
- USAGE sur WAREHOUSE
- USAGE sur DATABASE
- USAGE sur SCHEMA
- CREATE TABLE sur SCHEMA
- CREATE FUNCTION sur SCHEMA
- CREATE VIEW sur SCHEMA
- SELECT sur TABLE
(pour Databricks uniquement) Dans Databricks, vous devez définir les privilèges suivants sur la base de données :
- CREATE TABLE
- CREATE VOLUME
- MODIFY
- READ VOLUME
- SELECT
- USE SCHEMA
- WRITE VOLUME
De retour sur la page d'accueil Qlik Talend Data Integration, cliquez sur Créer, puis sur Projet de pipeline.
Utilisez votre connexion de l'étape 2 comme source pour votre projet et commencez à créer votre pipeline. Consultez Création et gestion de projets de pipeline de données pour plus d'informations.
À tout moment dans votre pipeline, sélectionnez une tâche de données, accédez à Paramètres, puis à l'onglet Catalogue dans lequel vous pouvez cocher la case Publier dans le Catalogue.

Cela signifie que cette version du jeu de données sera publiée dans le Catalogue une fois le projet de pipeline préparé et exécuté. Il est également possible de cocher cette option au niveau du projet.
Exécutez votre projet de données.

Après l'exécution de votre projet de pipeline, le nouveau jeu de données est ajouté au Catalogue et vous pourrez accéder aux indicateurs de qualité et à davantage de détails sur son contenu. Cette configuration permet aussi d'utiliser les jeux de données comme source pour des applications analytiques.

Vous pouvez ajouter autant de jeux de données que nécessaire avant de créer votre produit de données. Étant donné que le Catalogue est accessible depuis le hub Qlik Talend Data Integration et depuis le hub Qlik Cloud Analytics Services, vous pouvez ouvrir vos jeux de données à l'emplacement de votre choix et la bonne connexion sera utilisée suivant le contexte.

Calcul de la qualité en mode pullup/pushdown

L'utilisation du bouton Calculer ou Actualiser dans la Vue d'ensemble de votre jeu de données déclenche un calcul de qualité sur un échantillon de 1 000 lignes de la base de données.

Par défaut, cette opération s'effectue en mode pullup. Pour les jeux de données Snowflake et Databricks, cette opération peut s'effectuer soit en mode pullup (par défaut), soit en mode pushdown, côté base de données.

Après le calcul de la qualité des données, un aperçu de 1 000 lignes maximum (par défaut) est récupéré et affiché avec des types sémantiques et des statistiques de validité et de complétude à jour. Cet échantillon est ensuite stocké sur MongoDB. Pour configurer la taille de l'aperçu du jeu de données (100 ou 1 000 lignes), les administrateurs de clients doivent accéder à la page Paramètres du centre d'activités Administration. Pour plus d'informations, consultez Configuration de la taille de l'aperçu du jeu de données.

Pour les jeux de données Databricks calculés en mode pushdown, l'aperçu peut occasionnellement contenir moins de lignes que la taille d'aperçu configurée si l'échantillon calculé renvoie moins de lignes que demandé. L'échantillonnage aléatoire de Databricks utilise TABLESAMPLE, qui renvoie un nombre approximatif de lignes. Étant donné que l'aperçu est un sous-ensemble de l'échantillon calculé, il ne peut pas dépasser le nombre de lignes renvoyées par l'échantillon.

Pour plus d'informations, consultez la documentation Databricks correspondante.

Impossible de calculer la qualité de données des jeux de données ayant plus de 500 colonnes.

Conditions préalables requises pour la qualité des données en mode pushdown sur Databricks

Pour calculer la qualité des données en mode pushdown sur Databricks, Qlik doit synchroniser certaines données de référence de qualité telles que les types sémantiques avec votre instance Databricks. Il tire également parti de certaines fonctionnalités avancées de Databricks.

Pour que cette fonction puisse fonctionner correctement, les conditions préalables suivantes doivent être remplies sur votre instance Databricks :

Unity Catalog doit être activé.
Les utilisateurs associés à la connexion Databricks doivent disposer des autorisations nécessaires pour pouvoir créer une table, créer un schéma, créer un volume et écrire un volume.

Qlik créera un schéma nommé qlik_internal dans la base de données spécifiée dans votre connexion. Ce schéma ne sera pas automatiquement supprimé par Qlik. Vous devrez le supprimer manuellement si vous cessez d'utiliser Infrastructure cloud SaaS.
Collations doit être activé.

En ce qui concerne les limitations, notez que la reconnaissance des dates dans les colonnes de chaînes est limitée au format ISO-8601.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici