Accéder au contenu principal Passer au contenu complémentaire

Qualité des données des jeux de données basés sur des connexions

Note InformationsVous avez besoin d'un abonnement Qlik Talend Cloud Enterprise.

Pour bénéficier de la découverte des types sémantiques et des relevés de qualité des données sur vos jeux de données basés sur des connexions, vous devez configurer une condition préalable importante avec vos connexions de données dans le contexte de produits de données.

  • La qualité des données est supportée en modes pullup et pushdown pour les jeux de données Snowflake et Databricks.

  • La qualité des données est supportée en mode pullup pour les jeux de données basés sur les bases de données suivantes :

    • Amazon Athena

    • Amazon Redshift

    • Apache Hive

    • Apache Phoenix

    • Apache Spark

    • Azure SQL Database

    • Azure Synapse Analytics

    • Cassandra

    • Cloudera Impala

    • Couchbase

    • DynamoDB

    • Google BigQuery

    • Marketo

    • Microsoft SQL Server

    • MongoDB

    • MySQL Entreprise Edition

    • Oracle

    • PostgreSQL

    • Presto

    • SAP HANA

    • Snowflake

    • Teradata

Paramètres de connexion

Pour pouvoir créer des jeux de données à partir d'une connexion et avoir accès ultérieurement à leur schéma et à leur qualité dans les vues d'ensemble des jeux de données et des produits de données, vous devez configurer la même connexion dans Qlik Talend Data Integration et dans Qlik Cloud Analytics.

Imaginons que vous souhaitiez apporter des données stockées dans une base de données, les ajouter à votre Catalogue sous forme de jeux de données et les regrouper dans un produit de données à utiliser pour une application analytique.

  1. Dans Qlik Talend Data Integration > Connexions, cliquez sur Créer une connexion.

  2. Configurez votre accès à la base de données via les informations d'identification d'un utilisateur disposant d'autorisations suffisantes et accédez aux tables à importer.

  3. Dans Qlik Cloud Analytics, cliquez sur Créer, puis sur Connexion de données.

  4. Configurez votre accès à la même base de données que précédemment via les informations d'identification du même utilisateur, dans l'idéal, ou d'un utilisateur qui dispose au moins des autorisations READ (Accès en lecture) sur les tables.

  5. (Pour Snowflake uniquement) Dans le champ Rôle, vous devez saisir un rôle correspondant à un rôle existant créé dans la base de données Snowflake et qui a les privilèges suivants sur ces objets.

    • USAGE sur WAREHOUSE

    • USAGE sur DATABASE

    • USAGE sur SCHEMA

    • CREATE TABLE sur SCHEMA

    • CREATE FUNCTION sur SCHEMA

    • CREATE VIEW sur SCHEMA

    • SELECT sur TABLE

  6. (pour Databricks uniquement) Dans Databricks, vous devez définir les privilèges suivants sur la base de données :

    • CREATE TABLE

    • CREATE VOLUME

    • MODIFY

    • READ VOLUME

    • SELECT

    • USE SCHEMA

    • WRITE VOLUME

  7. De retour sur la page d'accueil Qlik Talend Data Integration, cliquez sur Ajouter nouveau, puis sur Créer un projet de données.

  8. Utilisez votre connexion de l'étape 2 comme source pour votre projet et commencez à créer votre pipeline. Consultez Création d'un projet de pipeline de données pour plus d'informations.

  9. À tout moment dans votre pipeline, sélectionnez une tâche de données, accédez à Paramètres, puis à l'onglet Catalogue dans lequel vous pouvez cocher la case Publier dans le Catalogue.

    Cela signifie que cette version du jeu de données sera publiée dans le Catalogue une fois le projet de données préparé et exécuté. Il est également possible de cocher cette option au niveau du projet.

  10. Exécutez votre projet de données.

Après l'exécution de votre projet de données, le nouveau jeu de données est ajouté au Catalogue et vous pourrez accéder aux indicateurs de qualité et à davantage de détails sur son contenu. Cette configuration permet aussi d'utiliser les jeux de données comme source pour des applications analytiques.

Vous pouvez ajouter autant de jeux de données que nécessaire avant de créer votre produit de données. Étant donné que le Catalogue est accessible depuis le hub Qlik Talend Data Integration et depuis le hub Qlik Cloud Analytics Services, vous pouvez ouvrir vos jeux de données à l'emplacement de votre choix et la bonne connexion sera utilisée suivant le contexte.

Calcul de la qualité en mode pullup/pushdown

L'utilisation du bouton Calculer ou Actualiser dans la Vue d'ensemble de votre jeu de données déclenche un calcul de qualité sur un échantillon de 1 000 lignes de la base de données.

Par défaut, cette opération s'effectue en mode pullup. Pour les jeux de données Snowflake et Databricks, cette opération peut s'effectuer soit en mode pullup (par défaut), soit en mode pushdown, côté base de données.

Un échantillon de 100 lignes est ensuite renvoyé à Qlik Cloud, dans lequel vous pouvez l'afficher sous forme d'aperçu avec des types sémantiques et des statistiques de validité et de complétude à jour. Cet échantillon est ensuite stocké sur MongoDB.

Note InformationsImpossible de calculer la qualité de données des jeux de données ayant plus de 500 colonnes.

Conditions préalables requises pour la qualité des données en mode pushdown sur Databricks

Pour calculer la qualité des données en mode pushdown sur Databricks, Qlik doit synchroniser certaines données de référence de qualité telles que les types sémantiques avec votre instance Databricks. Il tire également parti de certaines fonctionnalités avancées de Databricks.

Pour que cette fonction puisse fonctionner correctement, les conditions préalables suivantes doivent être remplies sur votre instance Databricks :

  • Unity Catalog doit être activé.

  • Les utilisateurs associés à la connexion Databricks doivent disposer des autorisations nécessaires pour pouvoir créer une table, créer un schéma, créer un volume et écrire un volume.

    Qlik créera un schéma nommé qlik_internal dans la base de données spécifiée dans votre connexion. Ce schéma ne sera pas automatiquement supprimé par Qlik. Vous devrez le supprimer manuellement si vous cessez d'utiliser Infrastructure cloud SaaS.

  • Collations doit être activé.

En ce qui concerne les limitations, notez que la reconnaissance des dates dans les colonnes de chaînes est limitée au format ISO-8601.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.