Accéder au contenu principal Passer au contenu complémentaire

Qualité des données des ensembles de données Snowflake

Pour bénéficier de la découverte des types sémantiques et des relevés de qualité des données sur vos ensembles de données Snowflake, vous devez configurer une condition préalable importante avec vos connexions de données dans le contexte de produits de données.

Paramètres de la connexion Snowflake

Pour pouvoir créer des ensembles de données à partir de Snowflake et avoir accès ultérieurement à leur schéma et à leur qualité dans les vues d'ensemble des ensembles de données et des produits de données, vous devez configurer la même connexion dans le hub Qlik Talend Data Integration et dans le hub Services d'analyse Qlik.

Imaginons que vous souhaitiez apporter des données stockées dans une base de données Snowflake, les ajouter à votre Catalogue sous forme d'ensembles de données et les regrouper dans un produit de données à utiliser pour une application analytique.

  1. Dans Qlik Talend Data Integration, cliquez sur Ajouter nouveau, puis sur Connexion de données.

  2. Configurez votre accès à la base de données Snowflake via les informations d'identification d'un utilisateur disposant d'autorisations WRITE (Accès en écriture) et accédez aux tables à importer.

  3. Dans Services d'analyse Qlik, cliquez sur Ajouter nouveau, puis sur Connexion de données.

  4. Configurez votre accès à la même base de données Snowflake que précédemment via les informations d'identification du même utilisateur, dans l'idéal, ou d'un utilisateur qui dispose au moins des autorisations READ (Accès en lecture) sur les tables.

  5. Dans le champ Rôle, vous devez saisir un rôle correspondant à un rôle existant créé dans la base de données Snowflake et qui a les privilèges suivants sur ces objets.

    • USAGE sur WAREHOUSE

    • USAGE sur DATABASE

    • USAGE sur SCHEMA

    • CREATE TABLE sur SCHEMA

    • CREATE FUNCTION sur SCHEMA

    • CREATE VIEW sur SCHEMA

    • SELECT sur TABLE

  6. De retour sur la page d'accueil Qlik Talend Data Integration, cliquez sur Ajouter nouveau, puis sur Créer un projet de données.

  7. Utilisez votre connexion Snowflake de l'étape 2 comme source pour votre projet et commencez à créer votre pipeline. Consultez Création d'un pipeline de données pour plus d'informations.

  8. À tout moment dans votre pipeline, sélectionnez une tâche de données, accédez à Paramètres, puis à l'onglet Catalogue dans lequel vous pouvez cocher la case Publier dans le Catalogue.

    Cela signifie que cette version de l'ensemble de données sera publiée dans le Catalogue une fois le projet de données préparé et exécuté. Il est également possible de cocher cette option au niveau du projet.

  9. Exécutez votre projet de données.

Après l'exécution de votre projet de données, le nouvel ensemble de données est ajouté au Catalogue et vous pourrez accéder aux indicateurs de qualité et à davantage de détails sur son contenu. Cette configuration permet aussi d'utiliser les ensembles de données Snowflake comme source pour des applications analytiques.

Vous pouvez ajouter autant d'ensembles de données que nécessaire avant de créer votre produit de données. Étant donné que le Catalogue est accessible depuis le hub Qlik Talend Data Integration et depuis le hub Services d'analyse Qlik, vous pouvez ouvrir vos ensembles de données à l'emplacement de votre choix et la bonne connexion sera utilisée suivant le contexte.

Calcul de la qualité en pushdown

L'utilisation du bouton Calculer ou Actualiser dans la Vue d'ensemble de votre ensemble de données déclenche un calcul de qualité sur un échantillon de 1 000 lignes de la base de données. Cette opération se produit en pushdown côté Snowflake.

Un échantillon de 100 lignes est ensuite renvoyé à Qlik Cloud, dans lequel vous pouvez l'afficher sous forme d'aperçu avec des types sémantiques et des statistiques de validité et de complétude à jour. Cet échantillon est ensuite stocké sur MongoDB.

Le diagramme suivant résume l'opération de traitement de la qualité des données.

Diagramme d'architecture du pushdown Snowflake

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !