Accéder au contenu principal Passer au contenu complémentaire

Configuration de la qualité des données

Une fois que vous avez calculé pour la première fois la qualité des données de votre jeu de données, vous avez la possibilité d'actualiser ce calcul et de le personnaliser en fonction de vos besoins.

Note InformationsVous avez besoin de l'un des abonnements suivants :
  • Qlik Talend Cloud Enterprise
  • Qlik Talend Cloud Premium
  • Qlik Cloud Analytics - Premium
  • Qlik Cloud Analytics Enterprise
  • Qlik Sense Enterprise SaaS

Sélection de la taille d'échantillon et du mode de traitement

Afin de pouvoir personnaliser la taille d'échantillon pour le calcul de la qualité, vous devez avoir cliqué une fois sur Calculer sur votre jeu de données.

  1. Depuis Qlik Talend Data Integration > Catalogue, ouvrez votre jeu de données.

  2. Selon la manière dont vous souhaitez calculer la qualité des données :

    • Cliquez sur Actualiser pour recalculer la qualité des données en utilisant les paramètres précédemment appliqués.

    • Cliquez sur la flèche vers le bas à côté du bouton Actualiser pour développer le panneau Qualité et profilage et personnaliser le nouveau calcul.

  3. Dans Taille d'échantillon, saisissez la taille de l'échantillon sur lequel vous souhaitez calculer la qualité des données :

    • Nombre de lignes : saisissez le nombre de lignes sur lesquelles vous souhaitez calculer la qualité des données. La valeur maximale est de 100 000 lignes en mode pullup ; il n'existe pas de valeur maximale en mode pushdown.

    • Pourcentage du jeu de données : sinon, saisissez le pourcentage du jeu de données sur lequel vous souhaitez calculer la qualité des données. Les valeurs décimales ne sont pas autorisées. Pour les jeux de données volumineux, si 1 % du jeu de données représente plus que le nombre maximal de lignes autorisé (100 000 lignes), cette option n'est pas affichée.

  4. Dans Mode de traitement, sélectionnez le mode de traitement à utiliser lors du calcul de la qualité des données :

    • Pushdown : actuellement disponible uniquement pour les jeux de données Snowflake et Databricks. Cela déclenche le calcul de la qualité côté base de données, ce qui consomme des crédits Snowflake ou des unités Databricks (DBU).

    • Pullup : disponible pour tous les jeux de données. Cela déclenche le calcul de la qualité dans Qlik Cloud.

  5. Cliquez sur Actualiser pour recalculer la qualité des données en fonction de vos paramètres.

Les indicateurs de qualité des données ainsi que la taille d'échantillon sont affichés dans la Vue d'ensemble. Le temps de traitement dépend de la taille d'échantillon. Notez que l'aperçu des données affiche toujours uniquement 100 enregistrements.

Note InformationsImpossible de calculer la qualité de données des jeux de données ayant plus de 500 colonnes.

Le calcul de la qualité des données peut également être déclenché et personnalisé par l'intermédiaire de l'API publique Qlik correspondante.

Pour la planification de la qualité des données, le modèle Qlik Automate Planifier des calculs de qualité des données peut être utilisé. Consultez All templates pour plus d'informations.

Filtrage de l'aperçu du jeu de données par statut de qualité

Lorsque vous consultez votre jeu de données dans l'onglet Aperçu des données, les résultats de qualité sont représentés visuellement à l'aide d'une barre de couleur sur les en-têtes de colonne, ainsi que dans le panneau droit pour les types de données et les règles de validation.

Chaque segment de la barre de qualité correspond à l'une des catégories de résultats. À partir de l'en-tête de colonne, vous pouvez voir les indicateurs suivants :

  • Non valide (rouge) : affiche le pourcentage de valeurs de l'échantillon qui sont considérées comme non valides.

  • Vide ou nul (noir) : indique le pourcentage de valeurs de l'échantillon qui sont vides ou nulles.

  • Valide (vert) : affiche le pourcentage de valeurs valides de l'échantillon. Le pourcentage ne prend pas en compte les valeurs vides.

Un clic sur un en-tête de colonne ouvre le panneau droit, où vous pouvez voir les mêmes indicateurs pour les types de données.

De plus, la barre de qualité des règles de validation dans le panneau droit affiche les indicateurs suivants :

  • Non exécutable (rouge clair) : la règle ne peut pas être exécutée sur ces valeurs.
  • Non valide (rouge). Soit :
    • Elles remplissent la condition (if), mais ne respectent pas l'expression de validation (then) et aucune expression de validation alternative (else) n'a été définie.
    • Elles ne remplissent pas la condition (if) ni ne respectent l'expression de validation alternative (else).
  • Non applicable (vert clair) : les valeurs ne remplissent pas la condition (if) et aucune expression de validation alternative (else) n'a été définie.
  • Valide (vert) : les valeurs respectent toutes les instructions des règles.

Pour plus d'informations sur les règles de validation, consultez Utilisation de règles de validation.

Vous pouvez filtrer l'aperçu du jeu de données en cliquant sur n'importe quel segment de la barre de qualité, soit dans l'en-tête de colonne, soit dans les sections des règles et des types de données du panneau droit. Lorsque vous cliquez sur un segment coloré :

  • Un filtre est appliqué à l'aperçu actuel pour afficher uniquement les lignes correspondant à ce résultat de qualité des données (pour la colonne ou le groupe de colonnes sélectionné(e)) et pour isoler les problèmes de qualité.
  • Le filtre peut être supprimé pour revenir à l'aperçu de l'échantillon complet. Pour supprimer les filtres, cliquez sur Effacer tous les filtres.

Ce filtrage vous aide à inspecter rapidement uniquement les valeurs d'intérêt de votre jeu de données, simplifiant ainsi l'examen et l'investigation des enregistrements en fonction de leur statut de qualité des données.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.