Accéder au contenu principal Passer au contenu complémentaire

Qualité des données et découverte de données

Après avoir ouvert un ensemble de données, vous pouvez consulter plusieurs sections de la vue d'ensemble pour en savoir plus sur sa qualité générale, son schéma, les statistiques de qualité et les types sémantiques de chaque colonne.

Note AvertissementLes fonctions de qualité des données et relatives aux types sémantiques sont disponibles uniquement pour les ensembles de données Snowflake pour le moment. Les ensembles de données enregistrés provenant d'autres sources que Snowflake sont parfaitement utilisables pour des produits de données, mais ils n'afficheront pas de métriques de qualité dans leur vue d'ensemble.

Indicateurs de qualité de l'ensemble de données

Lorsque vous ouvrez la vue d'ensemble d'un ensemble de données qui vient d'être enregistré, la plupart des informations sont grisées. Pour calculer la qualité des données pour la première fois, cliquez sur le bouton Calculer. Si la qualité des données a déjà été calculée une fois auparavant, mais que vous souhaitez vous assurer que les données sont à jour, cliquez sur Actualiser.

Chaque opération de calcul ou d'actualisation vous coûtera des crédits Snowflake. Pour plus d'informations, consultez Qualité des données des ensembles de données Snowflake.

Il existe deux principales sections dans lesquelles la qualité est affichée.

  • La section Qualité des données, qui inclut :

    • La répartition des valeurs valides, non valides et vides dans l'ensemble de données tout entier sous la forme d'une barre de qualité avec trois couleurs et leurs pourcentages respectifs.

    • Un score de Validité exprimant le pourcentage de valeurs valides sans tenir compte des valeurs vides.

    • Un score de Complétude exprimant le pourcentage de valeurs qui ne sont pas vides.

  • La section Schéma, qui indique les différents champs de l'ensemble de données, le type de données ou le type sémantique appliqué et une barre de qualité pour chaque champ de l'ensemble de données.

Note ConseilSi la récupération du schéma et de la qualité de l'ensemble de données échoue, vérifiez que la connexion que vous avez configurée dans le hub Services d'analyse Qlik comporte le champ Rôle correctement renseigné ou que le rôle lui-même accorde les autorisations nécessaires sur la table de base de données.

Découverte des types sémantiques

À chaque champ d'un ensemble de données est automatiquement attribué un type sémantique pour mieux décrire son contenu. En arrière-plan, une opération de découverte des données est effectuée pour déterminer le type à attribuer.

La découverte de données calcule combien de valeurs d'une colonne correspondent à chaque type sémantique et, si le résultat est supérieur à 40 %, elle attribue le type sémantique à la colonne.

Comment le pourcentage est-il calculé ?

Ce pourcentage est la somme de deux pourcentages :

  • Un pourcentage représente le nombre de valeurs correspondant au type sémantique ; jusqu'à 100 % alloués. Pour déterminer si une valeur correspond à un type sémantique, la découverte de données dépend du type sémantique :

    • Dictionnaire : la valeur correspond-elle à une valeur du dictionnaire ? La ponctuation, la casse, les espaces et les accents sont ignorés.

    • Expression régulière : la valeur correspond-elle à l'expression régulière ?

    • Composé : la valeur est-elle découverte dans au moins un enfant ?

      Un type composé est un groupe de types sémantiques existants, appelés enfants.

    Si la réponse est positive, la valeur est considérée comme valide.

  • L'autre pourcentage représente la similarité entre le nom de colonne et le nom du type sémantique ; jusqu'à 10 % alloués.

    Pour comparer les noms :

    • C'est l'algorithme de Levenshtein qui est utilisé. Il calcule le nombre minimal de modifications (insertions, suppressions ou substitutions) nécessaires à la transformation d'une chaîne de caractères en une autre.

    • La casse et les accents sont ignorés.

    • Si les chaînes contiennent des espaces, l'ordre des termes est ignoré. Par exemple, les chaînes US Phone et Phone US sont considérées comme identiques.

    Le pourcentage maximal est de 100 %. Si toutes les valeurs correspondent à un type sémantique et que le nom de colonne est identique au nom du type sémantique, le résultat reste de 100 %.

Découverte des types de données

Au lieu de types sémantiques, des types de données natifs peuvent également être attribués. Si aucun type sémantique n'obtient plus de 40 %, la découverte de données attribue automatiquement un type de données.

Pour déterminer le type d'une valeur, la découverte de données suit un ordre :

  1. La valeur est-elle vide ?

  2. La valeur du type est-elle boolean (booléen) ? true et false sont les seules valeurs considérées comme type boolean (booléen).

  3. La valeur est-elle de type entière ?

  4. La valeur est-elle de type décimale ?

  5. La valeur est-elle de type date ?

  6. Si la valeur n'est d'aucun des types susmentionnés, elle est considérée comme une valeur textuelle.

Étant donné que la vérification est incrémentielle, une valeur est d'un seul type. Par exemple, la valeur 5 est de type entière. Elle ne sera pas considérée comme de type textuelle.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !