Évaluation de la qualité des données
Après avoir ouvert un jeu de données, vous pouvez consulter plusieurs sections de la vue d'ensemble pour en savoir plus sur sa qualité générale, son schéma, les statistiques de qualité et les types sémantiques de chaque colonne.
Indicateurs de qualité du jeu de données
Lorsque vous ouvrez la vue d'ensemble d'un jeu de données qui vient d'être enregistré, la plupart des informations sont grisées. Pour calculer la qualité des données pour la première fois, cliquez sur le bouton Calculer. Si la qualité des données a déjà été calculée une fois auparavant, mais que vous souhaitez vous assurer que les données sont à jour, cliquez sur Actualiser.
Chaque calcul ou actualisation en mode pushdown entraînera des coûts dans votre entrepôt de données cloud (Snowflake ou Databricks). Pour plus d'informations, consultez Qualité des données des jeux de données basés sur des connexions.
Il existe deux principales sections dans lesquelles la qualité est affichée.
-
La section Qualité des données, qui inclut :
-
La répartition des valeurs valides, non valides et vides dans le jeu de données tout entier sous la forme d'une barre de qualité avec trois couleurs et leurs pourcentages respectifs.
-
Un score de Validité exprimant le pourcentage de valeurs valides sans tenir compte des valeurs vides.
-
Un score de Complétude exprimant le pourcentage de valeurs qui ne sont pas vides.
-
-
La section Schéma, qui indique les différents champs du jeu de données, le type de données ou le type sémantique appliqué et une barre de qualité pour chaque champ du jeu de données.
Découverte des types sémantiques
À chaque colonne d'un jeu de données est automatiquement affecté un type sémantique pour mieux décrire son contenu. En arrière-plan, une opération de découverte des données est effectuée pour déterminer le type à attribuer.
Vous pouvez également créer des types sémantiques et gérer les valeurs de chaque type sémantique.
Pour plus d'informations, consultez Gérer les types sémantiques.