Accéder au contenu principal Passer au contenu complémentaire

Consulter les indicateurs de qualité de vos données

La page Overview (Vue d'ensemble) vous permet d'avoir une idée générale de la qualité de votre jeu de données, mais il existe des indicateurs plus précis.

La tuile Data quality (Qualité de données) vous donne une idée de la qualité au niveau du jeu de données. Vous allez maintenant accéder à la page Sample (Échantillon) pour étudier la qualité au niveau des enregistrements.

Dans l'application, les données peuvent être classées en catégories, comme vides, valides ou invalides, par rapport au type sémantique automatiquement détecté, avec le code couleur suivant :

  • vert pour les données qui correspondent au format de la colonne,
  • rouge pour les données qui ne correspondent pas au format de la colonne,
  • noir pour les cellules vides.

Procédure

  1. Cliquez sur l'icône Sample (Échantillon) dans le menu de gauche.
    Votre jeu de données s'ouvre sous la forme d'une grille et ses 100 lignes s'affichent sous forme de tableau. Dans Talend Cloud Data Inventory, la taille maximum de l'échantillon est de 1 000 enregistrements. Par défaut, l'échantillon affiche une vue en grille de votre fichier .csv. Pour les autres formats de fichiers ou en fonction de vos préférences, l'échantillon s'affiche soit dans une vue hiérarchique, soit dans une vue brute.
    Échantillon du jeu de données.
  2. Dans l'en-tête au-dessus du jeu de données, vous pouvez trouver les mêmes diagrammes circulaires que dans la vue d'ensemble, affichant la répartition des valeurs vides, valides et non valides dans tout le jeu de données.
    En-tête au-dessus du jeu de données.
  3. Regardez les en-têtes de chacune des colonnes.
    Lorsque vous utilisez la vue tabulaire de votre jeu de données, chaque en-tête de colonne contient une barre de statistiques. Les statistiques affichées ici s'appliquent à chaque colonne spécifique.
  4. Positionnez votre curseur sur chaque couleur de la barre de statistiques de la colonne production_country pour afficher les statistiques détaillées de cette colonne.
    Placer votre souris sur la partie verte de la barre de statistiques vous permet de constater que 91 % des valeurs sont valides.
    Vous pouvez voir que cette colonne contient huit cellules ne correspondant pas au type sémantique Country, une cellule vide et 91 cellules valides. Dans la vue tabulaire, les cellules contenant des valeurs invalides sont affichées avec une bordure gauche rouge.

Résultats

Vous venez de vérifier la répartition des enregistrements vides, non valides et valides du jeu de données, ainsi que de chacune des colonnes. La plupart des colonnes contiennent au moins quelques entrées vides, mais seules les colonnes popularity, production_country et original_language ont également des valeurs non valides. Pour une de ces colonnes, la mauvaise qualité peut provenir d'un problème de type sémantique.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.