Accéder au contenu principal

Détails relatifs au profiling de données

Talend Data Catalog peut stocker et afficher les informations de profil de données suivantes pour les objets de tables/vues et colonnes :
Type Description
Inferred Datatypes (Types de données déduits) [type, lignes] Liste de rapprochements de types de données et leur fréquence sous forme de pourcentage, triés de la valeur la plus haute à la plus basse.

Le type de données de la colonne est détecté par le profiler. Lorsque la colonne contient des données de différents types, le profiler choisit le plus utilisé. Cette valeur peut être remplacée manuellement. Elle peut contredire le type de données déclaré par la base de données. Par exemple, si la colonne VARCHAR de la base de données ne contient que des valeurs de dates, le profiler définit le type de données comme DATE.

Les types supportés sont : Text, Date, Time, DateTime, Geographical, No Percentiles, Means, Median, Variance, Std. Deviation et Number.
Frequency (Fréquence) [valeur, lignes] Distribution de valeurs et de leur fréquence sous forme de pourcentage.
Patterns (Modèles) [modèle, lignes] Liste de différents modèles de présentation de données trouvés dans la source et de leur fréquence sous forme de pourcentage.
Data Profiling Statistics (Statistiques de profiling des données)
  • Profiling Date (Date du profiling) : date de l'exécution de profiling des données.
  • Count (Nombre) : nombre de lignes réellement profilées, qui est soit le nombre total dans la source ou la limite définie lors de la configuration des options de collecte.
  • Distinct : non distinct = total-distinct-vide. Par exemple, en présence d'un million de lignes, si la colonne n'a que dix valeurs distinctes, les données sont considérées comme distinctes.
  • Duplicate (Doublon) : lignes en doublon dans une base de données ou dans des fichiers.
  • Valid (Valide) : lignes valides dans une base de données ou dans des fichiers.
  • Empty (Vide) : lignes nulles dans une base de données ou lignes vides dans des fichiers.
  • Invalid (Non valide) : lignes invalides dans une base de données ou dans des fichiers.

    Les valeurs valides/invalides dépendent du type de données automatiquement détecté pour la colonne. Par exemple, si la première colonne est identifiée comme type de données INTEGER mais que la valeur du dernier enregistrement contient la valeur "a", qui n'est pas un INTEGER valide, cela contribue au nombre de valeurs invalides.

  • Avg length (Longueur moy.) : longueur moyenne des valeurs.
  • Min length (Longueur min.) : longueur minimale des valeurs.
  • Max length (Longueur max.) : longueur maximale des valeurs.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.