Effectuer un échantillonnage et un profiling des données
Talend Data Catalog fournit l'option de profiling et d'échantillonnage des données contenues dans les fichiers et tables au cours du processus de collecte.
Avant le processus de collecte, vous pouvez indiquer un nombre d'enregistrements à profiler et combien de ces enregistrements doivent être conservés comme échantillon pour visualisation ultérieure.
- Le profiling de données vous permet d'explorer les connaissances métier embarquées dans les données mêmes, d'améliorer la compréhension des données et de permettre leur classification. Le processus de profiling de données crée un résumé avec des statistiques et des diagrammes. Cela vous permet de savoir si les bonnes données sont disponibles avec le niveau de détail approprié.
- L'échantillonnage de données fournit des lignes d'échantillon du jeu de données.
Les informations sont disponibles lorsque vous naviguez dans la page d'objet du fichier ou de la table, ou lorsque que vous regardez des champs ou des colonnes individuels du fichier ou de la table.
Par défaut, les résultats d'échantillonnage et de profiling de données sont masqués pour la plupart des utilisateur·trices. Un rôle d'objet ayant la fonctionnalité Data Viewing (Visualisation de données) vous a été attribué pour le modèle. Vous pouvez également masquer les données d'échantillonnage et les résultats du profiling pour des modèles spécifiques.
- Totaux (totaux standards ou personnalisés, comme le nombre de lignes vides et valides),
- Valeurs (Valeurs distinctes et leurs totaux),
- Modèles (modèles et leurs totaux),
- Types de données (types de données déduits et leurs totaux).