Filtrer les tâches à l'aide des modèles
L'onglet Pattern (Modèles) de la zone de profiling de données affiche une représentation graphique du type et du nombre de caractères qui constituent vos données.
En d'autres termes, vous pourrez voir comment sont structurés les enregistrements, avec une granularité de mot ou de caractère. Il peut également être utilisé pour filtrer rapidement et simplement vos données.
Lorsque le contenu d'une colonne est sélectionné, un diagramme à barres horizontales affichera la répartition des différents modèles utilisés. Selon le type de données que vous avez sélectionné, les modèles affichés par défaut seront différents :
- Basé sur les mots, si le type de la colonne est text ou boolean.
- Basé sur les caractères si le type de la colonne est date ou number.
Quel que soit le type de données, vous pouvez passer du modèle basé sur les caractères au modèle basé sur les mots dans l'onglet Pattern.
Analyser des modèles basés sur les mots est un moyen efficace de détecter des problèmes de qualité de données dans les prénoms ou les noms de famille, par exemple. Les noms qui ne sont pas uniquement composés de mots, par exemple avec des signes de ponctuation ou des chiffres se démarquent au premier coup d’œil. Les modèles basés sur des caractères conviennent mieux aux données structurées, comme les ID clients ou les numéros de comptes. À partir du tableau, vous pouvez savoir si le nombre de caractères ou chiffres est incorrect.
Cet exemple utilise un jeu de données contenant des informations clients habituelles, comme leur nom, leur adresse e-mail, l'entreprise pour laquelle ils travaillent ou leur date de souscription.