Section relative au profiling de données
Onglet Chart (Diagramme)
L'onglet Chart (Diagramme) affiche une représentation graphique de vos données. Il peut également être utilisé pour filtrer rapidement et simplement vos données.
Selon le type de données ou le type sémantique sélectionné, la représentation graphique de la distribution des valeurs dans l'onglet est différente :
- des diagrammes à barres verticales pour les données numériques
- des diagrammes à barres horizontales pour les données textuelles
- une carte mondiale Continent et Continent Code, Country, Country Code ISO2 et Country Code ISO3
- une carte d'Amérique du Nord pour North American state et North American state code
- une carte des États-Unis pour US State et US State Code
- une cate du Mexique pour MX Estado et MX Estado Code
- une carte du Canada pour CA Province Territory et CA Province Territory Code
- une carte de France pour FR Departement, FR Region et FR Region Legacy
Pour plus d'informations et d'exemples, consultez Filtrage de valeurs à l'aide de diagrammes.
Onglet Value (Valeur)
- Count (Nombre) : nombre de valeurs dans la colonne
- Distinct (Distinctes) : nombre de valeurs différentes dans la colonne
- Duplicate (Doublons) : nombre de valeurs identiques dans la colonne
- Valid (Valides) : nombre de valeurs valides dans la colonne
- Empty (Vides) : nombre d'enregistrements vides dans la colonne
- Invalid (Invalides) : nombre de valeurs invalides dans la colonne
- Avg length (Longueur moy) : longueur moyenne des valeurs chaînes de caractères basée sur le nombre de caractères dans les enregistrements de la colonne
- Min length (Longueur min) : longueur minimale des valeurs chaînes de caractères basée sur le nombre de caractères dans les enregistrements de la colonne
- Max length (Longueur max) : longueur maximale des valeurs chaînes de caractères basée sur le nombre de caractères dans les enregistrements de la colonne
- Min : valeur la plus basse de la colonne
- Max : valeur la plus haute de la colonne
- Mean (Moyenne) : valeur moyenne de la colonne
- Variance : distribution des valeurs par rapport à la valeur moyenne Définie mathématiquement comme la moyenne des différences au carré de la valeur moyenne.
L'onglet Pattern (Modèle)
En d'autres termes, vous pourrez voir comment sont structurés les enregistrements, avec une granularité de mot ou de caractère. Il peut également être utilisé pour filtrer rapidement et simplement vos données.
Lorsque le contenu d'une colonne est sélectionné, un diagramme à barres horizontales affichera la répartition des différents modèles utilisés. Selon le type de données que vous avez sélectionné, les modèles affichés par défaut seront différents :
- Basé sur les mots, si le type de la colonne est text ou boolean.
- Basé sur les caractères si le type de la colonne est date ou number.
Quel que soit le type de données, vous pouvez passer du modèle basé sur les caractères au modèle basé sur les mots dans l'onglet Pattern.
Analyser des modèles basés sur les mots est un moyen efficace de détecter des problèmes de qualité de données dans les prénoms ou les noms de famille, par exemple. Les noms qui ne sont pas uniquement composés de mots, par exemple avec des signes de ponctuation ou des chiffres se démarquent au premier coup d’œil. Les modèles basés sur des caractères conviennent mieux aux données structurées, comme les ID clients ou les numéros de comptes. À partir du tableau, vous pouvez savoir si le nombre de caractères ou chiffres est incorrect.
Pour plus d'informations et d'exemples, consultez Filtrer les tâches à l'aide des modèles.
Onglet Advanced (Avancé)
- Maximum : valeur la plus haute des enregistrements de la colonne
- Minimum : valeur la plus basse des enregistrements de la colonne
- Mean (Moyenne) : valeur moyenne des enregistrements de la colonne
- Median (Médiane) : valeur médiane des enregistrements de la colonne
- Upper quartile (Quartile supérieur) : valeur médiane comprise entre la valeur médiane et la valeur la plus haute (maximale) des enregistrements de la colonne
- Lower quartile (Quartile inférieur) : valeur médiane comprise entre la valeur la plus basse (minimale) et la valeur médiane des enregistrements de la colonne