Gestion des métadonnées au niveau du champ et profilage de données

Grâce au profilage, les administrateurs de données peuvent accéder à des informations techniques riches sur leurs jeux de données. Les développeurs d'applications utilisent les statistiques de profil et l'échantillonnage des données pour se donner des idées et définir une orientation lors de la création d'applications et de la planification de visualisations. Le profilage des champs peut aider les analystes de données et les utilisateurs métier à obtenir des informations analytiques plus rapidement. Ils peuvent afficher et visualiser les précieuses métriques de profil de champ en un clin d’œil sans avoir besoin de commencer par créer une application. Les métadonnées au niveau du champ permettent aux utilisateurs d'appliquer des alias, des descriptions et des classifications aux champs ; ces fonctions facilitent l'identification de données spécifiques et de champs sensibles.

Qlik Cloud profile uniquement jusqu'à 12 millions de lignes d'un jeu de données. Si un jeu de données dépasse 12 millions de lignes, seules les 12 millions de premières lignes sont profilées. Les métadonnées de tous les champs sont tout de même ajoutées, quel que soit le nombre de lignes profilées.

Gestion des métadonnées au niveau du champ

Vous pouvez accéder aux métadonnées et modifier les métadonnées de chaque champ de votre jeu de données depuis l'onglet Champs. Sélectionnez n'importe quelle carte en mode Sélection de l'icône Mosaïque pour un affichage en mode Mosaïque Mosaïque, n'importe quelle ligne en mode Sélection de l'icône Liste pour un affichage en mode liste Liste ou n'importe quelle colonne en mode Données pour ouvrir le panneau Détails du champ correspondant à droite de la grille. Les champs de métadonnées au niveau du champ — Alias du champ, Description, Balises et Classification— sont facultatifs et peuvent être définis et édités depuis ce panneau.

Champs de métadonnées au niveau du champ
Détail	Description
Alias du champ	Saisissez un autre nom facultatif pour rendre les noms de champ plus significatifs dans l'analyse de profil. Les noms de champ d'alias apparaissent uniquement dans l'analyse de profil et n'ont pas d'impact sur les noms de colonne techniques.
Description	Saisissez toute information susceptible d'être utile aux utilisateurs qui affichent les métadonnées d'un champ et effectuent des opérations de profilage sur le champ.
Balises	Saisissez des extraits de texte pour définir et catégoriser ce champ et ses données.
Classification	Cochez la case Informations personnelles ou Informations sensibles.

Les classifications au niveau du champ Informations personnelles et Informations sensibles sélectionnées apparaissent dans l'onglet Vue d'ensemble d'un jeu de données, répertoriées par champ sous les métadonnées de jeux de données techniques.

Les classifications appliquées aux champs dans des fichiers Excel contenant plusieurs feuilles seront répertoriées avec le nom de feuille et le nom de champ (par exemple : Informations personnelles : Sheet1/EmpID).

Sélection d'une carte de champ en mode Mosaïque pour ouvrir le panneau Détails — Métadonnées au niveau du champ d'un fichier XLSX contenant plusieurs feuilles

Profilage des données

Les statistiques de profil fournissent des analyses de colonnes qui mesurent l'incidence, les plages et les valeurs rencontrées dans les jeux de données. Ces mesures décrivent les relations entre les valeurs de champ telles que :

Le nombre de valeurs distinctes (cardinalité)
Les exemples de valeurs, les valeurs les plus courantes et la fréquence des valeurs
Les redondances permettant d'identifier les valeurs doublons potentielles ou par défaut
Le nombre de valeurs nulles, de type chaîne et numériques
Les informations sur les plages de valeurs, notamment les valeurs mini., maxi., moyenne, les sommes et les écarts types

Un catalogue fournit trois vues de données de profil de champ : Tile view, List view et Data view.

Tile view est une représentation visuelle, basée sur une carte, de champs disposés sous forme de grille.

List view est une synthèse, sous forme de tableau, de statistiques de profil configurables.

Table view répertorie les noms de colonne de champs et jusqu'aux vingt premiers enregistrements du jeu de données.

Sélectionnez l'icône Tile Sélection de l'icône Mosaïque pour un affichage en mode Mosaïque , List Sélection de l'icône Liste pour un affichage en mode liste ou Données pour passer d'une vue de profil à l'autre.

Mode Profile Tile (Mosaïque de profil)

Le mode Profile Tile (Mosaïque de profil) est un profil de champ visuel conçu pour afficher le contenu le plus informatif pour ce type de champ. Le type de carte de vue par défaut affiché est déterminé par le fait qu'il existe plus de valeurs numériques ou plus de valeurs de texte pour ce champ. Par exemple, pour les champs contenant des valeurs de texte et numériques, le type de carte Valeurs les plus courantes s'affiche par défaut s'il existe plus de valeurs de texte et le type de carte de distribution numérique Binned Frequency (Fréquence en bin) s'affiche s'il existe plus de valeurs numériques dans le champ. Une bascule déroulante vous permet de passer au type de carte Valeurs les plus courantes pour tout champ contenant des valeurs non uniques lorsque Icône Most Common Values (Valeurs les plus courantes) est sélectionné ; ou vous pouvez revenir à la carte de distribution numérique si Binned Frequency (Fréquence en bin) Icône Binned Frequency (Fréquence en bin) est sélectionné. Notez que, si le champ contient des valeurs nulles, tous les types de carte incluent le nombre de valeurs nulles.

Mode Mosaïque de profil d'un jeu de données — Mode Mosaïque : les champs sont profilés par des métriques qui sont significatives pour le type de données contenu dans ce champ (par exemple : du texte par rapport à des valeurs numériques).

Carte Exemples de valeurs

La carte Exemples de valeurs s'affiche lorsque toutes les valeurs sont uniques et uniquement des valeurs de texte. Elle répertorie (au maximum) les trois premières valeurs et le nombre total de valeurs uniques supplémentaires.

Mosaïque d'exemples de valeurs — Carte en mode Mosaïque : Exemples de valeurs

Critères du profil Exemples de valeurs : les valeurs de champ sont profilées avec cette carte lorsque la cardinalité est forte (toutes les valeurs distinctes). Dans le cas où chaque valeur est basée sur du texte et unique, quelques exemples de valeurs fournissent la meilleure vue initiale sur les données de ce type de champ.

Chaque carte de profil Exemples de valeurs fournit les éléments suivants :

Nom du champ
Cardinalité (valeurs distinctes)
Jusqu'à trois exemples de valeurs (les champs peuvent avoir moins de trois valeurs)

Carte Most common values frequency (Fréquence des valeurs les plus courantes)

La carte Most common values frequency (Fréquence des valeurs les plus courantes) affiche les cinq valeurs les plus courantes et leur fréquence. S'il existe davantage de valeurs que cinq valeurs distinctes, celles-ci sont combinées et affichées dans Autre. S'il manque des valeurs dans un champ, le total est affiché comme Null. Cette carte de profil peut être appliquée à du texte, des valeurs numériques ou des valeurs de données mixtes.

Mosaïque Most common values frequency (Fréquence des valeurs les plus courantes) — Carte en mode Mosaïque : Most Common Values Frequency (Fréquence des valeurs les plus courantes)

Critères de Most common values frequency (Fréquence des valeurs les plus courantes) : les champs contenant quelques valeurs ou une distribution de valeurs asymétrique sont profilés à l'aide de la carte Most common values frequency (Fréquence des valeurs les plus courantes). Ce profilage s'applique uniquement lorsqu'il existe plusieurs instances des mêmes valeurs. Les utilisateurs peuvent obtenir des informations rapides sur la distribution des valeurs de champ. Si les données de champ incluent du texte et des valeurs numériques et s'il existe plus de texte que de valeurs numériques, la carte Most common values frequency (Fréquence des valeurs les plus courantes) s'affiche. La bascule Binned frequency (Fréquence en bin) est fournie lorsqu'il existe plus de trois valeurs numériques dans le champ.

Chaque carte de profil Most common values frequency (Fréquence des valeurs les plus courantes) fournit les éléments suivants :

Nom du champ
Cardinalité (valeurs distinctes)
Valeurs les plus courantes et leur fréquence
Other (Autre) fréquence combinée des valeurs restantes

Carte Binned frequency (Fréquence en bin)

La carte Binned frequency (Fréquence en bin) affiche les informations de distribution et de profilage correspondant aux champs numériques ; y compris les valeurs de données minimale, moyenne et maximale. Si les données de champ incluent du texte et des valeurs numériques et s'il existe plus de valeurs numériques que de texte, la carte Binned frequency (Fréquence en bin) s'affiche. Le type de carte Most Common Values Frequency (Fréquence des valeurs les plus courantes) est disponible pour tous les champs contenant des valeurs non uniques.

Mosaïque Binned frequency (Fréquence en bin) — Carte en mode Mosaïque : distribution numérique Binned Frequency (Fréquence en bin)

Chaque carte de profil Binned frequency (Fréquence en bin) fournit les éléments suivants :

Nom du champ
Cardinalité (valeurs distinctes)
Histogramme affichant la distribution des données numériques
Valeur minimale
Valeur moyenne (somme des nombres divisée par le nombre total de valeurs dans le jeu de données)
Valeur maximale

Profile List view (Mode liste du profil)

Profile list view (Mode liste du profil) fournit une table avec des options statistiques de profil. Les utilisateurs vérifient les métriques d'intérêt les plus significatives pour le jeu de données sous le sélecteur de colonne Icône de colonnes , qui se trouve à l'extrême droite du tableau. Les neuf premières statistiques sont présélectionnées par défaut.

Mode Liste de profils d'un jeu de données — Mode liste : sélectionnez les statistiques de profil d'intérêt via le sélecteur de colonne à droite du tableau.

Champ Statistiques de profil
Statistique	Description
Name (Nom)	Nom de champ (par exemple : CategoryID)
Data type (Type de données)	Qlik Sense enregistre les données de nombreux systèmes différents. C'est pourquoi un mappage des types de données uniforme externe vers interne est appliqué sur les données de champ (colonne) à des fins d'information. Les valeurs de type de données supportées incluent : Date (Date) : date contenant le mois, le jour et l'année au format ISO 8601 AAAA-MM-JJ Time (Heure) : valeur d'heure contenant les heures, les minutes et les secondes au format ISO 8601 hh.mm.ss.sss±hh:mm Datetime (Date et heure) : valeur de date et d'heure contenant l'année, le mois, le jour, les heures, les minutes, les secondes et les fractions au format AAAA-MM-JJThh.mm.ss.sss Timestamp (Horodatage) : valeur d'horodatage contenant l'année, le mois, le jour, les heures, les minutes, les secondes, les fractions et le fuseau horaire au format AAAA-MM-JJThh.mm.ss.sssZ String (Chaîne) : données contenant des caractères représentant un texte Double (Double) : type de données numérique à virgule flottante à double précision de 64 bits IEEE 754 Decimal (Décimal) : type de données numérique exact défini par sa précision (nombre total de chiffres) et son échelle (nombre de chiffres à droite de la virgule décimale) Integer (Entier) : nombres entiers positifs ou négatifs Boolean (Booléen) : valeur booléenne (TRUE/FALSE) Binary (Binaire) : données catégoriques pouvant prendre exactement deux valeurs possibles comme "1" et "2" Custom (Personnalisé) : type en dehors des types mappés connus du système
Distinct values (Valeurs distinctes)	Cardinalité, nombre de valeurs distinctes présentes pour ce champ
Null values (Valeurs nulles)	Nombre de valeurs nulles
Sample values (Exemples de valeurs)	Exemples de valeurs (affichage de 3 exemples de valeurs)
Sum (Somme)	Somme de l'ensemble des valeurs de ce champ ("0" s'affiche pour les champs de type chaîne)
Min (Mini.)	Valeur minimale observée pour ce champ (champs numériques)
Max (Maxi.)	Valeur maximale observée pour ce champ (champs numériques)
Average (Moyenne)	Valeur moyenne observée pour ce champ
Median (Médian)	Nombre médian (ou central) de la série de nombres de ce champ
System Tags (Balises système)	Balises de fichier appliquées pour identifier l'ensemble de code (par ex., $ascii, $text)
Standard Deviation (Écart type)	Écart type des champs numériques
Positives (Positifs)	Nombre de valeurs positives
Negatives (Négatifs)	Nombre de valeurs négatives
Zero values (Valeurs zéro)	Nombre de valeurs "0"
Empty strings (Chaînes vides)	Nombre de chaînes vides
Min length (Longueur mini.)	Longueur de caractères la plus petite observée
Average length (Longueur moyenne)	Longueur de caractères moyenne observée
Max length (Longueur maxi.)	Longueur de caractères la plus grande observée
First sorted value (Première valeur triée)	Première (plus faible) valeur de tri pondéré (champs de type chaîne)
Last sorted value (Dernière valeur triée)	Dernière (plus forte) valeur de tri pondéré (champs de type chaîne)
Numeric values (Valeurs numériques)	Nombre de valeurs numériques
Text values (Valeurs de texte)	Nombre de valeurs de texte
Most frequent values (Valeurs les plus fréquentes)	Les trois valeurs les plus courantes du champ

Vue Données de profil

La vue Données de profil affiche votre jeu de données sous forme de tableau de données simple avec des noms de colonne de champs et les vingt premières valeurs (maximum).

Autorisations

Pour pouvoir profiler et échantillonner des données, il convient de disposer de certaines autorisations. Vous devez être titulaire d'un rôle dans l'espace du jeu de données vous permettant de profiler des sources de données. Pour plus d'informations, consultez Gestion des autorisations dans les espaces partagés ou Gestion des autorisations dans les espaces gérés.

Comment utiliser le catalogue de données pour profiler des données ?

En savoir plus

Comment utiliser le catalogue de données pour profiler des données ?

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici