Accéder au contenu principal

Profilage des données

Les statistiques de profil fournissent des analyses de colonnes qui mesurent l'incidence, les plages et les valeurs rencontrées dans les ensembles de données. Ces mesures décrivent les relations entre les valeurs de champ telles que :

  • Le nombre de valeurs distinctes (cardinalité)
  • Les exemples de valeurs, les valeurs les plus courantes et la fréquence des valeurs
  • Les redondances permettant d'identifier les valeurs doublons potentielles ou par défaut
  • Le nombre de valeurs nulles, de type chaîne et numériques
  • Les informations sur les plages de valeurs, notamment les valeurs mini., maxi., moyenne, les sommes et les écarts types

Grâce au profilage, les administrateurs de données peuvent accéder à des informations techniques riches sur leurs ensembles de données. Ces informations facilitent l'organisation et l'attribution des ressources et de l'accès. Les développeurs d'applications utilisent les statistiques de profil et l'échantillonnage des données pour se donner des idées et définir une orientation lors de la création d'applications et de la planification de visualisations. Le profilage des champs peut aider les analystes de données et les utilisateurs métier à obtenir des informations analytiques plus rapidement. Ils peuvent afficher et visualiser les précieuses métriques de profil de champ sans avoir besoin de commencer par créer une application.

Catalog provides two different views of field profile data: List view and Tile view. List view is a tabular summary of configurable profile statistics and Tile view is a card-based, visual representation of fields laid out as a grid. Select the Tile Select tile icon for tile view or List Select list icon for list view icon to switch between profile views.

Mode Mosaïque : les champs sont profilés par des métriques qui sont significatives pour le type de données contenu dans ce champ (par exemple : du texte par rapport à des valeurs numériques).

Mode Profile Tile (Mosaïque de profil)

Mode liste : sélectionnez des statistiques de profil intéressantes dans la liste déroulante Colonnes.

Profile List view (Mode liste du profil)

Mode Profile Tile (Mosaïque de profil)

Le mode Profile Tile (Mosaïque de profil) est un profil de champ visuel conçu pour afficher le contenu le plus informatif pour ce type de champ. Le type de carte de vue par défaut affiché est déterminé par le fait qu'il existe plus de valeurs numériques ou plus de valeurs de texte pour ce champ. Par exemple, pour les champs contenant des valeurs de texte et numériques, le type de carte Valeurs les plus courantes s'affiche par défaut s'il existe plus de valeurs de texte et le type de carte de distribution numérique Binned Frequency (Fréquence en bin) s'affiche s'il existe plus de valeurs numériques dans le champ. Une bascule déroulante vous permet de passer au type de carte Most Common Values Frequency (Fréquence des valeurs les plus courantes) pour tout champ contenant des valeurs non uniques lorsque A est sélectionné ; ou vous pouvez revenir à la carte de distribution numérique si #1 est sélectionné. Notez que, si le champ contient des valeurs nulles, tous les types de carte incluent le nombre de valeurs nulles.

Cartes en mode Mosaïque : distribution numérique Binned Frequency (Fréquence en bin), Exemples de valeurs et Most Common Values Frequency (Fréquence des valeurs les plus courantes)

Cartes de profil en mode Mosaïque

Carte Exemples de valeurs

La carte Exemples de valeurs s'affiche lorsque toutes les valeurs sont uniques et uniquement des valeurs de texte. Elle répertorie (au maximum) les trois premières valeurs.

Carte de profil Exemples de valeurs
Exemples de valeurs de carte de profil

Critères de profil Exemples de valeurs : Les valeurs de champ sont profilées avec cette carte lorsque la cardinalité est forte (toutes les valeurs distinctes). Dans le cas où chaque valeur est basée sur du texte et unique, quelques exemples de valeurs fournissent la meilleure vue initiale sur les données de ce type de champ.

Chaque carte de profil Exemples de valeurs fournit les éléments suivants : 

  • Nom de champ
  • Cardinalité
  • Jusqu'à trois exemples de valeurs (les champs peuvent avoir moins de trois valeurs)

Carte Most common values frequency (Fréquence des valeurs les plus courantes)

La carte Most common values frequency (Fréquence des valeurs les plus courantes) affiche les deux valeurs les plus courantes et leur fréquence ainsi que toutes les autres valeurs combinées sous Other (Autre) ; sauf s'il n'existe que trois valeurs, auquel cas elles sont toutes les trois affichées avec la fréquence de chacune. Cette carte de profil peut être appliquée à du texte, des valeurs numériques ou des valeurs de données mixtes.

Carte de profil Most common values frequency (Fréquence des valeurs les plus courantes) avec des valeurs de texte
Carte de profil - Most common values frequency (Fréquence des valeurs les plus courantes)
Carte de profil Most common values frequency (Fréquence des valeurs les plus courantes) avec des valeurs numériques
Carte de profil - Most common values (Valeurs les plus courantes)

Critères de Most common values frequency (Fréquence des valeurs les plus courantes) : Les champs contenant quelques valeurs ou une distribution de valeurs asymétrique sont profilés par rapport à la carte Most Common Values Frequency (Fréquence des valeurs les plus courantes). Ce profilage s'applique uniquement lorsqu'il existe plusieurs instances des mêmes valeurs. Les utilisateurs peuvent obtenir des informations rapides sur la distribution des valeurs de champ. Si les données de champ incluent du texte et des valeurs numériques et s'il existe plus de texte que de valeurs numériques, la carte Most common values frequency (Fréquence des valeurs les plus courantes) s'affiche. La bascule Binned frequency (Fréquence en bin) est fournie lorsqu'il existe plus de trois valeurs numériques dans le champ.

Chaque carte de profil Most common values frequency (Fréquence des valeurs les plus courantes) fournit les éléments suivants : 

  • Nom de champ
  • Cardinalité
  • Valeurs les plus courantes et leur fréquence
  • Other (Autre) fréquence combinée des valeurs restantes

Carte Binned frequency (Fréquence en bin)

La carte Binned frequency (Fréquence en bin) affiche les informations de distribution et de profilage correspondant aux champs numériques ; y compris les valeurs de données minimale, moyenne et maximale. Si les données de champ incluent du texte et des valeurs numériques et s'il existe plus de valeurs numériques que de texte, la carte Binned frequency (Fréquence en bin) s'affiche. Le type de carte Most Common Values Frequency (Fréquence des valeurs les plus courantes) est disponible pour tous les champs contenant des valeurs non uniques.

Carte de profil Binned frequency (Fréquence en bin)

Carte de profil - Binned frequency (Fréquence en bin)

Chaque carte de profil Binned frequency (Fréquence en bin) fournit les éléments suivants : 

  • Nom de champ
  • Cardinalité
  • Histogramme affichant la distribution des données numériques
  • Valeur minimale
  • Valeur moyenne (somme des nombres divisée par le nombre total de valeurs dans l'ensemble de données)
  • Valeur maximale

Profile List view (Mode liste du profil)

Profile list view (Mode liste du profil) fournit une table avec des options statistiques de profil. Les utilisateurs vérifient les métriques d'intérêt les plus significatives pour l'ensemble de données profilé sous Columns. Les neuf premières statistiques sont présélectionnées par défaut.

Dans l'onglet Accueil du hub, accédez à Vos données ; ou, dans Catalogue, filtrez sur Types : Données.

  1. Sélectionnez Ouvrir l'ensemble de données, puis Profil des données. Cette action ouvre la page Profil de l'ensemble de données. Sélectionnez le bouton Colonnes et cochez la case près des statistiques de profil qui vous intéressent. Ces statistiques doivent être sélectionnées (cochées) pour qu'elles puissent profiler le champ (la colonne) et apparaître dans la table. La liste suivante détaille les statistiques de profil disponibles.

    Statistiques de profil
    Statistique Description
    Name Nom de champ (par exemple : CategoryID)
    Data type

    Qlik Sense enregistre les données de nombreux systèmes différents. C'est pourquoi un mappage des types de données uniforme externe vers interne est appliqué sur les données de champ (colonne) à des fins d'information. Les valeurs de type de données prises en charge incluent :

    • Date : Date contenant le mois, le jour et l'année au format ISO 8601 AAAA-MM-JJ

    • Time : Valeur d'heure contenant les heures, les minutes et les secondes au format ISO 8601 hh.mm.ss.sss±hh:mm
    • Datetime : Valeur de date et d'heure contenant l'année, le mois, le jour, les heures, les minutes, les secondes et les fractions au format AAAA-MM-JJThh.mm.ss.sss
    • Timestamp : Valeur d'horodatage contenant l'année, le mois, le jour, les heures, les minutes, les secondes, les fractions et le fuseau horaire au format AAAA-MM-JJThh.mm.ss.sssZ
    • String : Données contenant des caractères représentant un texte
    • Double : Type de données numérique à virgule flottante à double précision de 64 bits IEEE 754
    • Decimal : Type de données numérique exact défini par sa précision (nombre total de chiffres) et son échelle (nombre de chiffres à droite de la virgule décimale)
    • Integer : Nombres entiers positifs ou négatifs
    • Boolean : Valeur booléenne (TRUE/FALSE)
    • Binary Données catégoriques pouvant prendre exactement deux valeurs possibles comme "1" et "2"
    • Custom : Type en dehors des types mappés connus du système
    Valeurs distinctes Cardinalité, nombre de valeurs distinctes présentes pour ce champ
    Exemples de valeurs Exemples de valeurs (affichage de 3 exemples de valeurs)
    Somme Somme de l'ensemble des valeurs de ce champ ("0" s'affiche pour les champs de type chaîne)
    Mini. Valeur minimale observée pour ce champ (champs numériques)
    Maxi. Valeur maximale observée pour ce champ (champs numériques)
    Moyenne Valeur moyenne observée pour ce champ
    Balises système Balises de fichier appliquées pour identifier l'ensemble de code (par ex., $ascii, $text)
    Écart type Écart type des champs numériques
    Valeurs positives Nombre de valeurs positives
    Valeurs négatives Nombre de valeurs négatives
    Valeurs zéro Nombre de valeurs "0"
    Chaînes vides Nombre de chaînes vides
    Longueur mini. Longueur de caractères la plus petite observée
    Longueur moyenne Longueur de caractères moyenne observée
    Longueur maxi. Longueur de caractères la plus grande observée
    Première valeur triée Première (plus faible) valeur de tri pondéré (champs de type chaîne)
    Dernière valeur triée Dernière (plus forte) valeur de tri pondéré (champs de type chaîne)
    Valeurs numériques Nombre de valeurs numériques
    Valeurs de texte Nombre de valeurs de texte
    Valeurs les plus fréquentes Les trois valeurs les plus courantes du champ

Données d'échantillonnage

Un échantillon de données est un sous-ensemble d'un ensemble de données de population. Il s'agit d'un outil utile pour les administrateurs de données pour s'assurer que les données sont conformes aux modèles et au format prévus. Les créateurs d'applications peuvent interpréter les champs et les données de champ dans le contexte d'autres enregistrements et de l'ensemble de données. Ces vues fournissent un premier aperçu des données ; les développeurs peuvent commencer à explorer les données à des fins d'analyse et d'exploration des corrélations éventuelles.

Sélectionnez Échantillon de données pour afficher un échantillon des 20 premières valeurs de données de chaque champ.

Exemple de moteur d'ensembles de données
  • Sélectionnez le bouton Icône de flèche de liste déroulante, puis Échantillon pour afficher un échantillon (n=20) des valeurs de données de chaque champ.

Autorisations

Pour pouvoir profiler et échantillonner des données, il convient de disposer de certaines autorisations. L'action de profilage des données effectue un mappage vers l'autorisation plus large Profiler les sources de données. Pour plus d'informations, voir Gestion des autorisations dans les espaces partagés ou Gestion des autorisations dans les espaces gérés.

  • Profiler les données > Profiler la source de données

Exemple