Accéder au contenu principal Passer au contenu complémentaire

Analyse de données discrètes

Cette analyse vous permet d'analyser des données numériques. Elle crée une analyse de colonne dans laquelle des indicateurs, appropriés aux données numériques, sont assignés à la colonne par défaut.

Les données discrètes peuvent seulement prendre des valeurs particulières parmi un nombre potentiellement infini de valeurs. Les données continues sont l'opposé des données discrètes.

Cette analyse utilise l'indicateur Bin Frequency que vous devez configurer pour convertir des données continues en intervalles discrets, selon vos besoins.

Avant de commencer

Au moins une connexion à une base de données doit avoir été définie dans la perspective Profiling du Studio Talend. Pour plus d'informations, consultez Se connecter à une base de données.

Définir l'analyse de données discrètes

Procédure

  1. Dans la vue DQ repository (Référentiel DQ), développez le nœud Metadata (Métadonnées) puis naviguez jusqu'à la colonne numérique à analyser.
  2. Cliquez-droit sur la colonne numérique et sélectionnez Column Analysis (Analyse de colonnes) > Discrete data Analysis (Analyse de données discrètes).
    Dans cet exemple, vous souhaitez convertir l'âge des clients en un intervalle discret, ou écart de valeurs d'âges.
    La vue Create a new analysis (Créer une analyse) s'ouvre.
  3. Dans le champ Name, saisissez un nom pour l'analyse.
    Note InformationsImportant :

    N'utilisez pas les caractères spéciaux suivants dans le nom des éléments : ~ ! ` # ^ * & \\ / ? : ; \ , . ( ) ¥ ' " « » < >

    Ces caractères seront remplacés par un "_" dans le système de fichiers et vous risquez de créer des doublons.

  4. Dans le menu Indicators (Indicateurs), double-cliquez sur l'indicateur Bin Frequency (Fréquence des intervalles). La boîte de dialogue Indicator settings (Paramètres de l'indicateur) s'ouvre.
  5. Configurez les valeurs minimale et maximale de l'intervalle et le nombre d'intervalles dans les champs correspondants.
    Si le nombre d'intervalles est configuré à 0, aucun intervalle n'est créé. L'indicateur calcule la fréquence de chaque valeur de la colonne.
  6. Cochez la case Set ranges manually.
    Les données numériques continues sont agrégées en intervalles discrets. Quatre écarts sont listés dans la table, avec la taille suggérée de l'intervalle. La valeur minimale est le début du premier intervalle et la valeur maximale est la fin du dernier intervalle. La taille de chaque intervalle est déterminée en divisant la différence entre la valeur la plus petite et la valeur la plus grande par le nombre d'intervalles.
    Vous pouvez toujours modifier ces valeurs si vous souhaitez configurer manuellement la taille d'un intervalle. La valeur dans le champ number of bins est automatiquement mise à jour avec le nouveau nombre d’écarts.
    Vue d'ensemble de la boîte de dialogue Indicator Settings (Paramètres de l'indicateur).
  7. Cliquez sur Create (Créer).

Exécuter l'analyse et accéder aux résultats détaillés de l'analyse

Procédure

  1. Exécutez l'analyse.
    L'éditeur passe à la vue des résultats d'analyse.
    Tableaux et graphiques pour les indicateurs Bin Frequency (Fréquence des intervalles) et Simple Statistics (Statistiques simples).
    L'analyse crée, à partir d'un écart de valeurs d'âges infini et continu, des écarts d'âges avec un ensemble de valeurs possibles finies et discrètes.
  2. Cliquez-droit sur une ligne de la table des résultats et sélectionnez View rows (Voir les lignes) pour accéder à la vue des données analysées.
    Vue d'ensemble des données analysées depuis la perspective Data Explorer.
    L'éditeur SQL s'ouvre et liste tous les clients dont l'âge est compris entre 28 et 39.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.