Accéder au contenu principal Passer au contenu complémentaire

Utilisation des filtres pour créer des conditions "si" sur des données clients

Le jeu de données video_customers.xlsx contient un échantillon avec plusieurs informations concernant les client·es des États-Unis d'une entreprise de streaming de vidéos. Les noms, États, âges et dates de souscription, entre autres, sont listé·es dans ce fichier.

Après avoir combiné plusieurs filtres fonctionnant comme des conditions "if", vous allez pouvoir effectuer une opération de nettoyage sur la catégorie des client·es à cibler. Dans cet exemple, vous voulez exporter un fichier ou sont isolés les clients dans la tranche d'âge 30-55 résidant dans les 5 États qui comptent le plus de clients, tout en supprimant les données inutilisables.

Téléchargez le fichier : video_customers.xlsx.

Ajout d'une préparation pour le jeu de données video customers

Ajoutez une préparation afin de commencer à préparer et nettoyer vos données.

Vous pouvez créer une préparation à partir d'un jeu de données disponible dans Talend Data Preparation ou dans l'un de vos fichiers locaux. Lorsque vous ajoutez une préparation via le bouton correspondant, elle sera créée dans le dossier dans lequel vous travaillez actuellement. De plus, votre préparation sera automatiquement sauvegardée dans la liste des préparations et toutes les modifications effectuées sur cette préparation seront également automatiquement sauvegardées.

Before you begin

Vous avez créé le jeu de données video_customers dans Talend Cloud Data Preparation en utilisant le fichier précédemment téléchargé.

Procedure

  1. Dans la page d'accueil, cliquez sur Preparations pour ouvrir la liste des préparations.
  2. Cliquez sur le bouton Add Preparation (Ajouter une préparation).
  3. Dans la liste Datasets (Jeux de données), sélectionnez video_customers pour l'utiliser comme matériel source.
    Fenêtre Add a preparation (Ajouter une préparation) avec la liste des jeux de données disponibles pour la création d'une préparation, notamment video_customers.
    Le champ Preparation name (Nom de la préparation) est automatiquement renseigné mais vous pouvez modifier le nom de la préparation.
  4. Cliquez sur Submit.

Results

Votre jeu de données s'ouvre, avec une recette vide. Toutes vos modifications sont automatiquement sauvegardées.

Suppression des enregistrements vides et invalides

La barre de statistiques indique si une colonne contient des enregistrements vides ou invalides.

Colonnes de la grille ayant une barre de statistiques indiquant des cellules invalides ou vides.

Dans la barre de statistiques, les données qui correspondent au type de la colonne apparaissent en vert, tandis que les données invalides, qui ne correspondent pas au type de la colonne apparaissent en rouge. Les enregistrements vides sont représentés en gris.

Puisque vous souhaitez mettre l'accent sur les clients appartenant à une certaine tranche d'âge et provenant de certains États, des données vides ou invalides dans les colonnes correspondantes vous seraient inutiles. Vous allez donc simplement supprimer les enregistrement vides des colonnes age et state, ainsi que supprimer les enregistrements invalides de votre jeu de données.

Procedure

  1. Cliquez sur l'icône de menu dans la partie supérieure gauche de la grille et choisissez Display rows with invalid or empty values (Afficher les lignes ayant des valeurs invalides ou vides).
    Options de filtre pour les lignes vides et invalides dans le jeu de données entier.

    Vous pouvez constater que cette action crée un filtre sur vos données, et que seules les lignes de votre jeu de données avec des enregistrements vides ou invalides sont maintenant affichées. Vous pouvez voir tous les filtres appliqués sur vos données en haut de la grille.

    De plus, vous pouvez voir qu'une nouvelle option est disponible au bas du panneau des fonctions. En effet, lorsqu'un filtre ou une condition est appliqué·e, vous pouvez choisir d'appliquer les fonctions sur les données complètes ou uniquement sur les données filtrées. C'est de cette manière que vous pouvez utiliser des conditions avec Talend Cloud Data Preparation.

    Maintenant que ce premier filtre est actif sur votre jeux de données, vous allez supprimer de manière spécifique les enregistrements vides des colonnes age et state.

  2. Cliquez sur la partie grise de la barre de statistiques dans l'en-tête de la colonne age.
  3. Dans le menu qui s'ouvre, cliquez sur Delete the rows with empty cells (Supprimer les lignes ayant une cellule vide).

    Maintenant que ces enregistrements vides on été supprimés, la colonne age ne contient plus que des données valides, comme vous pouvez le voir dans la barre de statistiques.

  4. Répétez la même opération pour la colonne state.

    Comme révélé par la condition active, les autres colonnes de votre jeu de données contiennent des valeurs vides, mais comme vous vous concentrez sur l'âge et l'emplacement, vous pouvez les laisser inchangées. En revanche, vous allez supprimer les données invalides de la colonne phone number, qui peut être utilisée à des fins marketing.

  5. Cliquez sur la partie rouge de la barre de statistiques de la colonne phone number et sélectionnez Delete the rows with invalid cell (Supprimer les lignes contenant une cellule invalide).

    Toutes les données qui étaient considérées invalides sont maintenant supprimées.

  6. Dans la barre de filtre, cliquez sur l'icône représentant une poubelle pour annuler le filtre et afficher à nouveau le jeu de données complet.

Results

Les lignes contenant des valeurs vides ou invalides dans les colonnes age, state et phone numbers ont été supprimées. Maintenant que le jeu de données est un peu plus propre, vous pouvez commencer à mettre l'accent sur les données à isoler.

Création de filtres sur les âges et les États

Créer un filtre est un moyen rapide d'identifier ou isoler des données.

Vous allez encore une fois utiliser les filtres pour isoler les données les plus pertinentes dans cet exemple, à savoir l'âge et l'emplacement de vos client·es. La zone de profiling de données, en bas à droite de l'interface vous permet d'interagir avec les diagrammes illustrant les données des colonnes age et state et de sélectionner un intervalle spécifique de dates.

Procedure

  1. Cliquez sur l'en-tête de la colonne age pour sélectionner son contenu.

    Dans la zone de profiling de données, en bas à droite de l'écran, vous pouvez voir un diagramme à barres verticales affichant le nombre d'occurrences de chaque valeur listée dans la colonne.

    Diagramme à barres affichant la répartition des valeurs dans la colonne age.

    Vous constatez que la valeur minimale pour l'âge est de 18 et que la valeur maximale est de 80.

  2. Pour limiter les valeurs des âges affichés dans la grille et créer un filtre sur l'intervalle 30-55, vous pouvez :
    • glisser les deux extrémités du curseur afin de sélectionner les valeurs minimale et maximale à afficher,
      Diagramme à barres affichant la répartition des valeurs dans la colonne age, filtrées pour n'afficher que les valeurs entre 30 et 55.
    • saisir 30 comme valeur minimale et 55 comme valeur maximale, directement dans les champs dédiés.

    Vous pouvez constater qu'un nouveau filtre a été appliqué sur le jeu de données. Les données client·es sont affichées uniquement si elles correspondent aux conditions spécifiées de l'intervalle d'âge 30-55.

    Un filtre est appliqué, pour n'afficher que les valeurs de la colonne age dont la valeur est comprise entre 30 et 55.

    Les filtres peuvent être créés manuellement en saisissant des valeurs dans la zone de texte de la barre de filtre, mais les diagrammes sont un moyen rapide et pratique d'appliquer des filtres sur vos données, pour une colonne ou pour plusieurs à la fois.

    Maintenant que vous avez une vision d'un groupe d'âge spécifique, vous allez ajouter un second filtre. Les filtres peuvent être combinés de bien des façons. Ici, choisissez d'afficher les cinq États ayant le plus grand nombre de clients.

  3. Cliquez sur l'en-tête de la colonne state pour sélectionner son contenu.

    Cette fois, les données sont affichées sous la forme d'un diagramme à barres horizontales dans la zone de profiling.

    Diagramme à barres affichant la répartition des valeurs dans la colonne state.
  4. Pour créer un filtre sur les cinq États avec le plus de clients, maintenez la touche Maj enfoncée et cliquez sur California, Texas, Florida, New York et Virginia.
    Diagramme à barres affichant la répartition des valeurs dans la colonne state, avec un filtre sur cinq États.

    Comme vous pouvez le voir dans la barre de filtre, le filtre est appliqué par-dessus le premier. Seules les données correspondant aux deux filtres sont affichées dans la grille.

    Deux filtres sont appliqués, pour n'afficher que les valeurs des colonnes age et state .
  5. Pour supprimer les données qui ne sont plus utilisées, et ne garder que cet échantillon, cliquez sur la fonction Keep these filtered rows (Conserver ces lignes filtrées) dans le panneau des fonctions.

    Cette fonction est disponible uniquement lorsque l'option Apply changes to: Filtered rows est activée.

  6. Dans la barre de filtres, cliquez sur l'icône représentant une poubelle ou cliquez sur la croix de chaque filtre pour annuler les filtres.

Results

Votre échantillon affiche à présent une liste restreinte de client·es, correspondant aux conditions définies.

Exporter les données pour un périmètre de clients spécifique

Maintenant que les données sur lesquelles vous vouliez vous concentrer ont été isolées et nettoyées, vous pouvez les exporter en tant que fichier local.

Grâce à l'utilisation de filtres, vous avez pu appliquer des actions de manière conditionnée sur vos données. Seules les données concernant les clients de 35 à 50 ans dans certains États ont été conservées. Le jeu de données préparé est prêt à être exporté.

Procedure

  1. Cliquez sur le bouton Export (Exporter).
  2. Choisissez le format de fichier à utiliser pour exporter vos données.
    • Si vous choisissez Local CSV file, choisissez le séparateur, ainsi que les caractères d'échappement et d'entourage du texte à utiliser et saisissez un nom pour le fichier à exporter.
    • Si vous choisissez Local XLSX file (Fichier XLSX local), choisissez un nom pour le fichier à exporter.
    • Si vous choisissez Amazon S3, saisissez vos identifiants et autres informations afin de stocker votre fichier sur Amazon S3.

Results

Les données nettoyées à l'aide de votre préparation sont exportées dans un fichier local.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.