Accéder au contenu principal Passer au contenu complémentaire

Didacticiel - Flux de données pour les débutants

Ce didacticiel présente un cas d'utilisation de préparation des données de base afin de vous familiariser avec les différentes étapes nécessaires à l'élaboration d'un flux de données, ainsi qu'avec les différentes possibilités qui vous sont offertes. Grâce au package ci-joint contenant quelques jeux de données, vous serez en mesure de reproduire toutes les étapes de ce didacticiel.

Ce scénario se concentrera sur un échantillon de données commerciales de clients dans le monde entier, avec des informations sur leurs noms, les dates et le statut des commandes, le pays d'origine, les états, les adresses, les numéros de téléphone, etc. Supposons que vous souhaitiez préparer les données de sorte qu'elles se concentrent sur les clients aux États-Unis. Vous allez isoler toutes les données sur les clients américains, ajouter les informations manquantes sur les états d'origine, modifier légèrement le formatage et exporter les données dans un nouveau fichier que vous pourrez utiliser comme source pour une application d'analyse, par exemple.

Conditions préalables requises

Téléchargez ce package et décompressez-le sur votre bureau :

Didacticiel Flux de données pour les débutants

Le package contient les fichiers de données suivants, dont vous avez besoin pour suivre le didacticiel :

  • sales_data_sample.xlsx

  • states.xlsx

Ajout des fichiers sources à votre catalogue

Avant de démarrer la création du flux de données, il faut que les deux fichiers du package soient disponibles sur la plateforme d'analyse. Pour ajouter les données sources à votre catalogue :

  1. Dans le menu du lanceur, sélectionnez Analyses > Catalogue.

  2. Cliquez sur le bouton Créer dans le coin supérieur droit et sélectionnez Jeu de données.

  3. Dans la fenêtre qui s'ouvre, cliquez sur Charger un fichier de données.

  4. Glissez-déposez les fichiers du didacticiel de votre bureau dans la zone dédiée de la fenêtre Ajouter un fichier ou cliquez sur Parcourir pour les sélectionner à partir de leur emplacement.

  5. Cliquez sur Charger.

Création du flux de données et ajout d'une source

Maintenant que les éléments sont en place, vous pouvez commencer à créer le flux de données, en commençant par la source.

  1. Dans le menu du lanceur, sélectionnez Analyses > Préparer les données.

  2. Cliquez sur la mosaïque Flux de données ou sur Créer > Flux de données.

  3. Dans la fenêtre Créer un flux de données, définissez les informations de votre flux de données comme suit et cliquez sur Créer :

    • Didacticiel Flux de données comme Nom.

    • Personnel comme Espace.

    • Flux de données pour préparer les données commerciales axées sur les clients américains comme Description.

    • Didacticiel comme Balise.

    Votre flux de données vide s'ouvre.

    Canevas vide pour un flux de données qui vient d'être créé

  4. Cliquez sur Parcourir le catalogue sur le canevas vide pour commencer à regarder les jeux de données qui ont été ajoutés à votre catalogue.

  5. Utilisez la recherche filtrée pour trouver les jeux de données sales_data_sample.xlsx et states.xlsx précédemment chargés et cochez les cases devant leur nom.

  6. Cliquez sur Suivant.

  7. Examinez les jeux de données et leurs champs dans le récapitulatif, puis cliquez sur Charger dans le flux de données.

    Les deux jeux de données sources sont ajoutés au canevas et vous pouvez commencer à préparer les données à l'aide de processeurs. sales_data_sample.xlsx est le jeu de données principal avec lequel vous travaillerez, tandis que states.xlsx sera utilisé comme données supplémentaires.

    Deux jeux de données sources pour commencer à élaborer un flux de données

Filtrage des données sur les clients américains

Vous pouvez maintenant commencer à préparer les données en leur apportant des modifications successives via des processeurs. La première étape consiste à réduire l'étendue du jeu de données et à se concentrer sur les clients basés aux États-Unis uniquement. Pour ce faire, utilisez le processeur Filtrer pour sélectionner uniquement les lignes dont le champ COUNTRY (Pays) contient la valeur USA (États-Unis).

  1. Cliquez sur le menu d'actions (Icône d'ellipse verticale) de la source sales_data_sample sur le canevas.

  2. Dans le menu qui s'ouvre, sélectionnez Ajouter un processeur > Filtrer.

    Menu de sélection de processeur pour ajouter un processeur Filtrer

    Le processeur Filtrer est placé sur le canevas, déjà connecté au nœud source.

    Note InformationsIl est également possible de glisser-déposer manuellement des processeurs à partir du panneau gauche Processeurs et de connecter les nœuds manuellement.
  3. Si le panneau n'est pas déjà ouvert, cliquez sur Propriétés dans le coin supérieur droit du canevas pour ouvrir le panneau des propriétés des processeurs, dans lequel vous pouvez configurer vos processeurs et examiner l'aperçu des données et le script.

  4. Dans le panneau des propriétés, cliquez sur l'icône Modifier (Modifier) à côté du nom du processeur pour lui donner un nom plus significatif tel que Filtre US et une brève description telle que Filtre sur les clients américains, par exemple.

  5. Dans la liste déroulante Champ à traiter, sélectionnez COUNTRY (Pays).

  6. Dans la liste déroulante Opérateur, sélectionnez =.

  7. Dans le champ Utiliser avec, sélectionnez Valeur et saisissez USA.

  8. Dans la liste Sélectionner les lignes qui correspondent, sélectionnez Tous les filtres.

    Ces paramètres sont plus utiles lorsque vous combinez plusieurs filtres.

  9. Cliquez sur Appliquer.

    La configuration du processeur est valide, mais un message Non connecté reste affiché, car le processeur n'a pas encore de flux de sortie.

  10. Cliquez sur Aperçu des données dans le panneau inférieur.

    Dans l'aperçu, vous pouvez voir que seules les lignes avec USA comme pays ont été conservées à ce stade et seront propagées dans le flux de sortie. Jusqu'à présent, votre flux de données devrait ressembler à ceci :

    Flux de données avec le processeur Filtrer configuré

Ajout des noms d'état provenant d'un autre jeu de données

Dans le cas des clients restants basés aux États-Unis, le champ STATE (État) contient l'état d'origine, mais sous la forme d'un code à deux lettres. Vous souhaitez faciliter la lecture de cette information, avec, dans l'idéal, le nom complet de l'état.

Le jeu de données states.xlsx que vous avez précédemment importé comme source contient une référence de tous les états américains avec les codes à deux lettres, ainsi que les noms complets correspondants. Vous allez effectuer une jointure entre ces deux jeux de données pour récupérer les noms des états et compléter votre flux principal.

Jeu de données de référence avec les noms des états

Note InformationsPour pouvoir faire l'objet d'une jointure, deux jeux de données doivent avoir au moins un champ commun.

Pour effectuer la jointure :

  1. Cliquez sur le menu d'actions (Icône d'ellipse verticale) du processeur Filtrer et sélectionnez Ajouter un processeur à la branche correspondante > Joindre.

  2. Remplacez le nom du processeur par Noms complets des états à l'aide de l'icône Modifier (Modifier) du panneau des propriétés.

  3. Connectez la source states au point d'ancrage inférieur du processeur Joindre. Pour créer un lien, cliquez sur le point situé à droite du nœud source, maintenez-le enfoncé et faites glisser le lien vers le point inférieur situé à gauche du nœud du processeur.

    Deux flux d'entrée convergeant vers un processeur Joindre

  4. Dans la liste déroulante Type de jointure, sélectionnez Jointure externe gauche.

  5. Dans la liste déroulante Clé de gauche, sélectionnez le champ STATE (État).

  6. Dans la liste déroulante Clé de droite, sélectionnez le champ Abréviation.

    Les deux colonnes sélectionnées contiennent les informations communes et permettent d'établir un lien entre les deux flux d'entrée. Avec une jointure externe gauche, seuls les champs supplémentaires du deuxième jeu de données sont ajoutés au flux principal.

  7. Cliquez sur Appliquer.

    Configuration du processeur Joindre pour récupérer les noms des états

    Un nouveau champ State (État) a été ajouté à la fin du jeu de données, avec le nom d'état complet de chaque client.

Renommage et déplacement de champs

Le nommage et le formatage de vos colonnes présentent un certain nombre de problèmes. STATE et State se ressemblent trop et prêtent à confusion et les deux champs sont trop éloignés l'un de l'autre. Pour améliorer la cohérence et l'uniformité de vos champs, vous pouvez utiliser le processeur Sélectionner des champs pour renommer et déplacer des champs.

  1. Cliquez sur le menu d'actions (Icône d'ellipse verticale) du processeur Joindre et sélectionnez Ajouter un processeur > Sélectionner des champs.

  2. Connectez le processeur Joindre au processeur Sélectionner des champs.

    Processeur Sélectionner des champs ajouté après la jointure

  3. Remplacez le nom du processeur par Renommer les champs des états à l'aide de l'icône Modifier (Modifier) du panneau des propriétés.

  4. Pointez votre souris sur les champs à renommer et cliquez sur l'icône ModifierModifier pour modifier les deux noms de champ comme suit :

    • STATE remplacé par STATECODE

    • State remplacé par STATENAME

  5. Utilisez l'icône = pour glisser-déposer la nouvelle colonne STATENAME à côté de STATECODE.

  6. Cliquez sur Appliquer.

    Vous avez réorganisé vos champs et le flux de données se présente maintenant comme suit :

    Configuration du processeur Sélectionner des champs

Conversion des noms des clients en majuscules

Afin de mettre en évidence les noms de famille des clients et de les distinguer plus facilement des prénoms, vous allez utiliser une fonction de formatage simple du processeur Chaînes pour mettre les noms de famille en majuscules.

  1. Cliquez sur le menu d'actions (Icône d'ellipse verticale) du processeur Sélectionner des champs et sélectionnez Ajouter un processeur > Chaînes.

  2. Connectez le processeur Sélectionner des champs au processeur Chaînes.

    Ajout d'un processeur Chaînes au flux de données

  3. Remplacez le nom du processeur par Majuscules à l'aide de l'icône Modifier (Modifier) du panneau des propriétés.

  4. Dans la liste déroulante Nom de fonction, sélectionnez Convertir en majuscules.

  5. Dans la liste déroulante Champs à traiter, sélectionnez CONTACTLASTNAME.

  6. Cliquez sur Appliquer.

    Configuration du processeur Chaînes pour modifier la casse des noms de famille

Ajout d'une cible et exécution du flux de données

Les principales étapes de préparation étant terminées, vous pouvez maintenant finaliser le flux de données en configurant la manière d'exporter les données obtenues. Dans ce scénario, vous allez exporter les données préparées sous forme de fichier .qvd stocké directement dans votre catalogue, ce qui facilitera son utilisation ultérieure dans une application analytique, par exemple.

  1. Cliquez sur le menu d'actions (Icône d'ellipse verticale) du processeur Chaînes et sélectionnez Ajouter une cible > Fichiers de données.

  2. Connectez le processeur Chaînes à la Cible des fichiers de données.

    Ajout d'un nœud cible pour exporter la préparation sous forme de fichier qvd

  3. Remplacez le nom du processeur par Cible QVD à l'aide de l'icône Modifier (Modifier) du panneau des propriétés.

  4. Dans la liste déroulante Espace, sélectionnez Personnel.

  5. Dans le champ Nom de fichier, saisissez sortie_didacticiel.

  6. Dans la liste déroulante Extension, sélectionnez .qvd.

  7. Cliquez sur Appliquer.

    Votre flux de données est maintenant complet et valide, comme le montrent le statut dans la barre d'en-tête et les coches vertes sous chacun des nœuds sources, de processeurs et cibles.

    Flux de données complet pour préparer l'échantillon de données

  8. Cliquez sur le bouton Exécuter le flux dans le coin supérieur droit de la fenêtre.

    Une fenêtre modale s'ouvre pour indiquer la progression de l'exécution.

    Fenêtre modale indiquant la progression de l'exécution

    Au bout d'un certain temps, la fenêtre se ferme et une notification s'ouvre pour vous indiquer si l'exécution s'est effectuée correctement ou non. La sortie du flux de données se trouve maintenant dans votre catalogue ou dans la section Sorties du panneau Vue d'ensemble du flux de données.

Que faire ensuite ?

Vous avez appris à importer des données sources dans votre catalogue, à élaborer un flux de données simple pour filtrer et améliorer vos données et à exporter le résultat de votre préparation sous forme de fichier prêt à l'emploi.

Pour connaître les différentes façons d'utiliser le flux de données pour vos propres cas d'utilisation, vous pouvez consulter la liste complète de Processeurs de flux de données et les fonctions proposées.

Pour savoir comment utiliser vos données préparées dans des applications analytiques, consultez Création d'analyses et visualisation des données.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !