Élaboration d'un flux de données

Création d'un flux de données

Commencez par créer un nouveau flux de données.

Dans le menu du lanceur, sélectionnez Analyses > Créer ou Analyses > Préparer les données.
Cliquez sur Flux de données.

La boîte de dialogue Créer un flux de données s'ouvre.
Dans le champ correspondant, saisissez un Nom pour votre flux de données.
Dans la liste déroulante correspondante, sélectionnez l'Espace dans lequel enregistrer le flux de données.
Ajoutez une Description pour documenter l'objectif du flux de données.
Ajoutez des Balises au flux de données pour qu'il soit plus facile à trouver.
Vous pouvez cocher la case Ouvrir le flux de données pour afficher directement le flux de données après sa création.
Cliquez sur Créer.

Votre flux de données vide s'ouvre et vous accédez à l'onglet Vue d'ensemble de l'en-tête de navigation. Vous pouvez également retrouver ultérieurement le nouveau flux de données sur la page Analyses > Accueil de Qlik Cloud.

Pour plus d'informations sur ce que vous pouvez trouver dans la vue d'ensemble de votre flux de données, consultez Navigation dans des flux de données.

Pour commencer à concevoir votre flux de données, accédez à l'onglet Éditeur de l'en-tête de navigation.

Sélection d'une source

Le premier bloc de construction de votre flux de données est la source qui contient les données à préparer. Vous pouvez utiliser n'importe quelle donnée de votre catalogue ou d'une connexion.

Ajout de données provenant d'un jeu de données

Les jeux de données stockés dans votre catalogue peuvent être basés sur des fichiers (.qvd, .xls, .csv, .parquet, .json, etc.) ou des tables provenant de bases de données et d'entrepôts de données. Consultez Formats de fichier pour obtenir la liste des formats supportés.

Les jeux de données créés dans Qlik Talend Data Integration dans le cadre d'un projet de données peuvent également être utilisés pour créer des flux de données.

Pour sélectionner un jeu de données comme source pour votre flux de données :

Dans l'onglet Sources du panneau gauche, faites glisser une source Jeux de données et déposez-la sur le canevas.

La fenêtre Catalogue de données s'ouvre. Vous pouvez y rechercher des jeux de données précédemment chargés ou cliquer sur Charger un fichier de données pour rechercher des fichiers sur votre ordinateur et les charger à la volée.

Note AvertissementLorsque vous chargez des fichiers volumineux de plus de 300 Mo, cela peut prendre un certain temps. Ne fermez pas la fenêtre ; la progression est indiquée par une boucle qui peut sembler vide au début.
Sélectionnez les données à charger.
- Pour charger toutes les données d'un jeu de données ou d'un produit de données, cochez la case correspondant à cette ligne.
- Pour charger certains jeux de données d'un produit de données, cliquez sur la flèche près du nom du produit de données. Sélectionnez les jeux de données à charger.
- Pour charger certaines tables ou certains champs d'un jeu de données, cliquez sur Afficher les champs près du nom du jeu de données. Sélectionnez les champs des tables que vous souhaitez charger.
- Pour charger des fichiers depuis votre ordinateur, cliquez sur Charger le fichier pour parcourir les fichiers sur votre ordinateur et les ajouter à la liste des jeux de données disponibles.
Note InformationsVous pouvez filtrer les données par type (jeux de données ou produits de données). Les produits de données ne sont disponibles que dans certaines souscriptions. Pour plus d'informations, consultez Utilisation de produits de données.
En utilisant la recherche et les filtres, cochez la case devant un ou plusieurs jeux de données de votre liste et cliquez sur Suivant.

Lorsque vous sélectionnez un jeu de données ajouté à partir d'une connexion dans le catalogue et que plusieurs connexions correspondent, vous pouvez utiliser une liste déroulante pour sélectionner la connexion spécifique à utiliser.
Dans l'onglet Récapitulatif, vous pouvez passer en revue les jeux de données que vous avez sélectionnés, vérifier les champs qu'ils contiennent et en exclure certains si vous le souhaitez. Cliquez sur Charger dans le flux de données.

La ou les sources sont ajoutées au canevas, avec un avertissement indiquant que vous devez les connecter à d'autres nœuds.

Une fois qu'une source est placée sur le canevas, vous pouvez cliquer dessus et accéder au panneau Propriétés pour modifier les champs sélectionnés, si nécessaire, par exemple, si le schéma de la source a été mis à jour.

Chargement et configuration d'un fichier csv

Si vous utilisez comme source un jeu de données sous forme de fichier csv, préalablement chargé dans votre catalogue ou directement chargé au cours du processus, et si les données ne s'affichent pas correctement dans l'aperçu, cela peut signifier que le fichier n'est pas correctement formaté.

Par exemple, ces données client qui utilisent une virgule comme séparateur s'affichent dans une seule colonne.

Données séparées par des virgules affichées de manière erronée dans une seule colonne

Le fichier a été mal formaté ou le séparateur n'a pas été correctement détecté lors du chargement. Pour résoudre ce problème, vous devez accéder aux paramètres du jeu de données.

Dans le menu du lanceur, sélectionnez Analyses > Catalogue.
Ouvrez le jeu de données à réparer.

Dans la vue d'ensemble du jeu de données, vous pouvez voir un avertissement indiquant qu'il existe une possible erreur de formatage.
Cliquez sur le lien vers les Paramètres de format de fichier du message d'avertissement ou utilisez le menu Autres actions dans le coin supérieur droit de la vue d'ensemble.

Vous pouvez voir que le délimiteur a été défini à tort comme étant un Point-virgule.
Dans la liste déroulante Délimiteur, sélectionnez Virgule.

Maintenant que le délimiteur prévu est correctement sélectionné, l'aperçu affiche correctement les différents champs.
Cliquez sur Enregistrer.
De retour dans votre flux de données, supprimez la source obsolète, si le canevas n'était pas vide, et ajoutez de nouveau la source. Cette fois, la source reflétera la bonne configuration du jeu de données.

Ajout de données provenant d'une connexion

Qlik Cloud et les flux de données supportent une grande variété de connexions à des sources de données. Pour plus d'informations, consultez la Liste des sources de données supportées.

Les seuls types de connexion qui ne sont actuellement pas supportés sont les suivants :

AI21 Labs (Amazon Bedrock), Advanced Analytics, Amazon Comprehend, Amazon SageMaker, Amazon Titan (Amazon Bedrock), Anthropic (Amazon Bedrock), Azure ML, Azure OpenAI, Cohere (Amazon Bedrock, DataRobot, Databricks MLflow, Google Ads, Google Calendar, Hugging Face, Meta (Amazon Bedrock), MeaningCloud, OData, OpenAI, Qlik Predict, Qlik Big Data Index (QBDI), Qlik GeoOperations, Qlik GeoOperations GeoJSON, Qlik GeoOperations Shapefile, Sentiment140, SMTP, Watson Natural Language Understanding, YouTube Analytics.

Pour sélectionner une connexion comme source pour votre flux de données :

Dans l'onglet Sources du panneau gauche, faites glisser une source Connexions et déposez-la sur le canevas.

La fenêtre Sélectionner une connexion s'ouvre. Vous pouvez y rechercher des connexions précédemment créées ou cliquer sur Créer une connexion pour en définir une nouvelle à la volée après l'authentification.
En utilisant la recherche et les filtres, cochez la case devant une connexion de votre liste et cliquez sur Suivant.
Suivant la connexion, vous pourrez parcourir des fichiers, saisir un chemin d'accès à vos données ou sélectionner des tables dans une base de données.
Après avoir sélectionné les données sources, cliquez sur Enregistrer ou sur Terminer.

La source est ajoutée au canevas, avec un avertissement indiquant que vous devez la connecter à un autre nœud.

Ajout de processeurs

Les processeurs sont les blocs de construction qui contiennent les différentes fonctions de préparation disponibles dans un flux de données. Ils reçoivent les données entrantes et renvoient les données préparées à l'étape suivante du flux. Les processeurs vous permettent d'effectuer des opérations complexes d'extraction, d'amélioration et de nettoyage sur des données variées, avec un aperçu en temps réel. Consultez la Processeurs de flux de données complète pour plus d'informations sur les fonctions disponibles.

Pour connecter un premier processeur à votre source de données :

Vous pouvez effectuer l'une des opérations suivantes :
- Dans l'onglet Processeurs du panneau gauche, faites glisser le processeur de votre choix et déposez-le sur le canevas à côté de votre source.
  
  Vous devrez connecter manuellement la source et le processeur. Créez un lien en cliquant sur le point situé à droite du nœud source, en le maintenant enfoncé et en faisant glisser le lien vers le point situé à gauche du nœud du processeur.
- Cliquez sur le menu d'actions de la source, sélectionnez Ajouter un processeur et cliquez sur le processeur de votre choix.
  
  Le processeur est placé sur le canevas et automatiquement connecté à la source.
Cliquez sur le processeur pour commencer à le configurer dans le panneau droit.

Les différentes fonctions disponibles et les paramètres à configurer dépendent de chaque processeur. Pour plus d'informations, consultez la documentation du processeur en question.
Cliquez sur Enregistrer.
Ajoutez et connectez autant de processeurs que nécessaire pour préparer vos données.

Activez le bouton bascule Aperçu des données du panneau Aperçu pour voir les effets d'un processeur sur un échantillon de vos données. Cliquez sur l'icône en forme de roue dentée pour ouvrir les Paramètres d'aperçu et configurez la taille d'échantillon sur 10 000 lignes maximum. Vous pouvez également activer le bouton bascule Script pour consulter l'équivalent Script Qlik de votre flux de données à ce stade.

Sélection d'une cible

Pour terminer le flux de données, vous devez connecter le dernier processeur à un nœud cible. Vous avez le choix entre deux types de cible :

Fichiers de données pour les fichiers stockés dans votre catalogue dans Qlik Cloud.
Connexions pour écrire dans une source externe ajoutée sous forme de connexion dans Qlik Cloud.

Les deux options vous permettent d'exporter les données préparées sous forme de fichier .qvd, .parquet, .txt ou .csv.

Pour connecter une cible au reste du flux :

Vous pouvez effectuer l'une des opérations suivantes :
- Dans l'onglet Cibles du panneau gauche, faites glisser le type de cible de votre choix et déposez-le sur le canevas à côté du dernier processeur.
  
  Connectez manuellement le dernier processeur à la cible de la même manière que vous avez précédemment connecté d'autres processeurs.
- Cliquez sur le menu d'actions du dernier processeur, sélectionnez Ajouter une cible et cliquez sur la cible de votre choix.
Cliquez sur la cible pour commencer à la configurer dans le panneau droit.

Note InformationsDans le cas de Fichiers de données, vous pouvez écrire dans un dossier spécifique de l'espace souhaité. Si vous avez créé un dossier appelé nom_de_dossier dans votre espace personnel, par exemple, utilisez nom_de_dossier/sortie_de_flux_de_données.qvd comme nom de fichier pour votre cible. Le fichier obtenu sera directement envoyé dans votre dossier.
Cliquez sur Enregistrer.

Avec un minimum d'une source, d'une cible et d'un processeur en option, le flux de données peut maintenant être exécuté.

Exécution du flux de données

Lorsque tous les nœuds de votre flux de données sont connectés, configurés et marqués comme OK, une coche verte indique que le flux de données est considéré comme valide et peut être exécuté. À ce stade, il est possible d'utiliser le bouton Aperçu du script dans le coin supérieur droit du canevas pour afficher le script complet qui sera généré en arrière-plan.

Flux de données valide prêt à être exécuté

Cliquez sur Exécuter le flux pour démarrer le traitement des données.

Une notification s'ouvre pour indiquer le statut de l'exécution.
Lorsque le flux se termine correctement, les données préparées qui ont été produites peuvent être placées à différents endroits suivant la cible :
- Dans votre Catalogue, parmi vos autres ressources, et dans la section Sorties de la Vue d'ensemble du flux de données pour les fichiers de données.
- Dans la section Sorties de la Vue d'ensemble du flux de données pour les jeux de données basés sur une connexion.
  
  Si le flux échoue, vous pouvez ouvrir le journal d'exécution pour vous aider à identifier ce qui n'a pas fonctionné.

Vous pouvez maintenant utiliser ces données préparées comme source propre pour alimenter une expérimentation Qlik Predict ou les utiliser dans une application de visualisation.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici