Accéder au contenu principal Passer au contenu complémentaire

Déposer et relier les composants Spark

Vous pouvez orchestrer les composants Spark Batch dans l'espace de modélisation graphique du Job afin de créer un processus de transformation de données s'exécutant dans le framework Apache Spark Batch.

Avant de commencer

  • Vous avez démarré votre Studio Talend et ouvert la perspective Integration .

  • Un Job vide doit avoir été créé, comme décrit dans Créer un Job Spark Batch et doit être ouvert dans l'espace de modélisation graphique.

Procédure

  1. Dans le Job, saisissez le nom du composant à utiliser et sélectionnez ce composant dans la liste qui s'affiche. Dans ce scénario, les composants sont : deux tFileInputDelimited, un tMap, deux tFileOutputParquet et un tAzureFSConfiguration.
    • Les composants tFileInputDelimited sont utilisés pour charger les données des films et des cinéastes, respectivement, depuis le système de fichiers DBFS de votre plateforme Databricks Big Data dans le flux de données de votre Job.

    • Le tMap est utilisé pour transformer les données d'entrée.

    • Les composants tFileOutputParquet écrivent les résultats dans un répertoire de votre système Azure Data Lake Storage.

    • Le tAzureFSConfiguration fournit les informations nécessaires à une connexion à votre système Azure Data Lake Storage.
  2. Double-cliquez sur l'un des tFileInputDelimited pour modifier son nom, puis saisissez movie pour renommer le composant.
  3. Répétez l'opération pour nommer l'autre tFileInputDelimited director.
  4. Cliquez-droit sur le tFileInputDelimited nommé movie, et, dans le menu contextuel, sélectionnez Row > Main et cliquez sur le tMap afin de le relier au tMap. Ce lien est le lien principal à travers lequel les données des films sont envoyées au tMap.
  5. Répétez l'opération pour lier le composant director (tFileInputDelimited) au tMap, à l'aide d'un lien Row > Main. Ce lien Lookup est le lien de référence à travers lequel les données des cinéastes sont envoyées au tMap en tant que données de référence.
  6. Répétez l'opération pour relier le tMap à un des tFileOutputParquet à l'aide d'un lien Row > Main, puis dans la boîte de dialogue de l'assistant, nommez ce lien out1 et cliquez sur OK pour valider vos modifications.
  7. Répétez l'opération pour relier le tMap au second tFileOutputParquet à l'aide d'un lien Row > Main et nommez-le reject.

Résultats

Votre Job doit ressembler à ceci dans l'espace de modélisation graphique :

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.