Accéder au contenu principal Passer au contenu complémentaire

Définir les paramètres de connexion des scripts Spark-submit avec Spark Universal

Le mode Spark-submit des scripts vous permet de tirer parti d'un cluster HPE Ezmeral Data Fabric v9.1.x pour exécuter vos Jobs Spark Batch.

Pour plus d'informations concernant HPE Data Fabric, consultez sa documentation (en anglais).

Vous pouvez également utiliser ce mode avec d'autres clusters. Cela est possible car les scripts Spark-submit sont conçus pour fonctionner avec tous les gestionnaires de clusters supportés par Spark, comme vous pouvez le constater dans la documentation Spark cluster managers (en anglais).

Procédure

  1. Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
  2. Sélectionnez Built-in dans la liste déroulante Property type.
    Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
    Note InformationsConseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
  3. Sélectionnez Universal dans la liste déroulante Distribution, la version Spark de votre choix dans la liste déroulante Version et Spark-submit scripts (Scripts spark-submit) dans la liste déroulante Runtime mode/environment (Mode/environnement du Runtime).
  4. Spécifiez le chemin d'accès au répertoire du cluster dans lequel sont stockés les scripts Spark-submit, par exemple /opt/mapr/spark/spark-3.3.2.
  5. Si vous devez exécuter votre Job Spark sur Windows, spécifiez l'emplacement du programme winutils.exe à utiliser :
    • Si vous savez où se trouve le fichier winutils.exe et que vous souhaitez l'utiliser, cochez la case Define the Hadoop home directory et saisissez le répertoire dans lequel est stocké winutils.exe.

    • Sinon, laissez la case Define the Hadoop home directory décochée, le Studio Talend en génère un lui-même et l'utilise automatiquement pour ce Job.

  6. Saisissez les informations simples de configuration :
    Paramètre Utilisation
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.

    Cette case est cochée par défaut, mais, si vous importez des Jobs depuis une version 7.3 vers une plus ancienne, la case sera décochée, car ces Jobs s'exécutent avec RDD.

    Note InformationsImportant : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.

    Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.

    Parallelize output files writing (Paralléliser l'écriture des fichiers de sortie) Cochez cette case pour permettre au Job Spark Batch d'exécuter plusieurs threads en parallèle lors de l'écriture de fichiers de sortie. Cette option améliore les performances du temps d'exécution.

    Lorsque vous laissez cette case décochée, les fichiers de sortie sont écrits en séquence dans un seul thread.

    Au niveau des sous-Jobs, chacun est traité en séquence. Seul le fichier de sortie contenu dans le sous-Job est parallélisé.

    Cette option est disponible uniquement pour les Jobs Spark Batch contenant les composants de sortie suivants :
    • tAvroOutput
    • tFileOutputDelimited (uniquement lorsque la case Use dataset API in migrated components (Utiliser l'API Dataset dans les composants migrés) est cochée)
    • tFileOutputParquet
    Note InformationsImportant : Pour éviter les problèmes de mémoire au cours de l'exécution du Job, vous devez prendre en compte la taille des fichiers en cours d'écriture et la capacité de l'environnement d’exécution utilisant ce paramètre.
  7. Saisissez les informations d'authentification en spécifiant votre identifiant. Vous pouvez également utiliser Kerberos pour vous authentifier, en cochant la case Use Kerberos authentication (Utiliser l'authentification Kerberos).
  8. Facultatif : Cochez la case Use MapR Ticket authentication (Authentification par ticket MapR) afin de vous authentifier via un Ticket MapR et saisissez les informations suivantes :
    Paramètre Utilisation
    Password Saisissez votre mot de passe pour vous authentifier à l'aide d'un Ticket MapR.
    Cluster name Saisissez le nom du cluster à utiliser.
    Durée du ticket Saisissez la durée du ticket, en secondes. Par exemple : 86400L, où L correspond à un entier long.
    Set the MapR home directory (Définir le répertoire principal MapR) Cochez cette case et saisissez le chemin du répertoire principal MapR.
    Specify the Hadoop login configuration (Spécifier la configuration de connexion à Hadoop) Cochez cette case et saisissez l'identifiant de connexion à Hadoop.
  9. Dans le champ Spark "scratch" directory, saisissez le répertoire dans lequel le Studio Talend stocke, dans le système local, les fichiers temporaires.

    Par exemple, les fichiers JAR à transférer sont stockés à cet endroit.

    Si vous lancez votre Job sous Windows, le disque par défaut est C:. Ainsi, si vous laissez /tmp dans ce champ, le répertoire est C:/tmp.
  10. S'il vous faut un Job résistant aux échecs, cochez la case Activate checkpointing pour activer l'opération de points de contrôle Spark.
  11. Dans le champ Checkpoint directory, saisissez le chemin du répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données contextuelles des calculs, comme les métadonnées et les RDD générés par ce calcul.
  12. Dans la table Advanced properties, ajoutez toute propriété Spark à utiliser pour écraser la propriété équivalente utilisée par le Studio Talend.

Résultats

Les informations de connexion sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job Spark ou à l'exécuter immédiatement.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.