Accéder au contenu principal Passer au contenu complémentaire

Utiliser des variables de contexte avec Cloudera

Dans ce scénario, vous devez choisir où exécuter vos Jobs Spark parmi les Runtimes Cloudera on-premises 7.1.7 avec Spark 3.2.x et 7.1.9 avec Spark 3.3.x.

Vous pouvez également choisir un mélange de distributions Cloudera on-premises (7.1.x) et Cloud (7.2.x).

Cette fonctionnalité est activée avec la fonctionnalité de variables de contexte du Studio Talend et avec le mode de distribution de Qlik Spark Universal 3.3.x (le plus récent des distributions Cloudera).

Avant de commencer

  • Consultez la documentation Cloudera (uniquement en anglais) (en anglais) pour voir si vos distributions cibles sont compatibles avec Spark 2, Spark 3 ou avec les deux à la fois.
  • Depuis Cloudera Manager, téléchargez la configuration du client pour chaque service Hadoop utilisé (HDFS, Hive, HBase...). Pour plus d'informations, consultez Downloading Client Configuration Files (uniquement en anglais) (en anglais), dans la documentation Cloudera.

Créer une métadonnée de connexion à un cluster Hadoop

Procédure

  1. Dans le Studio Talend, cliquez sur Metadata (Métadonnées).
  2. Cliquez-droit sur Hadoop Cluster et sélectionnez Create Hadoop Cluster.
  3. Saisissez un nom pour votre cluster et cliquez sur Next.
  4. Sélectionnez votre distribution, Universal dans cet exemple, et sélectionnez le mode Spark, Yarn cluster (Cluster YARN) dans cet exemple.
    Sélection de la distribution.

Importer une configuration Hadoop

Procédure

  1. Sélectionnez Import configuration from local files (Importer la configuration depuis les fichiers locaux) et cliquez sur Next (Suivant).
  2. Spécifiez l'emplacement de vos configurations clients et cliquez sur Finish (Terminer).
    Emplacement des configurations clients.
  3. Dans l'onglet Update connection parameters (Mettre à jour les paramètres de connexion), les paramètres par défaut sont déjà renseignés.
    Cependant, si besoin, vous pouvez :
    • cocher la case Use a key tab to authenticate (Utiliser un Keytab pour s'authentifier), pour vous authentifier à un cluster Hadoop,
    • cocher la case Use custom classpath (Utiliser un classpath personnalisé) pour définir le classpath Cloudera à exécuter. Dans ce cas, spécifiez les bibliothèques Spark 2 ou Spark 3.
    Onglet Update connection parameters (Mettre à jour les paramètres de connexion).

Contextualiser la métadonnée de connexion

Vous pouvez utiliser un seul cluster avec différents paramètres, grâce aux valeurs de contexte.

Procédure

  1. Pour créer une métadonnée de connexion dans l'assistant, cliquez sur Export as context (Exporter en tant que contexte).
  2. Dans l'assistant Create / Reuse context qui s'ouvre, sélectionnez Create a new repository context et cliquez sur Next.
  3. Saisissez un nom pour le contexte à créer et ajoutez des informations générales, si besoin.

    Le nom de la métadonnée est proposé par l'assistant comme nom du contexte et les informations que vous fournissez dans le champ Description apparaissent sous la forme d'une infobulle lorsque vous placez votre souris sur le groupe de contextes dans le Repository.

  4. Cliquez sur Next (Suivant) pour créer et visualiser le contexte.
  5. Cliquez sur Manage environments (Gérer les environnements) pour créer autant d'environnements que nécessaire et en sélectionner un par défaut.

    Dans cet exemple, cliquez sur Create (Créer) pour ajouter un environnement Spark 2 et un environnement Spark 3.

    Création des environnements.
  6. Cliquez sur Finish.
  7. Dans votre Job Spark, sélectionnez la variable de contexte avec laquelle exécuter votre Job.

Résultats

Vous pouvez à présent exécuter votre Job avec différents conteneurs d'exécution Cloudera.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.