Accéder au contenu principal Passer au contenu complémentaire

Définition des paramètres de connexion à Databricks sur AWS pour les Jobs Spark

Terminez la configuration de la connexion à Databricks dans l'onglet Spark configuration (Configuration Spark) de la vue Run (Exécuter) de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.

Avant de commencer

    1. Lors de l'exécution d'un Job Spark Streaming, seul un Job est autorisé à s'exécuter sur le même cluster Databricks à la fois.
    2. Lors de l'exécution d'un Job Spark Batch, si vous avez coché la case Do not restart the cluster when submitting (Ne pas redémarrer le cluster après l'envoie), et uniquement dans ce cas, vous pouvez envoyer plusieurs Jobs en parallèle afin qu'ils s'exécutent sur le même cluster Databricks. Dans le cas contraire, étant donné que chaque Job redémarre automatiquement le cluster, les Jobs lancés en parallèle s'interrompent les uns les autres et provoquent un échec d'exécution.
  • Assurez-vous que le compte AWS à utiliser a les droits de lecture/d'écriture appropriés à ce bucket S3. Contactez l'administrateur·trice de votre système AWS pour vous en assurer.

Procédure

  1. Saisissez les informations simples de configuration :
    Use local timezone Cochez cette case pour laisser Spark utiliser le fuseau horaire local fourni par le système.
    Note InformationsRemarque :
    • Si vous décochez cette case, Spark utilise le fuseau horaire UTC.
    • Certains composants ont également une case Use local timezone for date. Si vous décochez la case du composant, il hérite du fuseau horaire de la configuration Spark.
    Use dataset API in migrated components Cochez cette case pour laisser les composants utiliser l'API Dataset (DS) au lieu de l'API RDD (Resilient Distributed Dataset) :
    • Si vous cochez la case, les composants dans le Job s'exécutent avec DS, ce qui améliore les performances.
    • Si vous décochez la case, les composants dans le Job s'exécutent avec RDD, ce qui signifie que le Job reste inchangé. Cela assure la rétrocompatibilité.
    Note InformationsImportant : Si votre Job contient les composants tDeltaLakeInput et tDeltaLakeOutput, vous devez cocher cette case.
    Note InformationsRemarque : Les Jobs créés en 7.3 utilisent DS et les Jobs importés depuis la 7.3 ou une version antérieure utilisent RDD par défaut. Cependant, tous les composants ne sont pas migrés de RDD à DS. Il est donc recommandé de décocher la case pour éviter des erreurs.
    Use timestamp for dataset components Cochez cette case pour utiliser java.sql.Timestamp pour les dates.
    Note InformationsRemarque : Si vous laissez cette case décochée, java.sql.Timestamp ou java.sql.Date peut être utilisé, selon le modèle.
  2. Dans la liste déroulante Cloud provider, sélectionnez AWS.
  3. Dans la liste déroulante Run mode, sélectionnez la méthode à utiliser pour exécuter votre Job sur Databricks :
    • Create and run now (Créer et exécuter maintenant) : un Job est créé et exécuté immédiatement. Avec cette méthode, vous pouvez récupérer votre Job avec son ID dans votre espace de travail Databricks. Pour plus d'informations, consultez Run now (uniquement en anglais), dans la documentation Databricks officielle (en anglais).
    • Runs submit (Soumettre les exécutions) : une exécution unique est soumise sans créer de Job. Avec cette méthode, rien ne s'affiche dans l'interface et aucun ID de Job n'est créé dans votre espace de travail Databricks. Pour plus d'informations, consultez Runs submit (uniquement en anglais), dans la documentation Databricks officielle (en anglais).
  4. Saisissez les informations simples de connexion à Databricks sur AWS :

    Standalone

    • Use pool (Utiliser un pool) : cochez cette case pour tirer parti d'un pool de Databricks. Le cas échéant, vous devez indiquer un identifiant de pool en lieu et place de l'identifiant de cluster dans la Spark Configuration (Configuration Spark) Vous devez également sélectionner Job cluster dans la liste déroulante Cluster type.

    • Dans le champ Endpoint, saisissez l'URL de votre espace de travail Databricks sur AWS. Par exemple, cette URL peut se présenter comme ceci https://adb-$workspaceId.$random.azuredatabricks.net.

    • Dans le champ Cluster ID, saisissez l'ID du cluster Databricks à utiliser. Cet ID est la valeur de la propriété spark.databricks.clusterUsageTags.clusterId de votre cluster Spark. Vous pouvez trouver cette propriété dans la liste des propriétés dans l'onglet Environment dans la vue Spark UI de votre cluster.

      Vous pouvez trouver cet ID dans l'URL de votre cluster Databricks. Il se trouve juste après cluster/ dans cette URL.

    • Si l'option Use pool (Utiliser un pool) est sélectionnée, saisissez l'identifiant du pool de Databricks dans le champ Pool ID (identifiant de pool). Cet identifiant correspond à la valeur de la clé DatabricksInstancePoolId de votre pool. Elle se trouve sous la mention Tags (Mots-clés) de l'onglet Configuration de votre pool, ainsi que sous la même mention des clusters utilisés par le pool.

      Vous pouvez également trouver cet identifiant dans l'URL de votre pool Databricks. Il se trouve juste après cluster/instance-pools/view/ dans cette URL.

    • Cliquez sur le bouton [...] à côté du champ Token pour saisir le jeton d'authentification généré pour votre compte utilisateur·rice Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Personal access tokens (uniquement en anglais) dans la documentation Databricks (en anglais).

    • Dans le champ DBFS dependencies folder, saisissez le répertoire utilisé pour stocker les dépendances relatives à votre Job sur Databricks Filesystem pendant l'exécution, en insérant un slash (/) à la fin du répertoire. Par exemple, saisissez /jars/ pour stocker les dépendances dans un dossier appelé jars. Ce dossier est créé à la volée s'il n'existe pas.

      Ce répertoire stocke les dépendances de vos Job uniquement dans DBFS. Dans votre Job, utilisez le tS3Configuration, tDynamoDBConfiguration, ou, dans un Job Spark Streaming, les composants Kinesis, respectivement, pour lire ou écrire les données métier dans les systèmes associés.

    • Poll interval when retrieving Job status (in ms) : saisissez, sans guillemets, l'intervalle de temps (en millisecondes) à l'issue duquel vous souhaitez que le Studio interroge Spark au sujet du statut du Job. Par exemple, ce statut peut être Pending (en attente) ou Running (en cours d'exécution).

      La valeur par défaut est 300000, c'est-à-dire, 30 secondes. Cet intervalle est recommandé par Databricks afin de récupérer un statut de Job correct.

    • Cluster type : sélectionnez le type de cluster à utiliser, Job clusters ou All-purpose clusters.

      Les propriétés personnalisées définies dans la table Advanced properties sont automatiquement prises en compte par le transfert des clusters de Jobs lors de l'exécution.

      1. Use policy : cochez cette case pour saisir le nom de la politique à utiliser par votre cluster de jobs. Utiliser une politique vous permet de limiter la possibilité de configurer des clusters en vous basant sur un jeu de règles. Pour plus d'informations concernant les politiques de cluster, consultez Manage cluster policies (uniquement en anglais) dans la documentation officielle de Databricks.
      2. Autoscale : cochez ou décochez cette case pour définir le nombre de workers à utiliser avec votre cluster de jobs.
        1. Si vous cochez cette case, l'ajustement automatique sera activé. Puis définissez le nombre minimum de workers dans Min workers et le nombre maximum de workers dans Max workers. Votre cluster de jobs est ajusté automatiquement selon les workers définis et la charge de travail.

          Selon la documentation Databricks, l'ajustement automatiquement fonctionne mieux sur les versions d'exécution 3.0 de Databricks ou plus récentes.

        2. Si vous décochez cette case, l'ajustement automatique est désactivé. Puis définissez le nombre de workers attendus dans un cluster de jobs. Ce nombre n'inclut pas le nœud du pilote Spark.
      3. Node type et Driver node type : sélectionnez les types de noeud pour les workers et le noeud du pilote Spark. Ces types déterminent la capacité de vos noeuds et leur tarification par Databricks.

        Pour plus d'informations concernant ces types de nœuds et les Databricks Units qu'ils utilisent, consultez Supported Instance Types (uniquement en anglais) (en anglais) dans la documentation Databricks.

      4. Elastic disk : cochez cette case pour activer le cluster de jobs afin d'améliorer automatiquement l'espace disque lorsque ses workers Spark commencent à manquer d'espace disque.

        Pour plus d'informations sur cette fonctionnalité Elastic disk, recherchez la section relative à Autoscaling local storage dans la documentation Databricks.

      5. SSH public key : si un accès SSH a été configuré pour votre cluster, saisissez la clé publique de la paire de clés SSH générée. Cette clé publique est automatiquement ajoutée à chaque nœud de votre cluster de jobs. Si aucun accès SSH n'a été configuré, ignorez ce champ.

        Pour plus d'informations concernant l'accès SSH à votre cluster, consultez SSH access to clusters (uniquement en anglais) dans la documentation Databricks (en anglais).

      6. Configure cluster log : cochez cette case afin de définir où stocker vos logs Spark sur le long terme. Ce système de stockage peut être S3 ou DBFS.
    • Do not restart the cluster when submitting : cochez cette case pour empêcher le Studio de redémarrer le cluster lorsque le Studio soumet vos Jobs. Cependant, si vous apportez des modifications à vos Jobs, décochez cette case afin que le Studio redémarre votre cluster pour prendre ces modifications en compte.

Résultats

Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.

Pour plus d'informations concernant l'opération relative aux checkpoints de Spark, consultez la documentation Spark officielle (uniquement en anglais).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.