Définir les paramètres de connexion à Azure Databricks pour les Jobs Spark
Terminez la configuration de la connexion à Databricks dans l'onglet Spark configuration (Configuration Spark) de la vue Run (Exécuter) de votre Job. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.
Les informations contenues dans cette section concernent uniquement les utilisateurs et utilisatrices ayant souscrit à Talend Data Fabric ou à un produit Talend avec Big Data.
Avant de commencer
- Lorsque vous exécutez un Job Spark Streaming, vous pouvez envoyer plusieurs Jobs à exécuter en parallèle sur le même cluster Databricks, uniquement si vous avez coché la case Do not restart the cluster when submitting. Si vous décochez la case, l'exécution du Job échoue avec l'erreur suivante : run failed with error message Driver of the cluster (01234-56789-cluster) was restarted during the run.
- Lors de l'exécution d'un Job Spark Batch, si vous avez coché la case Do not restart the cluster when submitting (Ne pas redémarrer le cluster après l'envoie), et uniquement dans ce cas, vous pouvez envoyer plusieurs Jobs en parallèle afin qu'ils s'exécutent sur le même cluster Databricks. Dans le cas contraire, étant donné que chaque Job redémarre automatiquement le cluster, les Jobs lancés en parallèle s'interrompent les uns les autres et provoquent un échec d'exécution.
Procédure
Résultats
Si vous souhaitez que le Job résiste aux échecs, cochez la case Activate checkpointing pour activer l'opération Spark de point de contrôle. Dans le champ qui s'affiche, saisissez le répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul.
Pour plus d'informations concernant l'opération relative aux checkpoints de Spark, consultez la documentation Spark officielle.