Standalone
|
-
Use pool (Utiliser un pool) : cochez cette case pour tirer parti d'un pool de Databricks. Le cas échéant, vous devez indiquer un identifiant de pool en lieu et place de l'identifiant de cluster dans la Spark Configuration (Configuration Spark) Vous devez également sélectionner Job cluster dans la liste déroulante Cluster type.
-
Dans le champ Endpoint, saisissez l'URL de votre espace de travail Databricks sur AWS. Par exemple, cette URL peut se présenter comme ceci https://adb-$workspaceId.$random.azuredatabricks.net.
-
Dans le champ Cluster ID, saisissez l'ID du cluster Databricks à utiliser. Cet ID est la valeur de la propriété spark.databricks.clusterUsageTags.clusterId de votre cluster Spark. Vous pouvez trouver cette propriété dans la liste des propriétés dans l'onglet Environment dans la vue Spark UI de votre cluster.
Vous pouvez trouver cet ID dans l'URL de votre cluster Databricks. Il se trouve juste après cluster/ dans cette URL.
-
Si l'option Use pool (Utiliser un pool) est sélectionnée, saisissez l'identifiant du pool de Databricks dans le champ Pool ID (identifiant de pool). Cet identifiant correspond à la valeur de la clé DatabricksInstancePoolId de votre pool. Elle se trouve sous la mention Tags (Mots-clés) de l'onglet Configuration de votre pool, ainsi que sous la même mention des clusters utilisés par le pool.
Vous pouvez également trouver cet identifiant dans l'URL de votre pool Databricks. Il se trouve juste après cluster/instance-pools/view/ dans cette URL.
-
Cliquez sur le bouton [...] à côté du champ Token pour saisir le jeton d'authentification généré pour votre compte utilisateur·rice Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Personal access tokens (uniquement en anglais) dans la documentation Databricks (en anglais).
-
Dans le champ DBFS dependencies folder, saisissez le répertoire utilisé pour stocker les dépendances relatives à votre Job sur Databricks Filesystem pendant l'exécution, en insérant un slash (/) à la fin du répertoire. Par exemple, saisissez /jars/ pour stocker les dépendances dans un dossier appelé jars. Ce dossier est créé à la volée s'il n'existe pas.
Ce répertoire stocke les dépendances de vos Job uniquement dans DBFS. Dans votre Job, utilisez le tS3Configuration, tDynamoDBConfiguration, ou, dans un Job Spark Streaming, les composants Kinesis, respectivement, pour lire ou écrire les données métier dans les systèmes associés.
-
Poll interval when retrieving Job status (in ms) : saisissez, sans guillemets, l'intervalle de temps (en millisecondes) à l'issue duquel vous souhaitez que le Studio interroge Spark au sujet du statut du Job. Par exemple, ce statut peut être Pending (en attente) ou Running (en cours d'exécution).
La valeur par défaut est 300000, c'est-à-dire, 30 secondes. Cet intervalle est recommandé par Databricks afin de récupérer un statut de Job correct.
-
Cluster type : sélectionnez le type de cluster à utiliser, Job clusters ou All-purpose clusters.
Les propriétés personnalisées définies dans la table Advanced properties sont automatiquement prises en compte par le transfert des clusters de Jobs lors de l'exécution.
- Use policy : cochez cette case pour saisir le nom de la politique à utiliser par votre cluster de jobs. Utiliser une politique vous permet de limiter la possibilité de configurer des clusters en vous basant sur un jeu de règles. Pour plus d'informations concernant les politiques de cluster, consultez Manage cluster policies (uniquement en anglais) dans la documentation officielle de Databricks.
- Autoscale : cochez ou décochez cette case pour définir le nombre de workers à utiliser avec votre cluster de jobs.
- Si vous cochez cette case, l'ajustement automatique sera activé. Puis définissez le nombre minimum de workers dans Min workers et le nombre maximum de workers dans Max workers. Votre cluster de jobs est ajusté automatiquement selon les workers définis et la charge de travail.
Selon la documentation Databricks, l'ajustement automatiquement fonctionne mieux sur les versions d'exécution 3.0 de Databricks ou plus récentes.
- Si vous décochez cette case, l'ajustement automatique est désactivé. Puis définissez le nombre de workers attendus dans un cluster de jobs. Ce nombre n'inclut pas le nœud du pilote Spark.
- Node type et Driver node type : sélectionnez les types de noeud pour les workers et le noeud du pilote Spark. Ces types déterminent la capacité de vos noeuds et leur tarification par Databricks.
Pour plus d'informations concernant ces types de nœuds et les Databricks Units qu'ils utilisent, consultez Supported Instance Types (uniquement en anglais) (en anglais) dans la documentation Databricks.
- Elastic disk : cochez cette case pour activer le cluster de jobs afin d'améliorer automatiquement l'espace disque lorsque ses workers Spark commencent à manquer d'espace disque.
Pour plus d'informations sur cette fonctionnalité Elastic disk, recherchez la section relative à Autoscaling local storage dans la documentation Databricks.
- SSH public key : si un accès SSH a été configuré pour votre cluster, saisissez la clé publique de la paire de clés SSH générée. Cette clé publique est automatiquement ajoutée à chaque nœud de votre cluster de jobs. Si aucun accès SSH n'a été configuré, ignorez ce champ.
Pour plus d'informations concernant l'accès SSH à votre cluster, consultez SSH access to clusters (uniquement en anglais) dans la documentation Databricks (en anglais).
- Configure cluster log : cochez cette case afin de définir où stocker vos logs Spark sur le long terme. Ce système de stockage peut être S3 ou DBFS.
- Do not restart the cluster when submitting : cochez cette case pour empêcher le Studio de redémarrer le cluster lorsque le Studio soumet vos Jobs. Cependant, si vous apportez des modifications à vos Jobs, décochez cette case afin que le Studio redémarre votre cluster pour prendre ces modifications en compte.
|