Définir les paramètres de connexion à Dataproc avec Spark Universal

Pourquoi et quand exécuter cette tâche

Le se connecte à un cluster Dataproc afin d'exécuter le Job depuis ce cluster.

Procédure

Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
Sélectionnez Built-in dans la liste déroulante Property type.
Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
Note InformationsConseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
Sélectionnez Universal dans la liste déroulante Distribution, la version Spark de votre choix dans la liste déroulante Version et Dataproc dans la liste déroulante Runtime mode/environment (Mode/environnement du Runtime).
Saisissez les informations simples de configuration :

Renseignez les paramètres Dataproc :

Paramètre	Utilisation
Project ID	Saisissez l'ID de votre projet Google Cloud Platform.
Cluster ID	Saisissez l'ID de votre cluster Dataproc à utiliser.
Région	Saisissez le nom de la région Google Cloud à utiliser.
Google Storage staging bucket	Comme un Job nécessite ses fichiers .jar dépendants pour être exécuté, spécifiez le répertoire Google Storage dans lequel ces fichiers .jar sont transférés afin que votre Job accède à ces fichiers lors de l'exécution.
Provide Google Credentials	Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur·trice pour accéder à Google Cloud Platform, ne cochez pas cette case. Dans cette situation, cette machine est souvent votre machine locale.
Credential type	Sélectionnez le mode à utiliser pour vous authentifier à votre projet : Service account : authentification à l'aide d'un compte Google associé à votre projet Google Cloud Platform. Lorsque vous sélectionnez ce mode, le paramètre à définir est Path to Google Credentials file. OAuth2 Access Token : authentification de l'accès à l'aide des identifiants OAuth. Lorsque vous sélectionnez ce mode, le paramètre à définir est OAuth2 Access Token (Jeton d'accès OAuth).
Service account	Saisissez le chemin d'accès au fichier Credentials associé au compte utilisateur·trice à utiliser. Ce fichier doit être stocké sur la machine sur laquelle le Job est actuellement lancé et exécuté.
OAuth2 Access Token	Saisissez un jeton d'accès. Note InformationsImportant : Le jeton n'est valide qu'une heure. Le n'effectue pas d'opération d'actualisation du jeton, vous devez donc en générer un nouveau une fois la limite d'une heure dépassée. Vous pouvez générer un jeton d'accès OAuth dans Google Developers OAuth Playground (uniquement en anglais) en allant dans BigQuery API v2 et en choisissant tous les droits nécessaires (bigquery, devstorage.full_control et cloud-platform).

Saisissez les informations de configuration de Databricks :

Paramètre	Utilisation
Max spot price	Cochez cette case pour spécifier le prix maximal souhaité par heure pour les instances Spot lorsque Databricks provisionne les ressources de calcul.
EBS volume type (Type de volume EBS)	Cochez cette case pour spécifier le type de volume EBS à utiliser par Databricks afin de provisionner le stockage des ressources de calcul.
Configure instance profile ARN (Configurer le profil de l'instance ARN)	Cochez cette case pour spécifier le profil de l'instance ARN à utiliser par Databricks lors du provisionnement des ressources de calcul.

Résultats

Les informations de connexion sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job Spark ou à l'exécuter immédiatement.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici