Définir les paramètres de connexion HDInsight avec Spark Universal

Pourquoi et quand exécuter cette tâche

Le se connecte à un cluster HDInsight pour exécuter le Job depuis ce cluster.

Procédure

Cliquez sur la vue Run sous l'espace de modélisation graphique, puis cliquez sur la vue Spark configuration.
Sélectionnez Built-in dans la liste déroulante Property type.
Si vous avez déjà configuré les paramètres de connexion dans le Repository, comme expliqué dans Centraliser une connexion à Hadoop, vous pouvez réutiliser ces paramètres. Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue Repository Content et sélectionnez la connexion à Hadoop à utiliser.
Note InformationsConseil : Configurer la connexion dans le Repository vous permet d'éviter de configurer cette connexion chaque fois que vous en avez besoin dans la vue Spark Configuration de vos Jobs Spark. Les champs sont automatiquement renseignés.
Sélectionnez Universal dans la liste déroulante Distribution, la version Spark de votre choix dans la liste déroulante Version et HDInsight dans la liste déroulante Runtime mode/environment (Mode/environnement du Runtime).
Saisissez les informations simples de configuration pour vous connecter à HDInsight :
1. Username (Identifiant) : saisissez votre identifiant pour le cluster HDInsight.
2. Password (Mot de passe) : saisissez votre mot de passe pour le cluster HDInsight.
Saisissez les informations simples de configuration pour Livy :
1. Hostname (Nom d'hôte) : saisissez l'URL de votre cluster HDInsight.
2. Port : saisissez le numéro du port. Le port par défaut est 443.
3. Username (Identifiant) : saisissez l'identifiant défini lors de la création de votre cluster. Vous pouvez le trouver dans le panneau SSH + Cluster login, dans votre cluster.
Définissez la configuration d'interrogation (polling) du statut du Job :
1. Poll interval when retrieving Job status (in ms) (Intervalle d'interrogation lors de la récupération du statut du Job (en ms)) : saisissez l'intervalle de temps (en millisecondes) à l'issue duquel vous souhaitez que le interroge Spark au sujet du statut du Job.
2. Maximum number of consecutive statuses missing (Nombre maximal de statuts manquants consécutifs) : saisissez le nombre maximal de tentatives du pour obtenir un statut lorsqu'il n'y a pas de réponse.

Saisissez les informations de configuration à Windows Azure Storage :

Paramètre	Utilisation
Primary storage (Stockage primaire)	Sélectionnez, dans la liste déroulante, le type de stockage dans lequel déployer votre Job : ADLS Gen2 Azure Storage
Mode d'authentification	Sélectionnez, dans la liste déroulante, le type d'authentification à utiliser : Azure Active Directory Secret key Shared Access Signature
Nom d'hôte	Saisissez l'endpoint du service du Blob primaire de votre compte Azure Storage. Vous pouvez trouver cet endpoint dans le panneau Properties de ce compte de stockage.
Container	Saisissez le nom du conteneur à utiliser. Vous pouvez trouver les conteneurs disponibles dans le panneau Blob, dans le compte Azure Storage à utiliser.
Directory ID	Saisissez l'ID du répertoire. Ce paramètre est disponible uniquement lorsque vous sélectionnez l'option Azure Active Directory dans la liste déroulante Authentication mode (Mode d'authentification).
Application ID	Saisissez l'ID de l'application. Ce paramètre est disponible uniquement lorsque vous sélectionnez l'option Azure Active Directory dans la liste déroulante Authentication mode (Mode d'authentification).
Client key	Saisissez la clé du client. Ce paramètre est disponible uniquement lorsque vous sélectionnez l'option Azure Active Directory dans la liste déroulante Authentication mode (Mode d'authentification).
SAS Token	Saisissez le jeton de signature d'accès partagé pour votre conteneur de stockage. Pour plus d'informations concernant la génération du jeton de signature d'accès partagé, consultez Créer des jetons SAS pour vos conteneurs de stockage, dans la documentation Microsoft. Lorsque vous utilisez un jeton de signature d'accès partagé, vous devez configurer votre cluster. Pour plus d'informations, consultez Utiliser des signatures d’accès partagé Stockage Blob Azure pour restreindre l’accès aux données dans HDInsight, dans la documentation Microsoft. Ce paramètre est disponible uniquement lorsque vous sélectionnez l'option Shared Access Signature (Signature d'accès partagé) dans la liste déroulante Authentication mode (Mode d'authentification).
Deployment Blob	Saisissez l'emplacement où vous souhaitez stocker le Job et ses bibliothèques dépendantes dans votre compte de stockage.

Saisissez les informations simples de configuration :

Résultats

Les informations de connexion sont renseignées. Vous êtes prêt·e à ordonnancer les exécutions de votre Job Spark ou à l'exécuter immédiatement.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici