Définir la connexion à Spark dans un script de Job

Utilisez la fonction addElementParameters{} dans la fonction addParameters{} pour définir la connexion à Spark dans un script de Job.

Propriétés de addElementParameters {}

Propriétés relatives à la sélection du cluster Spark à utiliser :

Fonction/paramètre	Description	Obligatoire ?
SPARK_LOCAL_MODE	Saisissez `"true"` pour exécuter votre Job Spark en mode local. Par défaut, la valeur est `"false"`, ce qui signifie utiliser un cluster distant. En mode local, le Studio Talend construit l'environnement Spark en lui-même à la volée pour exécuter le Job dedans. Chaque processeur de la machine locale est utilisé comme worker Spark pour effectuer les calculs. Dans ce mode, votre système de fichiers local est utilisé. Désactivez les composants de configuration comme le tS3Configuration ou le tHDFSConfiguration fournissant les informations de connexion à un système de fichiers distant, si vous avez placé ces composants dans votre Job. Vous pouvez exécuter votre Job sans configuration supplémentaire.	Oui
SPARK_LOCAL_VERSION	Saisissez la version de Spark à utiliser en mode local. Cette propriété est utile uniquement si vous avez saisi `"true"` pour SPARK_LOCAL_MODE. Le Studio Talend ne supporte pas toutes les versions de Spark inférieures à 2.0 en mode local. Par exemple, saisissez la valeur `"SPARK_2_1_0"`.	Oui, quand Spark est utilisé en mode local.
DISTRIBUTION	Saisissez le nom du fournisseur de votre distribution. Selon votre distribution, saisissez l'une des valeurs suivantes : `"CLOUDERA"` `"CLOUDERA_ALTUS"` `"GOOGLE_CLOUD_DATAPROC"` `"HORTONWORKS"` `"MAPR"` `"MICROSOFT_HD_INSIGHT"`	Oui, lorsque vous n'utilisez ni le mode local de Spark, ni la distribution Amazon EMR.
SPARK_VERSION	Saisissez la version de votre distribution. La liste suivante fournit des formats d'exemple pour chaque distribution disponible : `"Cloudera_CDH5_12"` `"Cloudera_Altus_CDH5_11"` `"DATAPROC_1_1"` `"HDP_2_6"` `"MAPR600"` `"MICROSOFT_HD_INSIGHT_3_6"` `"EMR_5_5_0"` Pour plus d'informations concernant les versions des distributions supportées par Talend, consultez Versions des distributions de plateformes supportées pour les Jobs Talend avec Big Data.	Oui, quand vous n'utilisez pas le mode local de Spark.
SUPPORTED_SPARK_VERSION	Saisissez la version de Spark utilisée par votre distribution. Par exemple, `"SPARK_2_1_0"`.	Oui, quand vous n'utilisez pas le mode local de Spark.
SPARK_API_VERSION	Saisissez `"SPARK_200"`, la version de l'API Spark utilisée par Talend.	Oui
SET_HDP_VERSION	Saisissez `"true"` si votre cluster Hortonworks utilise la variable hdp.version pour stocker sa version ; sinon, saisissez `"false"`. Contactez l'administrateur de votre cluster si vous n'êtes pas sûr de connaître cette information.	Oui, lorsque vous utilisez Hortonworks.
HDP_VERSION	Saisissez la version d'Hortonwork à utiliser, par exemple, `"\"2.6.0.3-8\""`. Contactez l'administrateur de votre cluster si vous n'êtes pas sûr de connaître cette information. Vous devez ajouter le numéro de version dans le fichier yarn-site.xml de votre cluster, également. Dans cet exemple, ajoutez `hdp.version=2.6.0.3-8`.	Oui, lorsque vous avez saisi `"true"` pour SET_HDP_VERSION.
SPARK_MODE	Saisissez le mode dans lequel votre cluster Spark a été implémenté. Selon votre situation, saisissez l'une des valeurs suivantes : `"CLUSTER"` : signifie qu'il s'exécute en mode Spark Standalone. `"YARN_CLIENT"` : signifie qu'il s'exécute en mode YARN Client.	Oui, lorsque vous n'utilisez pas le mode local de Spark.

Propriétés relatives à la configuration de la connexion à Spark :

Fonction/paramètre	Description	Obligatoire ?
RESOURCE_MANAGER	Saisissez l'adresse du service ResourceManager du cluster Hadoop à utiliser.	Oui, si vous utilisez le mode YARN Client.
SET_SCHEDULER_ADDRESS	Saisissez `"true"` si votre cluster possède un ordonnanceur (Scheduler) pour le ResourceManager. Sinon, saisissez `"false"`.	Oui, si vous utilisez le mode YARN Client.
RESOURCEMANAGER_SCHEDULER_ADDRESS	Saisissez l'adresse de l'ordonnanceur (Scheduler).	Oui, lorsque vous avez saisi `"true"` pour SET_SCHEDULER_ADDRESS.
SET_JOBHISTORY_ADDRESS	Saisissez `"true"` si votre cluster possède un service JobHistory. Sinon, saisissez `"false"`.	Oui, si vous utilisez le mode YARN Client.
JOBHISTORY_ADDRESS	Saisissez l'emplacement du serveur de JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les informations relatives aux métriques du Job courant sur le serveur JobHistory.	Oui, lorsque vous avez saisi `"true"` pour SET_JOBHISTORY_ADDRESS.
SET_STAGING_DIRECTORY	Saisissez `"true"` si votre cluster possède un répertoire de préparation pour stocker les fichiers temporaires créés par l'exécution des programmes. Sinon, saisissez `"false"`.	Oui, si vous utilisez le mode YARN Client.
STAGING_DIRECTORY	Saisissez le chemin d'accès au répertoire, par exemple, `"\"/user\""`. Ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution.	Oui, lorsque vous avez saisi `"true"` pour SET_STAGING_DIRECTORY.
HDINSIGHT_ENDPOINT	Saisissez l'endpoint de votre cluster HDInsight. Par exemple `"\"https://mycluster.azurehdinsight.net\""`.	Oui, lorsque vous utilisez la distribution associée.
HDINSIGHT_USERNAME et HDINSIGHT_PASSWORD	L'identifiant Username est celui défini lors de la création de votre cluster. Vous pouvez le trouver dans le panneau SSH + Cluster login, dans votre cluster. Le mot de passe Password est défini lors de la création de votre cluster HDInsight pour authentification dans ce cluster. Par exemple, `"\"talendstorage\""` comme identifiant et `"my_password"` comme mot de passe.	Oui, lorsque vous utilisez la distribution associée.
LIVY_HOST	La valeur du paramètre Hostname de Livy est l'URL de votre cluster HDInsight. Cette URL se trouve dans le panneau Overview, dans votre cluster. Saisissez cette URL sans la partie https://. Le port par défaut Port est 443. L'identifiant Username est celui défini lors de la création de votre cluster. Vous pouvez le trouver dans le panneau SSH + Cluster login, dans votre cluster. Pour plus d'informations concernant le service Livy utilisé par HDInsight, consultez Utiliser l’API REST Spark Apache pour envoyer des travaux à distance à un cluster Spark HDInsight.	Oui, lorsque vous utilisez la distribution associée, HDInsight.
LIVY_PORT	Saisissez le numéro de port de votre service Livy. Par défaut, le numéro du port est `"\"443\""`.	Oui, lorsque vous utilisez la distribution associée, HDInsight.
LIVY_USERNAME	Saisissez votre identifiant HDinsight, par exemple, `"\"my_hdinsight_account\""`.	Oui, lorsque vous utilisez la distribution associée, HDInsight.
HDINSIGHT_POLLING_INTERVAL_DURATION	Saisissez l'intervalle de temps (en millisecondes) à la fin duquel vous souhaitez que le Studio Talend demande à Spark le statut de votre Job. Par défaut, l'intervalle de temps est `30000`, soit 30 secondes.	Non. Si vous ne spécifiez pas ce paramètre, la valeur par défaut est utilisée avec la distribution associée, HDInsight.
HDINSIGHT_MAX_MISSING_STATUS	Saisissez le nombre maximal de tentatives de demandes de statut du Studio Talend lorsqu'il n'y a pas de réponse. Par défaut, le nombre de tentatives est de `10`.	Non. Si vous ne spécifiez pas ce paramètre, la valeur par défaut est utilisée avec la distribution associée, HDInsight.
WASB_HOST	Saisissez l'adresse de votre blob Windows Azure Storage, par exemple, `"\"https://my_storage_account_name.blob.core.windows.net\""`.	Oui, lorsque vous utilisez la distribution associée, HDInsight.
WASB_CONTAINER	Saisissez le nom du conteneur à utiliser, par exemple, `"\"talend_container\""`.	Oui, lorsque vous utilisez la distribution associée, HDInsight.
REMOTE_FOLDER	Saisissez l'emplacement dans lequel stocker le Job et ses bibliothèques dépendantes dans ce compte Azure Storage, par exemple, "\"/user/ychen/deployment_blob\"".	Oui, lorsque vous utilisez la distribution associée, HDInsight.
SPARK_HOST	Saisissez l'URI du Master Spark du cluster Hadoop à utiliser, par exemple `"\"spark://localhost:7077\""`.	Oui, lorsque vous utilisez le mode Standalone de Spark.
SPARK_HOME	Saisissez l'emplacement de l'exécutable Spark installé dans le cluster Hadoop à utiliser, par exemple `"\"/usr/lib/spark\""`.	Oui, lorsque vous utilisez le mode Standalone de Spark.
DEFINE_HADOOP_HOME_DIR	Si vous devez exécuter depuis Windows, il est recommandé de spécifier où le programme winutils.exe à utiliser est stocké. Si vous souhaitez savoir où trouver votre fichier winutils.exe et l'utiliser, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez une distribution ne s'exécutant pas dans le Cloud.
HADOOP_HOME_DIR	Saisissez l'emplacement où est stocké votre répertoire winutils.exe, par exemple, `"\"C:/Talend/winutils\""`.	Oui, lorsque vous avez saisi `"true"` pour DEFINE_HADOOP_HOME_DIR.
DEFINE_SPARK_DRIVER_HOST	En mode YARN Client de Spark, si le cluster Spark ne peut reconnaître lui-même la machine sur laquelle le Job est lancé, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez une distribution ne s'exécutant pas dans le Cloud et que le mode Spark est YARN Client.
SPARK_DRIVER_HOST	Saisissez le nom d'hôte ou l'adresse IP de cette machine, par exemple, `"\"127.0.0.1\""`. Cela permet au Master Spark et à ses Workers de reconnaître la machine où se trouve le Job et donc son pilote. Notez que, dans cette situation, vous devez également ajouter le nom et l'adresse IP de cette machine dans son fichier host.	Oui, lorsque vous avez saisi `"true"` pour DEFINE_SPARK_DRIVER_HOST.
GOOGLE_PROJECT_ID	Saisissez l'ID de votre projet Google Cloud Platform. Par exemple, `"\"my-google-project\""`.	Oui, lorsque vous utilisez la distribution associée.
GOOGLE_CLUSTER_ID	Saisissez l'ID de votre cluster Dataproc à utiliser. Par exemple, `"\"my-cluster-id\""`.	Oui, lorsque vous utilisez la distribution associée.
GOOGLE_REGION	Saisissez les régions dans lesquelles sont utilisées les ressources de calcul et dans lesquelles sont stockées et traitées les données. Si vous n'avez pas besoin de spécifier une région en particulier, laissez la valeur `"\"global\""`.	Oui, lorsque vous utilisez la distribution associée.
GOOGLE_JARS_BUCKET	Comme un Job Talend nécessite ses fichiers .jar dépendants pour être exécuté, spécifiez le répertoire Google Storage dans lequel ces fichiers .jar sont transférés afin que votre Job accède à ces fichiers lors de l'exécution. Le répertoire à saisir doit se terminer par une barre oblique (/). Si le répertoire n'existe pas, un répertoire est créé à la volée mais le bucket à utiliser doit déjà exister. Par exemple, `"\"gs://my-bucket/talend/jars/\""`.	Oui, lorsque vous utilisez la distribution associée.
DEFINE_PATH_TO_GOOGLE_CREDENTIALS	Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur·trice pour accéder à Google Cloud Platform, saisissez `"false"`. Dans cette situation, cette machine est souvent votre machine locale. Lorsque vous lancez votre Job depuis une machine distante, comme un Talend JobServer, saisissez `"true"`.	Oui, lorsque vous utilisez la distribution associée.
PATH_TO_GOOGLE_CREDENTIALS	Saisissez l'emplacement du répertoire dans lequel ce fichier JSON est stocké sur la machine distante. Souvent, cet emplacement est le Jobserver. Par exemple, `"\"/user/ychen/my_credentials.json\""`.	Oui, lorsque vous avez saisi `"true"` pour DEFINE_PATH_TO_GOOGLE_CREDENTIALS.
ALTUS_SET_CREDENTIALS	Si vous souhaitez fournir vos identifiants Altus au sein de votre Job, saisissez `"true"`. Si vous souhaitez fournir vos identifiants Altus séparément, par exemple manuellement à l'aide de la commande altus configure dans votre, saisissez `"false"`.	Oui, lorsque vous utilisez la distribution associée.
ALTUS_ACCESS_KEY et ALTUS_SECRET_KEY	Saisissez votre clé d'accès à Altus et le répertoire pointant vers votre fichier de clé secrète Altus. Par exemple, `"\"my_access_key\""` et `"\"/user/ychen/my_secret_key_file`.	Oui, lorsque vous avez saisi `"true"` pour ALTUS_SET_CREDENTIALS.
ALTUS_CLI_PATH	Saisissez le chemin d'accès au client Cloudera Altus, installé et activé sur la machine sur laquelle est exécuté votre Job. En environnement de production, cette machine est généralement un Talend JobServer. Par exemple, `"\"/opt/altuscli/altusclienv/bin/altus\""`.	Oui, lorsque vous utilisez la distribution associée.
ALTUS_REUSE_CLUSTER	Saisissez `"true"` pour utiliser un cluster Cloudera Altus existant dans votre service Cloud. Sinon, saisissez `"false"` pour permettre au Job de créer un cluster à la volée.	Oui, lorsque vous utilisez la distribution associée.
ALTUS_CLUSTER_NAME	Saisissez le nom du cluster à utiliser. Par exemple, `"\"talend-altus-cluster\""`.	Oui, lorsque vous utilisez la distribution associée.
ALTUS_ENVIRONMENT_NAME	Saisissez le nom de l'environnement Cloudera Altus à utiliser pour définir les ressources allouées au cluster. Par exemple, `"\"talend-altus-cluster\""`.	Oui, lorsque vous utilisez la distribution associée.
ALTUS_CLOUD_PROVIDER	Saisissez le service Cloud exécutant votre cluster Cloudera Altus. Pour le moment, seul AWS est supporté. Saisissez `"\"AWS\""`.	Oui, lorsque vous utilisez la distribution associée.
ALTUS_DELETE_AFTER_EXECUTION	Saisissez `"true"` si vous souhaitez supprimer le cluster donné après exécution de votre Job. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez la distribution associée.
ALTUS_S3_ACCESS_KEY et ALTUS_S3_SECRET_KEY	Renseignez les informations d'authentification requises pour vous connecter au bucket Amazon S3 à utiliser.	Oui, lorsque vous avez saisi `"\"AWS\""` pour ALTUS_CLOUD_PROVIDER.
ALTUS_S3_REGION	Saisissez la région AWS à utiliser. Par exemple `"\"us-east-1\""`.	Oui, lorsque vous avez saisi `"\"AWS\""` pour ALTUS_CLOUD_PROVIDER.
ALTUS_BUCKET_NAME	Saisissez le nom du bucket à utiliser pour stocker les dépendances de votre Job. Ce bucket doit déjà exister. Par exemple `"\"my-bucket\""`.	Oui, lorsque vous avez saisi `"\"AWS\""` pour ALTUS_CLOUD_PROVIDER.
ALTUS_JARS_BUCKET	Saisissez l'emplacement du répertoire dans lequel stocker les dépendances de votre Job dans ce bucket donné, par exemple, `"\"altus/jobjar\""`. Ce répertoire est créé s'il n'existe pas lors de l'exécution.	Oui, lorsque vous avez saisi `"\"AWS\""` pour ALTUS_CLOUD_PROVIDER.
ALTUS_USE_CUSTOM_JSON	Saisissez `"true` si vous devez modifier manuellement le code JSON pour configurer votre cluster Altus. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez la distribution associée.
ALTUS_CUSTOM_JSON	Saisissez votre code JSON personnalisé, par exemple `"{my_json_code}"`.	Oui, lorsque vous avez saisi `"true` pour ALTUS_USE_CUSTOM_JSON.
ALTUS_INSTANCE_TYPE	Saisissez le type d'instance pour toutes les instances dans le cluster. Tous les nœuds déployés dans ce cluster utilisent le même type d'instance. Par exemple `"\"c4.2xlarge\""`.	Oui, lorsque vous utilisez la distribution associée.
ALTUS_WORKER_NODE	Saisissez le nombre de nœuds workers à créer pour le cluster. Par exemple, `"\"10\""`.	Oui, lorsque vous utilisez la distribution associée.
ALTUS_CLOUDERA_MANAGER_USERNAME	Saisissez les informations d'authentification à votre service Cloudera Manager. Par exemple, `"\"altus\""`.	Oui, lorsque vous utilisez la distribution associée.
SPARK_SCRATCH_DIR	Saisissez l'emplacement du répertoire, dans le système local, où stocker les fichiers temporaires, comme les dépendances de Job à transférer, par exemple `"\"/tmp\""`.	Oui
STREAMING_BATCH_SIZE	Saisissez l'intervalle de temps (ms) à la fin duquel le Job revoit la source de données pour identifier les modifications et traite les nouveaux micro-batchs, par exemple, `"1000"`.	Oui, lorsque vous développez un Job Spark Streaming.
DEFINE_DURATION	Si vous avez besoin de définir un délai (ms) avant suspension du streaming, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous développez un Job Spark Streaming.
STREAMING_DURATION	Saisissez la période de temps à la fin de laquelle le Job Streaming s'arrête automatiquement, par exemple, `"10000"`.	Oui, lorsque vous avez saisi `"true` pour DEFINE_DURATION.
SPARK_ADVANCED_PROPERTIES	Saisissez le code pour utiliser d'autres propriétés Hadoop ou Spark relatives. Par exemple : `{ PROPERTY : "\"spark.yarn.am.extraJavaOptions\"", VALUE : "\"-Dhdp.version=2.4.0.0-169\"", BUILDIN : "TRUE" }`	Non.

Propriétés relatives à la définition de la configuration de la sécurité :

Fonction/paramètre	Description	Obligatoire ?
USE_KRB	Saisissez `"true"` si le cluster à utiliser utilise Kerberos pour la sécurité. Sinon, saisissez `"false"`.	Oui
RESOURCEMANAGER_PRINCIPAL	Saisissez les noms des Principaux de Kerberos pour le service ResourceManager, par exemple, `"\"yarn/_HOST@EXAMPLE.COM\""`.	Oui, lorsque vous utilisez Kerberos et le mode YARN Client.
JOBHISTORY_PRINCIPAL	Saisissez les noms des Principaux de Kerberos pour le service JobHistory, par exemple, `"\"mapred/_HOST@EXAMPLE.COM\""`.	Oui, lorsque vous utilisez Kerberos et le mode YARN Client.
USE_KEYTAB	Si vous devez utiliser un fichier Keytab Kerberos pour vous connecter, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez Kerberos.
PRINCIPAL	Saisissez le Principal à utiliser, par exemple `"\"hdfs\""`.	Oui, lorsque vous utilisez un fichier Keytab Kerberos.
KEYTAB_PATH	Saisissez le chemin d'accès au fichier Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un Talend JobServer. Par exemple, `"\"/tmp/hdfs.headless.keytab\""`.	Oui, lorsque vous utilisez un fichier Keytab Kerberos.
USERNAME	Saisissez l'identifiant de connexion à votre distribution. Si vous laissez ce champ vide, c'est-à-dire `"\"\""`, le nom d'utilisateur ou d'utilisatrice de la machine sur laquelle le Job s'exécute sera utilisé.	Oui, lorsque vous n'utilisez pas Kerberos.
USE_MAPRTICKET	Si le cluster MapR à utiliser est sécurisé via le mécanisme d'authentification par ticket MapR, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez un cluster MapR.
MAPRTICKET_PASSWORD	Saisissez le mot de passe à utiliser pour vous connecter à MapR, par exemple, `"my_password"`.	Oui, lorsque vous n'utilisez pas Kerberos mais le mécanisme d'authentification par ticket MapR.
MAPRTICKET_CLUSTER	Saisissez le nom du cluster MapR auquel vous connecter, par exemple, `"\"demo.mapr.com\""`.	Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR.
MAPRTICKET_DURATION	Saisissez la période de temps (en secondes) durant laquelle le ticket est valide, par exemple, `"86400L"`.	Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR.
SET_MAPR_HOME_DIR	Si l'emplacement des fichiers de configuration MapR a été modifié dans le cluster, c'est-à-dire, si le répertoire Home de MapR a été modifié, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR.
MAPR_HOME_DIR	Saisissez l'emplacement du nouveau répertoire Home, par exemple, `"\"/opt/mapr/custom/\""`.	Oui, lorsque vous avez saisi `"true` pour SET_MAPR_HOME_DIR.
SET_HADOOP_LOGIN	Si le module de connexion a été modifié dans le fichier MapR de configuration de la sécurité mapr.login.conf, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR.
HADOOP_LOGIN	Saisissez le nom du module à appeler depuis le fichier mapr.login.conf, par exemple, `"\"kerberos\""` signifie appeler le module hadoop_kerberos.	Oui, lorsque vous avez saisi `"true` pour SET_HADOOP_LOGIN.

Propriétés relatives à la personnalisation de Spark :

Fonction/paramètre	Description	Obligatoire ?
ADVANCED_SETTINGS_CHECK	Saisissez `"true"` si vous devez optimiser l'allocation des ressources à utiliser pour exécuter vos Jobs. Sinon, saisissez `"false"`.	Oui
SPARK_DRIVER_MEM et SPARK_DRIVER_CORES	Saisissez la taille de mémoire et le nombre de cœurs à utiliser par le pilote du Job courant, par exemple `"\"512m\"",` pour la mémoire et `"\"1\""` pour le nombre de cœurs.	Oui, lorsque vous personnalisez Spark en mode Standalone.
SPARK_YARN_AM_SETTINGS_CHECK	Saisissez `"true"` pour définir les propriétés à personnaliser pour l'ApplicationMaster de votre cluster YARN. Sinon, saisissez `"false"`.	Oui, lorsque vous personnalisez Spark en mode YARN Client.
SPARK_YARN_AM_MEM et SPARK_YARN_AM_CORES	Saisissez la taille de mémoire à utiliser par l'ApplicationMaster, par exemple, `"\"512m\"",` pour la mémoire et `"\"1\""` pour le nombre de cœurs.	Oui, lorsque vous avez saisi `"true"` pour SPARK_YARN_AM_SETTINGS_CHECK.
SPARK_EXECUTOR_MEM	Saisissez la taille de mémoire à utiliser pour chaque exécuteur Spark, par exemple, `"\"512m\""`.	Oui, lorsque vous personnalisez Spark.
SET_SPARK_EXECUTOR_MEM_OVERHEAD	Saisissez `"true"` si vous devez allouer un montant de mémoire hors tas (off-heap) (en Mo) par exécuteur. Sinon, saisissez `"false"`.	Oui, lorsque vous personnalisez Spark en mode YARN Client.
SPARK_EXECUTOR_MEM_OVERHEAD	Saisissez le montant de mémoire hors tas (off-heap) en Mo à allouer pour chaque exécuteur.	Oui, lorsque vous avez saisi `"true"` pour SET_SPARK_EXECUTOR_MEM_OVERHEAD.
SPARK_EXECUTOR_CORES_CHECK	Si vous devez définir le nombre de cœurs à utiliser par exécuteur, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous personnalisez Spark.
SPARK_EXECUTOR_CORES	Saisissez le nombre de cœurs à utiliser par exécuteur, par exemple, `"\"1\""`.	Oui, lorsque vous avez saisi `"true"` pour SPARK_EXECUTOR_CORES_CHECK.
SPARK_YARN_ALLOC_TYPE	Sélectionnez la manière dont vous souhaitez que YARN alloue des ressources parmi les exécuteurs. Saisissez l'une des valeurs suivantes : `"AUTO"` : vous laissez YARN utiliser son nombre d'exécuteurs par défaut, à savoir 2. `"FIXED"` : vous devez définir le nombre d'exécuteurs à utiliser avec SPARK_EXECUTOR_INSTANCES. `"DYNAMIC"` : YARN modifie le nombre d'exécuteurs afin de s'adapter à la charge de travail. Vous devez définir SPARK_YARN_DYN_INIT, SPARK_YARN_DYN_MIN et SPARK_YARN_DYN_MAX.	Oui, lorsque vous personnalisez Spark en mode YARN Client.
SPARK_EXECUTOR_INSTANCES	Saisissez le nombre d'exécuteurs à utiliser par YARN, par exemple, `"\"2\""`.	Oui, lorsque vous avez saisi `"FIXED"` pour SPARK_YARN_ALLOC_TYPE.
SPARK_YARN_DYN_INIT, SPARK_YARN_DYN_MIN et SPARK_YARN_DYN_MAX	Définissez l'échelle de cette allocation dynamique en définissant ces trois propriétés. Par exemple, `"\"1\""` comme nombre initial d'exécuteurs, `"\"0\""` comme nombre minimal d'exécuteurs et `"\"MAX\""` comme nombre maximal d'exécuteurs.	Oui, lorsque vous avez saisi `"DYNAMIC"` pour SPARK_YARN_ALLOC_TYPE.
WEB_UI_PORT_CHECK	Si vous devez modifier le port par défaut de l'application Web de Spark, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous personnalisez Spark.
WEB_UI_PORT	Saisissez le numéro du port à utiliser pour l'application Web de Spark, par exemple, `"\"4040\""`.	Oui, lorsque vous avez saisi `"true"` pour WEB_UI_PORT_CHECK.
SPARK_BROADCAST_FACTORY	Saisissez l'implémentation du broadcast à utiliser pour mettre les variables en cache sur chaque machine de Worker. Saisissez l'une des valeurs suivantes : `"AUTO"` `"TORRENT"` `"HTTP"`	Oui, lorsque vous personnalisez Spark.
CUSTOMIZE_SPARK_SERIALIZER	Si vous devez importer un sérialiseur Spark externe, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous personnalisez Spark.
SPARK_SERIALIZER	Saisissez le nom de la classe entièrement qualifié du sérialiseur à utiliser, par exemple `"\"org.apache.spark.serializer.KryoSerializer\""`.	Oui, lorsque vous avez saisi `"true"` pour CUSTOMIZE_SPARK_SERIALIZER.
ENABLE_BACKPRESSURE	Si vous devez activer la fonctionnalité Backpressure de Spark, saisissez `"true"`. Sinon, saisissez `"false"`. Cette fonctionnalité est disponible à partir de la version 1.5 de Spark. Une fois activée, Spark trouve automatiquement le taux de réception optimal et adapte dynamiquement ce taux en fonction des retards d'ordonnancement et des temps de traitement batch, afin de recevoir les données au rythme auquel il peut les traiter.	Oui, lorsque vous personnalisez Spark pour un Job Spark Streaming.

Propriétés relatives aux logs d'exécution de vos Jobs :

Fonction/paramètre	Description	Obligatoire ?
ENABLE_SPARK_EVENT_LOGGING	Saisissez `"true"` si vous devez rendre persistants les logs d'application Spark de ce Job, dans le système de fichiers de votre cluster YARN. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez Spark en mode YARN Client.
COMPRESS_SPARK_EVENT_LOGS	Si vous devez compresser les logs, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous avez saisi `"true"` pour ENABLE_SPARK_EVENT_LOGGING.
SPARK_EVENT_LOG_DIR	Saisissez l'emplacement du répertoire où sont enregistrés les événements Spark, par exemple, `"\"hdfs://namenode:8020/user/spark/applicationHistory\""`.	Oui, lorsque vous avez saisi `"true"` pour ENABLE_SPARK_EVENT_LOGGING.
SPARKHISTORY_ADDRESS	saisissez l'emplacement du serveur de l'historique, par exemple, `"\"sparkHistoryServer:18080\""`.	Oui, lorsque vous avez saisi `"true"` pour ENABLE_SPARK_EVENT_LOGGING.
USE_CHECKPOINT	Si vous souhaitez que le Job résiste aux échecs, saisissez `"true"` pour activer l'opération Spark de point de contrôle. Sinon, saisissez `"false"`.	Oui.
CHECKPOINT_DIR	Saisissez l'emplacement du répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul. Par exemple, `"\"file:///tmp/mycheckpoint\""`.	Oui, lorsque vous avez saisi `"true"` pour SET_SPARK_EXECUTOR_MEM_OVERHEAD.

Propriétés relatives à la configuration de Cloudera Navigator :

Si vous utilisez Cloudera V5.5+ pour exécuter vos Jobs MapReduce ou vos Jobs Apache Spark Batch, vous pouvez utiliser Cloudera Navigator pour visualiser le lignage d'un flux de données en particulier pour découvrir comment ces données sont générées par un Job.

Fonction/paramètre	Description	Obligatoire ?
USE_CLOUDERA_NAVIGATOR	Saisissez `"true"` si vous souhaitez utiliser Cloudera Navigator. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez Spark avec Cloudera.
CLOUDERA_NAVIGATOR_USERNAME et CLOUDERA_NAVIGATOR_PASSWORD	Saisissez les identifiants à utiliser pour vous connecter à votre Cloudera Navigator. Par exemple, `"\"username\""` comme identifiant et `"password"` comme mot de passe.	Oui, lorsque vous avez saisi `"true"` pour USE_CLOUDERA_NAVIGATOR.
CLOUDERA_NAVIGATOR_URL	Saisissez l'emplacement du Cloudera Navigator auquel vous connecter, par exemple, `"\"http://localhost:7187/api/v8/\""`.	Oui, lorsque vous avez saisi `"true"` pour USE_CLOUDERA_NAVIGATOR.
CLOUDERA_NAVIGATOR_METADATA_URL	Saisissez l'emplacement des métadonnées du Navigator, par exemple, `"\"http://localhost:7187/api/v8/metadata/plugin\""`.	Oui, lorsque vous avez saisi `"true"` pour USE_CLOUDERA_NAVIGATOR.
CLOUDERA_NAVIGATOR_CLIENT_URL	Saisissez l'emplacement du client du Navigator, par exemple, `"\"http://localhost\""`.	Oui, lorsque vous avez saisi `"true"` pour USE_CLOUDERA_NAVIGATOR.
CLOUDERA_NAVIGATOR_AUTOCOMMIT	Si vous souhaitez que Cloudera Navigator génère le lignage du Job courant à la fin de son exécution, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous avez saisi `"true"` pour USE_CLOUDERA_NAVIGATOR.
CLOUDERA_NAVIGATOR_DISABLE_SSL_VALIDATION	Si vous ne souhaitez pas utiliser le processus de validation SSL lorsque votre Job se connecte à Cloudera Navigator, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous avez saisi `"true"` pour USE_CLOUDERA_NAVIGATOR.
CLOUDERA_NAVIGATOR_DIE_ON_ERROR	Si vous souhaitez arrêter l'exécution du Job lorsque la connexion à votre Cloudera Navigator échoue, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous avez saisi `"true"` pour USE_CLOUDERA_NAVIGATOR.

Propriétés relatives à la configuration d'Hortonworks Atlas :

Si vous utilisez Hortonworks Data Platform V2.4 ou supérieure pour exécuter vos Jobs Spark Batch Jobs et qu'Apache Atlas est installé dans votre cluster Hortonworks, vous pouvez utiliser Atlas pour visualiser le lignage du flux de données spécifié et voir comment il a été généré par un Job.

Fonction/paramètre	Description	Obligatoire ?
USE_ATLAS	Saisissez `"true"` si vous souhaitez utiliser Atlas. Sinon, saisissez `"false"`.	Oui, lorsque vous utilisez Spark avec Hortonworks.
ATLAS_USERNAME et ATLAS_PASSWORD	Saisissez vos identifiants de connexion à Atlas. Par exemple, `"\"username\""` comme identifiant et `"password"` comme mot de passe.	Oui, lorsque vous avez saisi `"true"` pour USE_ATLAS.
ATLAS_URL	Saisissez l'emplacement de l'Atlas auquel se connecter, par exemple `"\"http://localhost:21000\""`	Oui, lorsque vous avez saisi `"true"` pour USE_ATLAS.
SET_ATLAS_APPLICATION_PROPERTIES	Si votre cluster Atlas contient des propriétés personnalisées, comme le SSL ou la suspension de la lecture, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous avez saisi `"true"` pour USE_ATLAS.
ATLAS_APPLICATION_PROPERTIES	Saisissez l'emplacement d'un répertoire sur votre machine locale, puis placez le fichier atlas-application.properties de votre Atlas dans ce répertoire. Par exemple, `"\"/user/atlas/atlas-application.properties\""`. Ainsi, votre Job peut utiliser ces propriétés personnalisées.	Oui, lorsque vous avez saisi `"true"` pour SET_ATLAS_APPLICATION_PROPERTIES.
ATLAS_DIE_ON_ERROR	Si vous souhaitez arrêter l'exécution du Job lorsque des erreurs relatives à Atlas surviennent, saisissez `"true"`. Sinon, saisissez `"false"`.	Oui, lorsque vous avez saisi `"true"` pour USE_ATLAS.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici