Définir la connexion à Spark dans un script de Job
Propriétés de addElementParameters {}
Propriétés relatives à la sélection du cluster Spark à utiliser :
Fonction/paramètre | Description | Obligatoire ? |
---|---|---|
SPARK_LOCAL_MODE |
Saisissez "true" pour exécuter votre Job Spark en mode local. Par défaut, la valeur est "false", ce qui signifie utiliser un cluster distant. En mode local, le Studio construit l'environnement Spark en lui-même à la volée pour exécuter le Job dedans. Chaque processeur de la machine locale est utilisé comme worker Spark pour effectuer les calculs. Dans ce mode, votre système de fichiers local est utilisé. Désactivez les composants de configuration comme le tS3Configuration ou le tHDFSConfiguration fournissant les informations de connexion à un système de fichiers distant, si vous avez placé ces composants dans votre Job. Vous pouvez exécuter votre Job sans configuration supplémentaire. |
Oui |
SPARK_LOCAL_VERSION |
Saisissez la version de Spark à utiliser en mode local. Cette propriété est utile uniquement si vous avez saisi "true" pour SPARK_LOCAL_MODE. Le Studio ne supporte pas toutes les versions de Spark inférieures à 2.0 en mode local. Par exemple, saisissez la valeur "SPARK_2_1_0". |
Oui, quand Spark est utilisé en mode local. |
DISTRIBUTION |
Saisissez le nom du fournisseur de votre distribution. Selon votre distribution, saisissez l'une des valeurs suivantes :
|
Oui, lorsque vous n'utilisez ni le mode local de Spark, ni la distribution Amazon EMR. |
SPARK_VERSION |
Saisissez la version de votre distribution. La liste suivante fournit des formats d'exemple pour chaque distribution disponible :
Pour plus d'informations concernant les versions des distributions supportées par Talend, consultez la section Versions des distributions des plateformes Big Data supportées par les Jobs Talend dans le Guide d'installation Talend. |
Oui, quand vous n'utilisez pas le mode local de Spark. |
SUPPORTED_SPARK_VERSION |
Saisissez la version de Spark utilisée par votre distribution. Par exemple, "SPARK_2_1_0". |
Oui, quand vous n'utilisez pas le mode local de Spark. |
SPARK_API_VERSION |
Saisissez "SPARK_200", la version de l'API Spark utilisée par Talend. |
Oui |
SET_HDP_VERSION |
Saisissez "true" si votre cluster Hortonworks utilise la variable hdp.version pour stocker sa version ; sinon, saisissez "false". Contactez l'administrateur de votre cluster si vous n'êtes pas sûr de connaître cette information. |
Oui, lorsque vous utilisez Hortonworks. |
HDP_VERSION |
Saisissez la version d'Hortonwork à utiliser, par exemple, "\"2.6.0.3-8\"". Contactez l'administrateur de votre cluster si vous n'êtes pas sûr de connaître cette information. Vous devez ajouter le numéro de version dans le fichier yarn-site.xml de votre cluster, également. Dans cet exemple, ajoutez hdp.version=2.6.0.3-8. |
Oui, lorsque vous avez saisi "true" pour SET_HDP_VERSION. |
SPARK_MODE |
Saisissez le mode dans lequel votre cluster Spark a été implémenté. Selon votre situation, saisissez l'une des valeurs suivantes :
|
Oui, lorsque vous n'utilisez pas le mode local de Spark. |
Propriétés relatives à la configuration de la connexion à Spark :
Fonction/paramètre | Description | Obligatoire ? |
---|---|---|
RESOURCE_MANAGER |
Saisissez l'adresse du service ResourceManager du cluster Hadoop à utiliser. |
Oui, si vous utilisez le mode YARN Client. |
SET_SCHEDULER_ADDRESS |
Saisissez "true" si votre cluster possède un ordonnanceur (Scheduler) pour le ResourceManager. Sinon, saisissez "false". |
Oui, si vous utilisez le mode YARN Client. |
RESOURCEMANAGER_SCHEDULER_ADDRESS |
Saisissez l'adresse de l'ordonnanceur (Scheduler). |
Oui, lorsque vous avez saisi "true" pour SET_SCHEDULER_ADDRESS. |
SET_JOBHISTORY_ADDRESS |
Saisissez "true" si votre cluster possède un service JobHistory. Sinon, saisissez "false". |
Oui, si vous utilisez le mode YARN Client. |
JOBHISTORY_ADDRESS |
Saisissez l'emplacement du serveur de JobHistory du cluster Hadoop à utiliser. Cela permet de stocker les informations relatives aux métriques du Job courant sur le serveur JobHistory. |
Oui, lorsque vous avez saisi "true" pour SET_JOBHISTORY_ADDRESS. |
SET_STAGING_DIRECTORY |
Saisissez "true" si votre cluster possède un répertoire de préparation pour stocker les fichiers temporaires créés par l'exécution des programmes. Sinon, saisissez "false". |
Oui, si vous utilisez le mode YARN Client. |
STAGING_DIRECTORY |
Saisissez le chemin d'accès au répertoire, par exemple, "\"/user\"". Ce répertoire se trouve sous la propriété yarn.app.mapreduce.am.staging-dir dans les fichiers de configuration comme yarn-site.xml ou mapred-site.xml de votre distribution. |
Oui, lorsque vous avez saisi "true" pour SET_STAGING_DIRECTORY. |
HDINSIGHT_ENDPOINT |
Saisissez l'endpoint de votre cluster HDInsight. Par exemple "\"https://mycluster.azurehdinsight.net\"". |
Oui, lorsque vous utilisez la distribution associée. |
HDINSIGHT_USERNAME et HDINSIGHT_PASSWORD |
Par exemple, "\"talendstorage\"" comme identifiant et "my_password" comme mot de passe. |
Oui, lorsque vous utilisez la distribution associée. |
LIVY_HOST |
|
Oui, lorsque vous utilisez la distribution associée, HDInsight. |
LIVY_PORT |
Saisissez le numéro de port de votre service Livy. Par défaut, le numéro du port est "\"443\"". |
Oui, lorsque vous utilisez la distribution associée, HDInsight. |
LIVY_USERNAME |
Saisissez votre identifiant HDinsight, par exemple, "\"my_hdinsight_account\"". |
Oui, lorsque vous utilisez la distribution associée, HDInsight. |
HDINSIGHT_POLLING_INTERVAL_DURATION |
Saisissez l'intervalle de temps (en millisecondes) à la fin duquel vous souhaitez que le Studio demande à Spark le statut de votre Job. Par défaut, l'intervalle de temps est 30000, soit 30 secondes. |
Non. Si vous ne spécifiez pas ce paramètre, la valeur par défaut est utilisée avec la distribution associée, HDInsight. |
HDINSIGHT_MAX_MISSING_STATUS |
Saisissez le nombre maximal de tentatives de demandes de statut du Studio lorsqu'il n'y a pas de réponse. Par défaut, le nombre de tentatives est de 10. |
Non. Si vous ne spécifiez pas ce paramètre, la valeur par défaut est utilisée avec la distribution associée, HDInsight. |
WASB_HOST |
Saisissez l'adresse de votre blob Windows Azure Storage, par exemple, "\"https://my_storage_account_name.blob.core.windows.net\"". |
Oui, lorsque vous utilisez la distribution associée, HDInsight. |
WASB_CONTAINER |
Saisissez le nom du conteneur à utiliser, par exemple, "\"talend_container\"". |
Oui, lorsque vous utilisez la distribution associée, HDInsight. |
REMOTE_FOLDER |
Saisissez l'emplacement dans lequel stocker le Job et ses bibliothèques dépendantes dans ce compte Azure Storage, par exemple, "\"/user/ychen/deployment_blob\"". |
Oui, lorsque vous utilisez la distribution associée, HDInsight. |
SPARK_HOST |
Saisissez l'URI du Master Spark du cluster Hadoop à utiliser, par exemple "\"spark://localhost:7077\"". |
Oui, lorsque vous utilisez le mode Standalone de Spark. |
SPARK_HOME |
Saisissez l'emplacement de l'exécutable Spark installé dans le cluster Hadoop à utiliser, par exemple "\"/usr/lib/spark\"". |
Oui, lorsque vous utilisez le mode Standalone de Spark. |
DEFINE_HADOOP_HOME_DIR |
Si vous devez exécuter depuis Windows, il est recommandé de spécifier où le programme winutils.exe à utiliser est stocké. Si vous souhaitez savoir où trouver votre fichier winutils.exe et l'utiliser, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous utilisez une distribution ne s'exécutant pas dans le Cloud. |
HADOOP_HOME_DIR |
Saisissez l'emplacement où est stocké votre répertoire winutils.exe, par exemple, "\"C:/Talend/winutils\"". |
Oui, lorsque vous avez saisi "true" pour DEFINE_HADOOP_HOME_DIR. |
DEFINE_SPARK_DRIVER_HOST |
En mode YARN Client de Spark, si le cluster Spark ne peut reconnaître lui-même la machine sur laquelle le Job est lancé, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous utilisez une distribution ne s'exécutant pas dans le Cloud et que le mode Spark est YARN Client. |
SPARK_DRIVER_HOST |
Saisissez le nom d'hôte ou l'adresse IP de cette machine, par exemple, "\"127.0.0.1\"". Cela permet au Master Spark et à ses Workers de reconnaître la machine où se trouve le Job et donc son pilote. Notez que, dans cette situation, vous devez également ajouter le nom et l'adresse IP de cette machine dans son fichier host. |
Oui, lorsque vous avez saisi "true" pour DEFINE_SPARK_DRIVER_HOST. |
GOOGLE_PROJECT_ID |
Saisissez l'ID de votre projet Google Cloud Platform. Par exemple, "\"my-google-project\"". |
Oui, lorsque vous utilisez la distribution associée. |
GOOGLE_CLUSTER_ID |
Saisissez l'ID de votre cluster Dataproc à utiliser. Par exemple, "\"my-cluster-id\"". |
Oui, lorsque vous utilisez la distribution associée. |
GOOGLE_REGION |
Saisissez les régions dans lesquelles sont utilisées les ressources de calcul et dans lesquelles sont stockées et traitées les données. Si vous n'avez pas besoin de spécifier une région en particulier, laissez la valeur "\"global\"". |
Oui, lorsque vous utilisez la distribution associée. |
GOOGLE_JARS_BUCKET |
Comme un Job Talend nécessite ses fichiers .jar dépendants pour être exécuté, spécifiez le répertoire Google Storage dans lequel ces fichiers .jar sont transférés afin que votre Job accède à ces fichiers lors de l'exécution. Le répertoire à saisir doit se terminer par une barre oblique (/). Si le répertoire n'existe pas, un répertoire est créé à la volée mais le bucket à utiliser doit déjà exister. Par exemple, "\"gs://my-bucket/talend/jars/\"". |
Oui, lorsque vous utilisez la distribution associée. |
DEFINE_PATH_TO_GOOGLE_CREDENTIALS |
Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur·rice pour accéder à Google Cloud Platform, saisissez "false". Dans cette situation, cette machine est souvent votre machine locale. Lorsque vous lancez votre Job depuis une machine distante, comme un serveur de Jobs, saisissez "true". |
Oui, lorsque vous utilisez la distribution associée. |
PATH_TO_GOOGLE_CREDENTIALS |
Saisissez l'emplacement du répertoire dans lequel ce fichier JSON est stocké sur la machine distante. Souvent, cet emplacement est le Jobserver. Par exemple, "\"/user/ychen/my_credentials.json\"". |
Oui, lorsque vous avez saisi "true" pour DEFINE_PATH_TO_GOOGLE_CREDENTIALS. |
ALTUS_SET_CREDENTIALS |
Si vous souhaitez fournir vos identifiants Altus au sein de votre Job, saisissez "true". Si vous souhaitez fournir vos identifiants Altus séparément, par exemple manuellement à l'aide de la commande altus configure dans votre, saisissez "false". |
Oui, lorsque vous utilisez la distribution associée. |
ALTUS_ACCESS_KEY et ALTUS_SECRET_KEY |
Saisissez votre clé d'accès à Altus et le répertoire pointant vers votre fichier de clé secrète Altus. Par exemple, "\"my_access_key\"" et "\"/user/ychen/my_secret_key_file. |
Oui, lorsque vous avez saisi "true" pour ALTUS_SET_CREDENTIALS. |
ALTUS_CLI_PATH |
Saisissez le chemin d'accès au client Cloudera Altus, installé et activé sur la machine sur laquelle est exécuté votre Job. En environnement de production, cette machine est généralement un Jobserver Talend. Par exemple, "\"/opt/altuscli/altusclienv/bin/altus\"". |
Oui, lorsque vous utilisez la distribution associée. |
ALTUS_REUSE_CLUSTER |
Saisissez "true" pour utiliser un cluster Cloudera Altus existant dans votre service Cloud. Sinon, saisissez "false" pour permettre au Job de créer un cluster à la volée. |
Oui, lorsque vous utilisez la distribution associée. |
ALTUS_CLUSTER_NAME |
Saisissez le nom du cluster à utiliser. Par exemple, "\"talend-altus-cluster\"". |
Oui, lorsque vous utilisez la distribution associée. |
ALTUS_ENVIRONMENT_NAME |
Saisissez le nom de l'environnement Cloudera Altus à utiliser pour définir les ressources allouées au cluster. Par exemple, "\"talend-altus-cluster\"". |
Oui, lorsque vous utilisez la distribution associée. |
ALTUS_CLOUD_PROVIDER |
Saisissez le service Cloud exécutant votre cluster Cloudera Altus. Pour le moment, seul AWS est supporté. Saisissez "\"AWS\"". |
Oui, lorsque vous utilisez la distribution associée. |
ALTUS_DELETE_AFTER_EXECUTION |
Saisissez "true" si vous souhaitez supprimer le cluster donné après exécution de votre Job. Sinon, saisissez "false". |
Oui, lorsque vous utilisez la distribution associée. |
ALTUS_S3_ACCESS_KEY et ALTUS_S3_SECRET_KEY |
Renseignez les informations d'authentification requises pour vous connecter au bucket Amazon S3 à utiliser. |
Oui, lorsque vous avez saisi "\"AWS\"" pour ALTUS_CLOUD_PROVIDER. |
ALTUS_S3_REGION |
Saisissez la région AWS à utiliser. Par exemple "\"us-east-1\"". |
Oui, lorsque vous avez saisi "\"AWS\"" pour ALTUS_CLOUD_PROVIDER. |
ALTUS_BUCKET_NAME |
Saisissez le nom du bucket à utiliser pour stocker les dépendances de votre Job. Ce bucket doit déjà exister. Par exemple "\"my-bucket\"". |
Oui, lorsque vous avez saisi "\"AWS\"" pour ALTUS_CLOUD_PROVIDER. |
ALTUS_JARS_BUCKET |
Saisissez l'emplacement du répertoire dans lequel stocker les dépendances de votre Job dans ce bucket donné, par exemple, "\"altus/jobjar\"". Ce répertoire est créé s'il n'existe pas lors de l'exécution. |
Oui, lorsque vous avez saisi "\"AWS\"" pour ALTUS_CLOUD_PROVIDER. |
ALTUS_USE_CUSTOM_JSON |
Saisissez "true si vous devez modifier manuellement le code JSON pour configurer votre cluster Altus. Sinon, saisissez "false". |
Oui, lorsque vous utilisez la distribution associée. |
ALTUS_CUSTOM_JSON |
Saisissez votre code JSON personnalisé, par exemple "{my_json_code}". |
Oui, lorsque vous avez saisi "true pour ALTUS_USE_CUSTOM_JSON. |
ALTUS_INSTANCE_TYPE |
Saisissez le type d'instance pour toutes les instances dans le cluster. Tous les nœuds déployés dans ce cluster utilisent le même type d'instance. Par exemple "\"c4.2xlarge\"". |
Oui, lorsque vous utilisez la distribution associée. |
ALTUS_WORKER_NODE |
Saisissez le nombre de nœuds workers à créer pour le cluster. Par exemple, "\"10\"". |
Oui, lorsque vous utilisez la distribution associée. |
ALTUS_CLOUDERA_MANAGER_USERNAME |
Saisissez les informations d'authentification à votre service Cloudera Manager. Par exemple, "\"altus\"". |
Oui, lorsque vous utilisez la distribution associée. |
SPARK_SCRATCH_DIR |
Saisissez l'emplacement du répertoire, dans le système local, où stocker les fichiers temporaires, comme les dépendances de Job à transférer, par exemple "\"/tmp\"". |
Oui |
STREAMING_BATCH_SIZE |
Saisissez l'intervalle de temps (ms) à la fin duquel le Job revoit la source de données pour identifier les modifications et traite les nouveaux micro-batchs, par exemple, "1000". |
Oui, lorsque vous développez un Job Spark Streaming. |
DEFINE_DURATION |
Si vous avez besoin de définir un délai (ms) avant suspension du streaming, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous développez un Job Spark Streaming. |
STREAMING_DURATION |
Saisissez la période de temps à la fin de laquelle le Job Streaming s'arrête automatiquement, par exemple, "10000". |
Oui, lorsque vous avez saisi "true pour DEFINE_DURATION. |
SPARK_ADVANCED_PROPERTIES |
Saisissez le code pour utiliser d'autres propriétés Hadoop ou Spark relatives. Par exemple :
|
Non. |
Propriétés relatives à la définition de la configuration de la sécurité :
Fonction/paramètre | Description | Obligatoire ? |
---|---|---|
USE_KRB |
Saisissez "true" si le cluster à utiliser utilise Kerberos pour la sécurité. Sinon, saisissez "false". |
Oui |
RESOURCEMANAGER_PRINCIPAL |
Saisissez les noms des Principaux de Kerberos pour le service ResourceManager, par exemple, "\"yarn/_HOST@EXAMPLE.COM\"". |
Oui, lorsque vous utilisez Kerberos et le mode YARN Client. |
JOBHISTORY_PRINCIPAL |
Saisissez les noms des Principaux de Kerberos pour le service JobHistory, par exemple, "\"mapred/_HOST@EXAMPLE.COM\"". |
Oui, lorsque vous utilisez Kerberos et le mode YARN Client. |
USE_KEYTAB |
Si vous devez utiliser un fichier Keytab Kerberos pour vous connecter, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous utilisez Kerberos. |
PRINCIPAL |
Saisissez le Principal à utiliser, par exemple "\"hdfs\"". |
Oui, lorsque vous utilisez un fichier Keytab Kerberos. |
KEYTAB_PATH |
Saisissez le chemin d'accès au fichier Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un serveur de Jobs Talend. Par exemple, "\"/tmp/hdfs.headless.keytab\"". |
Oui, lorsque vous utilisez un fichier Keytab Kerberos. |
USERNAME |
Saisissez l'identifiant de connexion à votre distribution. Si vous laissez ce champ vide, c'est-à-dire "\"\"", le nom d'utilisateur ou d'utilisatrice de la machine sur laquelle le Job s'exécute sera utilisé. |
Oui, lorsque vous n'utilisez pas Kerberos. |
USE_MAPRTICKET |
Si le cluster MapR à utiliser est sécurisé via le mécanisme d'authentification par ticket MapR, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous utilisez un cluster MapR. |
MAPRTICKET_PASSWORD |
Saisissez le mot de passe à utiliser pour vous connecter à MapR, par exemple, "my_password". |
Oui, lorsque vous n'utilisez pas Kerberos mais le mécanisme d'authentification par ticket MapR. |
MAPRTICKET_CLUSTER |
Saisissez le nom du cluster MapR auquel vous connecter, par exemple, "\"demo.mapr.com\"". |
Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR. |
MAPRTICKET_DURATION |
Saisissez la période de temps (en secondes) durant laquelle le ticket est valide, par exemple, "86400L". |
Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR. |
SET_MAPR_HOME_DIR |
Si l'emplacement des fichiers de configuration MapR a été modifié dans le cluster, c'est-à-dire, si le répertoire Home de MapR a été modifié, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR. |
MAPR_HOME_DIR |
Saisissez l'emplacement du nouveau répertoire Home, par exemple, "\"/opt/mapr/custom/\"". |
Oui, lorsque vous avez saisi "true pour SET_MAPR_HOME_DIR. |
SET_HADOOP_LOGIN |
Si le module de connexion a été modifié dans le fichier MapR de configuration de la sécurité mapr.login.conf, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous utilisez le mécanisme d'authentification par ticket MapR. |
HADOOP_LOGIN |
Saisissez le nom du module à appeler depuis le fichier mapr.login.conf, par exemple, "\"kerberos\"" signifie appeler le module hadoop_kerberos. |
Oui, lorsque vous avez saisi "true pour SET_HADOOP_LOGIN. |
Propriétés relatives à la personnalisation de Spark :
Fonction/paramètre | Description | Obligatoire ? |
---|---|---|
ADVANCED_SETTINGS_CHECK |
Saisissez "true" si vous devez optimiser l'allocation des ressources à utiliser pour exécuter vos Jobs. Sinon, saisissez "false". |
Oui |
SPARK_DRIVER_MEM et SPARK_DRIVER_CORES |
Saisissez la taille de mémoire et le nombre de cœurs à utiliser par le pilote du Job courant, par exemple "\"512m\"", pour la mémoire et "\"1\"" pour le nombre de cœurs. |
Oui, lorsque vous personnalisez Spark en mode Standalone. |
SPARK_YARN_AM_SETTINGS_CHECK |
Saisissez "true" pour définir les propriétés à personnaliser pour l'ApplicationMaster de votre cluster YARN. Sinon, saisissez "false". |
Oui, lorsque vous personnalisez Spark en mode YARN Client. |
SPARK_YARN_AM_MEM et SPARK_YARN_AM_CORES |
Saisissez la taille de mémoire à utiliser par l'ApplicationMaster, par exemple, "\"512m\"", pour la mémoire et "\"1\"" pour le nombre de cœurs. |
Oui, lorsque vous avez saisi "true" pour SPARK_YARN_AM_SETTINGS_CHECK. |
SPARK_EXECUTOR_MEM |
Saisissez la taille de mémoire à utiliser pour chaque exécuteur Spark, par exemple, "\"512m\"". |
Oui, lorsque vous personnalisez Spark. |
SET_SPARK_EXECUTOR_MEM_OVERHEAD |
Saisissez "true" si vous devez allouer un montant de mémoire hors tas (off-heap) (en Mo) par exécuteur. Sinon, saisissez "false". |
Oui, lorsque vous personnalisez Spark en mode YARN Client. |
SPARK_EXECUTOR_MEM_OVERHEAD |
Saisissez le montant de mémoire hors tas (off-heap) en Mo à allouer pour chaque exécuteur. |
Oui, lorsque vous avez saisi "true" pour SET_SPARK_EXECUTOR_MEM_OVERHEAD. |
SPARK_EXECUTOR_CORES_CHECK |
Si vous devez définir le nombre de cœurs à utiliser par exécuteur, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous personnalisez Spark. |
SPARK_EXECUTOR_CORES |
Saisissez le nombre de cœurs à utiliser par exécuteur, par exemple, "\"1\"". |
Oui, lorsque vous avez saisi "true" pour SPARK_EXECUTOR_CORES_CHECK. |
SPARK_YARN_ALLOC_TYPE |
Sélectionnez la manière dont vous souhaitez que YARN alloue des ressources parmi les exécuteurs. Saisissez l'une des valeurs suivantes :
|
Oui, lorsque vous personnalisez Spark en mode YARN Client. |
SPARK_EXECUTOR_INSTANCES |
Saisissez le nombre d'exécuteurs à utiliser par YARN, par exemple, "\"2\"". |
Oui, lorsque vous avez saisi "FIXED" pour SPARK_YARN_ALLOC_TYPE. |
SPARK_YARN_DYN_INIT, SPARK_YARN_DYN_MIN et SPARK_YARN_DYN_MAX |
Définissez l'échelle de cette allocation dynamique en définissant ces trois propriétés. Par exemple, "\"1\"" comme nombre initial d'exécuteurs, "\"0\"" comme nombre minimal d'exécuteurs et "\"MAX\"" comme nombre maximal d'exécuteurs. |
Oui, lorsque vous avez saisi "DYNAMIC" pour SPARK_YARN_ALLOC_TYPE. |
WEB_UI_PORT_CHECK |
Si vous devez modifier le port par défaut de l'application Web de Spark, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous personnalisez Spark. |
WEB_UI_PORT |
Saisissez le numéro du port à utiliser pour l'application Web de Spark, par exemple, "\"4040\"". |
Oui, lorsque vous avez saisi "true" pour WEB_UI_PORT_CHECK. |
SPARK_BROADCAST_FACTORY |
Saisissez l'implémentation du broadcast à utiliser pour mettre les variables en cache sur chaque machine de Worker. Saisissez l'une des valeurs suivantes :
|
Oui, lorsque vous personnalisez Spark. |
CUSTOMIZE_SPARK_SERIALIZER |
Si vous devez importer un sérialiseur Spark externe, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous personnalisez Spark. |
SPARK_SERIALIZER |
Saisissez le nom de la classe entièrement qualifié du sérialiseur à utiliser, par exemple "\"org.apache.spark.serializer.KryoSerializer\"". |
Oui, lorsque vous avez saisi "true" pour CUSTOMIZE_SPARK_SERIALIZER. |
ENABLE_BACKPRESSURE |
Si vous devez activer la fonctionnalité Backpressure de Spark, saisissez "true". Sinon, saisissez "false". Cette fonctionnalité est disponible à partir de la version 1.5 de Spark. Une fois activée, Spark trouve automatiquement le taux de réception optimal et adapte dynamiquement ce taux en fonction des retards d'ordonnancement et des temps de traitement batch, afin de recevoir les données au rythme auquel il peut les traiter. |
Oui, lorsque vous personnalisez Spark pour un Job Spark Streaming. |
Propriétés relatives aux logs d'exécution de vos Jobs :
Fonction/paramètre | Description | Obligatoire ? |
---|---|---|
ENABLE_SPARK_EVENT_LOGGING |
Saisissez "true" si vous devez rendre persistants les logs d'application Spark de ce Job, dans le système de fichiers de votre cluster YARN. Sinon, saisissez "false". |
Oui, lorsque vous utilisez Spark en mode YARN Client. |
COMPRESS_SPARK_EVENT_LOGS |
Si vous devez compresser les logs, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous avez saisi "true" pour ENABLE_SPARK_EVENT_LOGGING. |
SPARK_EVENT_LOG_DIR |
Saisissez l'emplacement du répertoire où sont enregistrés les événements Spark, par exemple, "\"hdfs://namenode:8020/user/spark/applicationHistory\"". |
Oui, lorsque vous avez saisi "true" pour ENABLE_SPARK_EVENT_LOGGING. |
SPARKHISTORY_ADDRESS |
saisissez l'emplacement du serveur de l'historique, par exemple, "\"sparkHistoryServer:18080\"". |
Oui, lorsque vous avez saisi "true" pour ENABLE_SPARK_EVENT_LOGGING. |
USE_CHECKPOINT |
Si vous souhaitez que le Job résiste aux échecs, saisissez "true" pour activer l'opération Spark de point de contrôle. Sinon, saisissez "false". |
Oui. |
CHECKPOINT_DIR |
Saisissez l'emplacement du répertoire dans lequel Spark stocke, dans le système de fichiers du cluster, les données de contexte des calculs, comme les métadonnées et les RDD générés par ce calcul. Par exemple, "\"file:///tmp/mycheckpoint\"". |
Oui, lorsque vous avez saisi "true" pour SET_SPARK_EXECUTOR_MEM_OVERHEAD. |
Propriétés relatives à la configuration de Cloudera Navigator :
Si vous utilisez Cloudera V5.5+ pour exécuter vos Jobs MapReduce ou vos Jobs Apache Spark Batch, vous pouvez utiliser Cloudera Navigator pour visualiser le lignage d'un flux de données en particulier pour découvrir comment ces données sont générées par un Job.
Fonction/paramètre | Description | Obligatoire ? |
---|---|---|
USE_CLOUDERA_NAVIGATOR |
Saisissez "true" si vous souhaitez utiliser Cloudera Navigator. Sinon, saisissez "false". |
Oui, lorsque vous utilisez Spark avec Cloudera. |
CLOUDERA_NAVIGATOR_USERNAME et CLOUDERA_NAVIGATOR_PASSWORD |
Saisissez les identifiants à utiliser pour vous connecter à votre Cloudera Navigator. Par exemple, "\"username\"" comme identifiant et "password" comme mot de passe. |
Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR. |
CLOUDERA_NAVIGATOR_URL |
Saisissez l'emplacement du Cloudera Navigator auquel vous connecter, par exemple, "\"http://localhost:7187/api/v8/\"". |
Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR. |
CLOUDERA_NAVIGATOR_METADATA_URL |
Saisissez l'emplacement des métadonnées du Navigator, par exemple, "\"http://localhost:7187/api/v8/metadata/plugin\"". |
Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR. |
CLOUDERA_NAVIGATOR_CLIENT_URL |
Saisissez l'emplacement du client du Navigator, par exemple, "\"http://localhost\"". |
Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR. |
CLOUDERA_NAVIGATOR_AUTOCOMMIT |
Si vous souhaitez que Cloudera Navigator génère le lignage du Job courant à la fin de son exécution, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR. |
CLOUDERA_NAVIGATOR_DISABLE_SSL_VALIDATION |
Si vous ne souhaitez pas utiliser le processus de validation SSL lorsque votre Job se connecte à Cloudera Navigator, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR. |
CLOUDERA_NAVIGATOR_DIE_ON_ERROR |
Si vous souhaitez arrêter l'exécution du Job lorsque la connexion à votre Cloudera Navigator échoue, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous avez saisi "true" pour USE_CLOUDERA_NAVIGATOR. |
Propriétés relatives à la configuration d'Hortonworks Atlas :
Si vous utilisez Hortonworks Data Platform V2.4 ou supérieure pour exécuter vos Jobs Spark Batch Jobs et qu'Apache Atlas est installé dans votre cluster Hortonworks, vous pouvez utiliser Atlas pour visualiser le lignage du flux de données spécifié et voir comment il a été généré par un Job.
Fonction/paramètre | Description | Obligatoire ? |
---|---|---|
USE_ATLAS |
Saisissez "true" si vous souhaitez utiliser Atlas. Sinon, saisissez "false". |
Oui, lorsque vous utilisez Spark avec Hortonworks. |
ATLAS_USERNAME et ATLAS_PASSWORD |
Saisissez vos identifiants de connexion à Atlas. Par exemple, "\"username\"" comme identifiant et "password" comme mot de passe. |
Oui, lorsque vous avez saisi "true" pour USE_ATLAS. |
ATLAS_URL |
Saisissez l'emplacement de l'Atlas auquel se connecter, par exemple "\"http://localhost:21000\"" |
Oui, lorsque vous avez saisi "true" pour USE_ATLAS. |
SET_ATLAS_APPLICATION_PROPERTIES |
Si votre cluster Atlas contient des propriétés personnalisées, comme le SSL ou la suspension de la lecture, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous avez saisi "true" pour USE_ATLAS. |
ATLAS_APPLICATION_PROPERTIES |
Saisissez l'emplacement d'un répertoire sur votre machine locale, puis placez le fichier atlas-application.properties de votre Atlas dans ce répertoire. Par exemple, "\"/user/atlas/atlas-application.properties\"". Ainsi, votre Job peut utiliser ces propriétés personnalisées. |
Oui, lorsque vous avez saisi "true" pour SET_ATLAS_APPLICATION_PROPERTIES. |
ATLAS_DIE_ON_ERROR |
Si vous souhaitez arrêter l'exécution du Job lorsque des erreurs relatives à Atlas surviennent, saisissez "true". Sinon, saisissez "false". |
Oui, lorsque vous avez saisi "true" pour USE_ATLAS. |