ジョブスクリプトでのSpark接続の定義

addParameters{}関数内のaddElementParameters{}関数を使用して、ジョブスクリプト内にSpark接続を定義します。

addElementParameters {}プロパティ

使用するSparkクラスターの選択に関連するプロパティは、次のとおりです。

関数/パラメーター	説明	必須
SPARK_LOCAL_MODE	Sparkジョブをローカルモードで実行するには、`true`と入力します。デフォルトでは、この値は`false`になっています。すなわち、リモートクラスターを使用する設定です。ローカルモードでは、ジョブを実行するためのSpark環境がTalend Studioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationやtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。これ以上は何も設定せずにジョブを起動できます。	はい
SPARK_LOCAL_VERSION	ローカルモードで使用するSparkのバージョンを入力します。このプロパティは、SPARK_LOCAL_MODEに`true`を入力した場合にのみ関連します。 Talend Studioでは、バージョンが2.0未満のSparkのローカルモードによる使用をサポートしていません。たとえば、`"SPARK_2_1_0"`という値を入力します。	Sparkのローカルモードが使用されている場合はYesになります。
DISTRIBUTION	お使いのディストリビューションのプロバイダー名を入力してください。ディストリビューションに応じて、次の値のいずれか1つを入力します。 `"CLOUDERA"` `"CLOUDERA_ALTUS"` `"GOOGLE_CLOUD_DATAPROC"` `"HORTONWORKS"` `"MAPR"` `"MICROSOFT_HD_INSIGHT"`	SparkのローカルモードもAmazon EMRディストリビューションも使用していない場合は「はい」になります。
SPARK_VERSION	お使いのディストリビューションのバージョンを入力します。次のリストには、利用可能な各ディストリビューションのフォーマット例がリスト表示されています。 `"Cloudera_CDH12_5"` `"Cloudera_Altus_CDH5_11"` `"DATAPROC_1_1"` `"HDP_2_6"` `"MAPR600"` `"MICROSOFT_HD_INSIGHT_3_6"` `"EMR_5_5_0"` Talendでサポートされているディストリビューションバージョンの詳細は、Talendジョブでサポートされているビッグデータプラットフォームディストリビューションのバージョンをご覧ください。	Sparkのローカルモードを使用していない場合は「はい」になります。
SUPPORTED_SPARK_VERSION	ディストリビューションで使用しているSparkのバージョンを入力します。例: `"SPARK_2_1_0"`	Sparkのローカルモードを使用していない場合は「はい」になります。
SPARK_API_VERSION	`"SPARK_200"`と入力します。これは、Talendで使用されているSpark APIのバージョンです。	はい
SET_HDP_VERSION	`true`を入力すると、Hortonworksクラスターがそのバージョンを格納するためにhdp.version変数を使用しています。それ以外の場合は、`false`を入力します。この情報が不明な場合は、クラスターの管理者にお問い合わせください。	Hortonworksを使用している場合は「はい」になります。
HDP_VERSION	使用するHortonworkのバージョンを入力します。例: `"\"2.6.0.3-8\""` この情報が不明な場合は、クラスターの管理者にお問い合わせください。バージョン番号はクラスターのyarn-site.xmlファイルにも追加する必要があります。この例では、`hdp.version=2.6.0.3-8`を追加します。	SET_HDP_VERSIONに`true`を入力した場合は「はい」になります。
SPARK_MODE	Sparkクラスターが実装されているモードを入力します。状況に応じて、次の値のいずれか1つを入力します。 `"CLUSTER"`: Sparkのスタンドアロンモードで実行することを意味します。 `"YARN_CLIENT"`	Sparkのローカルモードを使用していない場合は「はい」になります。

Sparkへの接続設定に関連するプロパティは、次のとおりです。

関数/パラメーター	説明	必須
RESOURCE_MANAGER	使用するHadoopクラスターのResourceManagerサービスのアドレスを入力します。	Yarnクライアントモードを使用している場合は「はい」になります。
SET_SCHEDULER_ADDRESS	クラスターにResourceManager スケジューラーがある場合は`true`と入力します。それ以外の場合は`false`と入力します。	Yarnクライアントモードを使用している場合は「はい」になります。
RESOURCEMANAGER_SCHEDULER_ADDRESS	スケジューラーのアドレスを入力します。	SET_SCHEDULER_ADDRESSに`true`を入力した場合は「はい」になります。
SET_JOBHISTORY_ADDRESS	クラスターにジョブヒストリーサービスがある場合は`true`と入力します。それ以外の場合は`false`と入力します。	Yarnクライアントモードを使用している場合は「はい」になります。
JOBHISTORY_ADDRESS	使用するHadoopクラスターのジョブヒストリーサーバーの場所を入力します。これにより、現在のジョブのメトリックス情報がそのJobHistoryサーバーに保存されます。	SET_JOBHISTORY_ADDRESSに`true`を入力した場合は「はい」になります。
SET_STAGING_DIRECTORY	実行中のプログラムによって作成された一時ファイルを保存するステージングディレクトリーがクラスターにある場合は`true`と入力します。それ以外の場合は`false`と入力します。	Yarnクライアントモードを使用している場合は「はい」になります。
STAGING_DIRECTORY	このディレクトリーに、たとえば`"\"/user\""`と入力します。一般的には、このディレクトリーはディストリビューションのyarn-site.xmlやmapred-site.xmlなどの設定ファイル内にあるyarn.app.mapreduce.am.staging-dirプロパティの下にあります。	SET_STAGING_DIRECTORYに`true`を入力した場合は「はい」になります。
HDINSIGHT_ENDPOINT	HDInsightクラスターのエンドポイントを入力します。例: `"\"https://mycluster.azurehdinsight.net\""`	関連するディストリビューションを使用している場合は「はい」になります。
HDINSIGHT_USERNAMEおよびHDINSIGHT_PASSWORD	[Username] (ユーザー名)は、クラスターの作成時に定義されたものです。これは、クラスターの[SSH + Cluster] (SSH + クラスター)ログインブレードで確認できます。 [Password] (パスワード)は、このクラスターの認証でHDInsightクラスターを作成する時に定義します。たとえば、ユーザー名に`"\"talendstorage\""`、パスワードに`"my_password"`を使用します。	関連するディストリビューションを使用している場合は「はい」になります。
LIVY_HOST	Livyの[Hostname] (ホスト名)は、HDInsightクラスターのURLです。このURLは、クラスターの[Overview] (概要)ブレードにあります。https://部分なしでこのURLを入力します。デフォルトの[Port] (ポート)は443です。 [Username] (ユーザー名)は、クラスターの作成時に定義されたものです。これは、クラスターの[SSH + Cluster] (SSH + クラスター)ログインブレードで確認できます。 HD Insightによって使用されるLivyサービスの詳細は、Submit Spark jobs using Livyをご覧ください。	関連するディストリビューションHDInsightを使用している場合は「はい」になります。
LIVY_PORT	Livyサービスのポート番号を入力します。デフォルトでは、ポート番号は`"\"443\""`です。	関連するディストリビューションHDInsightを使用している場合は「はい」になります。
LIVY_USERNAME	HDinsightユーザー名を入力します。例: `"\"my_hdinsight_account\""`	関連するディストリビューションHDInsightを使用している場合は「はい」になります。
HDINSIGHT_POLLING_INTERVAL_DURATION	Talend StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。デフォルトの間隔は`30000`、つまり30秒です。	いいえ。このパラメーターを指定しない場合、デフォルト値は関連するディストリビューションであるHDInsightで使用されます。
HDINSIGHT_MAX_MISSING_STATUS	ステータスの応答がない場合にTalend Studioがステータス取得のために再試行する最大回数を入力します。デフォルトの再試行回数は`10`回です。	いいえ。このパラメーターを指定しない場合、デフォルト値は関連するディストリビューションであるHDInsightで使用されます。
WASB_HOST	Windows Azure Storage Blobのアドレスを入力します。例: `"\"https://my_storage_account_name.Blob.core.windows.net\""`	関連するディストリビューションHDInsightを使用している場合は「はい」になります。
WASB_CONTAINER	使用するコンテナーの名前を入力します。例: `"\"talend_container\""`	関連するディストリビューションHDInsightを使用している場合は「はい」になります。
REMOTE_FOLDER	このAzure Storageアカウントで現在のジョブとその依存ライブラリーを保存する場所を入力します(例: "\"/user/ychen/deployment_Blob\"")。	関連するディストリビューションHDInsightを使用している場合は「はい」になります。
SPARK_HOST	使用するHadoopクラスターのSparkマスターのURIを入力します。例: `"\"spark://localhost:7077\""`	Sparkのスタンドアロンモードを使用している場合は「はい」になります。
SPARK_HOME	使用するHadoopクラスターのSpark実行可能ファイルの保存場所を入力します。例: `"\"/usr/lib/spark\""`	Sparkのスタンドアロンモードを使用している場合は「はい」になります。
DEFINE_HADOOP_HOME_DIR	Windowsから起動する必要がある場合は、使用するwinutils.exeプログラムの保存場所を指定することを推奨します。 winutils.exeファイルのロケーションがわかっており、それを使用する場合は、`true`と入力します。それ以外の場合は`false`と入力します。	クラウド上で実行されていないディストリビューションを使用している場合は「はい」になります。
HADOOP_HOME_DIR	winutils.exeが保存されているディレクトリーを入力します。例: `"\"C:/Talend/winutils\""`.	DEFINE_HADOOP_HOME_DIRに`true`を入力した場合は「はい」になります。
DEFINE_SPARK_DRIVER_HOST	SparkのYarnクライアントモードで、ジョブが起動しているマシンをSparkクラスター自らが認識できない場合は`true`と入力します。それ以外の場合は`false`と入力します。	クラウド上で実行されていないディストリビューションを使用しており、SparkモードがYarnクライアントの場合は「はい」になります。
SPARK_DRIVER_HOST	このマシンのホスト名またはIPアドレスを入力します。例: `"\"127.0.0.1\""` この設定により、Sparkマスターとそのワーカーはこのマシンを認識して、ジョブとそのドライバーを見つけることができます。このような場合、このマシンの名前とIPアドレスもそのホストファイルに追加する必要があります。	DEFINE_SPARK_DRIVER_HOSTに`true`を入力した場合は「はい」になります。
GOOGLE_PROJECT_ID	Google Cloud PlatformプロジェクトのIDを入力します。例: `"\"my-google-project\""`	関連するディストリビューションを使用している場合は「はい」になります。
GOOGLE_CLUSTER_ID	使用するDataprocクラスターのIDを入力します。例: `"\"my-cluster-id\""`	関連するディストリビューションを使用している場合は「はい」になります。
GOOGLE_REGION	コンピューティングリソースを使用し、データを保存、処理する地域を入力します。特定のリージョンを指定する必要がない場合は、`"\"global\""`と入力します。	関連するディストリビューションを使用している場合は「はい」になります。
GOOGLE_JARS_BUCKET	Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。入力するディレクトリーの末尾はスラッシュ(/)にする必要があります。ディレクトリーがない場合は即座に作成されますが、使用するバケットはあらかじめ作成しておく必要があります。例: `"\"gs://my-bucket/talend/jars/\""`	関連するディストリビューションを使用している場合は「はい」になります。
DEFINE_PATH_TO_GOOGLE_CREDENTIALS	Google Cloud SDKがインストールされ、ユーザーアカウントの認証情報を使用してGoogle Cloud Platformにアクセスする権限があるマシンからジョブを起動する場合は、`false`と入力します。この状況では多くの場合、このマシンはお使いのローカルマシンです。ジョブをTalend JobServerなどのリモートマシンから起動する場合は、`true`と入力します。	関連するディストリビューションを使用している場合は「はい」になります。
PATH_TO_GOOGLE_CREDENTIALS	このJSONファイルが保存されているディレクトリーをリモートマシンに入力します。これは以上に多くの場合、ジョブサーバーです。例: `"\"/user/ychen/my_credentials.json\""`	DEFINE_PATH_TO_GOOGLE_CREDENTIALSに`true`を入力した場合は「はい」になります。
ALTUS_SET_CREDENTIALS	ジョブでAltusの認証情報を使用する場合は、`true`と入力します。たとえば、端末で altus configureコマンドを手動で入力して、Altusの認証情報を個別に提供する場合は、`false`と入力します。	関連するディストリビューションを使用している場合は「はい」になります。
ALTUS_ACCESS_KEYおよびALTUS_SECRET_KEY	Altusのアクセスキーと、Altusのシークレットキーファイルを参照するディレクトリーを入力します。例: `"\"my_access_key\""`および`"\"/user/ychen/my_secret_key_file`	ALTUS_SET_CREDENTIALSに`true`を入力した場合は「はい」になります。
ALTUS_CLI_PATH	ジョブが実行されるマシンにインストールし、有効にしたCloudera Altusクライアントへのパスを入力します。本番環境の場合、このマシンは通常、Talend JobServerです。例: `"\"/opt/altuscli/altusclienv/bin/altus\""`	関連するディストリビューションを使用している場合は「はい」になります。
ALTUS_REUSE_CLUSTER	Cloudサービスに既に存在するCloudera Altusクラスターを使用する場合は、`true`と入力します。それ以外の場合は`false`と入力して、ジョブでクラスターをオンザフライで作成できるようにします。	関連するディストリビューションを使用している場合は「はい」になります。
ALTUS_CLUSTER_NAME	使用するクラスターの名前を入力します。例: `"\"talend-altus-cluster\""`	関連するディストリビューションを使用している場合は「はい」になります。
ALTUS_ENVIRONMENT_NAME	特定のクラスターに割り当てたリソースの説明に使用する、Cloudera Altus環境の名前を入力します。例: `"\"talend-altus-cluster\""`	関連するディストリビューションを使用している場合は「はい」になります。
ALTUS_CLOUD_PROVIDER	Cloudera Altusクラスターを実行するCloudサービスを入力します。現時点では、AWSのみサポートされています。したがって、`"\"AWS\""`と入力します。	関連するディストリビューションを使用している場合は「はい」になります。
ALTUS_DELETE_AFTER_EXECUTION	ジョブの実行後に特定のクラスターを削除する場合は、`true`と入力します。それ以外の場合は`false`と入力します。	関連するディストリビューションを使用している場合は「はい」になります。
ALTUS_S3_ACCESS_KEYおよびALTUS_S3_SECRET_KEY	使用するAmazon S3バケットへの接続に必要な認証情報を入力します。	ALTUS_CLOUD_PROVIDERに`"\"AWS\""`を入力した場合は「はい」になります。
ALTUS_S3_REGION	使用するAWSリージョンを入力します。例: `"\"us-east-1\""`	ALTUS_CLOUD_PROVIDERに`"\"AWS\""`を入力した場合は「はい」になります。
ALTUS_BUCKET_NAME	ジョブの依存項目を保存するために使用するバケットの名前を入力します。既存のバケットを用意しておく必要があります。例: `"\"my-bucket\""`	ALTUS_CLOUD_PROVIDERに`"\"AWS\""`を入力した場合は「はい」になります。
ALTUS_JARS_BUCKET	この特定のバケット内のジョブの依存項目を保存するディレクトリーを入力します。例: `"\"altus/jobjar\""` このディレクトリーは、実行時にまだなかった場合は作成されます。	ALTUS_CLOUD_PROVIDERに`"\"AWS\""`を入力した場合は「はい」になります。
ALTUS_USE_CUSTOM_JSON	JSONコードを手動で編集してAltusクラスターを設定する必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。	関連するディストリビューションを使用している場合は「はい」になります。
ALTUS_CUSTOM_JSON	カスタムjsonコードを入力します。例: `"{my_json_code}"`	ALTUS_USE_CUSTOM_JSONに`true`を入力した場合は「はい」になります。
ALTUS_INSTANCE_TYPE	クラスター内のインスタンスのタイプを入力します。このクラスターに展開されたすべてのノードで同じインスタンスタイプが使用されます。例: `"\"c4.2xlarge\""`	関連するディストリビューションを使用している場合は「はい」になります。
ALTUS_WORKER_NODE	クラスター用に作成するワーカーノードの数を入力します。例: `"\"10\""`	関連するディストリビューションを使用している場合は「はい」になります。
ALTUS_CLOUDERA_MANAGER_USERNAME	Coudera Managerサービスの認証情報を入力します。例: `"\"altus\""`	関連するディストリビューションを使用している場合は「はい」になります。
SPARK_SCRATCH_DIR	転送するジョブの依存項目などの一時ファイルをローカルシステムに保存するディレクトリーを入力します。例: `"\"/tmp\""`	はい
STREAMING_BATCH_SIZE	ジョブがソースデータを検証して変更を特定し、新しいマイクロバッチを処理するまでの間隔(ミリ秒)を入力します。例: `"1000"`	Spark Streamingジョブを開発している場合は「はい」になります。
DEFINE_DURATION	ストリーミングのタイムアウト(ミリ秒)を定義する必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。	Spark Streamingジョブを開発している場合は「はい」になります。
STREAMING_DURATION	ストリーミングジョブが自動的に実行を停止するまでの期間(ミリ秒)を入力します。例: `"10000"`	DEFINE_DURATIONに`true`を入力した場合は「はい」になります。
SPARK_ADVANCED_PROPERTIES	他のHadoopまたはSparkに関連するプロパティを使用するためのコードを入力します。たとえば、次のような場合があります: `{ PROPERTY : "\"spark.yarn.am.extraJavaOptions\"", VALUE : "\"-Dhdp.version=2.4.0.0-169\"", BUILDIN : "TRUE" }`	不可。

セキュリティ設定の定義に関連するプロパティは、次のとおりです。

関数/パラメーター	説明	必須?
USE_KRB	使用するクラスターをKerberosで保護する場合は、`true`と入力します。それ以外の場合は`false`と入力します。	はい
RESOURCEMANAGER_PRINCIPAL	ResourceManagerサービスのKerberosプリンシパル名を入力します。例: `"\"yarn/_HOST@EXAMPLE.COM\""`	KerberosおよびYarnクライアントモードを使用している場合は「はい」になります。
JOBHISTORY_PRINCIPAL	ジョブヒストリーサービスのKerberosプリンシパル名を入力します。例: `"\"mapred/_HOST@EXAMPLE.COM\""`	KerberosおよびYarnクライアントモードを使用している場合は「はい」になります。
USE_KEYTAB	ログインにKerberos keytabファイルを使用する必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。	Kerberosを使用している場合は「はい」になります。
PRINCIPAL	使用するプリンシパルを入力します。例: `"\"hdfs\""`	Kerberos keytabファイルを使用している場合は「はい」になります。
KEYTAB_PATH	keytabファイル自体へのアクセスパスを入力します。このキータブファイルは、ジョブが実際に実行されているマシン(Talend JobServerなど)に保存する必要があります。例: `"\"/tmp/hdfs.headless.keytab\""`	Kerberos keytabファイルを使用している場合は「はい」になります。
USERNAME	ディストリビューションのログインユーザー名を入力します。空のまま(`"\"\""`)にしておくと、ジョブを実際に実行するマシンのユーザー名が使用されます。	Kerberosを使用していない場合は「はい」になります。
USE_MAPRTICKET	使用するMapRクラスターをMapRチケット認証メカニズムで保護する場合は、`true`を入力します。それ以外の場合は`false`と入力します。	MapRクラスターを使用している場合は「はい」になります。
MAPRTICKET_PASSWORD	MapRへのログインに使用するパスワードを入力します。例: `"my_password"`	Kerberosを使用せず、MapRチケット認証メカニズムを使用している場合は「はい」になります。
MAPRTICKET_CLUSTER	接続先とするMapRクラスターの名前を入力します。例: `"\"demo.mapr.com\""`	MapRチケット認証メカニズムを使用している場合は「はい」になります。
MAPRTICKET_DURATION	チケットを有効とする期間(秒)を入力します。例: `"86400L"`	MapRチケット認証メカニズムを使用している場合は「はい」になります。
SET_MAPR_HOME_DIR	MapR設定ファイルのロケーションがクラスター内のどこかに変更されている場合、つまり、MapRホームディレクトリーが変更されている場合は、`true`と入力します。それ以外の場合は`false`と入力します。	MapRチケット認証メカニズムを使用している場合は「はい」になります。
MAPR_HOME_DIR	新しいホームディレクトリーを入力します。例: `"\"/opt/mapr/custom/\""`	SET_MAPR_HOME_DIRに`true`を入力した場合は「はい」になります。
SET_HADOOP_LOGIN	使用するログインモジュールがMapRセキュリティ設定ファイルmapr.login.conf内で変更されている場合は、`true`と入力します。それ以外の場合は`false`と入力します。	MapRチケット認証メカニズムを使用している場合は「はい」になります。
HADOOP_LOGIN	mapr.login.confファイルから呼び出すモジュールを入力します。たとえば、`"\"kerberos\""`はhadoop_kerberosモジュールを呼び出すことを意味します。	SET_HADOOP_LOGINに`true`を入力した場合は「はい」になります。

Sparkのチューニングに関連するプロパティは、次のとおりです。

関数/パラメーター	説明	必須?
ADVANCED_SETTINGS_CHECK	ジョブの実行に使用するリソースの割り当てを最適化する必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。	はい
SPARK_DRIVER_MEMおよびSPARK_DRIVER_CORES	現在のジョブのドライバーが使用するメモリの割り当てサイズとコアの数を入力します。たとえば、メモリは`"\"512m\""`、コアの数は`"\"1\""`と入力します。	スタンドアロンモードでSparkのチューニングを行っている場合は「はい」になります。
SPARK_YARN_AM_SETTINGS_CHECK	YarnクラスターのApplicationMasterチューニングプロパティを定義するには、`true`と入力します。それ以外の場合は`false`と入力します。	YarnクライアントモードでSparkのチューニングを行っている場合は「はい」になります。
SPARK_YARN_AM_MEMおよびSPARK_YARN_AM_CORES	ApplicationMasterが使用するメモリの割り当てサイズを入力します。たとえば、メモリは`"\"512m\""`、コアの数は`"\"1\""`と入力します。	SPARK_YARN_AM_SETTINGS_CHECKに`true`を入力した場合は「はい」になります。
SPARK_EXECUTOR_MEM	各Sparkエグゼキューターが使用するメモリの割り当てサイズを入力します。例: `"\"512m\""`	Sparkのチューニングを行っている場合は「はい」になります。
SET_SPARK_EXECUTOR_MEM_OVERHEAD	エグゼキューターごとにオフヒープメモリ(MB単位)の容量を割り当てる必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。	YarnクライアントモードでSparkのチューニングを行っている場合は「はい」になります。
SPARK_EXECUTOR_MEM_OVERHEAD	エグゼキューターごとに割り当てるオフヒープメモリ(MB単位)の容量を入力します。	SET_SPARK_EXECUTOR_MEM_OVERHEADに`true`を入力した場合は「はい」になります。
SPARK_EXECUTOR_CORES_CHECK	各エグゼキューターが使用するコアの数を定義する必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。	Sparkのチューニングを行っている場合は「はい」になります。
SPARK_EXECUTOR_CORES	各エグゼキューターが使用するコアの数を入力します。例: `"\"1\""`	SPARK_EXECUTOR_CORES_CHECKに`true`を入力した場合は「はい」になります。
SPARK_YARN_ALLOC_TYPE	Yarnによるエグゼキューターへのリソースの割り当て方法を選択します。次の値のいずれか1つを入力します。 `["AUTO"] ("自動")`: エグゼキューターのデフォルトの数をYarnで使用することを意味します。デフォルト値は2です。 `FIXED`: SPARK_EXECUTOR_INSTANCESで使用するエグゼキューターの数を定義することを意味します。 `["DYNAMIC"] ("ダイナミック")`: Yarnに負荷に合わせてエグゼキューターの数を調整させることを意味します。次にSPARK_YARN_DYN_INIT、SPARK_YARN_DYN_MINおよびSPARK_YARN_DYN_MAXを定義する必要があります。	YarnクライアントモードでSparkのチューニングを行っている場合は「はい」になります。
SPARK_EXECUTOR_INSTANCES	Yarnが使用するエグゼキューターの数を入力します。例: `"\"2\""`	SPARK_YARN_ALLOC_TYPEに`FIXED`を入力した場合は「はい」になります。
SPARK_YARN_DYN_INIT、SPARK_YARN_DYN_MINおよびSPARK_YARN_DYN_MAX	これら3つのプロパティを定義することで、動的な割り当てのスケールを定義します。たとえば、最初のエグゼキューターの番号を`"\"1\""`、最小数を`"\"0\""`、最大数を`"\"MAX\""`とします。	SPARK_YARN_ALLOC_TYPEに`DYNAMIC`を入力した場合は「はい」になります。
WEB_UI_PORT_CHECK	Spark Web UIのデフォルトポートを変更する必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。	Sparkのチューニングを行っている場合は「はい」になります。
WEB_UI_PORT	Spark Web UIに使用するポート番号を入力します。例: `"\"4040\""`	WEB_UI_PORT_CHECKに`true`を入力した場合は「はい」になります。
SPARK_BROADCAST_FACTORY	各ワーカーマシンで変数をキャッシュするために使用するブロードキャスト実装を入力します。次の値のいずれか1つを入力します。 `"AUTO"` `"TORRENT"` `"HTTP"`	Sparkのチューニングを行っている場合は「はい」になります。
CUSTOMIZE_SPARK_SERIALIZER	外部Sparkシリアライザーをインポートする必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。	Sparkのチューニングを行っている場合は「はい」になります。
SPARK_SERIALIZER	使用するシリアライザーの完全修飾クラス名を入力します。例: `"\"org.apache.spark.serializer.KryoSerializer\""`	CUSTOMIZE_SPARK_SERIALIZERに`true`を入力した場合は「はい」になります。
ENABLE_BACKPRESSURE	Sparkのバックプレッシャ機能を有効にする必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。バックプレッシャー機能はSparkバージョン1.5以上で利用できます。バックプレッシャーを有効にすると、Sparkによって最適な受信速度が自動的に検出され、あくまでも処理可能な速度に合わせてデータを受信できるように、現在のバッチスケジューリングの待機時間と処理時間を基に速度が動的に変更されます。	Spark Streamingジョブ用にSparkのチューニングを行っている場合は「はい」になります。

ジョブ実行のロギングに関連するプロパティは、次のとおりです。

関数/パラメーター	説明	必須?
ENABLE_SPARK_EVENT_LOGGING	Yarnクラスターのファイルシステム内での持続性を保つために、このジョブのSparkアプリケーションログを有効にする必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。	YarnクライアントモードでSparkを使用している場合は「はい」になります。
COMPRESS_SPARK_EVENT_LOGS	ログを圧縮する必要がある場合は、`true`と入力します。それ以外の場合は`false`と入力します。	ENABLE_SPARK_EVENT_LOGGINGに`true`を入力した場合は「はい」になります。
SPARK_EVENT_LOG_DIR	Sparkイベントがログされているディレクトリーを入力します。例: `"\"hdfs://namenode:8020/user/spark/applicationHistory\""`	ENABLE_SPARK_EVENT_LOGGINGに`true`を入力した場合は「はい」になります。
SPARKHISTORY_ADDRESS	ヒストリーサーバーのロケーションを入力します。例: `"\"sparkHistoryServer: 18080\""`	ENABLE_SPARK_EVENT_LOGGINGに`true`を入力した場合は「はい」になります。
USE_CHECKPOINT	ジョブにエラーリカバリー力が必要な場合は、`true`と入力してSparkチェックポイント操作を有効にします。それ以外の場合は`false`と入力します。	はい
CHECKPOINT_DIR	メタデータなどの計算のコンテキストデータ、この計算から生成されたRDDをSparkが保存する、クラスターのファイルシステム内のディレクトリーを入力します。例: `"\"file:///tmp/mycheckpoint\""`	SET_SPARK_EXECUTOR_MEM_OVERHEADに`true`を入力した場合は「はい」になります。

Cloudera Navigatorの設定に関連するプロパティは、次のとおりです。

Apache Spark Batchジョブの実行にCloudera V5.5+を使用している場合は、Cloudera Navigatorを使って特定のデータフローの来歴を追跡し、ジョブによりこのデータフローがどのように生成されたかを調べることができます。

関数/パラメーター	説明	必須?
USE_CLOUDERA_NAVIGATOR	Cloudera Navigatorを使用する場合は、`true`と入力します。それ以外の場合は`false`と入力します。	Cloudera上でSparkを使用している場合は「はい」になります。
CLOUDERA_NAVIGATOR_USERNAMEおよびCLOUDERA_NAVIGATOR_PASSWORD	Cloudera Navigatorへの接続に使用する認証情報を入力します。たとえば、ユーザー名に`"\"username\""`、パスワードに`"password"`を使用します。	USE_CLOUDERA_NAVIGATORに`true`を入力した場合は「はい」になります。
CLOUDERA_NAVIGATOR_URL	Cloudera Navigatorの接続先となるロケーションを入力します。例: `"\"http://localhost:7187/api/v8/\""`	USE_CLOUDERA_NAVIGATORに`true`を入力した場合は「はい」になります。
CLOUDERA_NAVIGATOR_METADATA_URL	Navigator Metadataのロケーションを入力します。例: `"\"http://localhost:7187/api/v8/metadata/plugin\""`	USE_CLOUDERA_NAVIGATORに`true`を入力した場合は「はい」になります。
CLOUDERA_NAVIGATOR_CLIENT_URL	Navigatorクライアントのロケーションを入力します。例: `"\"http://localhost\""`	USE_CLOUDERA_NAVIGATORに`true`を入力した場合は「はい」になります。
CLOUDERA_NAVIGATOR_AUTOCOMMIT	ジョブ実行の最後にCloudera Navigatorが現在のジョブの来歴を生成するように設定するには、`true`と入力します。それ以外の場合は`false`と入力します。	USE_CLOUDERA_NAVIGATORに`true`を入力した場合は「はい」になります。
CLOUDERA_NAVIGATOR_DISABLE_SSL_VALIDATION	ジョブがCloudera Navigatorに接続した時にSSL検証プロセスを使用しないように設定するには、`true`と入力します。それ以外の場合は`false`と入力します。	USE_CLOUDERA_NAVIGATORに`true`を入力した場合は「はい」になります。
CLOUDERA_NAVIGATOR_DIE_ON_ERROR	Cloudera Navigatorへの接続が失敗した時にジョブの実行が停止するように設定するには、`true`と入力します。それ以外の場合は`false`と入力します。	USE_CLOUDERA_NAVIGATORに`true`を入力した場合は「はい」になります。

Hortonworks Atlasの設定に関連するプロパティは、次のとおりです。

Sparkのバッチジョブの実行にHortonworksデータプラットフォームV2.4以上を使用しており、HortonworksクラスターにApache Atlasがインストールされている場合は、Atlasを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータフローがどのように生成されたかを調べることができます。

関数/パラメーター	説明	必須?
USE_ATLAS	Atlasを使用する場合は`true`と入力します。それ以外の場合は`false`と入力します。	Hortonworks上でSparkを使用している場合は「はい」になります。
ATLAS_USERNAMEおよびATLAS_PASSWORD	Atlasへの接続に使用する認証情報を入力します。たとえば、ユーザー名に`"\"username\""`、パスワードに`"password"`を使用します。	USE_ATLASに`true`を入力した場合は「はい」になります。
ATLAS_URL	Atlasの接続先となるロケーションを入力します。例: `"\"http://localhost:21000\""`	USE_ATLASに`true`を入力した場合は「はい」になります。
SET_ATLAS_APPLICATION_PROPERTIES	AtlasクラスターにSSLや読み取りタイムアウトなどのカスタムプロパティが含まれている場合は、`true`と入力します。それ以外の場合は`false`と入力します。	USE_ATLASに`true`を入力した場合は「はい」になります。
ATLAS_APPLICATION_PROPERTIES	ローカルマシンにディレクトリーを入力し、そのディレクトリーにAtlasのatlas-application.propertiesファイルを保存します。例: `"\"/user/atlas/atlas-application.properties\""` こうすることでジョブが有効になり、これらのカスタムプロパティを使用できるようになります。	SET_ATLAS_APPLICATION_PROPERTIESに`true`を入力した場合は「はい」になります。
ATLAS_DIE_ON_ERROR	Atlasに関連する問題が発生した時にジョブの実行が停止するように設定するには、`true`と入力します。それ以外の場合は`false`と入力します。	USE_ATLASに`true`を入力した場合は「はい」になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください