ジョブスクリプトでのSpark接続の定義
addElementParameters {}プロパティ
使用するSparkクラスターの選択に関連するプロパティは、次のとおりです。
関数/パラメーター | 説明 | 必須 |
---|---|---|
SPARK_LOCAL_MODE |
Sparkジョブをローカルモードで実行するには、trueと入力します。デフォルトでは、この値はfalseになっています。すなわち、リモートクラスターを使用する設定です。 ローカルモードでは、ジョブを実行するためのSpark環境がStudioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。 このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationやtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。 これ以上は何も設定せずにジョブを起動できます。 |
はい |
SPARK_LOCAL_VERSION |
ローカルモードで使用するSparkのバージョンを入力します。このプロパティは、SPARK_LOCAL_MODEにtrueを入力した場合にのみ関連します。 Studioでは、バージョンが2.0未満のSparkのローカルモードによる使用をサポートしていません。たとえば、"SPARK_2_1_0"という値を入力します。 |
Sparkのローカルモードが使用されている場合はYesになります。 |
DISTRIBUTION |
お使いのディストリビューションのプロバイダー名を入力してください。 ディストリビューションに応じて、次の値のいずれか1つを入力します。
|
SparkのローカルモードもAmazon EMRディストリビューションも使用していない場合は「はい」になります。 |
SPARK_VERSION |
お使いのディストリビューションのバージョンを入力します。 次のリストには、利用可能な各ディストリビューションのフォーマット例がリスト表示されています。
Talendでサポートされているディストリビューションバージョンの詳細は、Talendインストールガイドで「Talendジョブでサポートされているビッグデータプラットフォームディストリビューションのバージョン」というセクションをご覧ください。 |
Sparkのローカルモードを使用していない場合は「はい」になります。 |
SUPPORTED_SPARK_VERSION |
ディストリビューションで使用しているSparkのバージョンを入力します。例: "SPARK_2_1_0" |
Sparkのローカルモードを使用していない場合は「はい」になります。 |
SPARK_API_VERSION |
"SPARK_200"と入力します。これは、Talendで使用されているSpark APIのバージョンです。 |
はい |
SET_HDP_VERSION |
trueを入力すると、Hortonworksクラスターがそのバージョンを格納するためにhdp.version変数を使用しています。それ以外の場合は、falseを入力します。この情報が不明な場合は、クラスターの管理者にお問い合わせください。 |
Hortonworksを使用している場合は「はい」になります。 |
HDP_VERSION |
使用するHortonworkのバージョンを入力します。例: "\"2.6.0.3-8\"" この情報が不明な場合は、クラスターの管理者にお問い合わせください。 バージョン番号はクラスターのyarn-site.xmlファイルにも追加する必要があります。この例では、hdp.version=2.6.0.3-8を追加します。 |
SET_HDP_VERSIONにtrueを入力した場合は「はい」になります。 |
SPARK_MODE |
Sparkクラスターが実装されているモードを入力します。 状況に応じて、次の値のいずれか1つを入力します。
|
Sparkのローカルモードを使用していない場合は「はい」になります。 |
Sparkへの接続設定に関連するプロパティは、次のとおりです。
関数/パラメーター | 説明 | 必須 |
---|---|---|
RESOURCE_MANAGER |
使用するHadoopクラスターのResourceManagerサービスのアドレスを入力します。 |
Yarnクライアントモードを使用している場合は「はい」になります。 |
SET_SCHEDULER_ADDRESS |
クラスターにResourceManager スケジューラーがある場合はtrueと入力します。それ以外の場合はfalseと入力します。 |
Yarnクライアントモードを使用している場合は「はい」になります。 |
RESOURCEMANAGER_SCHEDULER_ADDRESS |
スケジューラーのアドレスを入力します。 |
SET_SCHEDULER_ADDRESSにtrueを入力した場合は「はい」になります。 |
SET_JOBHISTORY_ADDRESS |
クラスターにジョブヒストリーサービス がある場合はtrueと入力します。それ以外の場合はfalseと入力します。 |
Yarnクライアントモードを使用している場合は「はい」になります。 |
JOBHISTORY_ADDRESS |
使用するHadoopクラスターのジョブヒストリーサーバーの場所を入力します。これにより、現在のジョブのメトリックス情報がそのJobHistoryサーバーに保存されます。 |
SET_JOBHISTORY_ADDRESSにtrueを入力した場合は「はい」になります。 |
SET_STAGING_DIRECTORY |
実行中のプログラムによって作成された一時ファイルを保存するステージングディレクトリーがクラスターにある場合はtrueと入力します。それ以外の場合はfalseと入力します。 |
Yarnクライアントモードを使用している場合は「はい」になります。 |
STAGING_DIRECTORY |
このディレクトリーに、たとえば"\"/user\""と入力します。一般的には、このディレクトリーはディストリビューションのyarn-site.xmlやmapred-site.xmlなどの設定ファイル内にあるyarn.app.mapreduce.am.staging-dirプロパティの下にあります。 |
SET_STAGING_DIRECTORYにtrueを入力した場合は「はい」になります。 |
HDINSIGHT_ENDPOINT |
HDInsightクラスターのエンドポイントを入力します。例: "\"https://mycluster.azurehdinsight.net\"" |
関連するディストリビューションを使用している場合は「はい」になります。 |
HDINSIGHT_USERNAMEおよびHDINSIGHT_PASSWORD |
たとえば、ユーザー名に"\"talendstorage\""、パスワードに"my_password"を使用します。 |
関連するディストリビューションを使用している場合は「はい」になります。 |
LIVY_HOST |
|
関連するディストリビューションHDInsightを使用している場合は「はい」になります。 |
LIVY_PORT |
Livyサービスの ポート番号を入力します。デフォルトでは、ポート番号は"\"443\""です。 |
関連するディストリビューションHDInsightを使用している場合は「はい」になります。 |
LIVY_USERNAME |
HDinsightユーザー名を入力します。例: "\"my_hdinsight_account\"" |
関連するディストリビューションHDInsightを使用している場合は「はい」になります。 |
HDINSIGHT_POLLING_INTERVAL_DURATION |
StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。デフォルトの間隔は30000、つまり30秒です。 |
いいえ。このパラメーターを指定しない場合、デフォルト値は関連するディストリビューションであるHDInsightで使用されます。 |
HDINSIGHT_MAX_MISSING_STATUS |
ステータスの応答がない場合にStudioがステータス取得のために再試行する最大回数を入力します。デフォルトの再試行回数は10回です。 |
いいえ。このパラメーターを指定しない場合、デフォルト値は関連するディストリビューションであるHDInsightで使用されます。 |
WASB_HOST |
Windows Azure Storage Blobのアドレスを入力します。例: "\"https://my_storage_account_name.Blob.core.windows.net\"" |
関連するディストリビューションHDInsightを使用している場合は「はい」になります。 |
WASB_CONTAINER |
使用するコンテナーの名前を入力します。例: "\"talend_container\"" |
関連するディストリビューションHDInsightを使用している場合は「はい」になります。 |
REMOTE_FOLDER |
このAzure Storageアカウントで現在のジョブとその依存ライブラリーを保存する場所を入力します(例: "\"/user/ychen/deployment_Blob\"")。 |
関連するディストリビューションHDInsightを使用している場合は「はい」になります。 |
SPARK_HOST |
使用するHadoopクラスターのSparkマスターのURIを入力します。例: "\"spark://localhost:7077\"" |
Sparkのスタンドアロンモードを使用している場合は「はい」になります。 |
SPARK_HOME |
使用するHadoopクラスターのSpark実行可能ファイルの保存場所を入力します。例: "\"/usr/lib/spark\"" |
Sparkのスタンドアロンモードを使用している場合は「はい」になります。 |
DEFINE_HADOOP_HOME_DIR |
Windowsから起動する必要がある場合は、使用するwinutils.exeプログラムの保存場所を指定することを推奨します。 winutils.exeファイルのロケーションがわかっており、それを使用する場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
クラウド上で実行されていないディストリビューションを使用している場合は「はい」になります。 |
HADOOP_HOME_DIR |
winutils.exeが保存されているディレクトリーを入力します。例: "\"C:/Talend/winutils\"". |
DEFINE_HADOOP_HOME_DIRにtrueを入力した場合は「はい」になります。 |
DEFINE_SPARK_DRIVER_HOST |
SparkのYarnクライアントモードで、ジョブが起動しているマシンをSparkクラスター自らが認識できない場合はtrueと入力します。それ以外の場合はfalseと入力します。 |
クラウド上で実行されていないディストリビューションを使用しており、SparkモードがYarnクライアントの場合は「はい」になります。 |
SPARK_DRIVER_HOST |
このマシンのホスト名またはIPアドレスを入力します。例: "\"127.0.0.1\"" この設定により、Sparkマスターとそのワーカーはこのマシンを認識して、ジョブとそのドライバーを見つけることができます。 このような場合、このマシンの名前とIPアドレスもそのホストファイルに追加する必要があります。 |
DEFINE_SPARK_DRIVER_HOSTにtrueを入力した場合は「はい」になります。 |
GOOGLE_PROJECT_ID |
Google Cloud PlatformプロジェクトのIDを入力します。 例: "\"my-google-project\"" |
関連するディストリビューションを使用している場合は「はい」になります。 |
GOOGLE_CLUSTER_ID |
使用するDataprocクラスターのIDを入力します。 例: "\"my-cluster-id\"" |
関連するディストリビューションを使用している場合は「はい」になります。 |
GOOGLE_REGION |
コンピューティングリソースを使用し、データを保存、処理する地域を入力します。特定のリージョンを指定する必要がない場合は、"\"global\""と入力します。 |
関連するディストリビューションを使用している場合は「はい」になります。 |
GOOGLE_JARS_BUCKET |
Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。 入力するディレクトリーの末尾はスラッシュ(/)にする必要があります。ディレクトリーがない場合は即座に作成されますが、使用するバケットはあらかじめ作成しておく必要があります。 例: "\"gs://my-bucket/talend/jars/\"" |
関連するディストリビューションを使用している場合は「はい」になります。 |
DEFINE_PATH_TO_GOOGLE_CREDENTIALS |
Google Cloud SDKがインストールされ、ユーザーアカウントの認証情報を使用してGoogle Cloud Platformにアクセスする権限があるマシンからジョブを起動する場合は、falseと入力します。この状況では多くの場合、このマシンはお使いのローカルマシンです。 ジョブをジョブサーバーなどのリモートマシンから起動する場合は、trueと入力します。 |
関連するディストリビューションを使用している場合は「はい」になります。 |
PATH_TO_GOOGLE_CREDENTIALS |
このJSONファイルが保存されているディレクトリーをリモートマシンに入力します。これは以上に多くの場合、ジョブサーバーです。 例: "\"/user/ychen/my_credentials.json\"" |
DEFINE_PATH_TO_GOOGLE_CREDENTIALSにtrueを入力した場合は「はい」になります。 |
ALTUS_SET_CREDENTIALS |
ジョブでAltusの認証情報を使用する場合は、trueと入力します。 たとえば、端末で altus configureコマンドを手動で入力して、Altusの認証情報を個別に提供する場合は、falseと入力します。 |
関連するディストリビューションを使用している場合は「はい」になります。 |
ALTUS_ACCESS_KEYおよびALTUS_SECRET_KEY |
Altusのアクセスキーと、Altusのシークレットキーファイルを参照するディレクトリーを入力します。 例: "\"my_access_key\""および"\"/user/ychen/my_secret_key_file |
ALTUS_SET_CREDENTIALSにtrueを入力した場合は「はい」になります。 |
ALTUS_CLI_PATH |
ジョブが実行されるマシンにインストールし、有効にしたCloudera Altusクライアントへのパスを入力します。本番環境の場合、このマシンは通常、Talendジョブサーバーです。 例: "\"/opt/altuscli/altusclienv/bin/altus\"" |
関連するディストリビューションを使用している場合は「はい」になります。 |
ALTUS_REUSE_CLUSTER |
Cloudサービスに既に存在するCloudera Altusクラスターを使用する場合は、trueと入力します。それ以外の場合はfalseと入力して、ジョブでクラスターをオンザフライで作成できるようにします。 |
関連するディストリビューションを使用している場合は「はい」になります。 |
ALTUS_CLUSTER_NAME |
使用するクラスターの名前を入力します。 例: "\"talend-altus-cluster\"" |
関連するディストリビューションを使用している場合は「はい」になります。 |
ALTUS_ENVIRONMENT_NAME |
特定のクラスターに割り当てたリソースの説明に使用する、Cloudera Altus環境の名前を入力します。 例: "\"talend-altus-cluster\"" |
関連するディストリビューションを使用している場合は「はい」になります。 |
ALTUS_CLOUD_PROVIDER |
Cloudera Altusクラスターを実行するCloudサービスを入力します。現時点では、AWSのみサポートされています。したがって、"\"AWS\""と入力します。 |
関連するディストリビューションを使用している場合は「はい」になります。 |
ALTUS_DELETE_AFTER_EXECUTION |
ジョブの実行後に特定のクラスターを削除する場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
関連するディストリビューションを使用している場合は「はい」になります。 |
ALTUS_S3_ACCESS_KEYおよびALTUS_S3_SECRET_KEY |
使用するAmazon S3バケットへの接続に必要な認証情報を入力します。 |
ALTUS_CLOUD_PROVIDERに"\"AWS\""を入力した場合は「はい」になります。 |
ALTUS_S3_REGION |
使用するAWSリージョンを入力します。例: "\"us-east-1\"" |
ALTUS_CLOUD_PROVIDERに"\"AWS\""を入力した場合は「はい」になります。 |
ALTUS_BUCKET_NAME |
ジョブの依存項目を保存するために使用するバケットの名前を入力します。既存のバケットを用意しておく必要があります。例: "\"my-bucket\"" |
ALTUS_CLOUD_PROVIDERに"\"AWS\""を入力した場合は「はい」になります。 |
ALTUS_JARS_BUCKET |
この特定のバケット内のジョブの依存項目を保存するディレクトリーを入力します。例: "\"altus/jobjar\"" このディレクトリーは、実行時にまだなかった場合は作成されます。 |
ALTUS_CLOUD_PROVIDERに"\"AWS\""を入力した場合は「はい」になります。 |
ALTUS_USE_CUSTOM_JSON |
JSONコードを手動で編集してAltusクラスターを設定する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
関連するディストリビューションを使用している場合は「はい」になります。 |
ALTUS_CUSTOM_JSON |
カスタムjsonコードを入力します。例: "{my_json_code}" |
ALTUS_USE_CUSTOM_JSONにtrueを入力した場合は「はい」になります。 |
ALTUS_INSTANCE_TYPE |
クラスター内のインスタンスのタイプを入力します。このクラスターに展開されたすべてのノードで同じインスタンスタイプが使用されます。例: "\"c4.2xlarge\"" |
関連するディストリビューションを使用している場合は「はい」になります。 |
ALTUS_WORKER_NODE |
クラスター用に作成するワーカーノードの数を入力します。 例: "\"10\"" |
関連するディストリビューションを使用している場合は「はい」になります。 |
ALTUS_CLOUDERA_MANAGER_USERNAME |
Coudera Managerサービスの認証情報を入力します。 例: "\"altus\"" |
関連するディストリビューションを使用している場合は「はい」になります。 |
SPARK_SCRATCH_DIR |
転送するジョブの依存項目などの一時ファイルをローカルシステムに保存するディレクトリーを入力します。例: "\"/tmp\"" |
はい |
STREAMING_BATCH_SIZE |
ジョブがソースデータを検証して変更を特定し、新しいマイクロバッチを処理するまでの間隔(ミリ秒)を入力します。例: "1000" |
Spark Streamingジョブを開発している場合は「はい」になります。 |
DEFINE_DURATION |
ストリーミングのタイムアウト(ミリ秒)を定義する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
Spark Streamingジョブを開発している場合は「はい」になります。 |
STREAMING_DURATION |
ストリーミングジョブが自動的に実行を停止するまでの期間(ミリ秒)を入力します。例: "10000" |
DEFINE_DURATIONにtrueを入力した場合は「はい」になります。 |
SPARK_ADVANCED_PROPERTIES |
他のHadoopまたはSparkに関連するプロパティを使用するためのコードを入力します。 たとえば、次のような場合があります:
|
不可。 |
セキュリティ設定の定義に関連するプロパティは、次のとおりです。
関数/パラメーター | 説明 | 必須? |
---|---|---|
USE_KRB |
使用するクラスターをKerberosで保護する場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
はい |
RESOURCEMANAGER_PRINCIPAL |
ResourceManagerサービスのKerberosプリンシパル名を入力します。例: "\"yarn/_HOST@EXAMPLE.COM\"" |
KerberosおよびYarnクライアントモードを使用している場合は「はい」になります。 |
JOBHISTORY_PRINCIPAL |
ジョブヒストリーサービスのKerberosプリンシパル名を入力します。例: "\"mapred/_HOST@EXAMPLE.COM\"" |
KerberosおよびYarnクライアントモードを使用している場合は「はい」になります。 |
USE_KEYTAB |
ログインにKerberos keytabファイルを使用する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
Kerberosを使用している場合は「はい」になります。 |
PRINCIPAL |
使用するプリンシパルを入力します。例: "\"hdfs\"" |
Kerberos keytabファイルを使用している場合は「はい」になります。 |
KEYTAB_PATH |
keytabファイル自体へのアクセスパスを入力します。このkeytabファイルは、ジョブが実際に実行されているマシン、たとえば、Talend Jobserverに保存する必要があります。 例: "\"/tmp/hdfs.headless.keytab\"" |
Kerberos keytabファイルを使用している場合は「はい」になります。 |
USERNAME |
ディストリビューションのログインユーザー名を入力します。空のまま("\"\"")にしておくと、ジョブを実際に実行するマシンのユーザー名が使用されます。 |
Kerberosを使用していない場合は「はい」になります。 |
USE_MAPRTICKET |
使用するMapRクラスターをMapRチケット認証メカニズムで保護する場合は、trueを入力します。それ以外の場合はfalseと入力します。 |
MapRクラスターを使用している場合は「はい」になります。 |
MAPRTICKET_PASSWORD |
MapRへのログインに使用するパスワードを入力します。例: "my_password" |
Kerberosを使用せず、MapRチケット認証メカニズムを使用している場合は「はい」になります。 |
MAPRTICKET_CLUSTER |
接続先とするMapRクラスターの名前を入力します。例: "\"demo.mapr.com\"" |
MapRチケット認証メカニズムを使用している場合は「はい」になります。 |
MAPRTICKET_DURATION |
チケットを有効とする期間(秒)を入力します。例: "86400L" |
MapRチケット認証メカニズムを使用している場合は「はい」になります。 |
SET_MAPR_HOME_DIR |
MapR設定ファイルのロケーションがクラスター内のどこかに変更されている場合、つまり、MapRホームディレクトリーが変更されている場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
MapRチケット認証メカニズムを使用している場合は「はい」になります。 |
MAPR_HOME_DIR |
新しいホームディレクトリーを入力します。例: "\"/opt/mapr/custom/\"" |
SET_MAPR_HOME_DIRにtrueを入力した場合は「はい」になります。 |
SET_HADOOP_LOGIN |
使用するログインモジュールがMapRセキュリティ設定ファイルmapr.login.conf内で変更されている場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
MapRチケット認証メカニズムを使用している場合は「はい」になります。 |
HADOOP_LOGIN |
mapr.login.confファイルから呼び出すモジュールを入力します。たとえば、"\"kerberos\""はhadoop_kerberosモジュールを呼び出すことを意味します。 |
SET_HADOOP_LOGINにtrueを入力した場合は「はい」になります。 |
Sparkのチューニングに関連するプロパティは、次のとおりです。
関数/パラメーター | 説明 | 必須? |
---|---|---|
ADVANCED_SETTINGS_CHECK |
ジョブの実行に使用するリソースの割り当てを最適化する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
はい |
SPARK_DRIVER_MEMおよびSPARK_DRIVER_CORES |
現在のジョブのドライバーが使用するメモリの割り当てサイズとコアの数を入力します。たとえば、メモリは"\"512m\""、コアの数は"\"1\""と入力します。 |
スタンドアロンモードでSparkのチューニングを行っている場合は「はい」になります。 |
SPARK_YARN_AM_SETTINGS_CHECK |
YarnクラスターのApplicationMasterチューニングプロパティを定義するには、trueと入力します。それ以外の場合はfalseと入力します。 |
YarnクライアントモードでSparkのチューニングを行っている場合は「はい」になります。 |
SPARK_YARN_AM_MEMおよびSPARK_YARN_AM_CORES |
ApplicationMasterが使用するメモリの割り当てサイズを入力します。たとえば、メモリは"\"512m\""、コアの数は"\"1\""と入力します。 |
SPARK_YARN_AM_SETTINGS_CHECKにtrueを入力した場合は「はい」になります。 |
SPARK_EXECUTOR_MEM |
各Sparkエグゼキューターが使用するメモリの割り当てサイズを入力します。例: "\"512m\"" |
Sparkのチューニングを行っている場合は「はい」になります。 |
SET_SPARK_EXECUTOR_MEM_OVERHEAD |
エグゼキューターごとにオフヒープメモリ(MB単位)の容量を割り当てる必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
YarnクライアントモードでSparkのチューニングを行っている場合は「はい」になります。 |
SPARK_EXECUTOR_MEM_OVERHEAD |
エグゼキューターごとに割り当てるオフヒープメモリ(MB単位)の容量を入力します。 |
SET_SPARK_EXECUTOR_MEM_OVERHEADにtrueを入力した場合は「はい」になります。 |
SPARK_EXECUTOR_CORES_CHECK |
各エグゼキューターが使用するコアの数を定義する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
Sparkのチューニングを行っている場合は「はい」になります。 |
SPARK_EXECUTOR_CORES |
各エグゼキューターが使用するコアの数を入力します。例: "\"1\"" |
SPARK_EXECUTOR_CORES_CHECKにtrueを入力した場合は「はい」になります。 |
SPARK_YARN_ALLOC_TYPE |
Yarnによるエグゼキューターへのリソースの割り当て方法を選択します。 次の値のいずれか1つを入力します。
|
YarnクライアントモードでSparkのチューニングを行っている場合は「はい」になります。 |
SPARK_EXECUTOR_INSTANCES |
Yarnが使用するエグゼキューターの数を入力します。例: "\"2\"" |
SPARK_YARN_ALLOC_TYPEにFIXEDを入力した場合は「はい」になります。 |
SPARK_YARN_DYN_INIT、SPARK_YARN_DYN_MINおよびSPARK_YARN_DYN_MAX |
これら3つのプロパティを定義することで、動的な割り当てのスケールを定義します。たとえば、最初のエグゼキューターの番号を"\"1\""、最小数を"\"0\""、最大数を"\"MAX\""とします。 |
SPARK_YARN_ALLOC_TYPEにDYNAMICを入力した場合は「はい」になります。 |
WEB_UI_PORT_CHECK |
Spark Web UIのデフォルトポートを変更する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
Sparkのチューニングを行っている場合は「はい」になります。 |
WEB_UI_PORT |
Spark Web UIに使用するポート番号を入力します。例: "\"4040\"" |
WEB_UI_PORT_CHECKにtrueを入力した場合は「はい」になります。 |
SPARK_BROADCAST_FACTORY |
各ワーカーマシンで変数をキャッシュするために使用するブロードキャスト実装を入力します。 次の値のいずれか1つを入力します。
|
Sparkのチューニングを行っている場合は「はい」になります。 |
CUSTOMIZE_SPARK_SERIALIZER |
外部Sparkシリアライザーをインポートする必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
Sparkのチューニングを行っている場合は「はい」になります。 |
SPARK_SERIALIZER |
使用するシリアライザーの完全修飾クラス名を入力します。例: "\"org.apache.spark.serializer.KryoSerializer\"" |
CUSTOMIZE_SPARK_SERIALIZERにtrueを入力した場合は「はい」になります。 |
ENABLE_BACKPRESSURE |
Sparkのバックプレッシャ機能を有効にする必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 バックプレッシャ機能は、Sparkバージョン1.5以上で使用できます。バックプレッシャを有効にすると、Sparkによって最適な受信速度が自動的に検出され、あくまでも処理可能な速度に合わせてデータを受信できるように、現在のバッチスケジューリングの待機時間と処理時間を基に速度が動的に変更されます。 |
Spark Streamingジョブ用にSparkのチューニングを行っている場合は「はい」になります。 |
ジョブ実行のロギングに関連するプロパティは、次のとおりです。
関数/パラメーター | 説明 | 必須? |
---|---|---|
ENABLE_SPARK_EVENT_LOGGING |
Yarnクラスターのファイルシステム内での持続性を保つために、このジョブのSparkアプリケーションログを有効にする必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
YarnクライアントモードでSparkを使用している場合は「はい」になります。 |
COMPRESS_SPARK_EVENT_LOGS |
ログを圧縮する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
ENABLE_SPARK_EVENT_LOGGINGにtrueを入力した場合は「はい」になります。 |
SPARK_EVENT_LOG_DIR |
Sparkイベントがログされているディレクトリーを入力します。例: "\"hdfs://namenode:8020/user/spark/applicationHistory\"" |
ENABLE_SPARK_EVENT_LOGGINGにtrueを入力した場合は「はい」になります。 |
SPARKHISTORY_ADDRESS |
ヒストリーサーバーのロケーションを入力します。例: "\"sparkHistoryServer: 18080\"" |
ENABLE_SPARK_EVENT_LOGGINGにtrueを入力した場合は「はい」になります。 |
USE_CHECKPOINT |
ジョブにエラーリカバリー力が必要な場合は、trueと入力してSparkチェックポイント操作を有効にします。それ以外の場合はfalseと入力します。 |
はい |
CHECKPOINT_DIR |
メタデータなどの計算のコンテキストデータ、この計算から生成されたRDDをSparkが保存する、クラスターのファイルシステム内のディレクトリーを入力します。例: "\"file:///tmp/mycheckpoint\"" |
SET_SPARK_EXECUTOR_MEM_OVERHEADにtrueを入力した場合は「はい」になります。 |
Cloudera Navigatorの設定に関連するプロパティは、次のとおりです。
Apache Spark Batchジョブの実行にCloudera V5.5+を使用している場合は、Cloudera Navigatorを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータフローがどのように生成されたかを調べることができます。
関数/パラメーター | 説明 | 必須? |
---|---|---|
USE_CLOUDERA_NAVIGATOR |
Cloudera Navigatorを使用する場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
Cloudera上でSparkを使用している場合は「はい」になります。 |
CLOUDERA_NAVIGATOR_USERNAMEおよびCLOUDERA_NAVIGATOR_PASSWORD |
Cloudera Navigatorへの接続に使用する認証情報を入力します。たとえば、ユーザー名に"\"username\""、パスワードに"password"を使用します。 |
USE_CLOUDERA_NAVIGATORにtrueを入力した場合は「はい」になります。 |
CLOUDERA_NAVIGATOR_URL |
Cloudera Navigatorの接続先となるロケーションを入力します。例: "\"http://localhost:7187/api/v8/\"" |
USE_CLOUDERA_NAVIGATORにtrueを入力した場合は「はい」になります。 |
CLOUDERA_NAVIGATOR_METADATA_URL |
Navigator Metadataのロケーションを入力します。例: "\"http://localhost:7187/api/v8/metadata/plugin\"" |
USE_CLOUDERA_NAVIGATORにtrueを入力した場合は「はい」になります。 |
CLOUDERA_NAVIGATOR_CLIENT_URL |
Navigatorクライアントのロケーションを入力します。例: "\"http://localhost\"" |
USE_CLOUDERA_NAVIGATORにtrueを入力した場合は「はい」になります。 |
CLOUDERA_NAVIGATOR_AUTOCOMMIT |
ジョブ実行の最後にCloudera Navigatorが現在のジョブの来歴を生成するように設定するには、trueと入力します。それ以外の場合はfalseと入力します。 |
USE_CLOUDERA_NAVIGATORにtrueを入力した場合は「はい」になります。 |
CLOUDERA_NAVIGATOR_DISABLE_SSL_VALIDATION |
ジョブがCloudera Navigatorに接続した時にSSL検証プロセスを使用しないように設定するには、trueと入力します。それ以外の場合はfalseと入力します。 |
USE_CLOUDERA_NAVIGATORにtrueを入力した場合は「はい」になります。 |
CLOUDERA_NAVIGATOR_DIE_ON_ERROR |
Cloudera Navigatorへの接続が失敗した時にジョブの実行が停止するように設定するには、trueと入力します。それ以外の場合はfalseと入力します。 |
USE_CLOUDERA_NAVIGATORにtrueを入力した場合は「はい」になります。 |
Hortonworks Atlasの設定に関連するプロパティは、次のとおりです。
Sparkのバッチジョブの実行にHortonworksデータプラットフォームV2.4以上を使用しており、HortonworksクラスターにApache Atlasがインストールされている場合は、Atlasを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータフローがどのように生成されたかを調べることができます。
関数/パラメーター | 説明 | 必須? |
---|---|---|
USE_ATLAS |
Atlasを使用する場合はtrueと入力します。それ以外の場合はfalseと入力します。 |
Hortonworks上でSparkを使用している場合は「はい」になります。 |
ATLAS_USERNAMEおよびATLAS_PASSWORD |
Atlasへの接続に使用する認証情報を入力します。たとえば、ユーザー名に"\"username\""、パスワードに"password"を使用します。 |
USE_ATLASにtrueを入力した場合は「はい」になります。 |
ATLAS_URL |
Atlasの接続先となるロケーションを入力します。例: "\"http://localhost:21000\"" |
USE_ATLASにtrueを入力した場合は「はい」になります。 |
SET_ATLAS_APPLICATION_PROPERTIES |
AtlasクラスターにSSLや読み取りタイムアウトなどのカスタムプロパティが含まれている場合は、trueと入力します。それ以外の場合はfalseと入力します。 |
USE_ATLASにtrueを入力した場合は「はい」になります。 |
ATLAS_APPLICATION_PROPERTIES |
ローカルマシンにディレクトリーを入力し、そのディレクトリーにAtlasのatlas-application.propertiesファイルを保存します。例: "\"/user/atlas/atlas-application.properties\"" こうすることでジョブが有効になり、これらのカスタムプロパティを使用できるようになります。 |
SET_ATLAS_APPLICATION_PROPERTIESにtrueを入力した場合は「はい」になります。 |
ATLAS_DIE_ON_ERROR |
Atlasに関連する問題が発生した時にジョブの実行が停止するように設定するには、trueと入力します。それ以外の場合はfalseと入力します。 |
USE_ATLASにtrueを入力した場合は「はい」になります。 |