Spark UniversalでCloudera Data Engineering接続パラメーターを定義
このタスクについて
Talend Studioは、Cloudera Data Engineering (CDE)サービスに接続してこのクラスターからSparkジョブを実行します。
手順
- デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
-
[Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
- [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからCloudera Data Engineeringをそれぞれ選択します。
-
WindowsからSparkジョブを起動する必要がある場合は、使用されるwinutils.exeプログラムの保管場所を指定します。
-
使用するwinutils.exeファイルの保管場所がわかっている場合、[Define the Hadoop home directory] (Hadoopホームディレクトリーの指定)チェックボックスをオンにし、winutils.exeが保存されているディレクトリーを入力します。
-
逆に、[Define the Hadoop home directory] (Hadoopホームディレクトリーの指定)チェックボックスをオフにすると、Talend Studioによってディレクトリーが作成され、このジョブで自動的に使用されます。
-
-
[Configuration] (設定)の基本情報を入力します:
オプション 使用方法 [Use local timezone] (ローカルタイムゾーンを使用) このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使用します。 情報メモ注:- このチェックボックスをオフにすると、SparkはUTCタイムゾーンを使用します。
- コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンが継承されます。
[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用) このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます: - チェックボックスを選択する場合は、ジョブ内のコンポーネントは、DSで実行されて、パフォーマンスが向上します。
- チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。
このチェックボックスはデフォルトで選択されていますが、7.3以降のジョブをインポートした場合、これらのジョブはRDDで実行されるため、チェックボックスはクリアされます。
情報メモ重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用) このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。 情報メモ注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampかjava.sql.Dateが使われます。[Parallelize output files writing] (出力ファイルの書き込みを並列化) このチェックボックスを選択すると、Sparkバッチジョブが出力ファイルの書き込み時に複数のスレッドを並行して実行できるようになります。このオプションによって実行時間のパフォーマンスが改善されます。 このチェックボックスがオフのままになっていると、出力ファイルは1つのスレッド内で順次書き込まれます。
サブジョブレベルでは、各サブジョブが順次処理されます。サブジョブ内の出力ファイルのみが並列化されます。
このオプションは、次の出力コンポーネントが含まれているSparkバッチジョブでのみ使用できます:- tAvroOutput
- tFileOutputDelimited ([Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)チェックボックスが選択されている場合のみ)
- tファイルOutputParquet
情報メモ重要: ジョブ実行中のメモリに関する問題を避けるため、このパラメーターを使用する前に、書き込まれるファイルのサイズと実行環境の容量を考慮する必要があります。 -
[CDE configuration] (CDE設定)のパラメーターを完成させます:
パラメーター 使用方法 [CDE API endpoint] (CDE APIエンドポイント) CDE APIエンドポイントを入力します。このURLはJOBS API URLリンクにあります。 [CDE API token] (CDE APIトークン) API認証に使用したいCDEトークンを入力します。URLは [BASE_URL]/gateway/authtknという形式であることが必要です。詳細は、ClouderaのドキュメンテーションでCDE API access tokenをご覧ください。 このプロパティは、[Auto generate token] (トークンを自動生成)チェックボックスがオフになっている場合のみ利用できます。
[Auto generate token] (トークンを自動生成) ジョブを送信する前に新しいトークンを作成する場合は、このチェックボックスをオンにします。 - [CDE token endpoint] (CDEトークンエンドポイント): 使用したいCDEトークンを入力します。
- [Workload user] (ワークロードユーザー): 新しいトークンの生成に使用したいCDPワークロードを入力します。詳細は、ClouderaのドキュメンテーションでCDP workload userをご覧ください。
- [Workload password] (ワークロードパスワード): ワークロードユーザーに関連付けられているパスワードを入力します。
[Enable client debugging] (クライアントデバッギングを有効化) CDE APIクライアントのデバッグロギングが有効にする場合は、このチェックボックスをオンにします。 [Override dependencies] (依存項目を上書き) Sparkに必要な依存項目を上書きする場合は、このチェックボックスをオンにします。 [Job status/logs polling interval (in ms)] (ジョブステータス/ログのポーリング間隔(ミリ秒)) Talend StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。 [Fetch driver logs] (ドライバーログをフェッチ) ドライバーログをフェッチする場合は、このチェックボックスをオンにします。チェックボックスをオンにすれば、次の情報をフェッチできます。 - [Standard output] (標準出力)
- [Error output] (エラー出力)
[Advanced parameters] (詳細パラメーター) 次のCDE APIパラメーターを入力する場合は、このチェックボックスをオンにします。 - [Number of executors] (エグゼキューターの数): エグゼキューターの数を入力します。
- [Driver cores] (ドライバーコア): ドライバーコアの数を入力します。
- [Driver memory] (ドライバーメモリ): ドライバーによって使用されるメモリの割り当て量を入力します。
- [Executor cores] (エグゼキューターコア): エグゼキューターコアの数を入力します。
- [Executor memory] (エグゼキューターメモリ): 各エグゼキューターによって使用されるメモリの割り当て量を入力します。
- [Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドに、jarファイルを転送するなどTalend Studioがローカルシステムに一時ファイルを保存するディレクトリーを入力します。Windowsでジョブを起動する場合、デフォルトのディスクはC:です。このフィールドを/tmpのままにすると、このディレクトリーはC:/tmpになります。
- [Activate checkpointing] (チェックポイントを有効化)
- [Advanced properties] (詳細プロパティ)テーブルに、Talend Studioによって使用されるデフォルトのプロパティを上書きするために必要なSparkプロパティを追加します。