Spark UniversalでDatabricks接続パラメーターを定義
このタスクについて
Talend StudioはDatabricksの汎用クラスターに接続し、そのクラスターからジョブを実行します。
手順
- デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
-
[Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
- [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからDatabricksをそれぞれ選択します。
-
設定の基本情報を入力します:
パラメーター 使用方法 [Use local timezone] (ローカルタイムゾーンを使用) このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使用します。 情報メモ注:- このチェックボックスをオフにすると、SparkはUTCタイムゾーンを使用します。
- コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンが継承されます。
[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用) このチェックボックスを選択し、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます: - チェックボックスを選択する場合は、ジョブ内のコンポーネントは、DSで実行されて、パフォーマンスが向上します。
- チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。
このチェックボックスはデフォルトで選択されていますが、7.3以降のジョブをインポートした場合、これらのジョブはRDDで実行されるため、チェックボックスはクリアされます。
情報メモ重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用) このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。 情報メモ注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampかjava.sql.Dateが使われます。[Parallelize output files writing] (出力ファイルの書き込みを並列化) このチェックボックスを選択すると、Sparkバッチジョブが出力ファイルの書き込み時に複数のスレッドを並行して実行できるようになります。このオプションによって実行時間のパフォーマンスが改善されます。 このチェックボックスがオフのままになっていると、出力ファイルは1つのスレッド内で順次書き込まれます。
サブジョブレベルでは、各サブジョブが順次処理されます。サブジョブ内の出力ファイルのみが並列化されます。
このオプションは、次の出力コンポーネントが含まれているSparkバッチジョブでのみ使用できます:- tAvroOutput
- tFileOutputDelimited ([Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)チェックボックスが選択されている場合のみ)
- tファイルOutputParquet
情報メモ重要: ジョブ実行中のメモリに関する問題を避けるため、このパラメーターを使用する前に、書き込まれるファイルのサイズと実行環境の容量を考慮する必要があります。 -
[Databricks configuration] (Databricks設定)のパラメーターを完成させます:
パラメーター 使用方法 [Cloud provider] (クラウドプロバイダー) 使用するクラウドプロバイダーとして、AWS、Azure、GCPのいずれかを選択します。 [Run mode] (実行モード) Talend Studioでジョブを実行する際に、Databricksクラスターでのジョブの実行に使いたいモードを選択します。[Create and run now] (今すぐ作成して実行)では、Databricksで新しいジョブが作成されてすぐに実行されます。[Runs submit] (実行を送信)では、Databricksでジョブを作成せずに1回限りの実行が送信されます。 [Use pool] (プールを使用) Databricksプールを活用する場合はこのチェックボックスをオンにします。チェックボックスをオンにした場合は、[Cluster ID] (クラスターID)ではなく[Pool ID] (プールID)を指定する必要があります。また、[Cluster type] (クラスタータイプ)ドロップダウンリストで[Job clusters] (ジョブクラスター)を選択する必要があります。 [Endpoint] (エンドポイント) お使いのワークスペースのURLアドレスを入力します。 [Cluster ID] (クラスターID) 使用するDatabricksクラスターのIDを入力します。このIDは、Sparkクラスターのspark.databricks.clusterUsageTags.clusterIdプロパティの値です。このプロパティは、クラスターの[Spark UI]ビューの[Environment] (環境)タブのプロパティリストにあります。 [Token] (トークン) Databricksユーザーアカウント用に生成された認証トークンです。 [DBFS dependencies folder] (DBFS依存項目フォルダー) 実行時にジョブ関連の依存項目をDatabricksファイルシステムへ保存するために使うディレクトリーを入力します。このディレクトリーの最後にはスラッシュ( / )を付けます。たとえば、/jars/と入力して、依存項目をjarsという名前のフォルダーに保管します。このフォルダーが存在しない場合、ここで作成されます。 プロジェクトID Databricksプロジェクトが存在するGoogle PlatformプロジェクトのIDを入力します。 このフィールドは、[Cloud provider] (クラウドプロバイダー)ドロップダウンリストからGCPを選択している場合のみ利用できます。
[Bucket] (バケット) Google PlatformのDatabricksに使用するバケット名を入力します。 このフィールドは、[Cloud provider] (クラウドプロバイダー)ドロップダウンリストからGCPを選択している場合のみ利用できます。
[Workspace ID] (ワークスペースID) databricks-workspaceidの形式に従って、Google PlatformワークスペースのIDを入力します。 このフィールドは、[Cloud provider] (クラウドプロバイダー)ドロップダウンリストからGCPを選択している場合のみ利用できます。
[Google credentials] (Googleクレデンシャル) サービスアカウントキーが含まれているJSONファイルを保存するTalend JobServerマシン内のディレクトリーを入力します。 このフィールドは、[Cloud provider] (クラウドプロバイダー)ドロップダウンリストからGCPを選択している場合のみ利用できます。
[Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒)) Talend StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。 [Cluster type] (クラスタータイプ) ドロップダウンリストで、使用したいクラスターのタイプを選択します。詳細は、Databricksクラスターについてをご覧ください。 情報メモ注: Java17と共にTalend Studioを使ってジョブを実行する場合は、JNAME=zulu17-ca-amd64環境変数を設定する必要があります:- ジョブクラスターの場合はDatabricksで
- 汎用クラスター用のS3ではset_java17_dbr.shスクリプトを使ったInit scriptsで
[Do not restart the cluster when submitting] (送信時にクラスターを再起動しない) Talend Studioがジョブを送信する時にTalend Studioがクラスターを再起動しないようにするには、このチェックボックスをオンにします。ただしジョブで変更を行う場合は、このチェックボックスをオフにし、Talend Studioがクラスターを再起動してその変更が反映されるようにします。 - [Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドに、jarファイルを転送するなどTalend Studioがローカルシステムに一時ファイルを保存するディレクトリーを入力します。Windowsでジョブを起動する場合、デフォルトのディスクはC:です。このフィールドを/tmpのままにすると、このディレクトリーはC:/tmpになります。
- ジョブを耐障害性にする必要がある場合は、[Activate checkpointing] (チェックポイントを有効化)チェックボックスをオンにしてSparkチェックポイントオペレーションを有効にします。[Checkpoint directory] (チェックポイントディレクトリー)フィールドのクラスターのファイルシステム内に、Sparkが保存するディレクトリー、計算のコンテキストデータ(メタデータやなど)、その計算から生成されたRDDを入力します。
- [Advanced properties] (詳細プロパティ)テーブルに、Talend Studioによって使用されるデフォルトのプロパティを上書きするために必要なSparkプロパティを追加します。