Sparkモードの選択

使用するSparkモードに応じて、ジョブをSparkモードにできます。

Sparkドキュメンテーションの「Spark設定 (英語のみ)」には、Sparkプロパティとそのデフォルト値の包括的なリストがあります。StudioでデザインしたSparkジョブでは、[Spark configuration] (Spark設定)タブ、またはジョブで使用するコンポーネントで明示的に定義したプロパティを除いて、このデフォルト設定が使用されます。

手順

[Run] (実行)をクリックしてビューを開き、[Spark configuration] (Spark設定)タブをクリックして、Spark接続を設定するビューを開きます。
[Use local mode] (ローカルモードを使用)チェックボックスをオンにしてジョブをローカルでテストします。

ローカルモードでは、ジョブを実行するためのSpark環境がStudioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。

このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationやtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。

これ以上は何も設定せずにジョブを起動できます。
[Use local mode] (ローカルモードを使用)チェックボックスをオフにして、利用可能なHadoopディストリビューションのリストを表示し、使用するSparkクラスターに相当するディストリビューションをこのリストから選択します。
ディストリビューションには以下が含まれます:
- Databricks
- Qubole
- Amazon EMR
  このディストリビューションについてはTalendでは以下がサポートされます:
  
  Yarnクライアント
  
  Yarnクラスター
  
  情報メモ重要: Amazon EMR上で、Delta Lakeはサポートされていません。
- Cloudera
  このディストリビューションについてはTalendでは以下がサポートされます:
  
  スタンドアロン
  
  Yarnクライアント
  
  Yarnクラスター
- Google Cloud Dataproc
  このディストリビューションについてはTalendでは以下がサポートされます:
  
  Yarnクライアント
- Hortonworks
  このディストリビューションについてはTalendでは以下がサポートされます:
  
  Yarnクライアント
  
  Yarnクラスター
- MapR
  このディストリビューションについてはTalendでは以下がサポートされます:
  
  スタンドアロン
  
  Yarnクライアント
  
  Yarnクラスター
- Microsoft HDInsight
  このディストリビューションについてはTalendでは以下がサポートされます:
  
  Yarnクラスター
- Cloudera Altus接続パラメーターを定義
  このディストリビューションについてはTalendでは以下がサポートされます:
  
  Yarnクラスター
  
  Altusクラスターは、以下のクラウドプロバイダーで実行する必要があります:
  
  Azure
  
  AzureでAltusがサポートされるのは、テクニカルプレビュー機能になります。
  
  AWS
データはAvroに依存してコンポーネント間のデータ移動を行っているので、Kryoを使ってAvroタイプを処理するようお使いのクラスターを設定することをお勧めします。これによってAvroに関するこの既知の問題 (英語のみ)を回避できるだけでなく、本来のパフォーマンス向上も実現できます。お使いのクラスターで設定が必要なSparkプロパティは:
```
spark.serializer org.apache.spark.serializer.KryoSerializer
```
このドロップダウンリストで対応するディストリビューションが見つからなければ、接続したいディストリビューションをTalendが公式にはサポートしていないことを意味します。その場合、[Custom] (カスタム)を選択してから、接続するクラスターの[Spark version] (Sparkバージョン)を選択し、[+]ボタンをクリックして、表示されるダイアログボックスで以下の選択を行います:
1. [Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。
2. [Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。Zipファイルには、Hadoop/Sparkの各種エレメントのライブラリーおよびライブラリーのインデックスファイルを含める必要があります。
  
  Talendはカスタムバージョンを公式にサポートしていません。 Talend とそのコミュニティでは、Studioからカスタムバージョンに接続するための方法を紹介していますが、選択したバージョンの設定がスムーズに機能するかどうかは不明です。したがって、HadoopとSparkの経験が豊富でどのような問題でも自力で解決できない限り、そのような接続を設定することはお勧めしません。
カスタムディストリビューションの接続方法、および接続の共有方法のステップ例は、Hortonworksをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください