Spark UniversalでHDInsight接続パラメーターを定義

Spark Batchジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、Spark Universalを使ってHDInsight接続設定を完成させます。この設定はジョブごとに有効です。

手順

HDInsightに接続するための基本的な設定情報を入力します:
1. [Username] (ユーザー名): HDInsightクラスターのユーザー名を入力します。
2. [Password] (パスワード): HDInsightクラスターのパスワードを入力します。
Livy用の基本的な設定情報を入力します:
1. [Hostname] (ホスト名): HDInsightクラスターのURLを入力します。
2. [Port] (ポート): ポート番号を入力します。デフォルト値は443です。
3. [Username] (ユーザー名): クラスターの作成時に定義したユーザー名を入力します。これは、クラスターの[SSH + Cluster] (SSH + クラスター)ログインブレードで確認できます。
ジョブステータスポーリングの設定を入力:
1. [Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒)): Talend StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を入力します。
2. [Maximum number of consecutive statuses missing] (見つからないステータスの最大連続回数): ステータスの応答がない場合に、Talend Studioがステータス取得を再試行する最大回数を入力します。

Windows Azure Storageの構成情報を入力します:

パラメーター	使用方法
[Primary storage] (プライマリーストレージ)	ジョブをデプロイするストレージのタイプをドロップダウンリストから選択します: ADLS Gen2 Azure Storage
[Authentication mode] (認証モード)	使用する認証タイプをドロップダウンリストから選択します: Azure Active Directory [Secret key] (シークレットキー) 共有アクセス署名
[Hostname] (ホスト名)	Azure StorageアカウントのプライマリーBlobサービスエンドポイントを入力します。このエンドポイントは、ストレージアカウントの[Properties] (プロパティ)ブレードにあります。
[Container] (コンテナー)	使用するコンテナーの名前を入力します。利用可能なコンテナーは、使用するAzure StorageアカウントのBlobブレードで確認できます。
[Directory ID] (ディレクトリーID)	ディレクトリーIDを入力します。このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。
[Application ID] (アプリケーションID)	アプリケーションIDを入力します。このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。
[Client key] (クライアントキー)	クライアントキーを入力します。このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。
SASトークン	ストレージコンテナーの共有アクセス署名(SAS)トークンを入力します。SAS ークンの生成方法の詳細は、MicrosoftのドキュメンテーションでCreate SAS tokens for your storage containers (英語のみ)をご覧ください。 SASトークンを使用する場合は、クラスターを設定する必要があります。詳細は、MicrosoftのドキュメンテーションでUse Azure Blob storage Shared Access Signatures to restrict access to data in HDInsight (英語のみ)をご覧ください。このパラメーターは、[Authentication mode] (認証モード)ドロップダウンリストから[Shared Access Signature] (共有アクセス署名)を選択した場合のみ利用できます。
[Deployment Blob] (デプロイメントBlob)	ストレージアカウントで、現在のジョブとその依存ライブラリーを保存する場所を入力します。

WindowsでSparkジョブを実行する場合は、winutils.exeプログラムの場所を指定します:
- 自分のwinutils.exeファイルを使用する場合は、[Define the Hadoop home directory] (Hadoop ホームディレクトリーを定義) チェックボックスをオンにし、そのフォルダーパスを入力します。
- 逆に、[Define the Hadoop home directory] (Hadoopホームディレクトリーを定義)チェックボックスをオフにすると、Talend Studioによってディレクトリーが作成され、このジョブで自動的に使用されます。

設定の基本情報を入力します:

パラメーター	使用方法
[Use local timezone] (ローカルタイムゾーンを使用)	このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使用します。情報メモ注: このチェックボックスをオフにすると、SparkはUTCタイムゾーンを使用します。コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンが継承されます。
[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)	このチェックボックスをオンにし、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます: チェックボックスをオンにする場合は、ジョブ内のコンポーネントは、DSで実行されて、パフォーマンスが向上します。チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。このチェックボックスはデフォルトで選択されていますが、7.3以降のジョブをインポートした場合、これらのジョブはRDDで実行されるため、チェックボックスはクリアされます。情報メモ重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスをオンにする必要があります。
[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用)	このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。情報メモ注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampかjava.sql.Dateが使われます。
[Batch size (ms)] (バッチサイズ(ミリ秒))	Spark Streamingジョブがソースデータをレビューして変更を特定し、新しいマイクロバッチを処理するまでの時間間隔を入力します。
[Define a streaming timeout (ms)] (ストリーミングタイムアウトを設定(ミリ秒))	このチェックボックスをオンにし、表示されたフィールドにSpark Streamingジョブが自動的に実行を停止するまでの期間を入力します。情報メモ注: Windows 10をお使いの場合は、Javaアプリケーションから終了シグナルを送信する際にWindows Service Wrapperに問題が発生しないよう、合理的なタイムアウトを設定することをお勧めします。このような問題が発生した場合、Azure Synapseワークスペースからジョブを手動でもキャンセルできます。
[Parallelize output files writing] (出力ファイルの書き込みを並列化)	このチェックボックスをオンにすると、Sparkバッチジョブが出力ファイルの書き込み時に複数のスレッドを並行して実行できるようになります。このオプションによって実行時間のパフォーマンスが改善されます。このチェックボックスがオフのままになっていると、出力ファイルは1つのスレッドで順次書き込まれます。サブジョブレベルでは、各サブジョブが順次処理されます。サブジョブ内の出力ファイルのみが並列化されます。このオプションは、次の出力コンポーネントが含まれているSparkバッチジョブでのみ使用できます: tAvroOutput tFileOutputDelimited ([Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)チェックボックスが選択されている場合のみ) tFileOutputParquet 情報メモ重要: ジョブ実行中のメモリに関する問題を避けるため、このパラメーターを使用する前に、書き込まれるファイルのサイズと実行環境の容量を考慮する必要があります。

[Set tuning properties] (チューニングプロパティを設定)チェックボックスをオンにし、Apache Spark Batchジョブ用にSparkを調整の説明に従ってチューニングパラメーターを定義します。

情報メモ重要: チューニングパラメーターを設定しない場合、エラー(400 - Bad request)が発生する可能性があります。
[Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドに、Talend Studioが一時ファイルを保存するローカルパス(転送するJARなど)を入力します。
Windowsでジョブを実行する場合、デフォルトのディスクはC:です。このフィールドに/tmpを残すと、C:/tmpがディレクトリーとして使用されます。
ジョブを耐障害性にする場合は、[Activate checkpointing] (チェックポイントを有効化)をオンにしてSparkのチェックポイント操作を有効にします。
[Checkpoint directory] (チェックポイントディレクトリー)フィールドには、Sparkがコンテキストデータ(メタデータや生成されたRDDなど)を保存するクラスターファイルシステムのパスを入力します。
[Advanced properties] (詳細プロパティ)テーブルに、Talend Studioによって設定されたデフォルトをオーバーライドしたいSparkプロパティを追加します。
データ来歴を追跡し、Sparkジョブのコンポーネントを表示させ、コンポーネント間のスキーマ変更を追跡する場合は、[Use Atlas] (アトラスを使用) チェックボックスをオンにします。
このオプションはSpark Universal 3.3.xでのみ使用可能です。
このオプションを有効にしたら、以下のパラメーターを設定する必要があります。
- Atlas URL: Atlasインスタンスのアドレス(http://name_of_your_atlas_node:portなど)を入力します。
- [Username] (ユーザー名)および[Password] (パスワード)フィールドに、Atlasにアクセスするための認証情報を入力します。
- [Set Atlas configuration folder] (Atlas設定フォルダーを指定): AtlasクラスターがSSLや読み取りタイムアウトなどのカスタムプロパティを使用している場合は、このチェックボックスをオンにします。表示されるフィールドに、atlas-application.propertiesファイルが含まれているローカルディレクトリーへのパスを入力します。その後、ジョブはこれらのカスタムプロパティを使用するようになります。
  
  この設定ファイルについては、クラスターの管理者に依頼してください。詳細は、[Atlas configuration] (Atlas設定) (英語のみ)でクライアント設定セクションをご覧ください。
- [Die on error] (エラー発生時に強制終了): このチェックボックスをオンにすると、Atlas関連の問題(接続エラーなど)が発生した場合にジョブの実行を停止します。クリアすると、ジョブが実行し続けるようになります。

タスクの結果

これで接続詳細が完全なものになったので、Sparkジョブの実行をスケジュールしたり、すぐに実行したりできます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください