Spark UniversalでDataproc接続パラメーターを定義

デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。

[Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。

Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。

ヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。

[Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからDataprocをそれぞれ選択します。

設定の基本情報を入力します:

パラメーター	使用方法
[Use local timezone] (ローカルタイムゾーンを使用)	このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使用します。情報メモ注: このチェックボックスをオフにすると、SparkはUTCタイムゾーンを使用します。コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンが継承されます。
[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)	このチェックボックスをオンにし、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます: チェックボックスをオンにする場合は、ジョブ内のコンポーネントは、DSで実行されて、パフォーマンスが向上します。チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。このチェックボックスはデフォルトで選択されていますが、7.3以降のジョブをインポートした場合、これらのジョブはRDDで実行されるため、チェックボックスはクリアされます。情報メモ重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。
[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用)	このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。情報メモ注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampかjava.sql.Dateが使われます。
[Batch size (ms)] (バッチサイズ(ミリ秒))	Spark Streamingジョブがソースデータをレビューして変更を特定し、新しいマイクロバッチを処理するまでの時間間隔を入力します。
[Define a streaming timeout (ms)] (ストリーミングタイムアウトを設定(ミリ秒))	このチェックボックスをオンにし、表示されたフィールドにSpark Streamingジョブが自動的に実行を停止するまでの期間を入力します。情報メモ注: Windows 10をお使いの場合は、Javaアプリケーションから終了シグナルを送信する際にWindows Service Wrapperに問題が発生しないよう、合理的なタイムアウトを設定することをお勧めします。このような問題が発生した場合、Azure Synapseワークスペースからジョブを手動でもキャンセルできます。
[Parallelize output files writing] (出力ファイルの書き込みを並列化)	このチェックボックスをオンにすると、Sparkバッチジョブが出力ファイルの書き込み時に複数のスレッドを並行して実行できるようになります。このオプションによって実行時間のパフォーマンスが改善されます。このチェックボックスがオフのままになっていると、出力ファイルは1つのスレッドで順次書き込まれます。サブジョブレベルでは、各サブジョブが順次処理されます。サブジョブ内の出力ファイルのみが並列化されます。このオプションは、次の出力コンポーネントが含まれているSparkバッチジョブでのみ使用できます: tAvroOutput tFileOutputDelimited ([Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)チェックボックスが選択されている場合のみ) tFileOutputParquet 情報メモ重要: ジョブ実行中のメモリに関する問題を避けるため、このパラメーターを使用する前に、書き込まれるファイルのサイズと実行環境の容量を考慮する必要があります。

Dataprocパラメーターを完成させます:

パラメーター	使用方法
[Project ID] (プロジェクトID)	Google Cloud PlatformプロジェクトのIDを入力します。
[Cluster ID] (クラスターID)	使用するDataprocクラスターのIDを入力します。
[Region] (リージョン)	使用するGoogle Cloudリージョンの名前を入力します。
[Google Storage staging bucket] (Googleストレージステージングバケット)	Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるよう、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。
[Provide Google Credentials] (Googleクレデンシャルを指定)	Google Cloud SDKがインストールされていて、Google Cloud Platformへのアクセスにユーザーアカウント認証情報を使用することが許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。
[Credential type] (認証情報のタイプ)	プロジェクトの認証に使用されるモードを選択します。 [Service account] (サービスアカウント): Google Cloud Platformプロジェクトに関連付けられているGoogleアカウントを使用して認証します。このモードを選択した場合、定義されるパラメーターは[Path to Google Credentials file] (Googleクレデンシャルファイルへのパス)です。 [OAuth2 Access Token] (OAuth2アクセストークン): OAuth認証情報を使用してアクセスを認証します。このモードを選択した場合、定義されるパラメーターは[OAuth2 Access Token] (OAuth2アクセストークン)です。
[Service account] (サービスアカウント)	使用するユーザーアカウントに関連付けられている認証情報ファイルのパスを入力します。このファイルはTalendジョブが実際に起動および実行されるコンピューターに保管されている必要があります。
[OAuth2 Access Token] (OAuth2アクセストークン)	アクセストークンを入力します。情報メモ重要: このトークンの有効期間は1時間のみです。Talend Studioはトークン更新操作を行わないため、1時間の制限を超える新しいトークンを再生成する必要があります。 Google Developers OAuth Playground (英語のみ)でOAuthアクセストークンを生成するには、BigQuery API v2にアクセスし、必要となる権限(bigquery、devstorage.full_control、cloud-platform)をすべて選択します。

Databricksの設定情報を入力します:

パラメーター	使用方法
[Max spot price] (最大スポット価格)	このチェックボックスをオンにすると、Databricksが計算リソースをプロビジョニングする時に、Spotインスタンスに対して支払うことを承諾する1時間あたりの最大価格を指定できます。
[EBS volume type] (ESBボリュームタイプ)	このチェックボックスをオンにすると、Databricksが計算リソースへのストレージプロビジョニングに使用するEBSボリュームのタイプを指定できます。
[Configure instance profile ARN] (インスタンスプロファイルARNを設定)	このチェックボックスをオンにすると、Databricksが計算リソースのプロビジョニング時に使用するインスタンスプロファイルのARNを指定できます。

[Set tuning properties] (チューニングプロパティを設定)チェックボックスをオンにし、Apache Spark Batchジョブ用にSparkを調整の説明に従ってチューニングパラメーターを定義します。

重要: チューニングパラメーターを設定しない場合、エラー(400 - Bad request)が発生する可能性があります。

[Spark "scratch" directory] (Spark "scratch"ディレクトリー)フィールドに、Talend Studioが一時ファイルを保存するローカルパス(転送するJARなど)を入力します。

Windowsでジョブを実行する場合、デフォルトのディスクはC:です。このフィールドに/tmpを残すと、C:/tmpがディレクトリーとして使用されます。

ジョブを耐障害性にする場合は、[Activate checkpointing] (チェックポイントを有効化)をオンにしてSparkのチェックポイント操作を有効にします。

[Checkpoint directory] (チェックポイントディレクトリー)フィールドには、Sparkがコンテキストデータ(メタデータや生成されたRDDなど)を保存するクラスターファイルシステムのパスを入力します。

[Advanced properties] (詳細プロパティ)テーブルに、Talend Studioによって設定されたデフォルトをオーバーライドしたいSparkプロパティを追加します。

データ来歴を追跡し、Sparkジョブのコンポーネントを表示させ、コンポーネント間のスキーマ変更を追跡する場合は、[Use Atlas] (アトラスを使用) チェックボックスをオンにします。

このオプションはSpark Universal 3.3.xでのみ使用可能です。

このオプションを有効にしたら、以下のパラメーターを設定する必要があります。

Atlas URL: Atlasインスタンスのアドレス(http://name_of_your_atlas_node:portなど)を入力します。
[Username] (ユーザー名)および[Password] (パスワード)フィールドに、Atlasにアクセスするための認証情報を入力します。
[Set Atlas configuration folder] (Atlas設定フォルダーを指定): AtlasクラスターがSSLや読み取りタイムアウトなどのカスタムプロパティを使用している場合は、このチェックボックスをオンにします。表示されるフィールドに、atlas-application.propertiesファイルが含まれているローカルディレクトリーへのパスを入力します。その後、ジョブはこれらのカスタムプロパティを使用するようになります。

この設定ファイルについては、クラスターの管理者に依頼してください。詳細は、[Atlas configuration] (Atlas設定) (英語のみ)でクライアント設定セクションをご覧ください。
[Die on error] (エラー発生時に強制終了): このチェックボックスをオンにすると、Atlas関連の問題(接続エラーなど)が発生した場合にジョブの実行を停止します。クリアすると、ジョブが実行し続けるようになります。

Spark UniversalでDataproc接続パラメーターを定義

このタスクについて

手順

タスクの結果

このページは役に立ちましたか?