SparkジョブのAzure Databricks接続パラメーターを定義

ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブでDatabricks接続設定を完了します。この設定はジョブごとに有効です。

このセクションの情報は、Talend Data Fabricまたはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーのみが対象です。

始める前に

Spark Streamingジョブの実行時は、[Do not restart cluster when submitting] (送信時にクラスターを再起動しない)チェックボックスをオンにした場合のみ、同じDatabricksクラスターで複数のジョブを並列実行できます。このチェックボックスをオフにすると、ジョブの実行中にrun failed with error message Driver of the cluster (01234-56789-cluster) was restarted during the runというエラーメッセージが表示され失敗します。
Spark Batchジョブの実行時に、[Do not restart the cluster when submitting] (送信時にクラスターを再起動しない)チェックボックスをオンにした場合のみ、複数のジョブを送信して同じDatabricksクラスターで並行して実行できます。そうしないと、実行ごとにクラスターが自動的に再起動されるため、並行して起動されたジョブが互いに割り込みや実行エラーが発生します。

手順

設定の基本情報を入力します:

[Use local timezone] (ローカルタイムゾーンを使用)	このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使用します。情報メモ注: このチェックボックスをオフにすると、SparkはUTCタイムゾーンを使用します。コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンが継承されます。
[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)	このチェックボックスをオンにし、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます: チェックボックスをオンにする場合は、ジョブ内のコンポーネントは、DSで実行されて、パフォーマンスが向上します。チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。このチェックボックスはデフォルトで選択されていますが、7.3以降のジョブをインポートした場合、これらのジョブはRDDで実行されるため、チェックボックスはクリアされます。情報メモ重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。
[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用)	このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。情報メモ注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampかjava.sql.Dateが使われます。

[Use local timezone] (ローカルタイムゾーンを使用)

このチェックボックスをオンにすると、Sparkはシステムで指定されているローカルタイムゾーンを使用します。

注:

このチェックボックスをオフにすると、SparkはUTCタイムゾーンを使用します。
コンポーネントによっては[Use local timezone for date] (日付にローカルタイムゾーンを使用)チェックボックスもあります。コンポーネントのチェックボックスをオフにすると、Spark設定からのタイムゾーンが継承されます。

[Use dataset API in migrated components] (移行したコンポーネントでデータセットAPIを使用)

このチェックボックスをオンにし、コンポーネントにResilient Distribued Dataset (RDD) APIの代わりにDataset (DS) APIを使用させます:

チェックボックスをオンにする場合は、ジョブ内のコンポーネントは、DSで実行されて、パフォーマンスが向上します。
チェックボックスをオフにする場合は、ジョブ内のコンポーネントはRDDで実行されて、変更されていない状態のままです。これにより、下位互換性が保証されます。

このチェックボックスはデフォルトで選択されていますが、7.3以降のジョブをインポートした場合、これらのジョブはRDDで実行されるため、チェックボックスはクリアされます。

重要: ジョブにtDeltaLakeInputコンポーネントとtDeltaLakeOutputコンポーネントが含まれている場合は、このチェックボックスを選択する必要があります。

[Use timestamp for dataset components] (データセットコンポーネントにタイムスタンプを使用)

このチェックボックスをオンにすると、日付でjava.sql.Timestamp使われます。

注: このチェックボックスをオフのままにしておくと、パターンに応じてjava.sql.Timestampかjava.sql.Dateが使われます。

[Cloud provider] (クラウドプロバイダー)ドロップダウンリストでAzureを選択します。
Talend Studioでジョブを実行する際に、Databricksクラスターでのジョブの実行に使いたいモードを[Run mode] (実行モード)ドロップダウンリストから選択します。
- [Create and run now] (今すぐ作成して実行): 新しいジョブが作成され、Databricksですぐに実行されます。このモードでは、DatabricksワークスペースでジョブをそのIDで検索できます。For more information, see Run now, from the official Databricks documentation.
- [Runs submit] (実行を送信): Databricksでジョブを作成することなく、1回限りの実行を送信できます。With this mode, nothing is displayed in the user interface and no Job ID are created in your Databricks workspace. 詳細は、Databricksの公式ドキュメンテーションでRuns submitをご覧ください。

Databricksの基本的な接続情報を入力します:

[Standalone] (スタンドアロン)	[Use pool] (プールを使用): Databricksプールを活用する場合はこのチェックボックスをオンにします。選択した場合は、[Spark configuration] (Spark設定)でクラスターIDではなくプールIDを指定する必要があります。また、[Cluster type] (クラスタータイプ)ドロップダウンリストから、[Job cluster] (ジョブクラスター)を選択する必要があります。 [Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。 [Cluster ID] (クラスターID)フィールドに、使用する DatabricksクラスターのIDを入力します。このIDは、Sparkクラスターのspark.databricks.clusterUsageTags.clusterIdプロパティの値です。これらのプロパティは、クラスターの[Spark UI]ビューの[Environment] (環境)タブのプロパティリストにあります。このIDはDatabricksクラスターのURLからでも容易に見つかります。このURLのcluster/の直後に置かれています。 [Use Pool] (プールを使用)オプションを選択した場合は、使用するDatabricksプールのIDを[Pool ID] (プールID)フィールドに入力する必要があります。このIDは、使用するプールのDatabricksInstancePoolIdキーの値です。このキーは、使用するプールの[Configuration] (設定)タブの[Tags] (タグ)の下で見つかります。また、プールを使用するクラスターのタグ内にもあります。このIDはDatabricksプールのURLでもすぐに見つかります。このURLのcluster/instance-pools/view/の直後に置かれています。 [Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、公式AzureドキュメンテーションからのPersonal access tokens (パーソナルアクセストークン)をご覧ください。 [Dependencies folder] (依存項目フォルダー)フィールドに、Databricksファイルシステムでのジョブ依存項目の保存にランタイムで使用するディレクトリーを入力し、このディレクトリーの末尾にスラッシュ( / )を入力します。たとえば、/jars/と入力して、依存項目をjarsという名前のフォルダーに保管します。このフォルダーが存在しない場合、ここで作成されます。 Databricks 15.4 LTSより、デフォルトのライブラリーの場所がDBFSではんくWORKSPACEとなりました。 [Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒)): Talend StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。たとえば、このステータスは[Pending] (保留中)または[Running] (実行中)になります。デフォルト値は`300000`で30秒です。この間隔は、ジョブステータスを正しく取得できるようDatabricksによって推奨されています。 [Cluster type] (クラスタータイプ): 使用するクラスターのタイプとして、[Job clusters] (ジョブクラスター)か[All-purpose clusters] (汎用クラスター)を選択します。 [Advanced properties] (詳細プロパティ)テーブルで定義したカスタムプロパティは、ジョブクラスターによってランタイムで自動的に有効になります。 [Use policy] (使用ポリシー): このチェックボックスをオンにして、ジョブクラスターで使用するポリシーの名前を入力します。ポリシーを使用して、ルールのセットに基づいてクラスターを設定する機能を制限できます。クラスターポリシーの詳細は、Databricksの公式ドキュメントでManage cluster policiesをご覧ください。 [Enable ACL] (ACLを有効化): このチェックボックスをオンにすると、アクセス制御リスト(ACL)を使って、ワークスペースやアカウントレベルのオブジェクトへのアクセス権限を設定できます。 [ACL permission] (ACL権限)では、CAN_MANAGE、CAN_MANAGE_RUN、IS_OWNER、CAN_VIEWのいずれかを使って、ワークスペースオブジェクトへのアクセス権限を設定できます。 [ACL type] (ACLタイプ)では、[User] (ユーザー)、[Group] (グループ)、[Service Principal] (サービスプリンシパル)のいずれかを使って、アカウントレベルのオブジェクトの使用権限を設定できます。 [所有者]に、ジョブ所有者の名前を入力します。[ACLタイプ]が[グループ]に設定されている場合、このフィールドは使用できません。 [Name] (名前)には、管理者から付与された名前を入力します。このオプションは、[Cluster type] (クラスタータイプ)が[Job clusters] (ジョブクラスター)に設定されている場合に利用可能です。詳細は、Databricksのドキュメンテーションをご覧ください。 [Autoscale] (自動スケーリング): このチェックボックスをオンまたはオフにして、ジョブクラスターで使用するワーカーの数を定義します。このチェックボックスをオンにすると、自動スケーリングが有効になります。次に、[Min workers] (最小ワーカー)にワーカーの最小数、[Max workers] (最大ワーカー)に最大ワーカー数を定義します。ジョブクラスターは、ワークロードに基づいてこのスコープでスケールアップおよびスケールダウンされます。 Databricksのドキュメンテーションによると、自動スケーリングはDatabricksランタイムバージョン3.0以降で最適に機能します。このチェックボックスをオフにすると、自動スケーリングは無効になります。次に、ジョブクラスターに必要なワーカーの数を定義します。この数には、Sparkドライバーノードは含まれません。 [Node type] (ノードタイプ)および[Driver node type] (ドライバーノードタイプ): ワーカーとSparkドライバーノードのノードタイプを選択します。これらのタイプは、ノードの容量とDatabricksによる価格設定を決定します。これらのノードタイプと使用するDatabricksユニットの詳細は、DatabricksドキュメンテーションでSupported Instance Types (サポートされるインスタンスタイプ)をご覧ください。 [Elastic disk] (エラスティックディスク): このチェックボックスをオンにすると、Sparkワーカーのディスクスペースが不足している時に、ジョブクラスターが自動的にディスクスペースを拡大できるようになります。このエラスティックディスク機能の詳細は、Databricksのドキュメンテーションでローカルストレージの自動スケーリングに関するセクションを検索してください。 [SSH public key] (SSHパブリックキー): クラスターにSSHアクセスがセットアップされている場合は、生成されたSSHキーペアのパブリックキーを入力します。このパブリックキーは、ジョブクラスターの各ノードに自動的に追加されます。SSHアクセスが設定されていない場合、このフィールドは無視してください。クラスターへのSSHアクセスの詳細は、公式DatabricksドキュメンテーションからSSH access to clusters(クラスターへのSSHアクセス)をご覧ください。 [Configure cluster log] (クラスターログの設定): このチェックボックスをオンにすると、Sparkログを長期間保存する場所を定義できます。このストレージシステムは、S3またはDBFSです。 [Init Scripts] (Initスクリプト): DBFSは、[Init Scripts] (Initスクリプト)の場所としてはサポートされなくなりました。Databricksの全バージョンで、WORKSPACEに置き換えられました。 [Do not restart the cluster when submitting] (送信時にクラスターを再起動しない): このオプションは、[Cluster type] (クラスタータイプ)が[All-purpose clusters] (汎用クラスター)に設定されている場合に利用可能です。Talend Studioがジョブを送信する時にTalend Studioがクラスターを再起動しないようにするには、このチェックボックスをオンにします。ただしジョブで変更を行う場合は、このチェックボックスをオフにし、Talend Studioがクラスターを再起動してその変更が反映されるようにします。

[Standalone] (スタンドアロン)

[Use pool] (プールを使用): Databricksプールを活用する場合はこのチェックボックスをオンにします。選択した場合は、[Spark configuration] (Spark設定)でクラスターIDではなくプールIDを指定する必要があります。また、[Cluster type] (クラスタータイプ)ドロップダウンリストから、[Job cluster] (ジョブクラスター)を選択する必要があります。
[Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。このURLは、https://adb-$workspaceId.$random.azuredatabricks.netといった形式になります。
[Cluster ID] (クラスターID)フィールドに、使用する DatabricksクラスターのIDを入力します。このIDは、Sparkクラスターのspark.databricks.clusterUsageTags.clusterIdプロパティの値です。これらのプロパティは、クラスターの[Spark UI]ビューの[Environment] (環境)タブのプロパティリストにあります。

このIDはDatabricksクラスターのURLからでも容易に見つかります。このURLのcluster/の直後に置かれています。
[Use Pool] (プールを使用)オプションを選択した場合は、使用するDatabricksプールのIDを[Pool ID] (プールID)フィールドに入力する必要があります。このIDは、使用するプールのDatabricksInstancePoolIdキーの値です。このキーは、使用するプールの[Configuration] (設定)タブの[Tags] (タグ)の下で見つかります。また、プールを使用するクラスターのタグ内にもあります。

このIDはDatabricksプールのURLでもすぐに見つかります。このURLのcluster/instance-pools/view/の直後に置かれています。
[Token] (トークン)フィールドの横にある[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[User settings] (ユーザー設定)ページで生成または検索できます。詳細は、公式AzureドキュメンテーションからのPersonal access tokens (パーソナルアクセストークン)をご覧ください。
[Dependencies folder] (依存項目フォルダー)フィールドに、Databricksファイルシステムでのジョブ依存項目の保存にランタイムで使用するディレクトリーを入力し、このディレクトリーの末尾にスラッシュ( / )を入力します。たとえば、/jars/と入力して、依存項目をjarsという名前のフォルダーに保管します。このフォルダーが存在しない場合、ここで作成されます。

Databricks 15.4 LTSより、デフォルトのライブラリーの場所がDBFSではんくWORKSPACEとなりました。
[Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒)): Talend StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。たとえば、このステータスは[Pending] (保留中)または[Running] (実行中)になります。

デフォルト値は300000で30秒です。この間隔は、ジョブステータスを正しく取得できるようDatabricksによって推奨されています。
[Cluster type] (クラスタータイプ): 使用するクラスターのタイプとして、[Job clusters] (ジョブクラスター)か[All-purpose clusters] (汎用クラスター)を選択します。

[Advanced properties] (詳細プロパティ)テーブルで定義したカスタムプロパティは、ジョブクラスターによってランタイムで自動的に有効になります。
1. [Use policy] (使用ポリシー): このチェックボックスをオンにして、ジョブクラスターで使用するポリシーの名前を入力します。ポリシーを使用して、ルールのセットに基づいてクラスターを設定する機能を制限できます。クラスターポリシーの詳細は、Databricksの公式ドキュメントでManage cluster policiesをご覧ください。
2. [Enable ACL] (ACLを有効化): このチェックボックスをオンにすると、アクセス制御リスト(ACL)を使って、ワークスペースやアカウントレベルのオブジェクトへのアクセス権限を設定できます。
  [ACL permission] (ACL権限)では、CAN_MANAGE、CAN_MANAGE_RUN、IS_OWNER、CAN_VIEWのいずれかを使って、ワークスペースオブジェクトへのアクセス権限を設定できます。
  
  [ACL type] (ACLタイプ)では、[User] (ユーザー)、[Group] (グループ)、[Service Principal] (サービスプリンシパル)のいずれかを使って、アカウントレベルのオブジェクトの使用権限を設定できます。
  
  [所有者]に、ジョブ所有者の名前を入力します。[ACLタイプ]が[グループ]に設定されている場合、このフィールドは使用できません。
  
  [Name] (名前)には、管理者から付与された名前を入力します。
  
  このオプションは、[Cluster type] (クラスタータイプ)が[Job clusters] (ジョブクラスター)に設定されている場合に利用可能です。詳細は、Databricksのドキュメンテーションをご覧ください。
3. [Autoscale] (自動スケーリング): このチェックボックスをオンまたはオフにして、ジョブクラスターで使用するワーカーの数を定義します。
  1. このチェックボックスをオンにすると、自動スケーリングが有効になります。次に、[Min workers] (最小ワーカー)にワーカーの最小数、[Max workers] (最大ワーカー)に最大ワーカー数を定義します。ジョブクラスターは、ワークロードに基づいてこのスコープでスケールアップおよびスケールダウンされます。
    Databricksのドキュメンテーションによると、自動スケーリングはDatabricksランタイムバージョン3.0以降で最適に機能します。
  2. このチェックボックスをオフにすると、自動スケーリングは無効になります。次に、ジョブクラスターに必要なワーカーの数を定義します。この数には、Sparkドライバーノードは含まれません。
4. [Node type] (ノードタイプ)および[Driver node type] (ドライバーノードタイプ): ワーカーとSparkドライバーノードのノードタイプを選択します。これらのタイプは、ノードの容量とDatabricksによる価格設定を決定します。
  これらのノードタイプと使用するDatabricksユニットの詳細は、DatabricksドキュメンテーションでSupported Instance Types (サポートされるインスタンスタイプ)をご覧ください。
5. [Elastic disk] (エラスティックディスク): このチェックボックスをオンにすると、Sparkワーカーのディスクスペースが不足している時に、ジョブクラスターが自動的にディスクスペースを拡大できるようになります。
  このエラスティックディスク機能の詳細は、Databricksのドキュメンテーションでローカルストレージの自動スケーリングに関するセクションを検索してください。
6. [SSH public key] (SSHパブリックキー): クラスターにSSHアクセスがセットアップされている場合は、生成されたSSHキーペアのパブリックキーを入力します。このパブリックキーは、ジョブクラスターの各ノードに自動的に追加されます。SSHアクセスが設定されていない場合、このフィールドは無視してください。
  クラスターへのSSHアクセスの詳細は、公式DatabricksドキュメンテーションからSSH access to clusters(クラスターへのSSHアクセス)をご覧ください。
7. [Configure cluster log] (クラスターログの設定): このチェックボックスをオンにすると、Sparkログを長期間保存する場所を定義できます。このストレージシステムは、S3またはDBFSです。
8. [Init Scripts] (Initスクリプト): DBFSは、[Init Scripts] (Initスクリプト)の場所としてはサポートされなくなりました。Databricksの全バージョンで、WORKSPACEに置き換えられました。
[Do not restart the cluster when submitting] (送信時にクラスターを再起動しない): このオプションは、[Cluster type] (クラスタータイプ)が[All-purpose clusters] (汎用クラスター)に設定されている場合に利用可能です。Talend Studioがジョブを送信する時にTalend Studioがクラスターを再起動しないようにするには、このチェックボックスをオンにします。ただしジョブで変更を行う場合は、このチェックボックスをオフにし、Talend Studioがクラスターを再起動してその変更が反映されるようにします。

タスクの結果

ジョブを耐障害性にする必要がある場合は、[Activate checkpointing] (チェックポイントを有効化)チェックボックスをオンにしてSparkチェックポイントオペレーションを有効にします。メタデータなどの計算のコンテキストデータ、この計算から生成されたRDDをSparkが保存する、クラスターのファイルシステム内のディレクトリーを、表示されたフィールドに入力します。

Sparkチェックポイント操作に関する詳細は、の公式Sparkドキュメンテーションをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください