メイン コンテンツをスキップする 補完的コンテンツへスキップ

Spark UniversalでSynapse接続パラメーターを定義

Sparkプールlは、のSparkジョブでサポートされているAzure Synapse Analyticsの唯一のサービスです。

始める前に

SynapseワークスペースとApache Sparkプールが設定済みであること。詳細は、Microsoftの公式ドキュメンテーションでCreating a Synapse workspaceCreate a new serverless Apache Spark pool using the Azure portalをご覧ください。

手順

  1. デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
  2. [Property type] (プロパティタイプ)ドロップダウンリストから[Built-in] (組み込み)を選択します。
    Hadoop接続を一元管理で説明されているとおり、既に[Repository] (リポジトリー)で接続パラメーターが設定されている場合は簡単に再利用できます。再利用するためには、[Property type] (プロパティタイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックし、[Repository Content] (リポジトリーコンテンツ)ダイアログボックスを開いて、使用するHadoop接続を選択します。
    情報メモヒント: [Repository] (リポジトリー)で接続を設定すると、ジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。フィールドが自動的に入力されます。
  3. [Distribution] (ディストリビューション)ドロップダウンリストからUniversalを、[Version] (バージョン)ドロップダウンリストからSparkバージョンを、[Runtime mode/environment] (ランタイムモード/環境)ドロップダウンリストからSynapseをそれぞれ選択します。
  4. Azure Synapseへの接続に使う基本的な設定情報を入力します。
    パラメーター 使用方法
    [Endpoint] (エンドポイント) お使いのAzure SynapseのアカウントからDevelopment endpointを入力します。これはAzure SynapseワークスペースのOverviewセクションにあります。
    [Authorization token] (認証トークン) Azure Synapseアカウント用に生成されたトークンを入力します。
    情報メモ注: トークンを生成する場合は次のコマンドを入力する必要があります: curl -X post -H "Content-Type: application/x-www-form-urlencoded" -d 'client_id=<YourClientID>&scope=https://dev.azuresynapse.net/.default&client_secret=<YourClientSecret>&grant_type=client_credentials' 'https://login.microsoftonline.com/<YourTenantID>/oauth2/v2.0/token'

    クライアントID、クライアントシークレット、テナントIDはAzureポータルから取得できます。

    Azure Synapseへの認証はAzure Active Directoryアプリケーションを使って行われます。Azure Active Directoryへの登録方法に関する詳細は、Microsoftの公式ドキュメンテーションでUse the portal to create an Azure AD application and service principal that can access resourcesをご覧ください。

    情報メモ重要: このトークンの有効期間は1時間です。それ以降は、401 Not Authorized エラーを回避できるよう、そのトークンを再生成してください。
    [Apache Spark pools] (Apache Sparkプール) 使用するApache Sparkプールの名前を二重引用符で囲んで入力します。
    情報メモ注: Azure Synapseワークスペースで次の点を確認します:
    • Apache Sparkプールの作成時に、[Basic settings] (基本設定)の[Autoscale] (自動スケーリング)オプションと[Additional settings] (追加設定)の[Automatic pausing] (自動一時停止)オプションが有効になっていること。
    • 選択されたApache Sparkバージョンが3.0 (preview)に設定されていること。
    [Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒)) がジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。

    デフォルト値は、30秒に相当する3000です。

    [Maximum number of consecutive statuses missing] (見つからないステータスの最大連続回数) ステータスの応答がない場合にがステータス取得のために再試行する最大回数を入力します。

    デフォルト値は10です。

  5. Azure Synapseの基本的なストレージ情報を入力します。
    パラメーター 使用方法
    [Authentication method] (認証方式) 使用する認証モードをドロップダウンリストから選択します。
    • [Secret Key] (シークレットキー)
    • Azure Active Directory
    [Storage] (ストレージ) ドロップダウンリストで使用するストレージを選択します。

    ADLS Gen2は、Azure Synapse Analyticsワークスペースのデフォルトストレージです。Azure Active Directory認証を使用する際に、アプリケーションにStorage Blob Data Contributionというロールが付与され、ADLS Gen2にリンクされていることを確認します。

    [Hostname] (ホスト名) Azure Synapseアカウントから[Primary ADLS Gen2 account] (Primary ADLS Gen2アカウント)を入力します。これはAzure SynapseワークスペースのOverviewセクションにあります。
    [Container] (コンテナー) Azure Synapseアカウントから[Primary ADLS Gen2 file storage] (Primary ADLS Gen2ファイルストレージ)を入力します。これはAzure SynapseワークスペースのOverviewセクションにあります。
    [Username] (ユーザー名) Azure Synapseワークスペースにリンクしているストレージアカウント名を入力します。

    これらのプロパティは、[Authentication method] (認証方法)ドロップダウンリストから[Secret Key] (シークレットキー)を選択した場合のみ利用できます。

    [Password] (パスワード) Azure Synapseワークスペースにリンクしているアクセスキーを入力します。

    アクセスキーの取得方法に関する詳細は、Microsoftの公式ドキュメンテーションでView account access keysをご覧ください。

    これらのプロパティは、[Authentication method] (認証方法)ドロップダウンリストから[Secret Key] (シークレットキー)を選択した場合のみ利用できます。

    [Directory ID] (ディレクトリーID) Azure Active DirectoryアプリケーションにリンクされているディレクトリーIDを入力します。IDは、お使いのAzureポータルのAzure Active Directory > [Overview] (概要)タブから取得できます。

    これらのプロパティは、[Authentication method] (認証方法)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。

    [Application ID] (アプリケーションID) Azure Active DirectoryアプリケーションにリンクされているアプリケーションIDを入力します。IDは、お使いのAzureポータルのAzure Active Directory > [Overview] (概要)タブから取得できます。

    これらのプロパティは、[Authentication method] (認証方法)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。

    [Use certificate to authenticate] (認証に証明書を使用) 証明書を使い、Azure Active Directoryアプリケーションに対して認証を行う場合は、このチェック ボックスをオンにし、証明書が保存されている場所を[Path to certificate] ([証明書へのパス)フィールドに入力します。

    Make sure you upload the certificate in the Certificates & secrets > Certificates section of your Azure Active Directory application. 証明書の詳細は、 Microsoftの公式ドキュメンテーションをご覧ください。

    これらのプロパティは、[Authentication method] (認証方法)ドロップダウンリストからAzure Active Directoryを選択した場合のみ利用できます。

    [Client key] (クライアントキー) Azure Active Directoryアプリケーションにリンクされているクライアントキーを入力します。クライアントキーは、お使いのAzureポータルの[Certificates & secrets] (証明書とシークレット)タブから生成できます。

    これらのプロパティは、[Authentication method] (認証方法)ドロップダウンリストからAzure Active Directoryを選択し、[Use certificate to authenticate] (認証に証明書を使用)チェック ボックスをオフにした場合のみ利用できます。

    [Deployment Blob] (デプロイメントBlob) お使いのストレージで、現在のジョブとその依存ライブラリーを保存する場所を入力します。
  6. 設定の基本情報を入力します:
  7. Apache Spark Batchジョブ用にSparkを調整の説明に従って、Synapseのチューニングパラメーターを入力します。
    情報メモ重要: 400 Bad Requestエラーを回避できるよう、必ずチューニングパラメーターを定義してください。

タスクの結果

ジョブの実行時に生成されたLivy IDを使って、Azure Synapseワークスペースでジョブの結果を取得できます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。