メイン コンテンツをスキップする 補完的コンテンツへスキップ

Azure StorageシステムにDatabricksからアクセスするためにAzure固有のプロパティを追加する

クラスターがAzure Storageにアクセスできるように、Azure固有のプロパティをDatabricksクラスターのSpark設定に追加します。

この操作が必要なのは、Apache SparkのTalendジョブでAzure Blob StorageまたはAzure Data Lake StorageをDatabricksと併用する場合のみです。

始める前に

  • DatabricksのSparkクラスターが正しく作成され、実行されていることと、バージョンがTalend Studioでサポートされていることを確認します。Azure Data Lake Storage Gen 2を使う場合は、Databricks 5.4のみがサポートされています。

    詳細は、Azureドキュメンテーションの「[Create Databricks workspace] (Databricksワークスペースの作成)」をご覧ください。

  • Azureアカウントを持っています。
  • 使用するAzure Blob StorageまたはAzure Data Lake Storageサービスが適切に作成されており、それにアクセスするための適切な権限があります。Azure Storageの詳細は、AzureドキュメントのAzure Storageチュートリアルをご覧ください。
  • Machine Learning コンポーネントかtMatchPredictを使用している場合は、Databricks Runtime Versionの設定がX.X LTS MLになっていること。

手順

  1. Databricksクラスター ページの[Configuration] (設定)タブで、ページ下部の[Spark] (スパーク) タブまでスクロールします。

  2. [Edit] (編集)をクリックして、このページのフィールドを編集可能にします。
  3. Sparkタブで、Azure Storageシステムへのアクセスに使う認証情報に関するSparkプロパティを入力します。
    オプション 説明
    Azure Blob Storage

    Azure Blob StorageとAzure Databricksを併用する必要がある場合は、次のSparkプロパティを追加します:

    • アカウントキーを提供するパラメーター:

      spark.hadoop.fs.azure.account.key.<storage_account>.blob.core.windows.net <key>

      使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。

    • 既存のファイルにデータを追加する必要がある場合は、このパラメーターを追加します:

      spark.hadoop.fs.azure.enable.append.support true
    Azure Data Lake Storage (Gen 1) Azure Data Lake Storage Gen1とDatabricksを併用する必要がある場合は、次のSparkプロパティを1行ごとに追加します:
    spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
    spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
    spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
    spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token
    Azure Data Lake Storage (Gen 2)

    Azure Data Lake Storage Gen2とDatabricksを併用する必要がある場合は、次のSparkプロパティを1行ごとに追加します:

    • アカウントキーを提供するパラメーター:

      spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>

      このキーは、使用するストレージアカウントに関連付けられています。このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。どのアカウントにも使えるキーが2つあり、このアクセスにはデフォルトでどちらのキーも使用できます。

      使用するアカウントに適切な読み取り/書き込み権限とアクセス許可があることをご確認ください。

    • 使用するADLSファイルシステムがまだ存在しない場合は、次のパラメーターを追加します:

      spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
    アプリケーションIDと認証キーを見つける方法は、AzureドキュメンテーションでGet application ID and authentication keyをご覧ください。同じドキュメンテーションのGet tenant IDには、テナントIDを見つける方法も説明されています。
  4. DatabricksでSpark Streaming Jobsを実行する必要がある場合は、同じSparkタブで、次のプロパティを追加してデフォルトのSparkシリアライザーを定義します。Spark Streamingジョブを実行する予定がない場合は、この手順を無視できます。
    spark.serializer org.apache.spark.serializer.KryoSerializer
  5. Sparkクラスターを再起動します。
  6. Databricksクラスターページの[Spark UI]タブで、[Environment] (環境)をクリックしてプロパティのリストを表示し、前の手順で追加した各プロパティがそのリストに存在することを確認します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。