メイン コンテンツをスキップする 補完的コンテンツへスキップ

S3システムにDatabricksからアクセスするためにS3固有のプロパティを追加する

S3固有のプロパティをAWS上のDatabricksクラスターのSpark設定に追加します。

始める前に

  • DatabricksのSparkクラスターが正しく作成され、実行されていることと、バージョンが3.5 LTSであることを確認します。詳細は、DatabricksドキュメンテーションでCreate Databricks workspaceをご覧ください。
  • AWSアカウントを持っていること。
  • 使用するS3バケットが適切に作成されており、それにアクセスするための適切な権限があること。
  • Machine Learning コンポーネントかtMatchPredictを使用している場合は、Databricks Runtime Versionの設定がX.X LTS MLになっていること。

手順

  1. Databricksクラスター ページの[Configuration] (設定)タブで、ページ下部の[Spark] (スパーク) タブまでスクロールします。

  2. [Edit] (編集)をクリックして、このページのフィールドを編集可能にします。
  3. Sparkタブで、S3システムへのアクセスに使う認証情報に関するSparkプロパティを入力します。
    • S3N
      spark.hadoop.fs.s3n.awsAccessKeyId <your_access_key>
      spark.hadoop.fs.s3n.access.key <your_access_key>
      spark.hadoop.fs.s3n.awsSecretAccessKey <your_secret_key>
    • S3A
      spark.hadoop.fs.s3a.awsAccessKeyId <your_access_key>
      spark.hadoop.fs.s3a.access.key <your_access_key>
      spark.hadoop.fs.s3a.awsSecretAccessKey <your_secret_key> 
  4. DatabricksでSpark Streaming Jobsを実行する必要がある場合は、同じSparkタブで、次のプロパティを追加してデフォルトのSparkシリアライザーを定義します。Spark Streamingジョブを実行する予定がない場合は、この手順を無視できます。
    spark.serializer org.apache.spark.serializer.KryoSerializer
  5. Sparkクラスターを再起動します。
  6. Databricksクラスターページの[Spark UI]タブで、[Environment] (環境)をクリックしてプロパティのリストを表示し、前の手順で追加した各プロパティがそのリストに存在することを確認します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。