跳到主要内容 跳到补充内容

与您的大数据平台建立连接

如果在 Repository (存储库) 中建立与给定大数据平台的连接,此后每次需要使用该平台时,无需再配置与该平台的连接。

本示例中使用的大数据平台是 Databricks V5.4 集群,以及 Azure Data Lake Storage Gen2。

开始之前

  • 确保已在 Databricks 中正确创建 Spark 集群。

    有关更多信息,请参阅 Databricks 文档中的创建 Databricks 工作区 (仅提供英文版本)

  • 您有一个 Azure 帐户。
  • 已正确创建 Azure Data Lake Storage Gen2 的存储帐户,并且您对其具有适当的读取和写入权限。有关如何创建这种存储帐户的更多信息,请参阅 Azure 文档中的创建启用了 Azure Data Lake Storage Gen2 的存储帐户 (仅提供英文版本)
  • 当前视图为 集成  透视图。

关于此任务

首先,您需要在集群端配置 Databricks 集群,然后在 Studio 中设置连接元数据。

步骤

  1. 在 Databricks 集群页面的 Configuration (配置) 选项卡上,向下滚动到页面底部的 Spark 选项卡。

    示例

  2. 单击 Edit (编辑) 使此页面上的字段可编辑。
  3. 在此 Spark 选项卡中,输入与用于访问 Azure 存储系统的用户名和密码有关的 Spark 属性,每行输入一项:
    • 用于提供帐号密钥的参数:

      spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>

      该密钥与要使用的存储帐户相关联。该密钥可在此存储帐户的 Access keys (访问密钥) 部分中找到。每个帐户有两个密钥,默认情况下,可以使用任意一个进行访问。

      确保要使用的帐户具有适当的读/写权限。

    • 如果要使用的 ADLS 文件系统尚不存在,请添加以下参数:

      spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
    • 如果需要使用 Databricks 运行 Spark Streaming 作业,请在同一 Spark 选项卡中添加以下属性,以定义默认的 Spark 序列化程序。如果您不打算运行 Spark Streaming 作业,则可以忽略此步骤。
      spark.serializer org.apache.spark.serializer.KryoSerializer
  4. 重新启动 Spark 集群。
  5. 在您的 Databricks 集群页面的 Spark UI 选项卡中,单击 Environment (环境) 以显示属性列表,并验证在先前步骤中添加的每个属性是否都在该列表中。
  6. 在 studio 的 Repository (存储库) 树视图中,展开 Metadata (元数据),然后右键单击 Hadoop cluster (Hadoop 集群)
  7. 从上下文菜单中选择 Create Hadoop cluster (创建 Hadoop 集群),打开 Hadoop cluster connection (Hadoop 集群连接) 向导。
  8. 填写有关此连接的一般信息,例如其 Name (名称)Description (描述),然后单击 Next (下一步) 打开 Hadoop configuration import wizard (Hadoop 配置导入向导) 窗口,该窗口可以帮助您导入现成的配置 (如有)。
  9. 选中 Enter manually Hadoop services (手动输入 Hadoop 服务) 复选框,手动输入正在创建的 Databricks 连接的配置信息。
  10. 单击 Finish (完成) 关闭此导入向导。
  11. Distribution (发行版) 列表中,选择 Databricks,然后从 Version (版本) 列表中,选择 5.4 (包括 Apache Spark 2.4.3、Scala 2.11)
  12. Endpoint (端点) 字段中,输入您的 Azure Databricks 工作区 URL 地址。此 URL 可在 Azure 门户的 Databricks 工作区页面的 Overview (概述) 部分中找到。例如此 URL 可能类似 https://adb-$workspaceId.$random.azuredatabricks.net
  13. Cluster ID (集群 ID) 字段中,输入要使用的 Databricks 集群 ID。此 ID 是您的 Spark 集群的 spark.databricks.clusterUsageTags.clusterId 属性的值。您可以在集群的 Spark UII视图中的 Environment (环境) 选项卡中的属性列表中找到此属性。
    还可以从您的 Databricks 集群的 URL 中轻松找到此 ID。在 URL 中,它紧随在 cluster/ 之后。
  14. 单击 Token (令牌) 字段旁的 [...] 按钮,以输入为您的 Databricks 用户帐户生成的身份验证令牌。您可以生成或在 Databricks 工作区的 User settings (用户设置) 页上找到此令牌。更多信息,请参阅 Azure 文档的个人访问令牌 (仅提供英文版本)
  15. DBFS dependencies folder (DBFS 依赖关系文件夹) 字段中,输入 Databricks 文件系统上用于在运行时存储与您作业有关的依赖关系的目录,并在此目录的结尾放一个斜杠 (/)。例如,输入 /jars/ 以在名为 jars 的文件夹中存储依赖关系。如果文件夹不存在,则即时创建。
  16. 单击 Finish (完成) 确认更改并关闭向导。

结果

新连接 (本示例中名为 movie_library) 将显示在 Repository (存储库) 树视图的 Hadoop cluster (Hadoop 集群) 文件夹下。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!