选择 Spark 模式
根据要使用的 Spark 集群,为您的作业选择 Spark 模式。
Spark 文档提供了 Spark Configuration (Spark 配置) (仅提供英文版本) 中的 Spark 属性及其默认值的详尽列表。Studio 中设计的 Spark 作业将会使用此默认配置,您在 Spark Configuration (Spark 配置) 选项卡中或在作业所用的组件中明确定义的属性除外。
步骤
- 单击 Run (运行) 以打开其视图,然后单击 Spark Configuration (Spark 配置) 选项卡显示其视图,以便配置 Spark 连接。
-
选择 Use local mode (使用本地模式) 复选框以在本地测试作业。
在本地模式下,Studio 在其自身中动态构建 Spark 环境,以运行作业。本地机器的每个处理器被用作 Spark worker,以执行计算。
在此模式下,使用本地文件系统;因此,如果您的作业中有向远程文件系统提供连接信息的 tS3Configuration 或 tHDFSConfiguration 等配置组件,停用这些组件。
您无需任何进一步配置就可运行作业。
-
清除 Use local mode (使用本地模式) 复选框,以显示可用 Hadoop 发行版的列表,根据要使用的 Spark 集群选择此列表中的分配。
此发行版可以是:
-
对于此发行版,Talend 支持:
-
Yarn client (Yarn 客户端)
-
Yarn cluster (Yarn 集群)
-
-
对于此发行版,Talend 支持:
-
独立
-
Yarn client (Yarn 客户端)
-
Yarn cluster (Yarn 集群)
-
-
对于此发行版,Talend 支持:
-
Yarn client (Yarn 客户端)
-
-
对于此发行版,Talend 支持:
-
Yarn client (Yarn 客户端)
-
Yarn cluster (Yarn 集群)
-
-
对于此发行版,Talend 支持:
-
独立
-
Yarn client (Yarn 客户端)
-
Yarn cluster (Yarn 集群)
-
-
对于此发行版,Talend 支持:
-
Yarn cluster (Yarn 集群)
-
-
Cloudera Altus
对于此发行版,Talend 支持:-
Yarn cluster (Yarn 集群)
您的 Altus 集群应在以下云提供商上运行:-
Azure
对 Altus on Azure 的支持属于技术预览功能。
-
AWS
-
-
由于作业依赖 Avro 在其组件中移动数据,建议设置您的集群以使用 Kryo 处理 Avro 类型。此设置不但有助于避免该 Avro 已知问题 (仅提供英文版本),还能提升固有性能。要在您的集群中设置的 Spark 属性为:spark.serializer org.apache.spark.serializer.KryoSerializer
如果在此下拉列表中找不到与您的发行版对应的发行版,这就意味着您要连接的发行版不受 Talend 官方支持。在这种情况下,可以选择 Custom (自定义),然后选择要连接集群的 Spark version (Spark 版本) 并单击 [+] 按钮以显示可用于执行以下操作的对话框:
-
选择 Import from existing version (从现有版本导入) 以导入官方支持的发行版作为基础,然后添加基础发行版未提供的其他必需 jar 文件。
-
选择 Import from zip (从 zip 导入) 以导入要使用的自定义发行版的配置 zip。此 zip 文件应包含不同 Hadoop/Spark 元素的库以及这些库的索引文件。
在 Talend Exchange 中, Talend 社区的成员共享了一些现成的配置 zip 文件,您可以从此 Hadoop 配置 (仅提供英文版本) 列表下载这些文件,并直接将其用于相应的连接中。但是,由于不同的 Hadoop 相关工程在不断发展,您可能无法从此列表中找到与您的发行版对应的配置 zip;然后,建议使用 Import from existing version (从现有版本导入) 选项将现有发行版作为基础来添加您的发行版所需的 jar 文件。
请注意,自定义版本不受 Talend 官方支持。Talend 及其社区为您提供了从 Studio 连接到自定义版本的机会,但无法保证您可轻松配置所选择的任何版本。因此,只有当您有足够的 Hadoop 和 Spark 经验来自行处理任何问题时,才能尝试建立这样的连接。
有关如何连接自定义发行版并共享此连接的逐步示例说明,请参阅 Hortonworks。