拖放和连接 Spark 组件

您在作业工作区中编排 Spark Batch 组件，以设计在 Apache Spark Batch 框架中运行的数据转换流程。

开始之前

您已启动 Talend Studio 并打开集成透视图。
已如创建 Spark Batch 作业中所述创建了空作业并在工作区中打开。

步骤

在作业中，输入要使用的组件的名称，然后从显示的列表中选择此组件。在本场景中为两个 tFileInputDelimited 组件、一个 tMap 组件、两个 tFileOutputParquet 组件和一个 tAzureFSConfiguration 组件。
- 两个 tFileInputDelimited 组件分别用于将影片数据和导演数据从 Databricks 大数据平台的 DBFS 文件系统加载到当前作业的数据流中。
- tMap 组件用于转换输入数据。
- tFileOutputParquet 组件将结果写入 Azure Data Lake Storage 文件系统的目录中。
- tAzureFSConfiguration 组件提供了连接到 Azure Data Lake Storage 文件系统所需的必要信息。
双击两个 tFileInputDelimited 组件中的其中一个，以使此标签可编辑，然后输入 movie (影片) 以更改此组件的标签。
执行相同的操作，将另一个 tFileInputDelimited 标记为 director (导演)。
右键单击标记为 movie (影片) 的 tFileInputDelimited 组件，然后从上下文菜单中选择 Row > Main (行 > 主) 并单击 tMap 将其连接到 tMap。这是将影片数据发送到 tMap 的数据流连接，它作为 tMap 的 Main Link（主连接）。
执行相同的操作，使用 Row > Main (行 > 主) 连接将 director (导演) tFileInputDelimited 组件连接到 tMap。这是导演数据作为查找数据发送到 tMap 的 Lookup (查找) 连接。
使用 Row > Main (行 > 主) 连接将 tMap 组件连接到 tFileOutputParquet，然后在弹出向导中将此连接命名为 out1，并单击 OK (确定) 以确认更改。
重复这些操作，使用 Row > Main (行 > 主) 连接将 tMap 组件连接到另一个 tFileOutputParquet 组件，并将其命名为 reject (拒绝)。

结果

在工作区中，整个作业如下所示：

本页面有帮助吗？

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们！

在此处留下您的反馈