您可以通过 Apache Spark Batch Talend 作业访问和使用 Talend Spark 组件,以直观地设计 Apache Spark 程序来读取、转换或写入数据。
步骤
-
在 Repository (存储库) 树视图中,展开 Job Designs (作业设计) 节点,右键单击 Big Data Batch (大数据批处理) 节点,然后从上下文菜单中选择 Create folder (创建文件夹)。
-
在 New Folder (新建文件夹) 向导中,将作业文件夹命名为 getting_started 并单击 Finish (完成) 创建文件夹。
-
右键单击 getting_started 文件夹并再次选择 Create folder (创建文件夹)。
-
在 New Folder (新建文件夹) 向导中,将新文件夹命名为 spark 并单击 Finish (完成) 创建文件夹。
-
右键单击 spark 文件夹并选择 Create Big Data Batch Job (创建大数据批处理作业)。
-
在 New Big Data Batch Job (新的大数据批处理作业) 向导中,从 Framework (框架) 下拉列表中选择 Spark。
-
输入此 Spark Batch 作业的名称和其他有用信息。
例如,在 Name (名称) 字段输入 aggregate_movie_director_spark。
结果
现在,Spark Batch 组件的 Palette (调色板) 可在 Studio 中使用了。您可以利用Palette (调色板)和Repository (存储库) 中的 Metadata (元数据) 节点开始设计作业。