跳到主要内容 跳到补充内容

配置输入数据

tFileInputDelimited 组件配置为将数据从 DBFS 加载到作业中。

开始之前

步骤

  1. 展开 Repository (存储库)Metadata (元数据) 节点下的 File delimited (分隔文件),然后展开 movies (影片) 文件连接节点及其子节点,以显示 movies (影片) schema 元数据节点。
  2. 双击该 schema 元数据节点,打开其向导。
  3. 单击 按钮,将 schema 导出到本地目录。
  4. 双击 movie (影片) tFileInputDelimited 组件打开其 Component (组件) 视图。
  5. 确保清除 Define a storage configuration component (定义存储配置组件) 复选框。这让该组件可以直接从 Spark 集群的文件系统 (稍后在 Spark configuration (Spark 配置) 选项卡中进行定义) 读取数据,;在此场景中,此文件系统是 DBFS。
  6. 单击 Edit schema (编辑 schema) 以打开 schema 编辑器,然后单击 按钮以导入之前从 Repository (存储库)File delimited (分隔文件) 元数据中导出的影片 schema。
  7. Folder/File (文件夹/文件) 字段中,输入指向存储在 DBFS 中的影片数据的路径。
  8. Header (文件头) 字段中,输入 1,不带引号。这让组件可以将数据的第一行识别为数据头。
  9. 双击 director (导演) tFileInputDelimited 组件打开其 Component (组件) 视图。
  10. 出于与之前步骤中所述相同的原因,确保清除 Define a storage configuration component (定义存储配置组件) 复选框。
  11. 单击 Edit schema (编辑 schema) 旁边的 [...] 按钮打开 schema 编辑器。
  12. 单击 [+] 按钮两次添加两行,并在 Column (列) 列中,将其分别重命名为 IDName (名称)
  13. 在弹出对话框单击 OK (确定) 以确认这些更改并接受此Schema向后续组件的传播。
  14. Folder/File (文件夹/文件) 字段中,输入导演数据存储目录。如将文件上传到 DBFS (Databricks 文件系统)中所述,这些数据已经写入到 /FileStore/ychen/movie_library/directors.txt
  15. Field separator (字段分隔符) 字段中,输入逗号 (,),因为这是导演数据使用的分隔符。

结果

输入组件现在即会配置为将影片数据和导演数据加载到作业。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!