跳到主要内容 跳到补充内容

配置数据转换

tMap 组件配置为连接影片数据和导演数据。

将影片数据和导演数据加载到作业后,您需要配置 tMap 组件以联接它们来产生您所期望的输出。

步骤

  1. 双击 tMap 打开其 Map Editor (Map 编辑器) 视图。
  2. movieID 列、title (标题) 列、releaseYear 列和 url 列从左侧拖放到每个输出流表上。

    Map Editor (Map 编辑器) 的输入侧 (左侧),每个表表示一个输入流,上表表示主流,下表表示查找流。

    如果您将 tMap 连接到拖放和连接 Spark 组件中的 tFileOutputParquet,输出侧 (右侧) 的两个表表示命名为 out1reject (拒绝) 的输出流。

  3. 在输入侧,将 directorID 列从主流表拖放到查找流表中 ID 行的 Expr.key 列。这样一来,就定义了主流和查找流之间的连接键。
  4. directorID 列从主流表拖放到输出侧的 reject (拒绝) 表,并将 Name (名称) 列从查找流表拖放到 out1 表。

    从编辑器下半部分的 Schema editor (Schema 编辑器) 视图中,您可以看到两侧的 schema 均已自动完成。

  5. 在查找流表上,单击 按钮显示连接操作的设置面板。
  6. Join model (连接模型) 行中,单击 Value (值) 列,然后单击显示的 [...] 按钮。

    将显示 Options (选项) 窗口。

  7. 选择 Inner join (内连接),以便仅输出包含主流和查找流中均存在的连接键的记录。
  8. Match Model (匹配模型) 行中,重复这些操作以选择 All matches (所有匹配项)
  9. reject (拒绝) 输出流表上,单击 按钮打开设置面板。
  10. Catch Lookup inner join reject (获取查找内连接拒绝) 行中,选择 true 以输出由内连接拒绝的在输入侧上执行的记录。
  11. 单击 Apply (应用),然后单击 OK (确定) 确认这些更改并接受弹出对话框提示的传播。

结果

现在,转换即会配置为用导演名称填写影片数据,并将不包含任何导演数据的影片记录写入单独的数据流。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!