跳到主要内容 跳到补充内容

移除重复值

列分析的分析结果显示,电子邮件和电话列中存在一些重复记录。请查看显示分析结果了解详细信息。

您可以从分析结果生成即用的作业,将所选列中的唯一记录与重复记录分开。此类作业默认在不合格数据分隔文件中输出所有重复项,并将唯一值写入分析中所用的数据库。

您可以按照相同步骤从电子邮件或电话列中移除重复项。

开始之前

  • 您已在 Studio 中打开 剖析 透视图。

  • 您已创建并执行列分析。有关更多信息,请参阅识别数据中的异常

步骤

  1. 剖析 透视图中打开列分析,然后单击编辑器底部的 Analysis Results (分析结果)
  2. 在电子邮件或电话列的 Simple Statistics (简单统计) 结果中,右键单击 Duplicate Count (重复计数) 并选择Identify duplicates (识别重复项)

    本示例使用电子邮件列中所用的简单统计的结果。

    集成 透视图将打开,显示生成的作业,作业将在 Repository (存储库) 树视图中列出。

    tMysqlInputtUniqueRowtMysqlOutputBulkExec 组件会根据您的连接和所分析的列自动配置。tMysqlOutputBulkExec 会将唯一记录写入到 MySQL 中的新表,tFileOutputDelimited 则会将重复记录写入输出分隔文件。

  3. F6 执行作业。

结果

重复值写入输出文件,唯一记录则将写入 MySQL 中 gettingstarted 数据库里的新表。

本页面有帮助吗?

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们!