Talend Big Data 架构
下述的每个操作原则都可以隔离在不同的功能区块之内。下图描述了不同区块及区块间的互操作:
构建和管理
CLIENTS (客户端) 块包括一个或多个 Talend Studio API 和 Web 浏览器,它们可位于相同或不同的计算机上。
从该 Talend Studio API 中,最终用户可以执行技术流程,而不管数据量和流程复杂程度如何。
Talend Studio 可用于用户处理拥有授权的任何工程。更多信息,请参阅 Creating a project。
从 Web 浏览器中,最终用户通过安全的 HTTP 协议远程连接到 Talend Administration Center。此描述中的最终用户类别可能包括开发人员、工程经理、管理员和参与构建数据流的任何其他人员。
这其中每一种最终用户将使用 Talend Studio 或 Talend Administration Center 或者同时使用两者,具体取决于公司策略。
此外,从 Web 浏览器中,您可以访问 Talend Data Preparation Web 应用程序。您在这里从本地文件或其他来源导入数据,并通过对这些数据新建准备来清理或丰富内容。您还可以访问 Talend Data Stewardship Web 应用程序。活动所有者和数据专员在这里管理活动和任务。
TALEND SERVERS (TALEND 服务器) 和 DATABASES (数据库) 块以及 Git 灰色圆圈包括一个基于 Web 的 Talend Administration Center (应用程序服务器),它连接到两个共享存储库:一个基于 Git 服务器,另一个基于数据库服务器 (Admin)。
Talend Administration Center 还支持配置处理作业执行和触发器的任务。它还负责生成作业并部署到执行服务器。更多信息,请参阅 Getting started with Talend Administration Center。
Talend Administration Center 还包括 Talend Web 应用程序使用的服务器,即 Talend Data Preparation 和 Talend Data Stewardship。Talend Identity and Access Management 服务器用于实现这些应用程序之间的单点登录。
部署和执行
Artifact Repository (构件库) 灰色圈表示存储所有可供下载的 软件更新的构件库:
- 您的信息系统内部署了一个或多个 Talend Runtime (执行容器)。Talend Runtime 按照 Talend Administration Center Web 应用程序中定义的设置来部署和执行技术流程。这些流程是从 Talend Studio 构建并集中在 Git 服务器上的作业。
- 您的信息系统内部署的一个或多个 Talend JobServer,它们按照 Talend Administration Center Web 应用程序中设置的计划时间、日期或事件运行技术流程 (作业)。
最终用户可以直接从 Talend Studio 将技术流程传输到远程执行服务器 (远距离运行)。
信息注释重要:您必须在每个执行服务器上安装由 Talend 交付的 Talend JobServer 文件 (“代理”) 才能执行操作。
监控
Monitoring (监控) 圆圈表示监控:Talend Activity Monitoring Console。
Talend Activity Monitoring Console 使最终用户可以监控技术流程的执行。它提供详细的监控功能,可用于整合收集的日志、了解底层数据流之间的交互、防止可能意外生成的故障以及支持系统管理决策。有关 Talend Activity Monitoring Console 的更多信息,请参阅 Talend Activity Monitoring Console User Guide