Talend Data Preparationのアーキテクチャー

5種類の機能ブロックが定義されています。
-
クライアントブロックには、WebブラウザーとTalend Studioがあります。
WebブラウザーからTalend Data PreparationWebアプリケーションにアクセスします。ここでは、ローカルファイルやその他のソースからデータをインポートし、このデータに新しいプレパレーションを作成することによって、クレンジングやエンリッチ化を行います。また、必要に応じてTalend Dictionary Serviceサーバーにアクセスして、Webアプリケーションのデータに使用されるセマンティックタイプを追加、削除、または編集できます。詳細は、セマンティックタイプライブラリーをエンリッチ化をご覧ください。
Talend Studioでは、tDatasetInput、tDatasetOutput、tDataprepRunの各コンポーネントを使用することで、Talend Data Preparationの機能を活用できます。さまざまなデータセットからデータセットを作成してTalend Data Preparationにエクスポートしたり、データ統合ジョブまたはSparkジョブでプレパレーションを直接利用したりできます。
-
[Servers] (サーバー)ブロックにはTalend Data Preparationアプリケーションサーバーが含まれており、Talend Administration Centerに接続し、オプションでTalend Dictionary Service サーバーに接続します。このブロックには、Talend Data PreparationとTalend Dictionary Service間の内部メッセージング用に使用されるKafkaサーバーも含まれます。Talend Identity and Access Managementサービスは、シングルサインオンを有効にするために使用します。
管理者はTalend Administration Centerを使ってライセンス、ユーザー、ロールを管理できます。事前定義済みのロールを1つ以上ユーザーに割り当てると、Talend Data Preparationでアクセスや操作を実行するための特定の権限がユーザーに付与されます。
Talend Data Preparationでデータを開いた時に、必要ならTalend Dictionary Serviceを使って、データの各カラムに適用されているセマンティックカテゴリーを追加、削除、または変更できます。
- データベースブロックには、Talend Administration Centerと共に使用されるデータベース、MongoDBデータベース、MinIoが含まれています。
管理データベースは、ユーザーのアカウントと権限を管理するために使用します。監査データベースは、Talend Studioで実施されたジョブのさまざまな側面を評価するために使用し、監視データベースは、技術的プロセスとサービス呼び出しの実行を監視するために使用します。
MongoDBデータベースは、すべてのデータセットとプレパレーションメタデータを保存するために使用されます。コンピューターに直接保存されるものは何もありません。
MinIoは、S3へのデータ保存の中継役として機能します。
-
[Execution server] (実行サーバー)ブロックにはComponents Catalogが含まれており、さまざまなタイプのデータベースやHadoopクラスターに保存されているデータをインポートしたり、Talend Data Preparationでリモートデータセットを直接作成したりする時に使われます。
- [Hadoop cluster] (Hadoopクラスター)ブロックは、Big DataコンテンツでTalend Data Preparationを使用する時にHDFSファイルのインポート元となります。