Talend Data Preparationのアーキテクチャー
5種類の機能ブロックが定義されています。
-
クライアントブロックには、WebブラウザーとTalend Studioがあります。
WebブラウザーからTalend Data PreparationWebアプリケーションにアクセスします。ここでは、ローカルファイルやその他のソースからデータをインポートし、このデータに新しいプレパレーションを作成することによって、クレンジングやエンリッチ化を行います。また、必要に応じてTalend Dictionary Serviceサーバーにアクセスして、Webアプリケーションのデータに使用されるセマンティックタイプを追加、削除、または編集できます。詳細は、セマンティックタイプライブラリーをエンリッチ化をご覧ください。
Talend Studioでは、tDatasetInput、tDatasetOutput、tDataprepRunの各コンポーネントを使用することで、Talend Data Preparationの機能を活用できます。さまざまなデータセットからデータセットを作成してTalend Data Preparationにエクスポートしたり、データ統合ジョブまたはSparkジョブでプレパレーションを直接利用したりできます。
-
[Servers] (サーバー)ブロックにはTalend Data Preparationアプリケーションサーバーが含まれており、Talend Administration Centerに接続し、オプションでTalend Dictionary Service サーバーに接続します。このブロックには、Talend Data PreparationとTalend Dictionary Service間の内部メッセージング用に使用されるKafkaサーバーも含まれます。Talend Identity and Access Managementサービスは、シングルサインオンを有効にするために使用します。
管理者はTalend Administration Centerを使ってライセンス、ユーザー、ロールを管理できます。事前定義済みのロールを1つ以上ユーザーに割り当てると、Talend Data Preparationでアクセスや操作を実行するための特定の権限がユーザーに付与されます。
Talend Data Preparationでデータを開いた時に、必要ならTalend Dictionary Serviceを使って、データの各カラムに適用されているセマンティックカテゴリーを追加、削除、または変更できます。
- Databases (データベース)ブロックにはTalend Administration CenterとMongoDB データベースで使用されるデータベースが含まれます。
管理データベースは、ユーザーのアカウントと権限を管理するために使用します。監査データベースは、Talend Studioで実施されたジョブのさまざまな側面を評価するために使用し、モニタリングデータベースは、技術的プロセスとサービス呼び出しの実行を監視するために使用します。
MongoDBデータベースは、すべてのデータセットとプレパレーション、およびアプリケーションのデータ検証に使うセマンティックタイプを保存するために使用します。コンピューターに直接保存されるものは何もありません。 -
[Execution server] (実行サーバー)ブロックにはComponents Catalogが含まれており、さまざまなタイプのデータベースやHadoopクラスターに保存されているデータをインポートしたり、Talend Data Preparationでリモートデータセットを直接作成したりする時に使われます。
- [Hadoop cluster] (Hadoopクラスター)ブロックは、Big DataコンテンツでTalend Data Preparationを使用する時にHDFSファイルのインポート元となります。