Architecture de Talend Data Preparation
Cinq blocs fonctionnels différents sont définis :
-
Le bloc Clients, avec un navigateur Web et un Studio Talend.
Depuis le navigateur Web, vous pouvez accéder à l'application Web Talend Data Preparation. C'est ici que vous importez vos données, à partir de fichiers locaux ou d'autres sources, et que vous nettoyez ou enrichissez ces données en créant des préparations sur celles-ci. De plus, vous pouvez accéder, de manière facultative, au serveur de Talend Dictionary Service afin d'ajouter, supprimer ou modifier les types sémantiques utilisés sur les données dans l'application Web. Pour plus d'informations, consultez Enrichissement des bibliothèques de types sémantiques.
Dans le Studio Talend, vous pouvez tirer parti des fonctionnalités de Talend Data Preparation en utilisant les composants tDatasetInput, tDatasetOutput et tDataprepRun. Vous pouvez créer des jeux de données depuis différentes bases de données et les exporter dans Talend Data Preparation, ou bien utiliser vos préparations directement dans un Job d'intégration de données ou un Job Spark.
-
Le bloc Servers comprend le serveur d'application de Talend Data Preparation, connecté à Talend Administration Center et, de manière facultative, le serveur de Talend Dictionary Service. Ce bloc inclut également un serveur Kafka utilisé pour le messaging interne entre Talend Data Preparation et Talend Dictionary Service. Le Service Talend Identity and Access Management permet d'activer l'authentification unique.
Talend Administration Center permet aux administrateurs de gérer les licences, les utilisateurs et utilisatrices et les rôles. attribuer un ou plusieurs rôles prédéfinis à des utilisateur·rices leur donne des droits spécifiques pour accéder à ou effectuer des actions dans Talend Data Preparation.
Vous pouvez, de manière facultative, utiliser Talend Dictionary Service pour ajouter, supprimer ou modifier les catégories sémantiques appliquées à chaque colonne de vos données, lorsqu'elles sont ouvertes dans Talend Data Preparation.
- Le bloc Databases contient les bases de données utilisées avec Talend Administration Center, ainsi qu'une base de données MongoDB.
La base de données d'administration est utilisée pour gérer les comptes et droits des utilisateurs et des utilisatrices. La base de données d'audit est utilisée pour évaluer les différents aspects des Jobs implémentés dans le Studio Talend. La base de données de monitoring est utilisée pour monitorer l'exécution des processus techniques et des appels de services.
La base de données MongoDB est utilisée pour stocker tous vos jeux de données et préparations, ainsi que les types sémantiques utilisés pour valider vos données dans l'application. Rien n'est directement sauvegardé sur votre ordinateur. -
Le bloc Serveur d'exécution contient le Components Catalog, utilisé pour importer des données stockées dans différents types de bases de données, ainsi que dans un cluster Hadoop et créer des jeux de données distants directement dans Talend Data Preparation.
- Le bloc Cluster Hadoop, duquel vous pouvez importer des fichiers HDFS lors de l'utilisation de Talend Data Preparation dans un contexte Big Data.