À propos de Talend Cloud Data Preparation
Talend Cloud Data Preparation est une application en libre-service simplifiant et accélérant le processus laborieux et consommateur de temps qu'est la préparation de données pour analyse ou d'autres tâches orientées données, ce qui permet aux travailleurs de l'information de réduire leur temps de travail.
Cette version cloud fait partie de Talend Cloud et offre des fonctionnalités de niveau entreprise, en plus d'une connectivité avec virtuellement n'importe quelle source de données. Elle permet la collaboration entre ceux qui connaissent le mieux les données et les organisations centrales, telles que les services informatique et de gestion des risques, qui définissent les règles et les politiques d'accessibilité et de gouvernance des données.
Les fonctionnalités sont :
- l'intégration et le catalogage de données,
- l'exploration et le profiling de données,
- le nettoyage, la standardisation et la mise en forme,
- l'enrichissement et les connexions des jeux de données,
- l'opérationnalisation de la préparation de données.
Si vous utilisez Talend Cloud Data Preparation depuis peu et que vous souhaitez suivre un scénario pas-à-pas vous présentant les fonctionnalités principales, consultez le Guide de prise en main de Talend Cloud Data Preparation.
Concepts de Talend Data Preparation
- Connection : les connexions sont des environnements ou des systèmes dans lesquels des jeux de données sont stockés, notamment de bases de données, systèmes de fichiers, systèmes ou des plateformes distribués. Les informations de connexion à ces systèmes doivent être configurées une seule fois, car elles sont réutilisables.
- Jeu de données : un jeu de données contient les données brutes qui peuvent être utilisées comme matière première pour une ou plusieurs préparations. Il se présente sous forme de tableau sur lequel vous pouvez appliquer les étapes de votre recette sans affecter les données d'origine. Un jeu de données peut être réutilisé par plusieurs préparations.
- Sample : vos données seront visibles sous forme d'échantillon, récupéré des métadonnées du jeu de données.
- Préparation : une préparation fait le lien entre le jeu de données et la recette. C'est le résultat final que vous souhaitez atteindre avec vos données. Vous pouvez exporter le résultat de votre préparation en tant que fichier local, ou bien vers d'autres solutions de stockage. Une préparation applique à un jeu de données une recette pour produire un résultat. Les données d'origine ne sont jamais modifiées.
- Recette : littéralement, une recette est définie comme "une suite d'étapes à accomplir avec une liste d'ingrédients pour concevoir ou préparer quelque chose". Dans Talend Cloud Data Preparation, les ingrédients sont vos données brutes, aussi appelés jeux de données, et les étapes sont les différentes fonctions appliquées aux jeux de données. Visuellement, la recette est formée par le séquence verticale de fonctions qui se trouve dans le panneau de gauche. Une recette est liée au jeu de données via la préparation. Chaque évolution de la recette est automatiquement enregistrée dans la préparation.
- Fonction : une fonction est une action appliquée à une ligne, une colonne ou bien à l'ensemble de votre jeu de données, comme la suppression de lignes vides. Puisque les fonctions sont appliquées dans le contexte d'une préparation, elles ne modifient pas les données d'origine. Les fonctions que vous appliquez sont listées dans des recettes, dans l'ordre chronologique.
- Type sémantique : le type sémantique d'une colonne ou d'un enregistrement correspond au type de données pouvant être trouvées dans ces colonnes ou enregistrements, comme des noms, des codes postaux, des numéros de téléphone, des coordonnées, etc. Les applications Talend Cloud bénéficient de fonctionnalités sémantiques, ce qui signifie que, lorsque vous regardez vos données d'échantillon, elles sont automatiquement catégorisées à l'aide des types sémantiques par défaut ou à l'aide de ceux que vous avez créés.
- Moteur Cloud pour le design : Le Moteur Cloud pour le design est un runner built-in qui vous permet de traiter facilement des données sans paramétrer de moteur de traitement. Avec ce moteur, vous pouvez exécuter deux pipelines en parallèle. Pour un traitement avancé des données, il est recommandé d'installer le Moteur distant Gen2 sécurisé.
- Moteur distant Gen2 : Un Moteur distant Gen2 est un moteur d'exécution sécurisé sur lequel vous pouvez exécuter des objets en toute sécurité. Il vous permet d'avoir le contrôle sur votre environnement d'exécution et vos ressources, étant donné que vous pouvez créer et configurer le moteur dans votre propre environnement (Cloud privé virtuel ou on-premises).
Un moteur distant permet de s'assurer :
- que le traitement des données se fait dans un environnement sûr et sécurisé, car Talend n'a jamais accès aux données et ressources.
- des performances et une sécurité optimales en améliorant la localité des données au lieu de déplacer des volumes importants de données pour les calculs.
Relations entre les connexions, les jeux de données et les préparations :
Architecture de Talend Cloud Data Preparation
Le diagramme est divisé en deux parties principales : le réseau local et l'infrastructure Cloud.
Réseau local
Le réseau local comprend un navigateur Web, le Studio Talend, un Moteur distant Gen2 et un serveur d'exécution.
- Dans votre navigateur Web, vous pouvez accéder à Talend Cloud Data Preparation, Talend Dictionary Service et Talend Management Console.
- Depuis le Studio Talend, vous pouvez tirer parti des fonctionnalités de Talend Cloud Data Preparation en utilisant les composants tDatasetInput, tDatasetOutput et tDataprepRun. Vous pouvez créer des jeux de données depuis différentes bases de données et les exporter dans Talend Cloud Data Preparation, ou bien utiliser vos préparations directement dans un Job d'intégration de données ou un Job Spark.
- Le moteur distant Gen 1 est utilisé pour exécuter les Jobs utilisant les composants Data Preparation et pour exécuter des artefacts et des tâches on-premises.
- Moteur distant Gen2 est utilisé pour exécuter des objets depuis les applications Talend Cloud, comme des préparations, ainsi que pour créer des connexions et récupérer des échantillons de données.
Infrastructure Cloud
L'infrastructure Cloud comprend Talend Cloud Data Preparation, qui contient le service Dataset et le Moteur Cloud pour le design.
- Le service Dataset fournit la liste unifiée des jeux de données dans Talend Cloud Data Preparation, Talend Cloud Data Inventory et Talend Cloud Pipeline Designer.
- Talend Management Console permet de gérer les rôles, les utilisateurs et utilisatrices, les projets et les licences. Vous pouvez créer de nouveaux·elles utilisateurs·rice·s pour les applications Cloud et les attribuer à des groupes personnalisés. Vous pouvez définir des rôles et les attribuer à nombre d'utilisateurs et d'utilisatrices connecté·es. Talend Management Console permet également d'importer vos fichiers de licence et de créer des projets sur lesquels collaborer dans le Studio Talend. De plus, vous pouvez activer le transfert de données, l'intégration de données et l'accès à des sources de données partagées pour les utilisateurs et utilisatrices Web. Vous pouvez, par exemple, importer et utiliser des Tâches d'exemple pré-configurées, ou créer des Tâches automatisant les échanges et la synchronisation des données entre les applications.
- Avec Talend Cloud Data Preparation, vous pouvez importer vos données, depuis des fichiers locaux ou d'autres sources, pour nettoyer et enrichir ces données via des préparations.
- Dans Talend Dictionary Service, vous pouvez ajouter, supprimer ou modifier les catégories sémantiques appliquées à chaque colonne de vos données, lorsqu'elles sont ouvertes dans Talend Cloud Data Preparation.
- Le Moteur Cloud pour le design est utilisé pour exécuter des artefacts, tâches et préparations dans le Cloud, ainsi que pour créer des connexions et récupérer des échantillons de données.