Concepts de Talend Cloud Data Inventory
Ces définitions vous permettent de comprendre les principaux concepts de Talend Cloud Data Inventory.
- Connection : les connexions sont des environnements ou des systèmes dans lesquels des jeux de données sont stockés, notamment de bases de données, systèmes de fichiers, systèmes ou des plateformes distribués. Les informations de connexion à ces systèmes doivent être configurées une seule fois, car elles sont réutilisables.
- Dataset (Jeu de données) : les jeux de données sont des collections de données. Ils peuvent être des tables de bases de données, des noms de fichiers, des topics (Kafka), des chemins de fichiers (HDFS), etc. Vous avez également la possibilité de créer des jeux de données de test que vous saisissez manuellement et stockez dans une connexion de test. Il est également possible d'importer des fichiers locaux comme jeux de données. Plusieurs jeux de données peuvent être connectés au même système (connectivité un-à-plusieurs) et sont stockés dans des connexions réutilisables.
- Sample (Échantillon) : vos données seront visibles sous forme d'échantillon, récupéré des métadonnées du jeu de données.
- Semantic type (Type sémantique) : le type sémantique d'une colonne ou d'un enregistrement correspond au type de données pouvant être trouvé dans ces colonnes ou enregistrements, comme des noms, des codes postaux, des numéros de téléphone, des coordonnées, etc. Les applications Talend Cloud bénéficient de fonctionnalités sémantiques, ce qui signifie que, lorsque vous regardez vos données d'échantillon, elles sont automatiquement catégorisées à l'aide des types sémantiques par défaut ou à l'aide de ceux que vous avez créés.
- Talend Trust Score™ : indicateur de qualité globale agrégeant plusieurs métriques en un score unique, compris entre 0 et 5.
- Custom attributes : attributs personnalisés pouvant être appliqués à vos jeux de données. Ils vous permettent également d'ajouter des informations de métadonnées suivant un ensemble de règles prédéfinies et peuvent être utilisés pour vous permettre de rechercher et trier vos jeux de données.
- Tags : cette seconde méthode d'ajout de mots-clés vous permet d'ajouter librement du texte comme information de métadonnée à vos objets Talend Cloud, comme un post-it.
- Cloud Engine : le moteur Cloud est un exécuteur built-in permettant aux utilisateurs et utilisatrices de traiter des données facilement sans avoir à configurer de moteur de traitement. Avec ce moteur, vous pouvez exécuter deux pipelines en parallèle. Pour un traitement avancé des données, il est recommandé d'installer le moteur distant sécurisé.
- Remote Engine : un moteur distant est un moteur d'exécution sécurisé sur lequel vous pouvez exécuter des objets en toute sécurité. Il vous permet d'avoir le contrôle sur votre environnement d'exécution et vos ressources, étant donné que vous pouvez créer et configurer le moteur dans votre propre environnement (Cloud privé virtuel ou on-premises).
Un moteur distant permet de s'assurer :
- que le traitement des données se fait dans un environnement sûr et sécurisé, car Talend n'a jamais accès aux données et ressources.
- des performances et une sécurité optimales en améliorant la localité des données au lieu de déplacer des volumes importants de données pour les calculs.
Depuis les métadonnées de la connexion, vos données sont récupérées et peuvent être visualisées comme échantillon. De là, vous pouvez utiliser d'autres outils comme Talend Cloud Data Preparation ou Talend Cloud Pipeline Designer pour transformer plus avant vos données.