Extraction de parties de champs selon des définitions sémantiques
Pourquoi et quand exécuter cette tâche
La fonction vous permet de sélectionner jusqu'à cinq types sémantiques différents correspondant au type d'informations à extraire du champ donné. Elle fonctionne avec les types sémantiques basés sur des expressions régulières et dictionnaires, ainsi qu'avec des types sémantiques composés.
Pour cet exemple, imaginez que vous travaillez pour le Ministère de la Culture et que vous devez préparer les données en vous basant sur un sondage proposé aux visiteurs de musées. Ce sondage a rassemblé des informations démographiques simples relatives aux visiteurs, comme leur âge ou leur genre, mais également des commentaires, qu'ils ont pu saisir dans un champ spécifique. Ce champ de commentaire peut être utilisé par les visiteurs pour partager leur expérience, laisser des informations de contact ou encore recommander d'autres musées dans d'autres pays qu'ils ont visité. Ces informations peuvent être utilisées pour construire d'éventuels partenariats, par exemple.
Cependant, après une simple opération de parsage, les informations du champ des commentaires sont groupées dans un seul champ dans le jeu de données de résultat. D'un autre côté, vous pouvez vouloir extraire les différents types d'informations afin de les trier dans des colonnes spécifiques. Pour ce faire, utilisez la fonctionnalité Extract values by semantic type, ainsi que les types sémantiques prédéfinis ou personnalisés disponibles avec Talend Cloud Data Preparation, pour identifier les différentes catégories d'informations laissées dans les commentaires et les extraire dans des colonnes individuelles.