Extrahieren von Feldteilen auf der Grundlage semantischer Typen
Warum und wann dieser Vorgang ausgeführt wird
Die Funktion ermöglicht Ihnen die Auswahl von bis zu fünf verschiedenen semantischen Typen, die dem Typ der Informationen entsprechen, die aus einem bestimmten Feld extrahiert werden sollen. Das gilt für semantische Typen, die auf regulären Ausdrücken oder Wörterbüchern basieren, sowie für zusammengesetzte semantische Typen (Compound).
In diesem Beispiel arbeiten Sie für das Kultusministerium und müssen Daten auf der Grundlage einer Umfrage unter Museumsbesuchern aufbereiten. Im Rahmen dieser Umfrage wurden einige grundlegende demografische Informationen zu den Besuchern erfasst, z. B. deren Alter oder Geschlecht, aber auch Kommentare, die die Besucher in ein spezifisches Feld eingeben konnten. In diesem Kommentarfeld konnten die Besucher ihre Erfahrungen teilen, weitere Kontaktinformationen angeben und sogar andere Museen in den von ihnen besuchten Ländern empfehlen. Diese Angaben könnten beispielsweise für neue Partnerschaften genutzt werden.
Nach einem einfachen Parsing-Vorgang jedoch wurden die im Kommentarfeld erfassten verschiedenartigen Informationen im resultierenden Datensatz in ein einzelnes Feld aufgenommen. Sie aber möchten die verschiedenen Informationstypen extrahieren und in spezifische Spalten sortieren. Dazu ziehen Sie die Funktion Extract values by semantic type (Werte nach semantischem Typ extrahieren) sowie die mit Talend Cloud Data Preparation verfügbaren vor- bzw. benutzerdefinierten semantischen Typen heran, um die verschiedenen, in den Kommentaren hinterlassenen Informationskategorien zu identifizieren und sie in separate Spalten zu extrahieren.