Automatisches Formatieren von Daten auf der Grundlage von Beispielen
Die Funktion „Magic Fill“ bietet eine praktische Möglichkeit, Datentyp zu formatieren, für die keine dedizierte Funktion verfügbar ist, oder ganz einfach eine Folge von Transformationen mit derselben Funktion durchzuführen.
Über einen Machine-Learning-Algorithmus ermöglicht Ihnen diese neue Funktion auf der Grundlage einer Reihe von Beispielen, die Sie zuvor definiert haben, die Definition eines Musters sowie die automatische Anwendung einer Transformation auf eine ganze Spalte.
Zurzeit unterstützt die Magic-Fill-Funktion folgende Transformationstypen:
- Teilzeichenfolge (Substring)
- Addition von Konstanten (Zahlen, Buchstaben, Sonderzeichen)
- Unterscheidung zwischen Groß-/Kleinschreibung
- Semantische Transformation für Länder, US-amerikanische Postleitzahlen und Bundesstaaten, E-Mailadressen, URLs und Datumsangaben
Damit die Funktion ordnungsgemäß ausgeführt werden kann, müssen Sie mindestens zwei Beispiele für die anzuwendende Transformation eingeben. Anschließend können Sie bis zu drei weitere Beispiele hinzufügen. Je mehr Beispiele Sie eingeben, umso präziser wird das Muster von der Funktion identifiziert.
Wenn das von der Funktion generierte Transformationsprogramm nicht auf einige Daten der Quellspalte angewendet werden kann, bleiben diese in der Zielspalte unverändert.
Datentypen wie dates (Daten) oder phone numbers (Telefonnummern) verfügen beide über eine dedizierte Funktion, die für eine einfache Änderung ihres Format eingesetzt werden kann. Die Datentypen full names (Vollständige Namen), social security numbers (Sozialversicherungsnummern) und state codes (Codes der Bundesstaaten) hingegen nicht. Die folgenden Szenarien illustrieren die Verwendung der Funktion „Magic Fill“ zur Formatierung Ihrer Daten in diesen Fällen.
Formatieren von Namen mithilfe von „Magic Fill“
Sie können die Funktion „Magic Fill“ heranziehen, um automatisch Namen auf der Grundlage eines über Beispiele definierten Musters zu formatieren.
Als Beispiel dient ein Datensatz mit einer Spalte, die die vollständigen Namen Ihrer Kunden enthält.
Sie möchten diese Namen formatieren und jeweils nur den ersten Buchstaben des Vornamens, gefolgt von einem Punkt, beibehalten. Der Nachname soll in Großbuchstaben geschrieben werden. „George Abitbol“ beispielsweise würde zu „G. ABITBOL“. Das erreichen Sie am einfachsten mithilfe der Funktion Magic Fill, mit der Sie einige Beispiele festlegen können, die die gewünschte Funktionsweise der Transformation illustrieren, und die Sie auf den Rest der Spalte anwenden.
Procedure
Results
Formatieren von Sozialversicherungsnummern mithilfe von „Magic Fill“
Sie können die Funktion „Magic Fill“ heranziehen, um automatisch Sozialversicherungsnummern auf der Grundlage eines über Beispiele definierten Musters zu formatieren.
In diesem Beispiel bearbeiten Sie einen Datensatz mit Kundendaten wie Namen und E-Mailadresse, aber in erster Linie mit Sozialversicherungsnummern. Das Problem ist, dass die Sozialversicherungsnummern im falschen Format ohne Bindestriche eingegeben wurden. Beispiel: Eine Nummer wie 334-20-6259 wurde in diesem Datensatz als 334206259 eingegeben. Aufgrund des falschen Formats werden die meisten Daten von der Anwendung als Routing-Transitnummer und darüber hinaus als ungültig eingestuft.
Um diesen Fehler zu beheben, ziehen Sie die Funktion Magic Fill heran und wenden das richtige Format für Sozialversicherungsnummern in Übereinstimmung mit dem Muster gemäß den von Ihnen eingegebenen Beispielen auf Ihre Daten an.
Procedure
Results
Nutzen des Semantikbewusstseins zur Transformation von Bundesstaat-Codes in Bundesstaaten mithilfe von Magic Fill
Auf der Grundlage des von Ihnen eingegebenen Beispiels ist die Funktion „Magic Fill“ auch in der Lage, Daten zu erkennen und zu formatieren, die bestimmten semantischen Typen entsprechen: Länder, E-Mail-Adressen, URLs, Datum sowie US-Postleitzahlen und Bundesstaaten.
Als Beispiel fungiert ein Datensatz mit einigen Kundendaten, wie z. B. Namen, E-Mailadressen oder der Bundesstaat, in dem sie leben. Dieses Szenario soll illustrieren, wie die Funktion Magic Fill zur Konvertierung der 2-stelligen Bundesstaat-Codes in den jeweils entsprechenden vollständigen Namen der Bundesstaaten verwendet werden kann, damit die Angaben ein besser lesbares Format aufweisen.
Procedure
Results
Nutzen des Semantikbewusstseins zur Konvertierung von Daten in Wochentage mithilfe von Magic Fill
Auf der Grundlage des von Ihnen eingegebenen Beispiels ist die Funktion „Magic Fill“ auch in der Lage, Daten zu erkennen und zu formatieren, die bestimmten semantischen Typen entsprechen: Länder, E-Mail-Adressen, URLs, US-Postleitzahlen und Bundesstaaten sowie Datum.
Als Beispiel dient eine kleinere Einzelhandelsfirma mit mehreren Geschäftsniederlassungen in der Stadt. Der nachstehende Datensatz zeigt, wie die Gesamtanzahl der Verkäufe täglich mit dem entsprechenden Datum aufgezeichnet wird. Das für die Datumseingabe verwendete Format ist dd/MM/yyyy (tt/MM/jjjj), Sie möchten jedoch auch den jeweiligen Wochentag anzeigen, um statistische Analysen vornehmen und die jeweils gewinnträchtigsten Tage ermitteln zu können. Anhand dieses Szenarios erfahren Sie, wie Sie die Funktion Magic Fill zur Extraktion dieser Informationen einsetzen können.
Procedure
Results
Konvertieren von Organisationsnamen in deren Kurzform mithilfe von Magic Fill
Die Funktion „Magic Fill“ kann zur Umwandlung von Namen, Einheiten oder Ausdrücken in die entsprechende Abkürzung herangezogen werden.
In diesem Beispiel enthält der zu verbessernde Datensatz Informationen zu Personen, die für bekannte nationale oder internationale Organisationen tätig sind. Die vollständigen Namen dieser Organisationen sind jedoch häufig sehr lang und weniger bekannt als das entsprechende Akronym. Um den Datensatz verständlicher zu machen, ziehen Sie die Funktion Magic Fill heran, um die vollständigen Namen in das jeweilige Akronym zu konvertieren.