Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Automatisches Formatieren von Daten auf der Grundlage von Beispielen

Die Funktion „Magic Fill“ bietet eine praktische Möglichkeit, Datentyp zu formatieren, für die keine dedizierte Funktion verfügbar ist, oder ganz einfach eine Folge von Transformationen mit derselben Funktion durchzuführen.

InformationshinweisAnmerkung: Diese Funktion ist nicht mit Spark-Jobs und HDFS- oder S3-Exporten kompatibel.

Über einen Machine-Learning-Algorithmus ermöglicht Ihnen diese neue Funktion auf der Grundlage einer Reihe von Beispielen, die Sie zuvor definiert haben, die Definition eines Musters sowie die automatische Anwendung einer Transformation auf eine ganze Spalte.

Zurzeit unterstützt die Magic-Fill-Funktion folgende Transformationstypen:

  • Teilzeichenfolge (Substring)
  • Addition von Konstanten (Zahlen, Buchstaben, Sonderzeichen)
  • Unterscheidung zwischen Groß-/Kleinschreibung
  • Semantische Transformation für Länder, US-amerikanische Postleitzahlen und Bundesstaaten, E-Mailadressen, URLs und Datumsangaben

Damit die Funktion ordnungsgemäß ausgeführt werden kann, müssen Sie mindestens zwei Beispiele für die anzuwendende Transformation eingeben. Anschließend können Sie bis zu drei weitere Beispiele hinzufügen. Je mehr Beispiele Sie eingeben, umso präziser wird das Muster von der Funktion identifiziert.

Wenn das von der Funktion generierte Transformationsprogramm nicht auf einige Daten der Quellspalte angewendet werden kann, bleiben diese in der Zielspalte unverändert.

Datentypen wie dates (Daten) oder phone numbers (Telefonnummern) verfügen beide über eine dedizierte Funktion, die für eine einfache Änderung ihres Format eingesetzt werden kann. Die Datentypen full names (Vollständige Namen), social security numbers (Sozialversicherungsnummern) und state codes (Codes der Bundesstaaten) hingegen nicht. Die folgenden Szenarien illustrieren die Verwendung der Funktion „Magic Fill“ zur Formatierung Ihrer Daten in diesen Fällen.

Formatieren von Namen mithilfe von „Magic Fill“

Sie können die Funktion „Magic Fill“ heranziehen, um automatisch Namen auf der Grundlage eines über Beispiele definierten Musters zu formatieren.

Als Beispiel dient ein Datensatz mit einer Spalte, die die vollständigen Namen Ihrer Kunden enthält.

Datensatz mit vollständigen Kundennamen

Sie möchten diese Namen formatieren und jeweils nur den ersten Buchstaben des Vornamens, gefolgt von einem Punkt, beibehalten. Der Nachname soll in Großbuchstaben geschrieben werden. „George Abitbol“ beispielsweise würde zu „G. ABITBOL“. Das erreichen Sie am einfachsten mithilfe der Funktion Magic Fill, mit der Sie einige Beispiele festlegen können, die die gewünschte Funktionsweise der Transformation illustrieren, und die Sie auf den Rest der Spalte anwenden.

Procedure

  1. Klicken Sie auf die Überschrift der Spalte fullname (Vollständiger Name), um deren Inhalt auszuwählen.
  2. Geben Sie im Funktionsbereich Magic fill ein und klicken Sie dann auf das Ergebnis, um die Optionen für die entsprechende Funktion anzuzeigen.
  3. Deaktivieren Sie das Kontrollkästchen Create new column (Neue Spalte erstellen).
    Dadurch werden die Werte direkt in der bestehenden Spalte berichtigt.
  4. Geben Sie im Feld Input 1 (Eingabe 1) einen der Werte aus der Spalte fullname (Vollständiger Name) ein, die Sie umwandeln möchten, z. B. Dimitri Tudor.
  5. Geben Sie im Feld Output 1 (Ausgabe 1) denselben Wert ein, dieses Mal jedoch im richtigen Format: D. TUDOR.
    Damit die Funktion ordnungsgemäß ausgeführt werden kann, müssen Sie mindestens zwei vollständige Beispiele für die anzuwendende Transformation eingeben. Anschließend können Sie bis zu drei weitere Beispiele hinzufügen. Die Beispiele können Sie Ihrem Datensatz entnehmen oder frei erfinden. Je mehr Beispiele Sie eingeben, umso präziser wird das Muster von der Funktion identifiziert.
  6. Geben Sie weitere Beispiele für „vorher“ und „nachher“ in die verbleibenden Felder ein.
    • Mina Luze als Input 2 (Eingabe 2) und M. LUZE als Output 2 (Ausgabe 2)
    • Henry Bank als Input 3 (Eingabe 3) und H. BANK als Output 3 (Ausgabe 3)
    • Ben Schneider als Input 4 (Eingabe 4) und B. SCHNEIDER als Output 4 (Ausgabe 4)
    • Jonathan Oliver als Input 5 (Eingabe 5) und J. OLIVER als Output 5 (Ausgabe 5)
  7. Klicken Sie auf Submit (Senden).

Results

Ausgehend von diesen zu Anfang definierten Beispielen konnte die Funktion das Muster erfassen und automatisch die entsprechende Transformation erstellen. Die Namen in Ihrem Datensatz werden durch die jeweilige Entsprechung im erwarteten Format ersetzt.
Datensatz der vollständigen Kundennamen nach der Transformation

Formatieren von Sozialversicherungsnummern mithilfe von „Magic Fill“

Sie können die Funktion „Magic Fill“ heranziehen, um automatisch Sozialversicherungsnummern auf der Grundlage eines über Beispiele definierten Musters zu formatieren.

In diesem Beispiel bearbeiten Sie einen Datensatz mit Kundendaten wie Namen und E-Mailadresse, aber in erster Linie mit Sozialversicherungsnummern. Das Problem ist, dass die Sozialversicherungsnummern im falschen Format ohne Bindestriche eingegeben wurden. Beispiel: Eine Nummer wie 334-20-6259 wurde in diesem Datensatz als 334206259 eingegeben. Aufgrund des falschen Formats werden die meisten Daten von der Anwendung als Routing-Transitnummer und darüber hinaus als ungültig eingestuft.

Datensatz mit Kundendaten

Um diesen Fehler zu beheben, ziehen Sie die Funktion Magic Fill heran und wenden das richtige Format für Sozialversicherungsnummern in Übereinstimmung mit dem Muster gemäß den von Ihnen eingegebenen Beispielen auf Ihre Daten an.

Procedure

  1. Klicken Sie auf die Überschrift der Spalte ssn (SVN), um deren Inhalt auszuwählen.
  2. Geben Sie im Funktionsbereich Magic fill ein und klicken Sie dann auf das Ergebnis, um die Optionen für die entsprechende Funktion anzuzeigen.
  3. Geben Sie im Feld Input 1 (Eingabe 1) einen der Werte aus der Spalte ssn (SVN) ein, die Sie umwandeln möchten, z. B. 472989590.
  4. Geben Sie im Feld Output 1 (Ausgabe 1) denselben Wert ein, dieses Mal jedoch im richtigen Format: 472-98-9590.
    Damit die Funktion ordnungsgemäß ausgeführt werden kann, müssen Sie mindestens zwei vollständige Beispiele für die anzuwendende Transformation eingeben. Anschließend können Sie bis zu drei weitere Beispiele hinzufügen. Die Beispiele können Sie Ihrem Datensatz entnehmen oder frei erfinden. Je mehr Beispiele Sie eingeben, umso präziser wird das Muster von der Funktion identifiziert.
  5. Geben Sie weitere Beispiele für „vorher“ und „nachher“ in die verbleibenden Felder ein:
    • 428990989 als Input 2 (Eingang 2) und 428-99-0989 als Output 2 (Ausgabe 2)
    • 281066499 als Input 3 (Eingabe 3) und 281-06-6499 als Output 3 (Ausgabe 3)
    • 244356471 als Input 4 (Eingabe 4) und 244-35-6471 als Output 4 (Ausgabe 4)
    • 233262165 als Input 5 (Eingabe 5) und 233-26-2165 als Output 5 (Ausgabe 5)
  6. Klicken Sie auf Submit (Senden).

Results

Eine neue Spalte wird erstellt, in der die von Ihren Beispielen vorgegebene Transformation auf die restlichen Zahlen angewendet wird. Die Sozialversicherungsnummern weisen jetzt das richtige Format auf und werden automatisch entsprechend eingestuft, wie durch den semantischen Typ in der Überschrift in der neuen Spalte ausgewiesen. Sie können jetzt die andere Spalte mit den ungültigen Daten löschen.
Datensatz der Kundendaten mit der neuen Spalte

Nutzen des Semantikbewusstseins zur Transformation von Bundesstaat-Codes in Bundesstaaten mithilfe von Magic Fill

Auf der Grundlage des von Ihnen eingegebenen Beispiels ist die Funktion „Magic Fill“ auch in der Lage, Daten zu erkennen und zu formatieren, die bestimmten semantischen Typen entsprechen: Länder, E-Mail-Adressen, URLs, Datum sowie US-Postleitzahlen und Bundesstaaten.

Als Beispiel fungiert ein Datensatz mit einigen Kundendaten, wie z. B. Namen, E-Mailadressen oder der Bundesstaat, in dem sie leben. Dieses Szenario soll illustrieren, wie die Funktion Magic Fill zur Konvertierung der 2-stelligen Bundesstaat-Codes in den jeweils entsprechenden vollständigen Namen der Bundesstaaten verwendet werden kann, damit die Angaben ein besser lesbares Format aufweisen.

Datensatz mit Kundendaten

Procedure

  1. Klicken Sie auf die Überschrift der Spalte state (Bundesstaat), um deren Inhalt auszuwählen.
  2. Geben Sie im Funktionsbereich Magic fill ein und klicken Sie dann auf das Ergebnis, um die Optionen für die entsprechende Funktion anzuzeigen.
  3. Geben Sie im Feld Input 1 (Eingabe 1) einen der Werte aus der Spalte state (Bundesstaat) ein, die Sie umwandeln möchten, z. B. NY.
  4. Geben Sie im Feld Output 1 (Ausgabe 1) den vollständigen Namen des entsprechenden Bundesstaates ein: New York.
    Damit die Funktion ordnungsgemäß ausgeführt werden kann, müssen Sie mindestens zwei vollständige Beispiele für die anzuwendende Transformation eingeben. Anschließend können Sie bis zu drei weitere Beispiele hinzufügen. Sie können die Beispiele Ihrem Datensatz entnehmen oder andere gültige Codewerte für US-Bundesstaaten von außerhalb Ihres Datensatzes verwenden. Je mehr Beispiele Sie eingeben, umso präziser wird die Transformation von der Funktion identifiziert.
  5. Geben Sie weitere Beispiele für „vorher“ und „nachher“ in die verbleibenden Felder ein:
    • AZ als Input 2 (Eingabe 2) und Arizona als Output 2 (Ausgabe 2)
    • TX als Input 3 (Eingabe 3) und Texas als Output 3 (Ausgabe 3)
    • IN als Input 4 (Eingabe 4) und Indiana als Output 4 (Ausgabe 4)
    • MI als Input 5 (Eingabe 5) und Michigan als Output 5 (Ausgabe 5)

    Ausgehend von diesen Beispielen erkennt die Funktion, dass alle Ihre Eingaben 2-stellige Bundesstaat-Codes und Ihre Ausgaben die vollständigen Namen der Bundesstaaten sind und wendet diese Transformation dann auf den Rest der Spalte an.

  6. Klicken Sie auf Submit (Senden).

Results

Eine neue Spalte wird erstellt, in der die von Ihren Beispielen vorgegebene Transformation auf die restlichen Bundesstaat-Codes angewendet wird. Die Spaltenüberschrift gibt an, dass die neuen Werte alle dem semantischen Typ US State (US-Bundesstaat) entsprechen, d. h. sie weisen alle das richtige Format auf. Sie können jetzt die Spalte state (Bundesstaat) löschen.
Datensatz der Kundendaten mit einer neuen Spalte

Nutzen des Semantikbewusstseins zur Konvertierung von Daten in Wochentage mithilfe von Magic Fill

Auf der Grundlage des von Ihnen eingegebenen Beispiels ist die Funktion „Magic Fill“ auch in der Lage, Daten zu erkennen und zu formatieren, die bestimmten semantischen Typen entsprechen: Länder, E-Mail-Adressen, URLs, US-Postleitzahlen und Bundesstaaten sowie Datum.

Als Beispiel dient eine kleinere Einzelhandelsfirma mit mehreren Geschäftsniederlassungen in der Stadt. Der nachstehende Datensatz zeigt, wie die Gesamtanzahl der Verkäufe täglich mit dem entsprechenden Datum aufgezeichnet wird. Das für die Datumseingabe verwendete Format ist dd/MM/yyyy (tt/MM/jjjj), Sie möchten jedoch auch den jeweiligen Wochentag anzeigen, um statistische Analysen vornehmen und die jeweils gewinnträchtigsten Tage ermitteln zu können. Anhand dieses Szenarios erfahren Sie, wie Sie die Funktion Magic Fill zur Extraktion dieser Informationen einsetzen können.

Datensatz mit der Anzahl der registrierten Verkäufe

Procedure

  1. Klicken Sie auf die Überschrift der Spalte date (Datum), um deren Inhalt auszuwählen.
  2. Geben Sie im Funktionsbereich Magic fill ein und klicken Sie dann auf das Ergebnis, um die Optionen für die entsprechende Funktion anzuzeigen.
  3. Geben Sie im Feld Input 1 (Eingabe 1) einen der Werte aus der Spalte date (Datum) ein, die Sie umwandeln möchten, z. B. 17/01/2018.
  4. Geben Sie im Feld Output 1 (Ausgabe 1) den entsprechenden Wochentag ein: Wednesday (Mittwoch).
    Damit die Funktion ordnungsgemäß ausgeführt werden kann, müssen Sie mindestens zwei vollständige Beispiele für die anzuwendende Transformation eingeben. Anschließend können Sie bis zu drei weitere Beispiele hinzufügen. Sie können die Beispiele Ihrem Datensatz entnehmen oder andere gültige Paare Datum/Tag verwenden. Je mehr Beispiele Sie eingeben, umso präziser wird die Transformation von der Funktion identifiziert.
  5. Geben Sie weitere Beispiele für „vorher“ und „nachher“ in die verbleibenden Felder ein:
    • 02/11/2018 als Input 2 (Eingabe 2) und Friday (Freitag) als Output 2 (Ausgabe 2)
    • 06/12/2018 als Input 3 (Eingabe 3) und Thursday (Donnerstag) als Output 3 (Ausgabe 3)
    • 22/09/2019 als Input 4 (Eingabe 4) und Sunday (Sonntag) als Output 4 (Ausgabe 4)
    • 13/07/2019 als Input 5 (Eingabe 5) und Saturday (Samstag) als Output 5 (Ausgabe 5)

    Ausgehend von diesen Beispielen erkennt die Funktion, dass alle Ihre Eingaben Datumsangaben im Format dd/MM/yyyy (tt/MM/jjjj) und Ihre Ausgaben die entsprechenden Wochentage sind und wendet dann diese Transformation auf den Rest der Spalte an.

  6. Klicken Sie auf Submit (Senden).

Results

Eine neue Spalte wird erstellt, in der für jedes Datum der ursprünglichen Spalte der zugehörige Wochentag angezeigt wird. Sie können jetzt schon feststellen, dass die meisten Verkäufe anscheinend an Mittwochen und Samstagen erzielt werden. Diese Information war zuvor noch nicht verfügbar gewesen. Ausgehend davon können Sie ganz einfach die verschiedenen Wochentage ausfiltern oder eine Aggregierung über den Diagrammbereich durchführen, um für jeden Wochentag den Verkaufsdurchschnitt zu berechnen.
Datensatz der Anzahl registrierter Verkäufe mit einer neuen Spalte

Konvertieren von Organisationsnamen in deren Kurzform mithilfe von Magic Fill

Die Funktion „Magic Fill“ kann zur Umwandlung von Namen, Einheiten oder Ausdrücken in die entsprechende Abkürzung herangezogen werden.

In diesem Beispiel enthält der zu verbessernde Datensatz Informationen zu Personen, die für bekannte nationale oder internationale Organisationen tätig sind. Die vollständigen Namen dieser Organisationen sind jedoch häufig sehr lang und weniger bekannt als das entsprechende Akronym. Um den Datensatz verständlicher zu machen, ziehen Sie die Funktion Magic Fill heran, um die vollständigen Namen in das jeweilige Akronym zu konvertieren.
Datensatz mit Informationen zu Personen, die für bekannte nationale oder internationale Organisationen tätig sind.

Procedure

  1. Klicken Sie auf die Überschrift der Spalte organization (Organisation), um sie auszuwählen.
  2. Geben Sie im Funktionsbereich Magic fill ein und klicken Sie dann auf das Ergebnis, um die Optionen für die entsprechende Funktion anzuzeigen.
  3. Geben Sie im Feld Input 1 (Eingabe 1) einen der Werte aus der Spalte organization (Organisation) ein, den Sie umwandeln möchten, z. B. World Wildlife Fund.
  4. Geben Sie im Feld Output 1 (Ausgabe 1) das zugehörige Akronym ein: WWF.
    Damit die Funktion ordnungsgemäß ausgeführt werden kann, müssen Sie mindestens zwei vollständige Beispiele für die anzuwendende Transformation eingeben. Anschließend können Sie bis zu drei weitere Beispiele hinzufügen. Die Beispiele können Sie Ihrem Datensatz entnehmen oder frei erfinden. Je mehr Beispiele Sie eingeben, umso präziser wird das Muster von der Funktion identifiziert.
  5. Geben Sie weitere Beispiele für „vorher“ und „nachher“ in die verbleibenden Felder ein:
    • Federal Bureau of Investigation als Input 2 (Eingabe 2) und FBI als Output 2 (Ausgabe 2)
    • International Court of Justice als Input 3 (Eingabe 3) und ICJ als Output 3 (Ausgabe 3)
    • World Trade Organization als Input 4 (Eingabe 4) und WTO als Output 4 (Ausgabe 4)
    • European Union als Input 5 (Eingabe 5) und EU als Output 5 (Ausgabe 5)

    Ausgehend von diesen Beispielen ermittelt die Funktion, dass lediglich der erste Großbuchstabe jedes Worts beibehalten werden muss, um die vollständigen Namen in das entsprechende Akronym umzuwandeln.

  6. Klicken Sie auf Submit (Senden).

Results

Eine neue Spalte wird erstellt, in der die von Ihren Beispielen vorgegebene Transformation auf die restlichen Organisationsnamen angewendet wurde. Sie erfassen jetzt wesentlich einfacher, welche Organisationen im Datensatz angezeigt werden.
Datensatz mit Informationen zu Personen, die für bekannte nationale oder internationale Organisationen tätig sind, und Angabe der entsprechenden Akronyme.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!