Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Standardisieren von Werten mithilfe von Wörterbüchern

Standardisieren der Werte in Zelle mithilfe der automatischen Vervollständigung

Bei der Bearbeitung einer Zelle in einer Spalte, deren semantischer Typ auf einem Wörterbuch oder einem Compound-Typ basiert, schlägt die Anwendung während Ihrer Eingabe automatisch Werte vor, die zum betreffenden Wörterbuch gehören, um sicherzustellen, dass die gesamte Spalte demselben Standard folgt.

In diesem Beispiel arbeiten Sie an einem Datensatz mit Kundendaten, u. a. den US-amerikanischen Bundesstaat-Codes. Da nicht alle Instanzen von Texas ordnungsgemäß im 2-stelligen Codeformat eingegeben wurden, werden einige Daten in der Spalte State (Bundesstaat) als ungültig eingestuft, wie in der Qualitätsleiste ausgewiesen. Sie isolieren im weiteren Verlauf die Zeilen, die Fehler enthalten, bearbeiten eine der Zellen mithilfe der automatischen Vervollständigung und wenden die Änderung auf alle identischen Zellen an, um so die gesamte Spalte in einem einzelnen Vorgang zu berichtigen.

Datensatz mit Kundendaten, darunter Codes für US-Bundesstaaten

Before you begin

Das Menü der automatischen Vervollständigung ist nur verfügbar, wenn der semantische Typ der Spalte auf einem Wertewörterbuch oder einem standardmäßig in Talend Data Preparation vorhandenen oder von Ihnen mit Talend Dictionary Service erstellten zusammengesetzten Typ (Compound) basiert. Weitere Informationen zum Erstellen von benutzerdefinierten semantischen Typen oder zum Bearbeiten vorhandener Typen finden Sie unter Anreichern der Bibliotheken mit semantischen Typen.

Procedure

  1. Klicken Sie in der Spalte State (Bundesstaat) auf den orangefarbenen Teil der Qualitätsleiste und dann auf Select rows with invalid values for State (Zeilen mit ungültigen Werten auswählen für Bundesstaat), um einen Filter anzuwenden und die Zeilen mit Texas zu isolieren.
  2. Doppelklicken Sie in der Spalte State (Bundesstaat) auf einen der Einträge Texas.
    Sie können den Inhalt der Zelle jetzt bearbeiten. Wenn Sie den vorherigen Wert löschen, wird eine Dropdown-Liste geöffnet, in der alle Werte, die Teil des wörterbuchbasierten semantischen Typs US State Code (Code für US-Bundesstaat) sind, alphabetisch sortiert vorgeschlagen werden.
  3. Da der Code für Texas nicht Teil der ersten Ergebnisse ist, die angezeigt werden, geben Sie zunächst einfach T ein, um nach den entsprechenden Ergebnissen zu filtern.
    Je mehr Buchstaben Sie eingeben, umso genauer werden die Vorschläge. Ist der erwartete Wert jedoch bereits in der Originalliste zu finden, können Sie ihn direkt auswählen.
  4. Wählen Sie in dieser optimierten Liste den Code für den Bundesstaat Texas aus, d. h. TX.
    Code für Bundesstaat Texas ausgewählt in der Liste
  5. Aktivieren Sie das Kontrollkästchen Apply to all cells with this value (Auf alle Zellen mit diesem Wert anwenden), das angezeigt wird, sobald Sie Ihre Eingabe beendet oder einen Wert ausgewählt haben.
    Die von Ihnen an der Zelle vorgenommene Änderung wird jetzt ebenfalls auf die anderen ungültigen Werte angewendet.
  6. Klicken Sie auf Submit (Senden).

Results

Dank der Vorschläge können Sie sicher sein, dass der neue, von Ihnen angewendete Wert das richtige Format aufweist. Alle anderen ungültigen Instanzen von Texas wurden in einem einzigen Vorgang durch den richtigen Bundesstaat-Code TX ersetzt. Die Qualitätsleiste gibt jetzt an, dass alle Daten in der Spalte State (Bundesstaat) gültig sind.

Automatisches Standardisieren der Werte in einer Spalte

Sie können die Funktion Standardize value (fuzzy matching) (Wert standardisieren (Fuzzy Matching)) verwenden, um den ähnlichsten gültigen Wert für die ungültigen Werte in einer Spalte ausfindig zu machen.

Die Funktion vergleicht die in einer Spalte enthaltenen ungültigen Werte mit dem aktuellen semantischen Typ und ruft die gültigen Werte ab, sobald der ausgewählte Übereinstimmungsgrenzwert erreicht ist. Diese Funktion ist nur verfügbar, wenn der semantische Typ auf einem Wertewörterbuch oder einem standardmäßig in Talend Data Preparation vorhandenen oder von Ihnen mit Talend Dictionary Service erstellten zusammengesetzten Typ (Compound) basiert. Weitere Informationen zum Erstellen von benutzerdefinierten semantischen Typen oder zum Bearbeiten vorhandener Typen finden Sie unter Anreichern der Bibliotheken mit semantischen Typen.

Ein Beispiel: Sie arbeiten an einem Datensatz mit verschiedenen Informationen über in den USA angesiedelte Kunden, u. a. deren Namen, E-Mail-Adresse und US-Bundesstaat, in dem sie wohnhaft sind.

Wie Sie in der Überschrift der Spalte State (Bundesstaat) feststellen können, wurden die Daten als US-Bundesstaaten erkannt. Allerdings ist der Qualitätsleiste zu entnehmen, dass einige der Einträge ungültige Namen enthalten.

Spalte „State“ hervorgehoben mit ungültigen Namen

Sie werden die ungültigen Werte in einem einzelnen Vorgang berichtigen und durch gültige Werte aus dem Wörterbuch US State (US-Bundesstaat) oder semantischen Typ ersetzen, das bzw. der eine vollständige Liste aller US-Bundesstaaten enthält.

InformationshinweisNote: Die Funktion Standardize value (fuzzy matching) (Wert standardisieren (Fuzzy Matching)) unterstützt keine asiatischen Zeichen.

Procedure

  1. Klicken Sie auf die Überschrift der Spalte State (Bundesstaat), um deren Inhalt auszuwählen.
  2. Geben Sie im Funktionsbereich Standardize values (Werte standardisieren) ein und klicken Sie dann auf das Ergebnis, um die Optionen für die zugeordnete Funktion zu öffnen.
  3. Wählen Sie in der Dropdown-Liste Match threshold (Übereinstimmungsgrenze) den Übereinstimmungsprozentsatz aus, der zwischen dem ungültigen und dem gültigen Wert erreicht werden muss, damit ein Austausch durchgeführt wird.

    Folgende drei Prozentsätze sind verfügbar:

    • High (Hoch): Nur Werte mit einer Übereinstimmung von mindestens 90 % mit dem gültigen Wert werden ersetzt.
    • Default (Standard): Nur Werte mit einer Übereinstimmung von mindestens 80 % mit dem gültigen Wert werden ersetzt.
    • None (Keine): Der ungültige Wert wird durch den ähnlichsten gültigen Wert ersetzt.

    Für die Abgleichung der Daten wird der Levenshtein-Algorithmus verwendet. Bei einer zusammengesetzten Zeichenfolge wird der Abgleichungsprozess in vier Phasen untergliedert:

    1. Es wird eine Suche auf der Grundlage der vollständigen Zeichenfolge und jedem Token durchgeführt.
    2. Es werden Wörterbuchwerte zurückgegeben, die sich mit weniger als 3 Zeichen von der vollständigen Zeichenfolge oder einem Token unterscheiden.
    3. Die Abweichung der möglichen Paare wird verarbeitet und das beste Paar wird zurückgegeben.
    4. Der Benutzergrenzwert filtert die Ergebnisse nach der Abweichung.

    Example

    • Clermont Talend stimmt dank dem ersten Token mit Clermont überein.
    • Clermont-Ferra stimmt mit Clermont-Ferrand überein, da sich weniger als drei Zeichen von der vollständigen Zeichenfolge unterscheiden.
    • Clermon-Ferant stimmt mit Clermont überein, da sich mehr als drei Zeichen von der vollständigen Zeichenfolge unterscheiden, allerdings nur ein Zeichen vom Token Clermont abweicht.
  4. Klicken Sie auf die Schaltfläche Preview (Vorschau), um eine Vorschau des Ergebnisses der Funktion anzuzeigen. Klicken Sie anschließend auf Submit (Senden), um die Funktion anzuwenden.
    Spalte „State“ hervorgehoben mit korrekten Namen

Results

Die ungültigen Werte wurden mithilfe des Wörterbuchs der US-Bundesstaaten standardisiert.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!