Standardisieren von Werten mithilfe von Wörterbüchern
Standardisieren der Werte in Zelle mithilfe der automatischen Vervollständigung
Bei der Bearbeitung einer Zelle in einer Spalte, deren semantischer Typ auf einem Wörterbuch oder einem Compound-Typ basiert, schlägt die Anwendung während Ihrer Eingabe automatisch Werte vor, die zum betreffenden Wörterbuch gehören, um sicherzustellen, dass die gesamte Spalte demselben Standard folgt.
In diesem Beispiel arbeiten Sie an einem Datensatz mit Kundendaten, u. a. den US-amerikanischen Bundesstaat-Codes. Da nicht alle Instanzen von Texas ordnungsgemäß im 2-stelligen Codeformat eingegeben wurden, werden einige Daten in der Spalte State (Bundesstaat) als ungültig eingestuft, wie in der Qualitätsleiste ausgewiesen. Sie isolieren im weiteren Verlauf die Zeilen, die Fehler enthalten, bearbeiten eine der Zellen mithilfe der automatischen Vervollständigung und wenden die Änderung auf alle identischen Zellen an, um so die gesamte Spalte in einem einzelnen Vorgang zu berichtigen.
Before you begin
Procedure
Results
Automatisches Standardisieren der Werte in einer Spalte
Sie können die Funktion Standardize value (fuzzy matching) (Wert standardisieren (Fuzzy Matching)) verwenden, um den ähnlichsten gültigen Wert für die ungültigen Werte in einer Spalte ausfindig zu machen.
Die Funktion vergleicht die in einer Spalte enthaltenen ungültigen Werte mit dem aktuellen semantischen Typ und ruft die gültigen Werte ab, sobald der ausgewählte Übereinstimmungsgrenzwert erreicht ist. Diese Funktion ist nur verfügbar, wenn der semantische Typ auf einem Wertewörterbuch oder einem standardmäßig in Talend Data Preparation vorhandenen oder von Ihnen mit Talend Dictionary Service erstellten zusammengesetzten Typ (Compound) basiert. Weitere Informationen zum Erstellen von benutzerdefinierten semantischen Typen oder zum Bearbeiten vorhandener Typen finden Sie unter Anreichern der Bibliotheken mit semantischen Typen.
Ein Beispiel: Sie arbeiten an einem Datensatz mit verschiedenen Informationen über in den USA angesiedelte Kunden, u. a. deren Namen, E-Mail-Adresse und US-Bundesstaat, in dem sie wohnhaft sind.
Wie Sie in der Überschrift der Spalte State (Bundesstaat) feststellen können, wurden die Daten als US-Bundesstaaten erkannt. Allerdings ist der Qualitätsleiste zu entnehmen, dass einige der Einträge ungültige Namen enthalten.
Sie werden die ungültigen Werte in einem einzelnen Vorgang berichtigen und durch gültige Werte aus dem Wörterbuch US State (US-Bundesstaat) oder semantischen Typ ersetzen, das bzw. der eine vollständige Liste aller US-Bundesstaaten enthält.
Procedure
Results
Die ungültigen Werte wurden mithilfe des Wörterbuchs der US-Bundesstaaten standardisiert.