Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Deduplizieren der Daten

Sie können Ihre Daten präzise deduplizieren, indem Sie die am besten geeignete Funktion verwenden.

Deduplizieren von Werten in Spalten

Sie können die Funktion Deduplicate rows with identical values (Zeilen mit identischen Werten deduplizieren) nutzen, um problemlos alle Zeilen zu löschen, die teilweise oder vollständig mit anderen Zeilen übereinstimmen.

InformationshinweisNote: Diese Funktion ist nicht mit Spark-Jobs und HDFS- oder S3-Exporten kompatibel.

Doppelte Informationen können in Kalkulationstabellen aufgrund eines menschlichen Fehlers, z. B. durch falsches Kopieren und Einfügen, oder automatisierter Vorgänge entstehen. Im folgenden Datensatz mit grundlegenden Kundendaten können Sie feststellen, dass die Spalten firstname (Vorname) und lastname (Nachname) Werte enthalten, die mehr als einmal vorkommen.

Datensatz mit doppelten Kundendaten

Jake und Peralta sind tatsächlich Einträge, die aussehen, als würden die Spalten firstname (Vorname) und lastname (Nachname) Duplikate enthalten, wenn man sie separat betrachtet. Bei näherer Betrachtung jedoch zeigt sich, dass die Informationen auf den Zeilen 1, 2 und 4 zu separaten Kunden gehören, die entweder denselben Vor- oder denselben Nachnamen haben. Zeile 3 hingegen ist ein wirkliches Duplikat von Zeile 2, außerdem fehlen einige Informationen.

Das Sie bei einer für die zwei Spalten separat durchgeführten Deduplizierung wertvolle Informationen über Kunden verlieren würden, die zufällig denselben Vor- oder Nachnamen haben, wenden Sie die Funktion Deduplicate rows with identical values (Zeilen mit identischen Werten deduplizieren) auf beide Spalten gleichzeitig an. Auf diese Weise entfernt die Funktion nur Zeilen, in denen sowohl der Vor- als auch der Nachname Duplikate sind, wie in den Zeilen 2 und 3, aber auch andere potenzielle Duplikate weiter unten im Datensatz.

Procedure

  1. Klicken Sie bei gedrückt gehaltener Strg -Taste auf die Überschriften der Spalten firstname (Vorname) und lastname (Nachname), um deren Inhalt auszuwählen.
  2. Geben Sie im Funktionsbereich Deduplicate rows with identical values (Zeilen mit identischen Werten deduplizieren) ein und klicken Sie auf das Ergebnis, um die Optionen der entsprechenden Funktion anzuzeigen.
  3. Wählen Sie in der Dropdown-Liste Matching criterion (Übereinstimmungskriterium) die Einschränkungsregel aus, die angewendet werden soll, z. B. Exact value (Genauer Wert).
    • Simplified text (Vereinfachter Text): Satzzeichen, Leerzeichen, Groß-/Kleinschreibung und Akzente werden ignoriert. Beispiel: Pâté-en-croûte ist Ihr Referenzwert. In diesem Fall wird pate-eN-cRoute gelöscht, Zeilen mit Pâté n croûte jedoch nicht.
    • Ignore case and accents (Groß-/Kleinschr. und Akzente ignorieren): Groß- und Kleinschreibung sowie Akzente werden bei nicht berücksichtigt. Beispiel: Pâté-en-croûte ist Ihr Referenzwert. In diesem Fall wird pate-en-croute gelöscht, Zeilen mit pate en croute jedoch nicht.
    • Exact value (Genauer Wert): Die Validierungsregel mit der höchsten Einschränkung. Zeilen werden nur gelöscht, wenn eine genaue Übereinstimmung mit dem Referenzwert vorliegt.
  4. Klicken Sie auf Submit (Senden).

Results

Die Zeile, die ein Duplikat der Zeile 2 ist, wird gelöscht, während andere Zeilen mit identischen Werte beibehalten werden, da sie nicht den 2-Spalten-Kriterien entsprechen.
Datensatz der Kundendaten ohne Duplikate

Deduplizieren von Zeilen

Mit der Funktion Remove duplicate rows (Zeilenduplikate entfernen) können Sie problemlos alle Zeilen löschen, die vollständig identisch mit anderen Zeilen sind, und von diesen nur jeweils eine Instanz im Datensatz beibehalten.

InformationshinweisNote: Diese Funktion ist nicht mit Spark-Jobs und HDFS- oder S3-Exporten kompatibel.

Doppelte Informationen können in Kalkulationstabellen aufgrund eines menschlichen Fehlers, z. B. durch falsches Kopieren und Einfügen, oder automatisierter Vorgänge entstehen. In diesem Beispiel haben Sie einen Datensatz mit Kundendaten erhalten, in dem alle Zeilen systematisch verdoppelt wurden.

Datensatz mit doppelten Kundendaten

Sie ziehen die Funktion Remove duplicate rows (Zeilenduplikate entfernen) heran, um Ihren Datensatz ganz einfach zu bereinigen.

Procedure

  1. Klicken Sie auf die Überschrift einer beliebigen Spalte Ihres Datensatzes.
  2. Klicken Sie auf die Registerkarte Table (Tabelle) im Funktionsbereich, um die Liste der Funktionen anzuzeigen, die auf die gesamte Tabelle angewendet werden können.
  3. Positionieren Sie den Mauszeiger auf der Funktion Remove duplicate rows (Zeilenduplikate entfernen) und klicken Sie auf das Auge-Symbol, um eine Vorschau der Auswirkungen der Funktion anzuzeigen.
    Datensatz mit hervorgehobenen Kundendatenduplikaten
  4. Klicken Sie auf Submit (Senden), um die Funktion anzuwenden.

Results

Alle Informationsduplikate werden durch eine einfache Aktion entfernt, sodass Ihr Datensatz nur noch eine gültige Instanz jeder Zeile enthält.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!