Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Hinzufügen einer Gruppierungskampagne zur Identifizierung doppelter Paare

Eine Kampagne vom Typ Grouping (Gruppieren) definiert eine Liste möglicher Arbitrierungsoptionen für Datensatzpaare oder -gruppen. Das Ergebnis von Gruppierungstasks ist die von den Data Stewards für die Datensatzgruppe vorgenommene Auswahl.

Ein typischer Anwendungsfall für diese Art von Kampagne ist die Kennzeichnung möglicher Paarduplikate beim Matching extrem umfangreicher Datenvolumen durch maschinelles Lernen („Machine Learning“) in Spark. Ein anderer Anwendungsfall ist die Identifizierung der Gruppen potenzieller Duplikate vor deren Übertragung an eine Kampagne des Typs Merging (Zusammenführen), über die Data Stewards Duplikate in Stammdatensätzen zusammenführen können.

Die Kampagne Grouping (Gruppieren) in diesem Beispiel wird im Machine Learning-Prozess in Spark verwendet. Sie identifiziert Duplikate in einem Daten-Sample, das aus einer langen Liste frühkindlicher Bildungs- und Betreuungseinrichtungen in Chicago (USA) aus zehn verschiedenen Quellen extrahiert wurde. Dieser Schritt beim Daten-Matching folgt der Verarbeitung möglicher Duplikate in der Einrichtungsliste mithilfe der Komponente tMatchPairing.

Sobald die Kampagnenverantwortlichen die Kampagne erstellt haben, müssen die Data Stewards die Beispieldaten untersuchen und entscheiden, bei welchen Datensatzpaaren es sich um Duplikate handelt.

Vorbereitungen

  • Ein Administrator hat Stewardship-Benutzer erstellt und ihnen Rollen in Talend Management Console zugewiesen. Weitere Informationen zur Verwaltung von Benutzern finden Sie unter Verwalten von Benutzern.

  • Ihnen wurde in Talend Management Console die Rolle eines Kampagnenverantwortlichen bzw. eine Rolle mit Berechtigungen zum Hinzufügen und Verwalten von Datenmodellen und Kampagnen zugewiesen.

  • Sie haben als Kampagnenverantwortlicher auf Talend Cloud Data Stewardship zugegriffen.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!