Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Verbessern des Talend Trust Score™ eines Datensatzes mithilfe von Talend Cloud Data Preparation

Talend Cloud Data Preparation kann in Verbindung mit Talend Cloud Data Inventory zur Verbesserung der globalen Gesundheit und Qualität von Daten eingesetzt werden.

In diesem Beispiel sind Sie für ein B2B E-Commerce-Unternehmen tätig. Als Geschäftsbenutzer müssen Sie die Datenqualität und die globale Gesundheit der Daten Ihres Unternehmens nicht nur überwachen, sondern auch aktiv verbessern. Dieses Szenario zeigt Ihnen, wie Sie durch den Datenbestand Ihres Unternehmens navigieren, die Daten identifizieren, die bearbeitet werden müssen, und verschiedene Probleme beheben, um die Qualität und den Talend Trust Score™ der Daten zu verbessern.

Prüfen Ihres Datenbestands in der Datenkonsole

Nutzen Sie die Datenkonsole, um einen besseren Überblick über alle Ihre Daten zu erhalten.

Melden Sie sich zunächst bei der Talend Cloud-Plattform an, um mit der Bearbeitung zu beginnen. Öffnen Sie dann Talend Cloud Data Inventory, um die Ansicht Data Console (Datenkonsole) anzuzeigen, die Ihnen einen Überblick über alle Datensätze des Unternehmens bietet.

Datenkonsolenansicht mit Qualitätsindikatoren, Diagrammen und Informationen zu Datensätzen.

Die Datenkonsole vermittelt Ihnen einen direkten Einblick in die Datengesundheit und zeigt Ihnen, wie Sie sie verbessern können. Dazu dienen verschiedene Kacheln, die jeweils spezifische Metriken Ihres Datenbestands abdecken, wie z. B. Talend Trust Score™, Datenqualität, semantische Typen usw. Sehen Sie sich zunächst die Kachel des Talend Trust Score™ an, um mit der Bewertung der globalen Qualität und Vertrauenswürdigkeit zu beginnen.

Auf der Kachel werden der Gesamt-Score, ein Netzdiagramm zur Verdeutlichung der fünf Achsen, auf denen der Score beruht, sowie ein Diagramm mit dem globalen und dem jeweils achsspezifischen Score im Verlauf der Zeit im Vergleich zu dem zuvor definierten akzeptablen Grenzwert angezeigt.

Für jeden Aspekt des Talend Trust Score™ wie auch für jede Kachel können Grenzwerte festgelegt werden, um vorzugeben, was gemäß den Standards Ihres Unternehmens als gut und was als schlecht eingestuft wird. Datensätze, die nicht den im Vorfeld definierten Grenzwerten entsprechen, sind direkt über die Kachel zugänglich, sodass Sie nach Bedarf entsprechende Aktionen durchführen können.

Der Grenzwert für die Trust-Score-Parameter wird festgelegt.

Sie werden Ihre Suche jetzt mithilfe von Filtern eingrenzen, um Datensätze aufzufinden, die zur Reduzierung des globalen Talend Trust Score™ beitragen.

Verwenden von Filtern zum Auffinden der zu berichtigenden Datensätze

Ihr Leitungsteam hat Sie informiert, dass Probleme mit dem Fakturierungssystem des Unternehmens aufgetreten sind und Finanzberichte anormale Ergebnisse zeigen. Demzufolge möchten Sie den Datenbestand über die Datenkonsole filtern, um die Datensätze zu prüfen, die Fakturierungsinformationen enthalten. Diese Datensätze wurden bereits per Tag gekennzeichnet, weshalb Sie dieses Kriterium heranziehen, um Ihre Suche einzugrenzen.

Procedure

  1. Klicken Sie am oberen Rand der Datenkonsolenansicht auf Add filter (Filter hinzufügen).
  2. Daraufhin wird eine Dropdown-Liste geöffnet. Klicken Sie auf Tags > Billing (Fakturierung).
  3. Klicken Sie auf Apply (Anwenden).
    Das Tag Billing (Fakturierung) wird auf die Suche angewendet.

Results

Die Ansicht der Datenkonsole wird aktualisiert und gibt jetzt nur die Qualität der übereinstimmenden Datensätze wieder. Dem Diagramm des Talend Trust Score™-Verlaufs können Sie entnehmen, dass die Datensätze, die Sie zuletzt erhalten haben, nicht dem erforderlichen Grenzwert in Bezug auf den globalen Score entsprechen.
Trust-Score-Kachel mit Netzdiagramm und Score-Verlaufsdiagramm, das für die letzte Zeit einen schlechten Score anzeigt.

Auf der Kachel Data quality (Datenqualität) sehen Sie zudem, dass die Anzahl der gültigen Werte in den Datensätzen nicht akzeptabel ist.

Datenqualität-Diagramme zeigen eine Reihe gültiger Werte unter dem festgelegten Standard.

Daraus lässt sich schließen, dass die Grundursache für den jüngsten Rückgang des globalen Talend Trust Score™ bei diesen verbleibenden Datensätzen zu suchen ist. Der nächste Schritt besteht in der Untersuchung der Datensatzliste, um mehr Details zu erhalten.

Freigeben des zu verbessernden Datensatzes für kompetente Benutzer

Sie haben ermittelt, dass die Datensätze, die Fakturierungsinformationen enthalten, ggf. verbessert werden müssen. Da Sie selbst jedoch nicht wirklich vertraut sind mit Datensätzen, die sich auf Finanzdaten beziehen, möchten Sie sich die kollaborativen Funktionen von Talend Cloud Data Preparation und Talend Cloud Data Inventory zu Nutze machen. Die beste Vorgehensweise dazu besteht in der Freigabe des Datensatzes mit dem niedrigsten Score für einen Ihrer Kollegen aus der Finanzabteilung, der über mehr Erfahrung in diesem Bereich verfügt.

Procedure

  1. Klicken Sie auf Datasets (Datensätze) im Menü auf der linken Seite, um auf die Datensatzliste zuzugreifen.
    Der zuvor von Ihnen festgelegte Filter ist nach wie vor aktiv, sodass nur die wenigen Datensätze mit dem Tag Billing (Fakturierung) angezeigt werden, nicht Ihr kompletter Datenbestand.
    Datensatzliste, gefiltert anhand des Tags Biling (Fakturierung).
  2. Positionieren Sie den Mauszeiger auf dem Datensatz customers_billing_dataset, der den niedrigsten Talend Trust Score™ aufweist, und klicken Sie in der Spalte Sharing (Freigeben) auf das Freigabesymbol.
  3. Daraufhin wird das Fenster zur Konfiguration der Freigabe geöffnet. Positionieren Sie den Mauszeiger auf der Benutzergruppe Group finance (Finanzgruppe) und klicken Sie auf das +-Symbol, um die Benutzer der Gruppe als Mitarbeiter für diesen Datensatz hinzuzufügen.
    Standardmäßig werden die Benutzer ausschließlich mit viewer (Anzeige)-Rechten hinzugefügt.
  4. Klicken Sie in der Spalte Current collaborators (Aktuelle Mitarbeiter) auf die Bezeichnung Viewer (Anzeige) neben der Benutzergruppe und ändern Sie in der daraufhin geöffneten Dropdown-Liste deren Rechte zu Editor.
    Freigabefenster, in dem Group Finance (Gruppenfinanzen) Zugriff auf den Datensatz erhält.
  5. Klicken Sie auf Share (Freigeben).

Results

Der Datensatz customers_billing_dataset (Datensatz_Kundenfakturierung) ist jetzt für Ihren Kollegen aus der Finanzabteilung zugänglich, sodass dieser sich die Daten genauer ansehen und schließlich die bestehenden Qualitätsfehler beheben kann.

Beheben von Fehlern mit Talend Cloud Data Preparation

Sie sind als Datenanalyset in der Finanzabteilung eines Unternehmens tätig und wurden beauftragt, die schlechte Qualität des Datensatzes customers_billing_dataset (Datensatz_Kundenfakturierung) zu untersuchen, für den man Ihnen eine Zugriffsberechtigung erteilt hat. Sie möchten sich die Daten direkt ansehen und eine neue Datenaufbereitung erstellen.

Procedure

  1. Klicken Sie in der Liste Dataset (Datensatz) auf customers_billing_dataset (Datensatz_Kundenfakturierung), um die Detailansicht des Datensatzes zu öffnen.
    Das Talend Trust Score™-Diagramm vermittelt Ihnen bereits einen guten Überblick über Ihren Datensatz. Es zeigt einen Abwärtstrend in den letzten Tagen, d. h. die zuletzt in der Datenbank hinzugefügten Daten enthalten Fehler. Dies wird in der Kachel Data quality (Datenqualität) bestätigt, auf der ein bestimmter Prozentsatz an ungültigen und leeren Werten ausgewiesen wird.
    Detaillierte Ansicht von customers_billing_dataset mit Diagrammen und Qualitätsindikatoren.
  2. Um die Daten selbst zu prüfen, klicken Sie auf das Sample-Symbol im linken Menü.
    Die Daten werden in der Rasteransicht angezeigt. Sie können direkt die Diskrepanzen zwischen gültigen und ungültigen Werten in einigen Spalten ausmachen. Am auffälligsten ist die Spalte Billing_Country, die vollständige Adressen enthält, obwohl diese auf mehrere Spalten hätten aufgeteilt werden sollen.
    Beispielansicht des Datensatzes mit Fehlern, die in den Daten behoben werden müssen.
  3. Um eine neue Datenaufbereitung für diesen Datensatz zu starten und die Fehler zu berichtigen, kicken Sie auf die Schaltfläche Preparations (Datenaufbereitungen) > Add (Hinzufügen) in der oberen rechten Ecke des Fensters.
    Mauszeiger über der Schaltfläche Add preparation (Datenaufbereitung hinzufügen).

    Talend Cloud Data Preparation wird geöffnet, sodass Sie jetzt mit der Anwendung von Transformationsoperationen auf das Daten-Sample beginnen können.

  4. Wenden Sie die folgenden Funktionen an, um die Fakturierungsinformationen zu berichtigen:
    1. Die Funktion Split the text in parts (Text in Teile untergliedern) auf die Spalte Billing_Country (Fakturierung_Land), um sie in 4 Parts (Teile) mit , als Separator (Begrenzer) zu untergliedern.
    2. Die Funktion Remove trailing and leading characters (Angehängte und führende Zeichen entfernen) auf die Spalten Billing_Country_Split_2 (Fakturierung_Land_Teil_2), Billing_Country_Split_3 (Fakturierung_Land_Teil_3) und Billing_Country_Split_4 (Fakturierung_Land_Teil_4), um whitespaces (Leerzeichen) zu entfernen.
    3. Die Funktion Delete the rows that match (Übereinstimmende Zeilen löschen) auf die Spalte Billing_Country_Split_1 (Fakturierung_Land_Teil_1), und verwenden Sie den regulären Ausdruck (FR)|(US)|(GB) als Value (Wert).
    Die Daten in den vollständigen Adressen werden in neue Spalten untergliedert, die Sie ebenfalls bereinigt haben, um sicherzustellen, dass das richtige Format verwendet wird. Damit bleiben ausschließlich diejenigen Zeilen, die ursprünglich Fehler enthalten haben, wobei die Fakturierungsinformationen jetzt auf spezifische Spalten für Land, Bundesstaat, Stadt und Straße aufgeteilt sind.

Results

Die Datenaufbereitung enthält jetzt bereinigte Daten, die zur Aktualisierung des Quelldatensatzes verwendet werden können.
Beispielansicht des Datensatzes mit verbesserter Datenqualität und Formatierung.

Ausführen der Datenaufbereitung zur Aktualisierung des Quelldatensatzes

Sie müssen die berichtigten Daten aus der Datenaufbereitung an den ursprünglichen Datensatz senden, um diesen zu aktualisieren.

Aufgrund der Teilfunktion, die Sie zuvor verwendet haben, müssen Sie jedoch einen Mapping-Schritt durchführen, um das Schema der Datenaufbereitung mit dem Schema des Zieldatensatzes aus der Datenbank abzustimmen.

Nach der Ausführung der Datenaufbereitung können Sie feststellen, welche Auswirkungen die Datenaufbereitung auf die verschiedenen Qualitätsindikatoren hat.

Procedure

  1. Klicken Sie auf die Schaltfläche Run (Ausführen) in der oberen rechten Fensterecke, um die Exportoptionen zu öffnen.
  2. Wählen Sie Source dataset (Quelldatensatz), um den Quelldatensatz zu aktualisieren.
  3. Klicken Sie auf Next (Weiter).
  4. Wählen Sie Update (Aktualisieren) in der Dropdown-Liste Action (Aktion) aus, um die falschen Datenelemente in der Datenbank durch diejenigen aus der Datenaufbereitung zu ersetzen.
  5. Wählen Sie Customer_id (Kunde_ID) als Spalte in der Dropdown-Liste Operation keys (Operationsschlüssel) aus.
  6. Klicken Sie auf Next (Weiter).
  7. Führen Sie die folgenden Zuordnungen (Mappings) per Drag&Drop zwischen dem erhaltenen Schema der Datenaufbereitung und dem Schema des Zieldatensatzes durch:
    1. Customer_id (Kunde_ID) zu Customer_id (Kunde_ID)
    2. Billing_Country_Split_1 (Fakturierung_Land_Teil_1) zu Billing_Street (Fakturierung_Straße)
    3. Billing_Country_Split_2 (Fakturierung_Land_Teil_2) zu Billing_City (Fakturierung_Stadt)
    4. Billing_Country_Split_3 (Fakturierung_Land_Teil_3) zu Billing_State (Fakturierung_Bundesstaat)
    5. Billing_Country_Split_4 (Fakturierung_Land_Teil_4) zu Billing_country (Fakturierung_Land)
    Unter Mapping der Datenaufbereitungs- und Zielspalten finden Sie weitere Informationen zum Mapping von Spalten.
    Zuordnungskonfiguration zwischen Eingabe- und Ausgabespalten.
  8. Klicken Sie auf Next (Weiter).
  9. Wählen Sie Standard als Ausführungsprofil aus, damit die Datenaufbereitung auf der Cloud Engine for Design ausgeführt wird.
  10. Klicken Sie auf Run (Ausführen).
    Die Ausführung wird im Hintergrund gestartet und Sie kehren zum Fenster der Datenaufbereitung zurück.
  11. Um den Status der Ausführung zu prüfen, klicken Sie auf die Schaltfläche Run history (Ausführungsverlauf) in der oberen rechten Fensterecke.
    Das Fenster Run history (Ausführungsverlauf) zeigt die Metriken und den Status der Ausführung.
    In diesem Fenster werden verschiedene Informationen zur aktuellen Ausführung wie auch zu vorherigen Ausführungen angezeigt. Weitere Informationen finden Sie auf der Seite des Ausführungsverlaufs.
  12. Klicken Sie nach dem erfolgreichen Abschluss der Ausführung auf customers_billing_dataset (Datensatz_Kundenfakturierung) unter dem Bereich Destination dataset (Zieldatensatz), um direkt zur Detailansicht des aktualisierten Datensatzes zurückzukehren.
  13. Klicken Sie auf der Kachel Data quality (Datenqualität) auf Select sample type (Sample-Typ auswählen) > Refresh head sample (Head Sample aktualisieren), um die zuletzt am Inhalt der Datenbank vorgenommenen Änderungen abzurufen.

Results

Nach der Aktualisierung können Sie feststellen, dass der Talend Trust Score™ des Datensatzes beträchtlich gestiegen ist, wie durch die Differenzangabe neben dem Score ausgewiesen.
Das Trust-Score-Symbol zeigt eine Erhöhung um 1,05 Punkte.

Mithilfe von Talend Cloud Data Inventory und Talend Cloud Data Preparation konnten Sie die Datensätze Ihres gesamten Unternehmens überwachen, anhand verschiedener Indikatoren potenzielle Fehler identifizieren und diese entsprechend berichtigen, um die Gesundheit Ihrer Daten zu verbessern.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!