Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Versionieren von Datenaufbereitungen

Bei der Arbeit mit Ihren Daten können Sie nach Wunsch den jeweiligen Status Ihrer Datenaufbereitung aufzeichnen, indem Sie eine Version erstellen.

Eine Version kann zu jedem beliebigen Zeitpunkt erstellt werden, selbst wenn noch keine Schritte angewendet wurden. Dadurch können Sie eine Datenaufbereitung in einem bestimmten Status einfrieren, mit Zeitstempel und Kurzbeschreibung.

Geöffneter Versionsbereich

Über die Schaltfläche Manage versions (Versionen verwalten) können Sie eine neue Version Ihrer Datenaufbereitung erstellen oder zuvor erstellte Versionen im schreibgeschützten Modus anzeigen. Jede Version kann einzeln exportiert werden.

Durch das Hinzufügen von Versionen zu Ihrer Datenaufbereitung werden die im Laufe der Zeit vorgenommenen Änderungen deutlich erkennbar. Darüber hinaus kann dadurch sichergestellt werden, dass in Talend-Jobs stets derselbe Status einer Datenaufbereitung verwendet wird, selbst wenn sich die Datenaufbereitung noch in der Bearbeitung befindet. Versionen können sowohl in Data Integration- als auch in Big Data-Jobs verwendet werden.

Wenn eine Datenaufbereitung innerhalb einer Ordnerstruktur freigegeben oder verschoben wird, werden die Versionen der Datenaufbereitung propagiert, beim Kopieren in bzw. Anwenden auf einen neuen Datensatz jedoch nicht.

Erstellen von Datenaufbereitungsversionen

Im folgenden Beispiel führen Sie ein paar Datenaufbereitungsschritte mit Ihren Daten aus, erstellen zu zwei verschiedenen Zeitpunkten Versionen und erfahren, wie Sie zwischen Ihren Versionen umschalten sowie zum aktuellen Status Ihrer Datenaufbereitung zurückschalten können.

Der hier verwendete Datensatz enthält Kundendaten, d. h. Name, Tätigkeit, Telefonnummer und E-Mailadresse, muss jedoch bereinigt werden. In den Spalten mit den Kundennamen sind Inkonsistenzen bei der Formatierung, wie z. B. führende oder nachgestellte Leerzeichen, und inkonsistente Groß-/Kleinschreibung festzustellen. Zudem sind verschiedene Telefonnummern und E-Mailangaben ungültig.

Datensatz mit Kundendaten

Im Verlauf Ihrer Arbeit mit der Datenaufbereitung erstellen Sie zwei Versionen, die den Status der Datenaufbereitung zu zwei verschiedenen Zeitpunkten widerspiegeln.

Procedure

  1. Klicken Sie auf die Überschrift der Spalte First_name (Name_Vorname) und dann bei gedrückt gehaltener Strg-Taste auf die Überschrift der Spalte Last_name (Name_Nachname).

    Damit wählen Sie den Inhalt der zwei Spalten aus.

  2. Wenden Sie die Funktionen Remove trailing and leading characters (Angehängte und führende Zeichen entfernen) und Change to title case (In 'Erster Buchstabe groß' ändern) an, um die Leerzeichen zu entfernen und die Groß-/Kleinschreibung zu vereinheitlichen.
    Angewendete Funktionen zum Entfernen angehängter und führender Zeichen und zur Änderung der Anfangs- in Großbuchstaben

    Das Entfernen der Formatierungsfehler bildet den ersten großen Schritt in Ihrer Datenaufbereitung, weshalb Sie eine Version erstellen, um diese Änderungen nachzuverfolgen.

  3. Klicken Sie auf die Schaltfläche Manage versions (Versionen verwalten) in der Header-Leiste.

    Der Bereich Functions (Funktionen) wird durch den Bereich Versions (Versionen) ersetzt. Dieser Bereich ist leer, da für die Datenaufbereitung noch keine Versionen vorhanden sind.

    Geöffneter Funktionsbereich

    Nur Benutzer von Talend Data Preparation, die über Administratorrechte verfügen, können neue Versionen über die Schaltfläche Manage versions (Versionen verwalten) hinzufügen. Andere Benutzer können nur die vorhandenen Versionen im schreibgeschützten Modus anzeigen.

  4. Klicken Sie auf die Schaltfläche Add version (Version hinzufügen).
  5. Geben Sie eine Kurzbeschreibung der Version in das entsprechende Feld ein, in diesem Beispiel Fixing formatting errors in names (Formatierungsfehler in Namen beheben), und klicken Sie dann auf Add version (Version hinzufügen).
    Geöffneter Versionsbereich

    Die Version wird jetzt im Bereich Versions (Versionen) mit einem Zeitstempel und der von Ihnen zuvor hinzugefügten Beschreibung angezeigt.

    Mit einer Versionsnummer geöffneter Versionsbereich
  6. Klicken Sie auf die Version, um im schreibgeschützten Modus auf sie zuzugreifen.

    Sie können Filter anwenden und die Daten durchlaufen, jedoch keine Funktionen mit ihnen ausführen.

  7. Um den schreibgeschützten Modus zu verlassen und die Aufbereitung Ihrer Daten wiederaufzunehmen, klicken Sie auf die Schaltfläche Switch to current state (In aktuellen Status wechseln) in der Header-Leiste.

    Sie befinden sich jetzt wieder im Bearbeitungsmodus.

  8. Um die restlichen ungültigen Einträge in den Spalten Phone (Telefon) und Email (EMail) zu bereinigen, klicken Sie auf das Menüsymbol in der oberen linken Ecke des Rasters und wählen Sie Display rows with invalid or empty values (Zeilen mit ungültigen oder leeren Werten anzeigen) aus.
  9. Wählen Sie im Bereich Functions (Funktionen) die Funktion Delete these filtered rows (Diese gefilterten Zeilen löschen) aus.
    Option zum Löschen der gefilterten Zeilen

    Alle ungültigen Werte werden aus dem Datensatz entfernt, und Sie erstellen eine andere Version, um diesen Status festzuhalten.

  10. Wiederholen Sie die Schritte 3 bis 5, um eine neue Version zu erstellen, geben Sie dieses Mal allerdings Removing all invalid values (Alle ungültigen Werte entfernen) als Beschreibung ein.

    Die zwei Versionen werden jetzt im Bereich Versions (Versionen) angegeben und können im schreibgeschützten Modus aufgerufen werden.

    Mit zwei Versionsnummern geöffneter Versionsbereich

Results

Sie haben zwei Versionen Ihrer Datenaufbereitung erstellt, um deren Status in zwei verschiedenen Schritten des Bereinigungsvorgangs zu erfassen. Sie können eine dieser Versionen exportieren, sie in einem Talend-Job verwenden oder den aktuellen Status der Datenaufbereitung weiter bearbeiten.

Verwenden von Versionen in Talend-Jobs

Versionen von Datenaufbereitungen können in Talend Studio sowohl in Data Integration- als auch in Big Data-Jobs verwendet werden.

In Talend Studio ermöglicht Ihnen die tDataprepRun-Komponente die Wiederverwendung einer Datenaufbereitung oder einer ihrer Versionen sowie deren Anwendung auf Daten mit demselben Modell.

InformationshinweisNote: Um die tDataprepRun-Komponente mit Talend Cloud Data Preparation verwenden zu können, müssen Sie mindestens über Version 7.1 von Talend Studio verfügen.

Sie können eine Datenaufbereitung natürlich jederzeit in ihrem aktuellen Status verwenden, durch die Verwendung einer spezifischen Version lässt sich jedoch sicherstellen, dass in Ihren Jobs stets derselbe Status einer Datenaufbereitung zum Einsatz kommt, selbst wenn die Datenaufbereitung nach wie vor bearbeitet wird. Dadurch kann verbesserte Konsistenz gewährleistet werden.

Das folgende Beispiel illustriert einen Job, der eine vorhandene Datenaufbereitungsversion auf eine Salesforce-Eingabe anwendet und das Ergebnis in einer Redshift-Datenbank ausgibt.

Darstellung eines Jobs in Talend Studio

Diese Datenaufbereitung wurde ausgehend von einem Datensatz erstellt, der grundlegende Kundendaten enthält, wie z. B. Namen, Telefonnummern und E-Mailadressen. Es wurden ein paar Schritte angewendet, um Formatierungsfehler in den Namenseinträgen zu entfernen und ungültige Werte aus den Telefonnummern zu löschen.

Bereinigungsschritte bereits auf die Datenaufbereitung angewendet

Bei der Datenaufbereitung wurden zwei Versionen erstellt: Eine nach den ersten zwei Schritten und eine weitere nach den dritten Schritt.

Anzeige der Versionen

Before you begin

  • Sie haben eine Datenaufbereitung mit mindestens einer Version in Talend Cloud Data Preparation erstellt. In diesem Fall weist die vorhandene Datenaufbereitung den Namen contacts cleansing (Kontaktbereinigung) auf.
  • Die aus Salesforce importierten Daten müssen über dasselbe Schema verfügen wie der zur ursprünglichen Erstellung der Datenaufbereitung verwendete Datensatz.

Procedure

  1. Erstellen Sie in Talend Studio einen neuen Standard- oder Spark-Job.
  2. Fügen Sie im Entwurfsbereich von Talend Studio tSalesforceInput, tDataprepRun und tRedshiftOutput hinzu und verbinden Sie alle mithilfe von zwei Verknüpfungen Row (Zeile) > Main (Haupt).
  3. Wählen Sie die Komponente tSalesforceInput aus und klicken Sie auf die Registerkarte Component (Komponente), um deren Basiseinstellungen zu definieren.

    Vergewissern Sie sich, dass das Schema der Komponente tSalesforceInput dem von der Komponente tDataprepRun erwarteten Schema entspricht.

  4. Wählen Sie die Komponente tDataprepRun aus und klicken Sie auf die Registerkarte Component, um deren Basiseinstellungen zu definieren.
    Eigenschaften der Komponente tDataprepRun in Talend Studio
  5. Geben Sie Ihre Verbindungsinformationen für Talend Cloud Data Preparation ein.
  6. Klicken Sie auf Choose an existing preparation (Vorhandene Datenaufbereitung auswählen), um die Liste der in Talend Cloud Data Preparation verfügbaren Datenaufbereitungen anzuzeigen.
    Geöffnetes Dialogfeld zur Auswahl einer vorhandenen Datenaufbereitung („Choose an existing preparation) in Talend Studio
  7. Aktivieren Sie das Kontrollkästchen vor dem Eintrag contacts cleansing (Kontaktbereinigung), der die anzuwendende Datenaufbereitungsversion enthält, und klicken Sie dann auf OK.
  8. Klicken Sie auf choose a version (Version auswählen), um in der Liste der verfügbaren Versionen eine Auswahl für Ihre Datenaufbereitung zu treffen. Wählen Sie in diesem Fall Version 1 aus.
    Geöffnetes Dialogfeld zur Festlegung der Version („Set the version“) in Talend Studio

    Standardmäßig verwendet der Job die Version current state (Aktueller Status) der ausgewählten Datenaufbereitung. Die Verwendung von current state (Aktueller Status) anstelle einer bestimmten Version bedeutet im Kontext von Zusammenarbeit, dass jemand eventuell Änderungen an der Datenaufbereitung vorgenommen hat und Sie davon keine Kenntnis haben.lei Infolgedessen können Sie nicht genau wissen, welches Ergebnis Ihr Job erzielen wird. Aus diesem Grund ist es sicherer, eine bestimmte Version in Ihren Jobs zu verwenden.

  9. Klicken Sie auf Fetch Schema (Schema abrufen), um das Schema von contacts cleansing (Kontaktbereinigung) abzurufen.
  10. Wählen Sie die Komponente tRedshiftOutput aus und klicken Sie auf die Registerkarte Component (Komponente), um deren Basiseinstellungen zu definieren.
  11. Speichern Sie Ihren Job und drücken Sie F6 , um ihn auszuführen.

Results

Alle in der Version der Datenaufbereitung enthaltenen Datenaufbereitungsschritte werden direkt im Flow des Jobs auf Ihre Daten angewendet.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!