Versionieren von Datenaufbereitungen
Bei der Arbeit mit Ihren Daten können Sie nach Wunsch den jeweiligen Status Ihrer Datenaufbereitung aufzeichnen, indem Sie eine Version erstellen.
Eine Version kann zu jedem beliebigen Zeitpunkt erstellt werden, selbst wenn noch keine Schritte angewendet wurden. Dadurch können Sie eine Datenaufbereitung in einem bestimmten Status einfrieren, mit Zeitstempel und Kurzbeschreibung.
Über die Schaltfläche Manage versions (Versionen verwalten) können Sie eine neue Version Ihrer Datenaufbereitung erstellen oder zuvor erstellte Versionen im schreibgeschützten Modus anzeigen. Jede Version kann einzeln exportiert werden.
Durch das Hinzufügen von Versionen zu Ihrer Datenaufbereitung werden die im Laufe der Zeit vorgenommenen Änderungen deutlich erkennbar. Darüber hinaus kann dadurch sichergestellt werden, dass in Talend-Jobs stets derselbe Status einer Datenaufbereitung verwendet wird, selbst wenn sich die Datenaufbereitung noch in der Bearbeitung befindet. Versionen können sowohl in Data Integration- als auch in Big Data-Jobs verwendet werden.
Wenn eine Datenaufbereitung innerhalb einer Ordnerstruktur freigegeben oder verschoben wird, werden die Versionen der Datenaufbereitung propagiert, beim Kopieren in bzw. Anwenden auf einen neuen Datensatz jedoch nicht.
Erstellen von Datenaufbereitungsversionen
Im folgenden Beispiel führen Sie ein paar Datenaufbereitungsschritte mit Ihren Daten aus, erstellen zu zwei verschiedenen Zeitpunkten Versionen und erfahren, wie Sie zwischen Ihren Versionen umschalten sowie zum aktuellen Status Ihrer Datenaufbereitung zurückschalten können.
Der hier verwendete Datensatz enthält Kundendaten, d. h. Name, Tätigkeit, Telefonnummer und E-Mailadresse, muss jedoch bereinigt werden. In den Spalten mit den Kundennamen sind Inkonsistenzen bei der Formatierung, wie z. B. führende oder nachgestellte Leerzeichen, und inkonsistente Groß-/Kleinschreibung festzustellen. Zudem sind verschiedene Telefonnummern und E-Mailangaben ungültig.
Im Verlauf Ihrer Arbeit mit der Datenaufbereitung erstellen Sie zwei Versionen, die den Status der Datenaufbereitung zu zwei verschiedenen Zeitpunkten widerspiegeln.
Procedure
Results
Sie haben zwei Versionen Ihrer Datenaufbereitung erstellt, um deren Status in zwei verschiedenen Schritten des Bereinigungsvorgangs zu erfassen. Sie können eine dieser Versionen exportieren, sie in einem Talend-Job verwenden oder den aktuellen Status der Datenaufbereitung weiter bearbeiten.
Verwenden von Versionen in Talend-Jobs
Versionen von Datenaufbereitungen können in Talend Studio sowohl in Data Integration- als auch in Big Data-Jobs verwendet werden.
In Talend Studio ermöglicht Ihnen die tDataprepRun-Komponente die Wiederverwendung einer Datenaufbereitung oder einer ihrer Versionen sowie deren Anwendung auf Daten mit demselben Modell.
Sie können eine Datenaufbereitung natürlich jederzeit in ihrem aktuellen Status verwenden, durch die Verwendung einer spezifischen Version lässt sich jedoch sicherstellen, dass in Ihren Jobs stets derselbe Status einer Datenaufbereitung zum Einsatz kommt, selbst wenn die Datenaufbereitung nach wie vor bearbeitet wird. Dadurch kann verbesserte Konsistenz gewährleistet werden.
Das folgende Beispiel illustriert einen Job, der eine vorhandene Datenaufbereitungsversion auf eine Salesforce-Eingabe anwendet und das Ergebnis in einer Redshift-Datenbank ausgibt.
Diese Datenaufbereitung wurde ausgehend von einem Datensatz erstellt, der grundlegende Kundendaten enthält, wie z. B. Namen, Telefonnummern und E-Mailadressen. Es wurden ein paar Schritte angewendet, um Formatierungsfehler in den Namenseinträgen zu entfernen und ungültige Werte aus den Telefonnummern zu löschen.
Bei der Datenaufbereitung wurden zwei Versionen erstellt: Eine nach den ersten zwei Schritten und eine weitere nach den dritten Schritt.
Before you begin
- Sie haben eine Datenaufbereitung mit mindestens einer Version in Talend Cloud Data Preparation erstellt. In diesem Fall weist die vorhandene Datenaufbereitung den Namen contacts cleansing (Kontaktbereinigung) auf.
- Die aus Salesforce importierten Daten müssen über dasselbe Schema verfügen wie der zur ursprünglichen Erstellung der Datenaufbereitung verwendete Datensatz.
Procedure
Results
Alle in der Version der Datenaufbereitung enthaltenen Datenaufbereitungsschritte werden direkt im Flow des Jobs auf Ihre Daten angewendet.