Ausführen von Datenaufbereitungen

Wenn Sie die Bereinigung Ihres Datensatzes abgeschlossen haben, möchten Sie das Ergebnis Ihrer Datenaufbereitung ggf. in einen neuen oder bereits bestehenden Datensatz übertragen.

Auf der Seite Run history (Ausführungsverlauf) Sie können den Status der Ausführung prüfen oder auf den Link zu Ihrem Zieldatensatz klicken. Weitere Informationen finden Sie unter Seite des Ausführungsverlaufs.

Für diese Funktion gelten folgende Einschränkungen:

Sie können nur die jeweils aktuelle Version einer Datenaufbereitung ausführen. Die Ausführung einer bestimmten Datenaufbereitungsversion ist zurzeit nicht möglich.
Wenn Sie bei der Ausführung einer Datenaufbereitung für einen Datenbankdatensatz mehr als 100.000 Zeilen aktualisieren, kann das Leistungseinbußen zur Folge haben.

Auswählen eines Ziels

Vor der Ausführung einer Datenaufbereitung müssen Sie die Ausführung konfigurieren. Der erste Schritt besteht in der Auswahl bzw. im Hinzufügen des Zieldatensatzes.

Before you begin

Diese Funktion ist nur mit Remote Engine Gen2 ab Version R2024-06 oder mit Cloud Engine for Design verfügbar. Die Engine muss zuerst neu gestartet werden, damit die neuesten Updates übernommen werden.

Aufgrund einer zurzeit geltenden Einschränkung kann eine Datenaufbereitung nicht für Datensätze ausgeführt werden, wenn dazu einer der folgenden Verbindungstypen verwendet wird:

Amazon DynamoDB (Datenbank)
Apache Kudu (Datenbank)
Azure Synapse (Datenbank)
REST (Webservices)
FTP (Dateisysteme)
Azure Event Hubs (Messaging)
RabbitMQ (Messaging)

Procedure

Klicken Sie auf die Schaltfläche Run (Ausführen) in der oberen rechten Fensterecke, um das Fenster der Parameter zu öffnen.
Wählen Sie unter den folgenden Optionen den Typ des Ziels aus:
- Existing dataset (Vorhandener Datensatz). Wählen Sie in der Liste den Datensatz aus, in den Sie das Ergebnis der Datenaufbereitung exportieren möchten.
- New dataset (Neuer Datensatz). Geben Sie einen Namen für den neuen Datensatz ein und legen Sie die Verbindung fest, die für den Datensatz verwendet werden soll.
- Source dataset (Quelldatensatz). Der als Quelle für die Datenaufbereitung verwendete Datensatz wird mit den aufbereiteten Daten aktualisiert.
  Die folgende Liste enthält die Verbindungen, die Sie verwenden können, wenn Sie Quelldatensatz als Ziel auswählen:
  - Amazon Aurora (Datenbanken)
  - Azure Cosmos DB (Datenbanken)
  - Delta Lake (Datenbanken)
  - Google BigQuery (Databankem)
  - MariaDB (Datenbanken)
  - Microsoft Dynamics 365 (Business-Anwendungen)
  - MongoaDB (Datenbanken)
  - MySQL (Datenbanken)
  - NetSuite (Business-Anwendungen)
  - Oracle (Datenbanken)
  - PostgreSQL (Datenbanken)
  - Salesforce (Business-Anwendungen)
  - SingleStore (Datenbanken)
  - Snowflake (Datenbanken)
- Direkter Download: Die aufbereiteten Daten werden in eine lokale Datei exportiert.
Klicken Sie auf Next (Weiter).
Konfigurieren Sie nach Bedarf die zusätzlichen Parameter.
Welche Parameter angezeigt werden, ist vom Typ des ausgewählten Datensatzes abhängig. Weitere Informationen zu Konnektoren finden Sie im Handbuch für Talend Cloud-Anwendungskonnektoren.
Klicken Sie auf Next (Weiter), um mit der Ausführungskonfiguration fortzufahren.

Mapping der Datenaufbereitungs- und Zielspalten

Der Mapping-Schritt ermöglicht Ihnen die Zuordnung der Spalten vor dem Schreiben in ein vorgegebenes Ziel.

Die Beziehungen werden durch Linien zwischen den ausgewählten Datenaufbereitungs- und Zielspalten dargestellt.

Important: Der Schritt Data Mapping (Datenmapping) ist für HTTP- und dateibasierte Datensätze nicht verfügbar.

Um das Mapping zu starten, stehen Ihnen mehrere Möglichkeiten zur Auswahl:

Ziehen Sie eine Datenaufbereitungs- auf eine Zielspalte und legen Sie sie dort ab.
Wählen Sie eine Datenaufbereitungsspalte direkt in der Dropdown-Auswahlliste aus oder geben Sie den Spaltennamen im Auswahlbereich ein.

Visuelles Mapping zwischen Datenaufbereitungsspalten und Zielspalten.

Beim Mapping von Spalten gelten die folgenden Regeln:

(Beta) Das Mapping erfolgt automatisch, sobald der zweite Schritt der Ausführungskonfiguration gestartet wird.
Nicht zugeordnete Datenaufbereitungsspalten werden ignoriert und in den Zielspalten nicht angezeigt.
Beispiel: Ihr Aufbereitungsdatensatz enthält folgende Spalten: first_name (Name_Vorname), last_name (Name_Nachname), email (EMail) und phone (Telefon). Ihr Zieldatensatz enthält folgende Felder: firstname (Vorname), lastname (Nachname), address (Adresse) und phone (Telefon).

Wenn Sie die Spalte first_name (Name_Vorname) der Spalte firstname (Vorname), die Spalte last_name (Name_Nachname) der Spalte lastname (Nachname) und die Spalte phone (Telefon) der Spalte phone (Telefon) zuordnen, enthält der Zieldatensatz folgende Spalten: firstname (Vorname), lastname (Nachname), address (Adresse) und phone (Telefon). Die nicht zugeordnete Spalte email (EMail) wird ignoriert. Die Zielspalte address (Adresse) ist leer.
Wenn eine obligatorische Zielspalte nicht zugeordnet wird, hat das in den meisten Fällen einen Fehler zur Folge. Die Datenaufbereitung kann zwar nach wie vor ausgeführt werden, es kann jedoch zu Datenverlust oder weiteren Fehlern kommen. Aus diesem Grund wird empfohlen, das Mapping zuvor zu berichtigen.
Der Zieldatensatz ist ein JDBC-Datensatz: Die Werte der zugeordneten Datenaufbereitungsspalten werden im ersten Schritt der Ausführungskonfiguration gemäß der für die Datenbank festgelegten Operation (Einfügen, Aktualisieren, Upsert, Löschen) zu den entsprechenden Zielspalten hinzugefügt.
Beispiel: Wenn Sie die Aktion Insert (Einfügen) ausgewählt haben und die Datenaufbereitungsspalte first_name (Name_Vorname) die Werte Alice und John enthält und der Zielspalte firstname (Vorname) mit den Werten Will und Alima zugeordnet wird, umfasst die Zielspalte nach dem Mapping alle diese Werte: Alice, John, Will und Alima. Dies entspricht einer Einfügeaktion.
Beim Mapping von Spalten werden keine Änderungen am Schema vorgenommen, d. h. der Name einer Zielspalte, die einer Datenaufbereitungsspalte zugeordnet wird, wird beibehalten (der Name der Datenaufbereitungsspalte wird nicht übernommen).
Beispiel: Wenn Sie die Datenaufbereitungsspalte firstname (Vorname) der Zielspalte first_name (Name_Vorname) zuordnen, erhält die zugeordnete Zielspalte den Namen first_name (Name_Vorname).

Konfigurieren der Ausführungsumgebung

Der letzte Schritt der Ausführungskonfiguration besteht in der Konfiguration der Umgebung.

Procedure

Optional: Aktivieren Sie die Option Keep row order (Zeilenreihenfolge beibehalten), wenn im Zieldatensatz dieselbe Zeilenreihenfolge wie im Quelldatensatz beibehalten werden soll. Dadurch wird u. U. die Ausführungszeit der Datenaufbereitung erhöht. Wenn die Datenaufbereitung Funktionen enthält, die von der Reihenfolge abhängig sind, ist diese Option standardmäßig aktiviert und kann nicht geändert werden.
Wählen Sie ein bestehendes Ausführungsprofil für die Ausführung der konfigurierten Datenaufbereitung aus.

Ausführungsprofile werden von Benutzern mit spezifischen Rollen in Talend Management Console erstellt.

Ausführungsprofile enthalten eine Reihe von Konfigurationen für die Ausführung von Pipelines auf einer Remote Engine Gen2 oder Cloud Engine for Design je nach dem Typ Ihrer Lizenz. In den Ausführungsprofilen können Sie eine geeignete Ressourcenzuweisung sowie erweiterte Eigenschaften für die Laufzeit festlegen. Je nach Lizenz- und Engine-Typ sind verschiedene Typen von Ausführungsprofilen verfügbar.

Standardmäßig wird das Ausführungsprofil ausgewählt, das auf der ersten verfügbaren Engine in der Liste basiert.

Weitere Informationen zu Ausführungsprofilen finden Sie unter Verwalten von Ausführungsprofilen.
Klicken Sie auf Run (Ausführen).

Results

Die Datenaufbereitung wird ausgeführt. Je nach Größe des Datensatzes und Schrittnummer kann es ein paar Sekunden oder Minuten bis zum Abschluss des Vorgangs dauern. Angaben zum jeweiligen Ausführungsstatus können Sie der Seite Run history (Ausführungsverlauf) entnehmen.

Weitere Informationen zum Ausführungsverlauf (Run history) finden Sie auf der Seite des Ausführungsverlaufs.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab

Ausführen von Datenaufbereitungen

Auswählen eines Ziels

Before you begin

Procedure

Mapping der Datenaufbereitungs- und Zielspalten

Konfigurieren der Ausführungsumgebung

Procedure

Results

In diesem Abschnitt

Hat diese Seite Ihnen geholfen?