Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Bulk-Laden von Daten aus Azure DLS Gen2 in Azure Synapse

Dieses Szenario soll Sie bei der Einrichtung und Verwendung von Konnektoren in einer Pipeline unterstützen. Es wird empfohlen, dass Sie das Szenario an Ihre Umgebung und Ihren Anwendungsfall anpassen.

Beispiel einer Pipeline, die anhand der nachfolgenden Anleitungen erstellt wurde.

Prozedur

  1. Klicken Sie auf Connections (Verbindungen) > Add connection (Verbindung hinzufügen).
  2. Wählen Sie den Typ der zu erstellenden Verbindung im daraufhin geöffneten Fenster aus.

    Example

    ADLS Gen2
  3. Wählen Sie in der Liste Engine Ihre Engine aus.
    InformationshinweisAnmerkung:
    • Es wird empfohlen, die Remote Engine Gen2 und nicht die Cloud Engine for Design für eine erweiterte Datenverarbeitung einzusetzen.
    • Wenn keine Remote Engine Gen2 in Talend Management Console erstellt wurde bzw. diese vorhanden, aber als nicht verfügbar markiert ist, d. h. sie ist nicht aktiv und wird nicht ausgeführt, dann können Sie weder einen Connection type (Verbindungstyp) in der Liste auswählen noch die neue Verbindung speichern.
    • Die Liste der verfügbaren Verbindungstypen richtet sich nach der ausgewählten Engine.
  4. Wählen Sie den Typ der zu erstellenden Verbindung aus.
    Wählen Sie ADLS Gen2 aus.
  5. Geben Sie die Verbindungseigenschaften für den Zugriff auf das Dateisystem Azure Data Lake Storage Gen2 wie in Eigenschaften von Azure Data Lake Storage Gen2 beschrieben ein, prüfen Sie die Verbindung und klicken Sie dann auf Add dataset (Datensatz hinzufügen).
  6. Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) einen Namen für Ihren Datensatz ein.

    Example

    BKO Taxi On ADLS Gen2
  7. Geben Sie die erforderlichen Eigenschaften für den Zugriff auf die Datei in Ihrem Speicherkonto ein und klicken Sie dann auf View sample (Sample anzeigen), um eine Vorschau Ihres Datensatz-Samples anzuzeigen.
    Konfiguration eines neuen Azure Data Lake Storage Gen2-Datensatzes.
    In diesem Fall wird eine CSV-Datei mit Daten zu Taxifahrtkosten in Bamako auf Mali im Ordner talend in einem Azure-Dateisystem mit der Bezeichnung talend-fs abgerufen. Sie können die Verzeichnisse Ihres Dateisystems auf der Seite des Storage-Explorer Ihres Azure Storage-Kontos anzeigen.
    Die CSV-Datei auf der Seite „Storage Explorer (Speicher-Explorer)“.
  8. Gehen Sie genauso vor, um die Azure Synapse-Tabelle hinzuzufügen, die bei der Ausführung Ihrer Pipeline erstellt wird, in diesem Beispiel mit dem Namen taxi_data (Taxidaten). Geben Sie die Verbindungseigenschaften gemäß der Beschreibung in Eigenschaften von Azure Synapse ein.
    Konfiguration eines neuen Azure Synapse-Datensatzes.
  9. Klicken Sie auf der Seite Pipelines auf Add pipeline (Pipeline hinzufügen). Ihre neue Pipeline wird geöffnet.
  10. Legen Sie einen sinnvollen Namen für die Pipeline fest.

    Example

    From ADLS Gen2 to Synapse - trip cost per distance covered (Von ADLS Gen2 zu Synapse - Fahrtkosten pro zurückgelegter Entfernung)
  11. Klicken Sie auf ADD SOURCE (QUELLE HINZUFÜGEN) und wählen Sie Ihren Quelldatensatz, BKO taxi on ADSL Gen2 (BKO-Taxi in ADSL Gen2), im daraufhin geöffneten Fenster aus.
  12. Klicken Sie auf add processor (Prozessor hinzufügen), um Prozessoren zur Pipeline hinzuzufügen, z. B. einen Typkonverter (Type converter), um Zeichenfolgenfelder (String) in Felder vom Typ Ganzzahl (Integer) oder Doppelwert (Double) zu konvertieren, eine Feldauswahl (Field selector) zur Filterung und Umbenennung einiger Datensätze und einen Prozessor des Typs Aggregate (Aggregieren), um die Kosten einer Fahrt auf der Grundlage der zurückgelegten Entfernung zu berechnen.
  13. (Optional) Klicken Sie auf den letzten Prozessor, um eine Vorschau der verarbeiteten Daten anzuzeigen.
    In der Ausgabedatenvorschau werden die Daten als Felder vom Typ „double (Doppelwert)“ angezeigt.
  14. Klicken Sie auf das Element ADD DESTINATION (ZIEL HINZUFÜGEN) der Pipeline, um ein Fenster zu öffnen, in dem Sie den Azure Blob auswählen können, in den Ihre Ausgabedaten geladen werden sollen.
  15. Legen Sie für das Ziel einen aussagekräftigen Namen fest, beispielsweise bulk load to Synapse (Bulk-Laden in Synapse).
  16. Wählen Sie auf der Registerkarte Configuration (Konfiguration) die Action (Aktion) aus, die mit der Tabelle (Bulk load (Bulk-Laden)) durchgeführt werden soll, und anschließend die zu verwendende Blob-Verbindung. Weitere Informationen zur Konfiguration von Azure Blob Storage finden Sie unter Azure Blob Storage.
    Konfigurationsregisterkarte des Zielelements.
  17. Klicken Sie auf Save (Speichern), um die Konfiguration zu speichern.
  18. Klicken Sie in der oberen Symbolleiste von Talend Cloud Pipeline Designer auf die Schaltfläche Run (Ausführen), um das Fenster zur Auswahl des Ausführungsprofils zu öffnen.
  19. Wählen Sie Ihr Ausführungsprofil in der Liste aus (weitere Informationen finden Sie unter „Ausführungsprofile“) und klicken Sie dann auf Run (Ausführen), um die Pipeline auszuführen.

Ergebnisse

Ihre Pipeline wird ausgeführt, die in Azure DLS Gen2 gespeicherten Informationen zu Taxifahrten wurden pro zurückgelegter Entfernung aggregiert und der Ausgabe-Flow wird in die Azure Synapse-Tabelle geladen, die bei Ausführung der Pipeline erstellt wird.
In einem Ordner der externen Tabellen sind die Daten für die Entfernung in km und die Gesamtkosten in Spalten enthalten.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!