Verwenden Sie eine Azure Data Lake Gen2-Verbindung, um ausgehend von einer Databricks Delta-Tabelle einen Datensatz herzustellen, und verwenden Sie ihn in Talend Cloud Data Preparation.
Prozedur
-
Klicken Sie auf .
-
Wählen Sie den Typ der zu erstellenden Verbindung im daraufhin geöffneten Fenster aus.
Example
Azure Data Lake Storage Gen2
-
Wählen Sie in der Liste Engine Ihre Engine aus.
InformationshinweisAnmerkung:
- Es wird empfohlen, die Remote Engine Gen2 und nicht die Cloud Engine for Design für eine erweiterte Datenverarbeitung einzusetzen.
- Wenn keine Remote Engine Gen2 in Talend Management Console erstellt wurde bzw. diese vorhanden, aber als nicht verfügbar markiert ist, d. h. sie ist nicht aktiv und wird nicht ausgeführt, dann können Sie weder einen Connection type (Verbindungstyp) in der Liste auswählen noch die neue Verbindung speichern.
- Die Liste der verfügbaren Verbindungstypen richtet sich nach der ausgewählten Engine.
-
Wählen Sie den Typ der zu erstellenden Verbindung aus.
Wählen Sie für dieses Beispiel Azure Data Lake Storage Gen2 aus.
-
Geben Sie die Verbindungseigenschaften für den Zugriff auf das Dateisystem Azure Data Lake Storage Gen2 wie in Eigenschaften von Azure Data Lake Storage Gen2 beschrieben ein, prüfen Sie die Verbindung und klicken Sie dann auf Add dataset (Datensatz hinzufügen).
-
Geben Sie im Fensterbereich Add a new dataset (Neuen Datensatz hinzufügen) einen Namen für Ihren Datensatz ein.
Example
Databricks Delta table (Databricks Delta-Tabelle)
-
Geben Sie die erforderlichen Eigenschaften ein, um auf die Delta-Tabelle in Ihrem Speicherkonto zuzugreifen.
-
Wählen Sie im Feld Format den Eintrag Delta aus.
-
Klicken Sie auf View sample (Sample anzeigen), um eine Vorschau Ihres Datensatzes anzuzeigen, und dann auf Validate (Validieren), um die Datensatzerstellung abzuschließen.
-
Um eine neue Datenaufbereitung für die Databricks Delta table (Databricks Delta-Tabelle) zu erstellen, stehen Ihnen folgende Möglichkeiten zur Auswahl:
- Positionieren Sie in der Liste Dataset (Datensatz) den Mauszeiger auf dem Datensatz, den Sie als Quellmaterial für die Datenaufbereitung verwenden möchten, klicken Sie auf das Symbol von Talend Cloud Data Preparation und wählen Sie Add (Hinzufügen) aus, um mit der Bearbeitung dieser Daten zu beginnen.
- Klicken Sie in der Liste der Datenaufbereitungen auf die Schaltfläche Add preparation (Datenaufbereitung hinzufügen). Geben Sie im daraufhin angezeigten Formular einen Namen für die Datenaufbereitung ein, wählen Sie den zuvor erstellten Quelldatensatz aus und klicken Sie dann auf Submit (Senden).
Ergebnisse
Die Datenaufbereitung wird direkt mit einem leeren Rezept geöffnet, und Sie können mit der Durchführung von Aufbereitungsvorgängen mit dem Databricks Delta-Datensatz beginnen. Die Datenaufbereitung wird in dem Ordner erstellt, in dem Sie zurzeit arbeiten. Darüber hinaus wird Ihre Datenaufbereitung automatisch in der Liste der Datenaufbereitungen gespeichert wie auch alle Änderungen, die Sie bei der Aufbereitung der Daten vornehmen.