Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Bereitstellen von Daten in einem Data Lake

Sie können eine Aufgabe Daten in Data Lake bereitstellen einrichten, um Daten an die folgenden Ziele bereitzustellen:

  • Amazon S3

    Weitere Informationen zum Konfigurieren einer Verbindung zu Ihrem Amazon S3 finden Sie unter Amazon S3.

  • Azure Data Lake Storage

    Weitere Informationen zum Konfigurieren einer Verbindung zu Ihrem Azure Data Lake Storage finden Sie unter Azure Data Lake Storage.

  • Google Cloud Storage

    Weitere Informationen zum Konfigurieren einer Verbindung zu Ihrem Google Cloud Storage finden Sie unter Google Cloud Storage.

TipphinweisSie können zwar die Quell- und Zielverbindungseinstellungen für Daten in Data Lake bereitstellen im Aufgabeneinrichtungs-Assistenten konfigurieren. Zum Vereinfachen der Einrichtung wird aber empfohlen, dies vor Erstellen der Aufgabe zu tun.

Informationen zum Konfigurieren von Verbindungen zu Ihren Datenquellen finden Sie unter Verbinden mit Datenquellen.

So richten Sie eine Data Lake-Bereitstellungsaufgabe ein:

  1. Klicken Sie in der oberen rechten Ecke auf die Schaltfläche Neu hinzufügen und wählen Sie Datenprojekt erstellen aus dem Dropdown-Menü aus.

  2. Gehen Sie im Dialogfeld Neues Datenprojekt wie folgt vor:

    1. Geben Sie einen Namen für Ihr Projekt an.

    2. Wählen Sie den Bereich aus, in dem das Projekt erstellt werden soll.
    3. Geben Sie optional eine Beschreibung an.
    4. Wählen Sie Replikation als Anwendungsfall aus.
    5. Deaktivieren Sie optional das Kontrollkästchen Öffnen, wenn Sie ein leeres Projekt erstellen und keine Einstellungen konfigurieren möchten.
    6. Klicken Sie auf Erstellen.

      Einer der folgenden Fälle tritt ein:

      • Wenn das Kontrollkästchen Öffnen im Dialogfeld Neues Datenprojekt aktiviert wurde (Standard), wird das Projekt geöffnet.
      • Wenn Sie das Kontrollkästchen Öffnen im Dialogfeld Neues Datenprojekt deaktiviert haben, wird das Projekt Ihrer Projektliste hinzugefügt. Sie können das Projekt später öffnen, indem Sie im Menü des Projekts die Option Öffnen auswählen.
  3. Nachdem das Projekt geöffnet wurde, klicken Sie auf Daten in Data Lake bereitstellen.

    Der Assistent Daten in Data Lake bereitstellen wird geöffnet.

  4. Geben Sie auf der Registerkarte Allgemein einen Namen und eine Beschreibung für die Data Lake-Bereitstellungsaufgabe an. Klicken Sie dann auf Weiter.

    InformationshinweisNamen, die Schrägstriche (/) oder umgekehrte Schrägstriche (\) enthalten, werden nicht unterstützt.
  5. Wählen Sie auf der Registerkarte Quellverbindung auswählen eine Verbindung zur Datenquelle aus. Sie können optional die Verbindungseinstellungen bearbeiten, indem Sie im Menü in der Spalte Aktionen die Option Bearbeiten auswählen.

    Wenn Sie noch keine Datenverbindung zur Datenquelle haben, müssen Sie zuerst eine einrichten, indem Sie oben rechts auf der Registerkarte auf Verbindung erstellen klicken.

    Sie können die Liste der Verbindung mit den Filtern auf der linken Seite filtern. Verbindungen können nach Quelltyp, Gateway, Bereich und Besitzer gefiltert werden. Die Schaltfläche Alle Filter über der Verbindungsliste zeigt die Anzahl der aktuellen Filter. Mithilfe dieser Schaltfläche können Sie das Filterfenster auf der linken Seite öffnen oder schließen. Derzeit aktive Filter werden auch oberhalb der Liste der verfügbaren Datenverbindungen angezeigt.

    Sie können die Liste auch sortieren, indem Sie in der Dropdown-Liste rechts Zuletzt geändert, Zuletzt erstellt oder Alphabetisch auswählen. Klicken Sie auf den Pfeil rechts neben der Liste, um die Sortierreihenfolge zu ändern.

    Nachdem Sie eine Datenquellenverbindung ausgewählt haben, klicken Sie optional oben rechts auf der Registerkarte auf Verbindung testen (empfohlen) und dann auf Weiter.

  6. Wählen Sie auf der Registerkarte Datensätze auswählen Tabellen und/oder Ansichten aus, die in die Data Lake-Bereitstellungsaufgabe eingeschlossen werden sollen. Sie können auch Platzhalter verwenden und Auswahlregeln erstellen, wie in Auswählen von Daten aus einer Datenbank beschrieben.

    InformationshinweisSchemanamen oder Tabellennamen, die Schrägstriche (/) oder umgekehrte Schrägstriche (\) enthalten, werden nicht unterstützt.
  7. Wählen Sie auf der Registerkarte Zielverbindung auswählen ein Ziel aus der Liste der verfügbaren Verbindungen aus und klicken Sie dann auf Weiter. Die Registerkarte funktioniert genauso wie die oben beschriebene Registerkarte Quellverbindung auswählen.

  8. Auf der Registerkarte Einstellungen können Sie optional die folgenden Einstellungen ändern und dann auf Weiter klicken.

    • Change Data Capture (CDC): Die Data Lake-Bereitstellungsaufgaben starten mit einem vollständigen Ladevorgang (bei dem alle ausgewählten Tabellen bereitgestellt werden). Die bereitgestellten Daten werden dann mit der CDC-Technologie (Change Data Capture) aktualisiert gehalten.

      InformationshinweisCDC (Change Data Capture) von DDL-Vorgängen wird nicht unterstützt.
    • Laden: Führt einen vollständigen Ladevorgang der Daten aus den ausgewählten Quelltabellen in die Zielplattform durch und erstellt bei Bedarf die Zieltabellen. Vollständiges Laden findet automatisch statt, wenn die Aufgabe gestartet wird, kann aber bei Bedarf auch manuell durchgeführt werden oder in regelmäßigen Intervallen geplant werden.

    Wenn Sie Change Data Capture (CDC) auswählen und Ihre Daten auch Tabellen, die CDC nicht unterstützen, oder Ansichten enthalten, werden zwei Daten-Pipelines erstellt. Eine Pipeline enthält alle Tabellen, die CDC unterstützen, und die andere Pipeline alle anderen Tabellen und Ansichten, die Neu laden verwenden.

    Wählen Sie eine der folgenden Optionen aus, je nachdem, in welchen Bucket-Ordner die Dateien geschrieben werden sollen:

    • Standardordner: Das Standard-Ordnerformat lautet <ihr-projektname>/<ihr-aufgabenname>
    • Stammordner: Die Dateien werden direkt in das Bucket geschrieben.
    • Ordner: Geben Sie den Ordnernamen ein. Wenn der Ordner nicht vorhanden ist, wird er während der Data Lake-Bereitstellungsaufgabe erstellt.

      Informationshinweis Der Ordnername darf keine Sonderzeichen (@, #, ! usw.) enthalten.
  9. Auf der Registerkarte Zusammenfassung wird eine Darstellung der Daten-Pipeline angezeigt. Wählen Sie, ob Sie die Aufgabe <name> öffnen oder Nichts tun möchten. Klicken Sie auf dann Erstellen.

    Je nach Ihrer Auswahl wird entweder die Aufgabe geöffnet oder es wird eine Liste der Projekte angezeigt.

  10. Wenn Sie wählen, die Aufgabe zu öffnen, werden auf der Registerkarte Datensätze die Struktur und die Metadaten der ausgewählten Datenobjekttabellen angezeigt. Dazu gehören alle explizit aufgelisteten Tabellen sowie Tabellen, die mit den Auswahlregeln übereinstimmen.

    Wenn Sie weitere Tabellen aus der Datenquelle hinzufügen möchten, klicken Sie auf Quelldaten auswählen.

  11. Optional können Sie die Aufgabeneinstellungen wie in Einstellungen für die Bereitstellung in einem Data Lake beschrieben ändern.

  12. Sie können Umwandlungen auf die Datensätze anwenden, Daten filtern oder Spalten hinzufügen.

    Weitere Informationen finden Sie unter Verwalten von Datensätzen.

  13. Wenn Sie die gewünschten Transformationen hinzugefügt haben, können Sie die Datasets validieren, indem Sie auf Datensätze validieren klicken. Falls die Validierung fehlschlägt, beheben Sie die Fehler, bevor Sie fortfahren.

    Weitere Informationen finden Sie unter Validieren und Anpassen der Datensätze.

  14. Wenn Sie bereit sind, klicken Sie auf Vorbereiten, um die Bereitstellungsaufgabe zu katalogisieren und für die Ausführung vorzubereiten.

  15. Nachdem die Datenaufgabe vorbereitet ist, klicken Sie auf Ausführen.

  16. Jetzt wird die Data Lake-Bereitstellungsaufgabe gestartet. Sie können den Fortschritt in der Ansicht Überwachen überwachen. Weitere Informationen finden Sie unter Überwachen einer einzelnen Datenaufgabe.

Festlegen der Ladepriorität für Datensätze

Sie können die Ladereihenfolge der Datensätze in Ihrer Datenaufgabe steuern, indem Sie jedem Datensatz eine Ladepriorität zuweisen. Das kann zum Beispiel nützlich sein, wenn kleinere Datensätze vor größeren Datensätzen geladen werden sollen.

  1. Klicken Sie auf Ladepriorität.

  2. Wählen Sie für jeden Datensatz eine Ladepriorität aus.

    Die Standard-Ladepriorität ist Normal. Datensätze werden in der folgenden Prioritätsreihenfolge geladen:

    • Höchste

    • Höher

    • Hoch

    • Normal

    • Niedrig

    • Niedriger

    • Niedrigste

    Datensätze mit der gleichen Priorität werden in keiner bestimmten Reihenfolge geladen.

  3. Klicken Sie auf OK.

InformationshinweisDatensätze aus SaaS-Anwendungsquellen können Abhängigkeiten in der Ladereihenfolge enthalten. Beachten Sie dies beim Festlegen der Ladepriorität.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!