Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Streamen von Daten

Der Eingliederungsprozess überträgt Daten von der Quelle und speichert sie in Iceberg-Tabellen. Änderungen aus den Streaming-Datenquellen werden kontinuierlich und nahezu in Echtzeit auf die Speichertabellen angewendet.

Onboarding für Daten

Daten werden innerhalb eines Pipeline-Projekts eingegliedert und Datensätze werden am S3-Speicherort gespeichert, der in den Projekteinstellungen definiert ist.

  1. Klicken Sie im Projekt auf Erstellen und dann auf Daten eingliedern.

  2. Fügen Sie einen Aufgabennamen und eine Beschreibung für die Eingliederung hinzu.

    Klicken Sie auf Weiter.

  3. Wählen Sie die Quellverbindung aus.

    Sie können eine bestehende Streaming-Quellverbindung auswählen oder eine neue Verbindung zur Quelle erstellen.

    Weitere Informationen finden Sie unter Verbinden mit Daten-Streams.

    Klicken Sie auf Weiter und folgen Sie den Anweisungen unten für Ihre Datenquelle.

Auswählen von Daten

Apache Kafka und Amazon Kinesis

Die Liste zeigt die verfügbaren Kafka-Themen oder Kinesis-Streams vom Host, der in der Quellverbindung definiert ist.

Bei der Auswahl von Themen bzw. Streams können Sie bestimmte Datensätze auswählen oder Auswahlregeln zum Ein- oder Ausschließen von Datensatzgruppen verwenden:

  • Verwenden Sie % als Wildcard, um ein Auswahlkriterium für die Datensätze zu definieren.

  • %.% definiert alle Datensätze in allen Streams.

Wenn Themen mithilfe von Auswahlregeln ausgewählt werden, können Sie wählen, ob alle Datensätze in dieselbe Zieltabelle geladen werden sollen oder ob für jedes Quellthema eine separate Zieltabelle erstellt werden soll:

  • Standardmäßig wird der Name der Iceberg-Zieltabelle vom Themennamen abgeleitet und formatiert, um den Namenskonventionen zu entsprechen (z. B. Kleinbuchstaben, Leerzeichen entfernt, Bindestriche durch Unterstriche ersetzt). Unter Name des Zieldatensatzes definieren können Sie den Namen der Zieltabelle bearbeiten.

  • Wenn Auswahlregeln verwendet werden, um mehrere Themen in eine einzige Tabelle zu laden, müssen Sie den Zielnamen angeben.

  • Wenn Auswahlregeln verwendet werden und die Daten in separate Tabellen (ein Datensatz pro Thema) geladen werden, sind die Standard-Zielnamen die Themennamen. In dieser Phase können Sie die Namen im Assistenten nicht bearbeiten, dies kann jedoch später in der Bereitstellungsaufgabe erfolgen.

  • Wenn eine Regel so konfiguriert ist, dass Themen für das Einlesen ausgewählt werden, werden alle neuen Themen, die die Regelkriterien erfüllen, ebenfalls bereitgestellt, wenn die Option Neues Thema  > Zu Ziel hinzufügen unter „Schemaentwicklung“ in den Einstellungen der Bereitstellungsaufgabe aktiviert ist.

Wählen Sie einen oder mehrere Datensätze aus und klicken Sie auf Ausgewählte Streams hinzufügen. Sie können die hinzugefügten Datensätze unter Explizit ausgewählte Streams anzeigen. Klicken Sie auf Weiter.

Amazon S3

Der Verzeichnis-Browser zeigt eine Liste aller Verzeichnisse an, die sich im S3-Bucket Ihrer Quellverbindung befinden. 

  • Wählen Sie die Verzeichnisse aus, die beim Bereitstellen von Daten eingeschlossen werden sollen:

    • Geben Sie für jedes Verzeichnis unter Pfad hinzufügen den Pfad und das Dateinamensmuster ein:

      • Verwenden Sie * als Wildcard, die beliebigen Zeichen entspricht.

      • Um ein Datumsmuster einzugeben, verwenden Sie <yyyy> als Platzhalter für das vierstellige Jahr, <MM> als Platzhalter für den zweistelligen Monat, <dd> als Platzhalter für den zweistelligen Tag und <HH> als Platzhalter für die zweistellige Stunde. Beispiel:

        • MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv

        • MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv

  • Klicken Sie auf Vorschau, um das Dialogfeld Datenvorschau zu öffnen. Eine Liste der ein- und ausgeschlossenen Dateien wird angezeigt.

  • Klicken Sie auf Validieren, um die Daten zu überprüfen.

  • Geben Sie unter Zieldatensatznamen definieren einen Namen an, um das Thema der Iceberg-Zieltabelle zuzuordnen. Klicken Sie auf Weiter.

Auswählen des Inhaltstyps

Wählen Sie den Inhaltstyp der Quellereignisse aus.

  • Wählen Sie den Typ der Ereignisse, die Sie erfassen, unter Typ der Datenereignisse auswählen aus.

  • Weitere Informationen finden Sie unter „Verbinden mit Daten-Streams“.

    Der ausgewählte Inhaltstyp gilt für alle Themen. Sie müssen für jeden Inhaltstyp, den Sie einlesen möchten, eine neue Aufgabe erstellen.

  • Erweitern Sie Ordnungsgemäßes Laden der Elemente sicherstellen, um zu bestätigen, dass die Daten analysiert werden können. Sie müssen sicherstellen, dass die Daten in dieser Phase korrekt sind, andernfalls müssen Sie die Pipeline neu erstellen und die Daten erneut laden. Verwenden Sie Datensatz auswählen, um bestimmte Datensätze zu untersuchen und Warnungen zu prüfen, die das Laden der Daten betreffen könnten. Klicken Sie auf das Augensymbol neben beliebigen Strukturspalten, um die Daten anzuzeigen.

  • Klicken Sie auf Weiter.

Festlegen von Einleseeigenschaften

Konfigurieren Sie die Einstellungen für Ihre Pipeline:

  • Daten lesen aus

    • Ab dem frühesten Ereignis starten: Alle Verlaufsdaten werden eingelesen.

    • Ab jetzt starten: Neue Daten, die ab dem Start der Pipeline eingehen, werden eingelesen.

  • Verschachtelung der Spalten wird aufgehoben

    • Verschachtelte Spalten beibehalten: Es werden keine Umwandlungen angewendet.

    • In separate Spalten aufteilen: Daten werden in separate Spalten aufgeteilt.

  • Einstellungen laden

    • Nur anhängen: Dies ist im Allgemeinen die beste Option für Ereignisdaten, da diese normalerweise eine kurze Lebensdauer haben und nicht aktualisiert werden, zum Beispiel Bestellungen.

    • Zusammenführen: Dies eignet sich am besten für Daten, die im Lauf der Zeit aktualisiert werden, zum Beispiel Kunden.

  • Partition der Zieltabelle

    Die Option für die Zieltabellenpartition gilt für alle Tabellen in der Pipeline. Sie können dies später auf Tabellenebene für eine benutzerdefinierte Partitionierung überschreiben.

    • Keine Partition: Tabellen werden ohne Partitionen erstellt.

    • Nach Übernahmedatum des Ereignisses partitionieren: Die Tabellen werden anhand des Datums partitioniert, an dem die Ereignisse eingelesen werden.

  • Klicken Sie auf Weiter.

Zusammenfassung

Der Übersichtsbildschirm bietet eine visuelle Darstellung Ihrer Pipeline:

  • Optional können Sie für die Streaming-Bereitstellungs- und Streaming-Umwandlungsaufgabe auf Namen und Beschreibung bearbeiten klicken, um neue Werte anzugeben.

  • Wählen Sie die Option für die Aktion Nach dem Erstellen der Pipeline aus.

  • Wenn Sie alle Einstellungen konfiguriert haben, klicken Sie auf Erstellen, um das Pipeline-Projekt zu erstellen.

  • Wenn das Projekt angezeigt wird, können Sie jede Aufgabe vorbereiten und ausführen, um mit der Datenerfassung zu beginnen.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!