Bereitstellen von Daten in einem Data Lake mit einem Standard-, Premium- oder Enterprise-Abonnement
Sie können eine Aufgabe Daten in Data Lake bereitstellen einrichten, um Daten an die folgenden Ziele bereitzustellen:
Amazon S3
Weitere Informationen zum Konfigurieren einer Verbindung zu Ihrem Amazon S3 finden Sie unter Amazon S3.
Azure Data Lake Storage
Weitere Informationen zum Konfigurieren einer Verbindung zu Ihrem Azure Data Lake Storage finden Sie unter Azure Data Lake Storage.
Google Cloud Storage
Weitere Informationen zum Konfigurieren einer Verbindung zu Ihrem Google Cloud Storage finden Sie unter Google Cloud Storage.
Informationen zum Konfigurieren von Verbindungen zu Ihren Datenquellen finden Sie unter Einrichten von Verbindungen zu Datenquellen.
So richten Sie eine Data Lake-Bereitstellungsaufgabe ein:
Klicken Sie in Data Integration > Projekte auf Projekt erstellen.
Gehen Sie im Dialogfeld Neues Projekt wie folgt vor:
Geben Sie einen Namen für Ihr Projekt an.
- Wählen Sie den Bereich aus, in dem das Projekt erstellt werden soll.
- Geben Sie optional eine Beschreibung an.
- Wählen Sie Replikation als Anwendungsfall aus.
- Deaktivieren Sie optional das Kontrollkästchen Öffnen, wenn Sie ein leeres Projekt erstellen und keine Einstellungen konfigurieren möchten.
Klicken Sie auf Erstellen.
Einer der folgenden Fälle tritt ein:
- Wenn das Kontrollkästchen Öffnen im Dialogfeld Neues Projekt aktiviert wurde (Standard), wird das Projekt geöffnet.
- Wenn Sie das Kontrollkästchen Öffnen im Dialogfeld Neues Projekt deaktiviert haben, wird das Projekt Ihrer Projektliste hinzugefügt. Sie können das Projekt später öffnen, indem Sie im Menü des Projekts die Option Öffnen auswählen.
Nachdem das Projekt geöffnet wurde, klicken Sie auf Daten in Data Lake bereitstellen.
Der Assistent Daten in Data Lake bereitstellen wird geöffnet.
Geben Sie auf der Registerkarte Allgemein einen Namen und eine Beschreibung für die Data Lake-Bereitstellungsaufgabe an. Klicken Sie dann auf Weiter.
InformationshinweisNamen, die Schrägstriche (/) oder umgekehrte Schrägstriche (\) enthalten, werden nicht unterstützt.Wählen Sie auf der Registerkarte Quellverbindung auswählen eine Verbindung zur Datenquelle aus. Sie können optional die Verbindungseinstellungen bearbeiten, indem Sie im Menü in der Spalte Aktionen die Option Bearbeiten auswählen.
Wenn Sie noch keine Verbindung zur Datenquelle haben, müssen Sie zuerst eine erstellen, indem Sie oben rechts auf der Registerkarte auf Verbindung erstellen klicken.
Sie können die Liste der Verbindung mit den Filtern auf der linken Seite filtern. Verbindungen können nach Quelltyp, Gateway, Bereich und Besitzer gefiltert werden. Die Schaltfläche Alle Filter über der Verbindungsliste zeigt die Anzahl der aktuellen Filter. Mithilfe dieser Schaltfläche können Sie das Fenster Filter auf der linken Seite öffnen oder schließen. Derzeit aktive Filter werden auch oberhalb der Liste der verfügbaren Verbindungen angezeigt.
Sie können die Liste auch sortieren, indem Sie in der Dropdown-Liste rechts Zuletzt geändert, Zuletzt erstellt oder Alphabetisch auswählen. Klicken Sie auf den Pfeil rechts neben der Liste, um die Sortierreihenfolge zu ändern.
Nachdem Sie eine Datenquellenverbindung ausgewählt haben, klicken Sie optional oben rechts auf der Registerkarte auf Verbindung testen (empfohlen) und dann auf Weiter.
Wählen Sie auf der Registerkarte Datensätze auswählen Tabellen und/oder Ansichten aus, die in die Data Lake-Bereitstellungsaufgabe eingeschlossen werden sollen. Sie können auch Platzhalter verwenden und Auswahlregeln erstellen, wie in Auswählen von Daten aus einer Datenbank beschrieben.
InformationshinweisSchemanamen oder Tabellennamen, die Schrägstriche (/) oder umgekehrte Schrägstriche (\) enthalten, werden nicht unterstützt.Wählen Sie auf der Registerkarte Zielverbindung auswählen ein Ziel aus der Liste der verfügbaren Verbindungen aus und klicken Sie dann auf Weiter. Die Registerkarte funktioniert genauso wie die oben beschriebene Registerkarte Quellverbindung auswählen.
Auf der Registerkarte Einstellungen können Sie optional die folgenden Einstellungen ändern und dann auf Weiter klicken.
Aktualisierungsmethode:
Change Data Capture (CDC): Die Data Lake-Bereitstellungsaufgaben starten mit einem vollständigen Ladevorgang (bei dem alle ausgewählten Tabellen bereitgestellt werden). Die bereitgestellten Daten werden dann mit der CDC-Technologie (Change Data Capture) aktualisiert gehalten.
InformationshinweisCDC (Change Data Capture) von DDL-Vorgängen wird nicht unterstützt.Bei der Arbeit mit Data Movement Gateway werden Änderungen an der Quelle nahezu in Echtzeit erfasst. Bei der Arbeit ohne Data Movement Gateway werden Änderungen entsprechend den Scheduler-Einstellungen erfasst. Weitere Informationen finden Sie unter Planen von Aufgaben beim Arbeiten ohne Data Movement Gateway.
- Laden: Führt einen vollständigen Ladevorgang der Daten aus den ausgewählten Quelltabellen in die Zielplattform durch und erstellt bei Bedarf die Zieltabellen. Vollständiges Laden findet automatisch statt, wenn die Aufgabe gestartet wird, kann aber bei Bedarf auch manuell durchgeführt werden oder in regelmäßigen Intervallen geplant werden.
Wenn Sie Change Data Capture (CDC) auswählen und Ihre Daten auch Tabellen, die CDC nicht unterstützen, oder Ansichten enthalten, werden zwei Daten-Pipelines erstellt. Eine Pipeline enthält alle Tabellen, die CDC unterstützen, und die andere Pipeline alle anderen Tabellen und Ansichten, die Neu laden verwenden.
Zu verwendender Ordner:
Wählen Sie eine der folgenden Optionen aus, je nachdem, in welchen Bucket-Ordner die Dateien geschrieben werden sollen:
- Standardordner: Das Standard-Ordnerformat lautet <ihr-projektname>/<ihr-aufgabenname>
- Stammordner: Die Dateien werden direkt in das Bucket geschrieben.
Ordner: Geben Sie den Ordnernamen ein. Wenn der Ordner nicht vorhanden ist, wird er während der Data Lake-Bereitstellungsaufgabe erstellt.
Informationshinweis Der Ordnername darf keine Sonderzeichen (@, #, ! usw.) enthalten.
Auf der Registerkarte Zusammenfassung wird eine Darstellung der Daten-Pipeline angezeigt. Wählen Sie, ob Sie die Aufgabe <name> öffnen oder Nichts tun möchten. Klicken Sie auf dann Erstellen.
Je nach Ihrer Auswahl wird entweder die Aufgabe geöffnet oder es wird eine Liste der Projekte angezeigt.
Wenn Sie wählen, die Aufgabe zu öffnen, werden auf der Registerkarte Datensätze die Struktur und die Metadaten der ausgewählten Datenobjekttabellen angezeigt. Dazu gehören alle explizit aufgelisteten Tabellen sowie Tabellen, die mit den Auswahlregeln übereinstimmen.
Wenn Sie weitere Tabellen aus der Datenquelle hinzufügen möchten, klicken Sie auf Quelldaten auswählen.
Optional können Sie die Aufgabeneinstellungen wie in Einstellungen für Cloud-Speicherziele beschrieben ändern.
Sie können Umwandlungen auf die Datensätze anwenden, Daten filtern oder Spalten hinzufügen.
Weitere Informationen finden Sie unter Verwalten von Datensätzen.
Wenn Sie die gewünschten Transformationen hinzugefügt haben, können Sie die Datasets validieren, indem Sie auf Datensätze validieren klicken. Falls die Validierung fehlschlägt, beheben Sie die Fehler, bevor Sie fortfahren.
Weitere Informationen finden Sie unter Validieren und Anpassen der Datensätze.
Wenn Sie bereit sind, klicken Sie auf Vorbereiten, um die Bereitstellungsaufgabe zu katalogisieren und für die Ausführung vorzubereiten.
Nachdem die Datenaufgabe vorbereitet ist, klicken Sie auf Ausführen.
Jetzt wird die Data Lake-Bereitstellungsaufgabe gestartet. Sie können den Fortschritt in der Ansicht Überwachen überwachen. Weitere Informationen finden Sie unter Überwachen einer einzelnen Datenaufgabe.
Festlegen der Ladepriorität für Datensätze
Sie können die Ladereihenfolge der Datensätze in Ihrer Datenaufgabe steuern, indem Sie jedem Datensatz eine Ladepriorität zuweisen. Das kann zum Beispiel nützlich sein, wenn kleinere Datensätze vor größeren Datensätzen geladen werden sollen.
Klicken Sie auf Ladepriorität.
Wählen Sie für jeden Datensatz eine Ladepriorität aus.
Die Standard-Ladepriorität ist Normal. Datensätze werden in der folgenden Prioritätsreihenfolge geladen:
Höchste
Höher
Hoch
Normal
Niedrig
Niedriger
Niedrigste
Datensätze mit der gleichen Priorität werden in keiner bestimmten Reihenfolge geladen.
Klicken Sie auf OK.
Aktualisieren von Metadaten
Sie können die Metadaten in der Aufgabe in der Ansicht Design einer Aufgabe aktualisieren, um sie an Änderungen in den Metadaten in der Quelle auszurichten. Für SaaS-Anwendungen, die Metadata Manager verwenden, muss Metadata Manager aktualisiert werden, bevor Sie Metadaten in der Datenaufgabe aktualisieren können.
Sie haben folgende Möglichkeiten:
Klicken Sie auf ... und dann auf Metadaten aktualisieren, um Metadaten für alle Datensätze in der Aufgabe zu aktualisieren.
Klicken Sie auf ... in einem Datensatz in Datensätze und dann auf Metadaten aktualisieren, um Metadaten für einen einzelnen Datensatz zu aktualisieren.
Sie können den Status der Metadatenaktualisierung unter Metadaten aktualisieren unten im Bildschirm anzeigen. Wenn Sie den Cursor über bewegen, können Sie sehen, wann die Metadaten zuletzt aktualisiert wurden.
Bereiten Sie die Datenaufgabe vor, um die Änderungen anzuwenden.
Wenn Sie die Datenaufgabe vorbereitet haben und die Änderungen angewendet wurden, werden die Änderungen aus Metadaten aktualisieren entfernt.
Sie müssen Speicheraufgaben vorbereiten, die diese Aufgabe nutzen, um die Änderungen weiterzugeben.
Wenn eine Spalte entfernt wird, wird eine Umwandlung mit Null-Werten hinzugefügt, um sicherzustellen, dass im Speicher keine historischen Daten verloren gehen.
Einschränkungen für die Aktualisierung von Metadaten
Wenn vor dem Umbenennen im gleichen Zeitfenster eine Spalte gelöscht wurde, führt dies zur Umbenennung der gelöschten Spalte, falls sie den gleichen Datentyp und die gleiche Datenlänge hat.
Beispiel:
Vorher: a b c d
Nachher: a c1 d
In diesem Beispiel wurde b gelöscht und c in c1 umbenannt, und b und c haben den gleichen Datentyp und die gleiche Datenlänge.
Dies wird als Umbenennung von b in c1 und Löschen von c interpretiert.
Die Umbenennung der letzten Spalte wird nicht erkannt, auch wenn die letzte Spalte gelöscht und die vorherige umbenannt wurde.
Beispiel:
Vorher: a b c d
Nachher: a b c1
In diesem Beispiel wurde d gelöscht und c in c1 umbenannt.
Dies wird als Löschen von c und d und Hinzufügen von c1 interpretiert.
Es wird davon ausgegangen, dass neue Spalten am Ende hinzugefügt werden. Wenn Spalten in der Mitte mit dem gleichen Datentyp wie die nächste Spalte hinzugefügt werden, kann dies als Löschen und Umbenennen interpretiert werden.
Schemaentwicklung
Mit der Schemaentwicklung können Sie strukturelle Änderungen an mehreren Datenquellen leicht erkennen und dann steuern, wie diese Änderungen auf Ihre Aufgabe angewendet werden. Mit der Schemaentwicklung können DDL-Änderungen am Schema der Datenquelle erkannt werden. Sie können einige Änderungen auch automatisch übernehmen.
Für jeden Änderungstyp können Sie im Abschnitt Schemaentwicklung der Aufgabeneinstellungen auswählen, wie die Änderungen behandelt werden sollen. Sie können die Änderungen übernehmen oder ignorieren, die Tabelle aussetzen oder die Aufgabenverarbeitung anhalten.
Sie können für jeden Änderungstyp festlegen, welche Aktion für die Bearbeitung der DDL-Änderung verwendet werden soll. Einige Aktionen sind nicht für alle Änderungstypen verfügbar.
Auf Ziel anwenden
Änderungen werden automatisch angewendet.
Ignorieren
Änderungen werden ignoriert.
Tabelle aussetzen
Die Tabelle wird ausgesetzt. Die Tabelle wird in Überwachen als fehlerhaft angezeigt.
Aufgabe anhalten
Die Bearbeitung der Aufgabe wird angehalten. Dies ist nützlich, wenn Sie alle Schemaänderungen manuell durchführen möchten. Dadurch wird auch die Planung angehalten, d. h. geplante Ausführungen werden nicht durchgeführt.
Die folgenden Änderungen werden unterstützt:
Spalte hinzufügen
Spalte umbenennen
Spaltendatentyp ändern
Tabelle hinzufügen, die dem Auswahlmuster entspricht
Wenn Sie eine Auswahlregel verwendet haben, um Datensätze hinzuzufügen, die einem Muster entsprechen, werden neue Tabellen, die mit dem Muster übereinstimmen, erkannt und hinzugefügt.
Weitere Informationen zu Aufgabeneinstellungen finden Sie unter Schemaentwicklung.
Sie können auch Benachrichtigungen über Änderungen erhalten, die mit Schemaentwicklung gehandhabt werden. Weitere Informationen finden Sie unter Einrichten von Benachrichtigungen für Änderungen am Betrieb.
Einschränkungen für die Schemaentwicklung
Die folgenden Einschränkungen gelten für die Schemaentwicklung:
Schemaentwicklung wird nur unterstützt, wenn Sie CDC als Aktualisierungsmethode verwenden.
Wenn Sie die Einstellungen für die Schemaentwicklung geändert haben, müssen Sie die Aufgabe erneut vorbereiten.
Wenn Sie Tabellen umbenennen, wird die Schemaentwicklung nicht unterstützt. In diesem Fall müssen Sie die Metadaten aktualisieren, bevor Sie die Aufgabe vorbereiten.
Wenn Sie eine Aufgabe entwerfen, müssen Sie den Browser aktualisieren, um Änderungen an der Schemaentwicklung zu erhalten. Sie können Benachrichtigungen festlegen, um bei Änderungen einen Alarm zu erhalten.
Bei Bereitstellungsaufgaben wird das Löschen einer Spalte nicht unterstützt. Das Löschen einer Spalte und das Hinzufügen einer neuen Spalte führt zu einem Tabellenfehler.
Bei Bereitstellungsaufgaben wird die Tabelle bei einem Tabellenlöschvorgang nicht gelöscht. Wenn Sie eine Tabelle löschen und dann eine Tabelle hinzufügen, wird nur die alte Tabelle abgeschnitten und es wird keine neue Tabelle hinzugefügt.
Das Ändern der Spaltenlänge ist nicht für alle Ziele möglich, je nach Unterstützung in der Zieldatenbank.
Wenn ein Spaltenname geändert wird, werden explizite Umwandlungen, die mit dieser Spalte definiert wurden, nicht wirksam, da sie auf dem Spaltennamen basieren.
Die Einschränkungen für die Aktualisierung von Metadaten gelten auch für die Schemaentwicklung.
Beim Erfassen von DDL-Änderungen gelten die folgenden Einschränkungen:
Wenn in der Quelldatenbank eine schnelle Abfolge von Vorgängen stattfindet (z.B. DDL>DML>DDL), kann Qlik Talend Data Integration das Protokoll in der falschen Reihenfolge analysieren, was zu fehlenden Daten oder unvorhersehbarem Verhalten führt. Um dieses Risiko zu minimieren, wird als Best Practice empfohlen, zu warten, bis die Änderungen auf das Ziel angewendet wurden, bevor Sie den nächsten Vorgang durchführen.
Wenn beispielsweise während der Änderungserfassung eine Quelltabelle mehrmals kurz hintereinander umbenannt wird (und der zweite Vorgang sie wieder in ihren ursprünglichen Namen zurückbenennt), kann der Fehler „Tabelle ist in der Zieldatenbank bereits vorhanden“ auftreten.
- Wenn Sie den Namen einer Tabelle ändern, die in einer Aufgabe verwendet wird, und dann die Aufgabe anhalten, erfasst Qlik Talend Data Integration keine Änderungen, die nach dem Fortsetzen der Aufgabe an dieser Tabelle vorgenommen werden.
Das Umbenennen einer Quelltabelle, während eine Aufgabe angehalten ist, wird nicht unterstützt.
- Die Neuzuweisung der Primärschlüsselspalten einer Tabelle wird nicht unterstützt (und daher auch nicht in die DDL-Verlauf-Kontrolltabelle geschrieben).
- Wenn der Datentyp einer Spalte geändert wird und die (gleiche) Spalte dann umbenannt wird , während die Aufgabe angehalten ist, wird die DDL-Änderung in der DDL-Verlauf-Kontrolltabelle als „Spalte verwerfen“ und nach Fortsetzen der Aufgabe als „Spalte hinzufügen“ angezeigt. Beachten Sie, dass dasselbe Verhalten auch als Folge einer längeren Latenzzeit auftreten kann.
- CREATE TABLE-Vorgänge, die in der Quelle ausgeführt werden, während eine Aufgabe angehalten ist, werden auf das Ziel angewendet, wenn die Aufgabe fortgesetzt wird, werden jedoch nicht als DDL in der DDL-Verlauf-Kontrolltabelle aufgezeichnet.
Vorgänge, die mit Metadatenänderungen verbunden sind (z.B. ALTER TABLE, Reorganisation, Neuerstellung eines geclusterten Index usw.) können zu unvorhersehbarem Verhalten führen, wenn sie zu folgenden Zeitpunkten durchgeführt werden:
bei vollständigem Laden
-ODER-
zwischen dem Zeitstempel Änderungsverarbeitung beginnen ab und der aktuellen Uhrzeit (d. h. dem Zeitpunkt, zu dem der Benutzer im Dialogfeld Erweiterte Ausführungsoptionen auf OK klickt).
Beispiel:
WENN:
die angegebene Uhrzeit für Änderungsverarbeitung beginnen ab 10:00 Uhr ist
UND:
um 10:10 Uhr der Tabelle Mitarbeiter eine Spalte namens Alter hinzugefügt wurde
UND:
der Benutzer im Dialogfeld Erweiterte Ausführungsoptionen um 10:15 Uhr auf OK klickt
DANN:
können Änderungen, die zwischen 10:00 und 10:10 Uhr vorgenommen wurden, zu CDC-Fehlern führen.
InformationshinweisIn jedem der oben genannten Fälle müssen die betroffenen Tabellen neu geladen werden, damit die Daten ordnungsgemäß an das Ziel verschoben werden können.
- Der DDL-Befehl
ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <>
repliziert den Standardwert nicht in das Ziel und die neue/geänderte Spalte wird auf NULL gesetzt. Beachten Sie, dass dies auch dann vorkommen kann, wenn die DDL, von der die Spalte hinzugefügt/geändert wurde, in der Vergangenheit ausgeführt wurde. Wenn die neue/geänderte Spalte nullfähig ist, aktualisiert der Quellendpunkt alle Tabellenzeilen, bevor die DDL selbst protokolliert wird. Infolgedessen erfasst Qlik Talend Data Integration die Änderungen, aktualisiert aber nicht das Ziel. Da die neue/geänderte Spalte auf NULL gesetzt wird, wenn die Zieltabelle keinen Primärschlüssel/eindeutigen Index hat, wird bei nachfolgenden Aktualisierungen die Meldung "null Zeilen betroffen" ausgegeben. Änderungen an den Präzisionsspalten TIMESTAMP und DATE werden nicht erfasst.
Einschränkungen und Überlegungen beim Bereitstellen von Daten in einem Data Lake
Umwandlungen unterliegen folgenden Einschränkungen:
- Umwandlungen werden für Spalten mit Sprachen, die von rechts nach links geschrieben werden, nicht unterstützt.
Umwandlungen können nicht für Spalten durchgeführt werden, die Sonderzeichen (z. B. #, \, /, -) in ihrem Namen enthalten.
- Die einzige unterstützte Umwandlung für LOB/CLOB-Datentypen ist das Ablegen der Spalte auf das Ziel.
- Die Verwendung einer Umwandlung zur Umbenennung einer Spalten und anschließenden Hinzufügung einer neuen Spalten mit demselben Namen wird nicht unterstützt.
Das Ändern der Nullfähigkeit, entweder direkt oder über eine Umwandlungsregel, wird für Spalten, die verschoben werden, nicht unterstützt. Neue Spalten, die in der Aufgabe erstellt werden, sind jedoch standardmäßig nullfähig.