Einstellungen für Cloud-Speicherziele
Sie können die Standardeinstellungen für die Bereitstellung in einem Data Lake nach Bedarf ändern.
Allgemein
Aktualisierungsmethode
Sie können Daten mit zwei unterschiedlichen Modi bereitstellen: Der Modus kann nicht mehr geändert werden, nachdem das Data Lake-Bereitstellungsaufgabe vorbereitet wurde.
-
Change Data Capture (CDC): Die Data Lake-Bereitstellungsaufgaben starten mit einem vollständigen Ladevorgang (bei dem alle ausgewählten Tabellen bereitgestellt werden). Die bereitgestellten Daten werden dann mit der CDC-Technologie (Change Data Capture) aktualisiert gehalten.
InformationshinweisCDC (Change Data Capture) von DDL-Vorgängen wird nicht unterstützt.Bei der Arbeit mit Data Movement Gateway werden Änderungen an der Quelle nahezu in Echtzeit erfasst. Bei der Arbeit ohne Data Movement Gateway werden Änderungen entsprechend den Scheduler-Einstellungen erfasst. Weitere Informationen finden Sie unter Planen von Aufgaben beim Arbeiten ohne Data Movement Gateway.
- Laden: Führt einen vollständigen Ladevorgang der Daten aus den ausgewählten Quelltabellen in die Zielplattform durch und erstellt bei Bedarf die Zieltabellen. Vollständiges Laden findet automatisch statt, wenn die Aufgabe gestartet wird, kann aber bei Bedarf auch manuell durchgeführt werden oder in regelmäßigen Intervallen geplant werden.
Zu verwendender Ordner
Wählen Sie eine der folgenden Optionen aus, je nachdem, in welchen Bucket-Ordner die Dateien geschrieben werden sollen:
- Standardordner: Das Standard-Ordnerformat lautet <ihr-projektname>/<ihr-aufgabenname>
- Stammordner: Die Dateien werden direkt in das Bucket geschrieben.
-
Ordner: Geben Sie den Ordnernamen ein. Wenn der Ordner nicht vorhanden ist, wird er während der Data Lake-Bereitstellungsaufgabe erstellt.
Informationshinweis Der Ordnername darf keine Sonderzeichen (@, #, ! usw.) enthalten.
Änderungsdatenpartitionierung
In einer Standard-Bereitstellungsaufgabe werden die Änderungen ohne bestimmte Reihenfolge im Ziel bereitgestellt. Änderungsdatenpartitionierung ermöglicht das Verarbeiten von Änderungsdaten aus zahlreichen Tabellen auf einheitliche Weise. Sie können die Dauer der Partitionen und die Partitionierungs-Basiszeit definieren. Damit stellen Sie die Einheitlichkeit aller partitionierten Daten sicher (also keine teilweisen Transaktionen, keine Sortierkopfzeilen ohne Sortierzeilen usw.).
Informationen über die Partitionen werden in der Kontrolltabelle attrep_cdc_partitions in der Zieldatenbank aufgezeichnet. Anhand dieser Informationen können partitionierte Daten identifiziert werden, die noch weiter verarbeitet werden müssen.
Es gibt folgende Partitionierungsoptionen:
-
Partitionieren alle: Die Länge (in Stunden und Minuten) jeder Partition angeben.
InformationshinweisEs wird empfohlen, eine Partitionslänge von mehr als einer Stunde anzugeben. Wenn Sie eine Partitionslänge von weniger als einer Stunde angeben, kann dies zwar die Latenz verbessern, aber die Erstellung zahlreicher Partitionen für ein Ziel kann in Systemen mit großen Änderungsmengen auch die (Ziel-)Leistung beeinträchtigen.
Wenn Sie eine Aufgabe von VOR der Zeit der Erstellung der letzten Partition fortsetzen, schreibt die Data Lake-Bereitstellungsaufgabe in eine Partition, die bereits geschlossen wurde.
- Partitionierungsbasiszeit: Partitionen werden in 24-Stunden-Zeiträumen erstellt, die entsprechend der angegebenen „Partitionierungsbasiszeit“ der Quelldatenbank in UTC berechnet werden. Beispielsweise werden bei einem Partitionierungsintervall von 8 Stunden mit einer „Partitionierungsbasiszeit“ von 02:00 die folgenden Partitionen erstellt: 02:00-10:00, 10:00-18:00, 18:00-02:00, jedoch nicht unbedingt in dieser Reihenfolge. Wenn etwa eine Aufgabe um 01:00 startet, lautet der Zeitrahmen der ersten Partition 18:00-02:00. Wenn außerdem eine Aufgabe während einer Partition gestartet wird (z. B. um 04:00), werden ihre Änderungsdaten in die Partition 02:00-10:00 eingefügt, auch wenn vor 04:00 keine Änderungen erfasst wurden.
Daten hochladen
Dateiattribute
Format
Sie können wählen, ob Sie die Zieldateien im Format CSV, JSON oder Parquet erstellen.
In einer JSON-Datei wird jeder Datensatz als einzelne Ziele dargestellt, wie im folgenden Beispiel gezeigt:
{ "book_id": 123, "title": "Alice in Wonderland", "price": 6.99, "is_hardcover": false }
{ "book_id": 456, "title": "Winnie the Pooh", "price": 6.49, "is_hardcover": true }
{ "book_id": 789, "title": "The Cat in the Hat", "price": 7.23, "is_hardcover": true }
Siehe auch: Eigenschaften „content-type“ und „content-encoding“
- Wenn Sie das Format JSON oder Parquet ausgewählt haben, werden die folgenden Felder ausgeblendet, da sie nur für das CSV-Format relevant sind: Feldtrennzeichen, Datensatztrennzeichen, Null-Wert, Anführungszeichen, Escape-Zeichen für Anführungszeichen und Metadaten-Kopfzeile hinzufügen.
- Die folgenden Felder sind nur für das Parquet-Format relevant: Parquet-Version, Parquet-Zeitstempeleinheit und Maximale LOB-Größe Parquet (KB).
Weitere Informationen zu Datentypzuordnungen bei Verwendung des Parquet-Formats und zu Einschränkungen finden Sie unter Mapping from Qlik Cloud data types to Parquet .
Feldtrennzeichen
Das Trennzeichen, das zum Trennen von Feldern (Spalten) in den Zieldateien verwendet wird. Das Standardzeichen ist ein Komma.
Beispiel für die Verwendung eines Kommas als Trennzeichen:
"mike","male"
Trennzeichen können Standardzeichen oder Hexadezimalwerte (hex) sein. Beachten Sie, dass das Präfix „0x
“ verwendet werden muss, um ein Hexadezimal-Trennzeichen (z. B. 0x01 = SOH
) zu kennzeichnen. In den Feldern Feldtrennzeichen, Datensatztrennzeichen und Null-Wert kann das Trennzeichen aus zusammengefassten Hex-Werten bestehen (z. B. 0x0102
= SOHSTX
), während in den Feldern Anführungszeichen und Escape-Zeichen für Anführungszeichen nur ein einzelner Hex-Wert verwendet werden kann.
Die Hexadezimalzahl 0x00
wird nicht unterstützt (d. h. nur 0x01
-0xFF
werden unterstützt).
Null-Wert
Die Zeichenfolge, die zum Angeben eines Null-Werts in den Zieldateien verwendet wird.
Beispiel (wobei \n das Datensatztrennzeichen und @ der Null-Wert ist):
Datensatztrennzeichen
Das Trennzeichen, das zum Trennen von Datensätzen (Zeilen) in den Zieldateien verwendet wird. Der Standardwert ist „neue Zeile“ (\n
).
Beispiel:
Anführungszeichen
Das Zeichen, das am Anfang und am Ende einer Textspalte verwendet wird. Der Standardwert sind gerade doppelte Anführungszeichen ("). Wenn eine Spalte, die Spaltentrennzeichen enthält, in doppelte Anführungszeichen eingeschlossen wird, werden die Spaltentrennzeichen als tatsächliche Daten und nicht als Spaltentrennzeichen interpretiert.
Beispiel (wobei @ das Anführungszeichen ist):
Escape-Zeichen für Anführungszeichen
Das Zeichen, das als Escape-Zeichen für ein Anführungszeichen in den tatsächlichen Daten verwendet wird. Der Standardwert sind gerade doppelte Anführungszeichen (").
Beispiel (wobei " das Anführungszeichen und \ das Escape-Zeichen ist):
Parquet-Version
Wählen Sie die von der Zielplattform unterstützte Version aus. Beachten Sie, dass Parquet Version 1.0 nur die Zeitstempeleinheit MICRO unterstützt, während Parquet Version 2.6 sowohl MICRO als auch NANO als Zeitstempeleinheit unterstützt.
Parquet-Zeitstempeleinheit
Wenn Parquet auf Version 2.6 festgelegt ist, wählen Sie MICRO oder NANO aus. Wenn Parquet auf Version 1.0 festgelegt ist, wird nur MICRO unterstützt.
Maximale LOB-Größe Parquet (KB)
Standardmäßig ist die maximale LOB-Größe 64 KB, und der maximale Wert, der in dieses Feld eingegeben werden kann, ist 10.000 KB. Für die Bearbeitung von LOB-Spalten werden mehr Ressourcen benötigt, was sich auf die Leistung auswirkt. Erhöhen Sie diesen Wert nur, wenn Sie LOB-Daten von mehr als 64 KB replizieren und alle LOB-Daten ins Ziel replizieren müssen.
Maximale Dateigröße
Die maximale Größe, die eine Datei erreichen kann, bevor sie geschlossen (und optional komprimiert) wird.
Die maximale Größe, die eine Datei erreichen kann, bevor sie geschlossen wird. Kleinere Dateien könnten (abhängig vom Netzwerk) schneller hochgeladen werden und die Leistung verbessern, wenn diese Möglichkeit zusammen mit der parallelen Ausführungsoption verwendet wird. Generell wird aber davon abgeraten, die Datenbank mit kleinen Dateien zu überfüllen.
Dateien komprimieren mit
Wählen Sie eine der Komprimierungsoptionen aus, um die Zieldateien zu komprimieren, bzw. KEINE (Standardoption), um die Dateien nicht zu komprimieren. Beachten Sie, dass die verfügbaren Komprimierungsoptionen vom ausgewählten Dateiformat abhängen.
Metadaten-Kopfzeile hinzufügen
Sie können optional eine Kopfzeilenzeile zu den Datendateien hinzufügen. Die Kopfzeilenzeile enthält die Quellspaltennamen und/oder die Zwischendatentypen (d. h. Qlik Talend Data Integration).
Beispiel für eine Zieldatei mit einer Kopfzeilenzeile, wenn sowohl Mit Spaltennamen als auch Mit Datentypen ausgewählt sind:
Position:DECIMAL(38,0),Color:VARCHAR(10)
1,"BLUE"
2,"BROWN"
3,"RED"
...
Änderungsverarbeitung
In diesem Abschnitt werden die Bedingungseinstellungen der Änderungsverarbeitung beschrieben.
Änderungen anwenden/speichern, wenn
- Dateigröße erreicht: Geben Sie die maximale Größe der Änderungsdaten an, die erfasst werden soll, bevor die Datei an das Ziel hochgeladen wird.
- Verstrichene Zeit erreicht: Die verstrichene Zeit erreicht x.
Metadatendateien
Wenn die Option Metadatendateien im Zielordner erstellen ausgewählt ist, wird für jede Datendatei eine entsprechende Metadatendatei mit der Dateierweiterung .dfm unter dem angegebenen Zielordner erstellt. Die Metadatendatei stellt zusätzliche Informationen über die Aufgabe/Daten bereit, z. B. den Quellkonnektortyp, den Quelltabellennamen, die Anzahl der Datensätze in der Datendatei usw.
Eine vollständige Beschreibung der Metadatendatei sowie der möglichen Verwendungen finden Sie unter Beschreibung der Metadatendatei .
Metadaten
LOB-Spalten
-
LOB-Spalten einbeziehen und Spaltengröße beschränken auf (KB):
Sie können sich entscheiden, LOB-Spalten in die Aufgabe einzuschließen, und die maximale LOB-Größe festlegen. LOBs, die die maximale Größe überschreiten, werden abgeschnitten.
Kontrolltabellen
Wählen Sie die folgenden Kontrolltabellen aus, die in der Zielplattform erstellt werden sollen:
- Replikationsstatus: Enthält Details über die aktuelle Bereitstellungsaufgabe, u. a. Aufgabenstatus, von der Aufgabe genutzte Arbeitsspeichermenge, Anzahl der noch nicht auf die Datenplattform angewendeten Änderungen und die Position in der Datenquelle, aus der aktuell Daten gelesen werden.
- Ausgesetzte Tabellen: Stellt eine Liste der ausgesetzten Tabellen und den Grund für die Aussetzung bereit.
- Replikationsverlauf: Stellt Informationen über den Aufgabenverlauf bereit, u.a. die Anzahl und das Volumen der während einer Bereitstellungsaufgabe verarbeiteten Datensätze, die Latenz am Ende einer CDC-Aufgabe und mehr.
- Änderungsdatenpartitionen: Stellt Datensätze von Partitionen bereit, die in der Zieldatenbank aufgrund von Änderungsdatenpartitionierung erstellt wurden. Sie können anhand dieser Informationen partitionierte Daten identifizieren, die noch weiter verarbeitet werden müssen.
Eine detaillierte Beschreibung der einzelnen Kontrolltabellen finden Sie unter Kontrolltabellen
Vollständiges Laden
Leistungsfeinabstimmung
- Maximale Anzahl parallel zu ladender Tabellen: Geben Sie die maximale Anzahl Tabellen ein, die gleichzeitig in das Ziel geladen werden können. Der Standardwert ist 5.o
-
Zeitüberschreitung für Transaktionseinheitlichkeit (Sekunden): Geben Sie die Anzahl der Sekunden ein, die auf den Abschluss von offenen Transaktionen gewartet werden soll, bevor mit dem vollständigen Ladevorgang begonnen wird. Der Standardwert ist 600 (10 Minuten). Das vollständige Laden beginnt, nachdem der Zeitüberschreitungswert erreicht ist, auch wenn noch offene Transaktionen vorhanden sind.
InformationshinweisUm Transaktionen zu replizieren, die beim Starten des vollständigen Ladens geöffnet waren, für die aber erst nach Erreichen des Zeitüberschreitungswerts ein Commit durchgeführt wurde, müssen Sie die Zieltabellen neu laden. - Commit-Rate beim vollständigen Laden: Die maximale Anzahl der Ereignisse, die gleichzeitig übertragen werden können. Der Standardwert ist 10000.
Nach Abschluss des vollständigen Ladens
Primärschlüssel oder eindeutigen Index erstellen: Wählen Sie diese Option aus, wenn Sie die Erstellung des Primärschlüssels oder des eindeutigen Index in der Datenplattform bis nach dem Abschluss des vollständigen Ladens aufschieben möchten.
Für den anfänglichen Ladevorgang
Beim Verschieben von Daten aus SaaS-Anwendungsdatenquellen können Sie festlegen, wie der anfängliche vollständige Ladevorgang durchgeführt werden soll.
Zwischengespeicherte Daten verwenden |
Mit dieser Option können Sie zwischengespeicherte Daten verwenden, die bei der Erzeugung von Metadaten mit ausgewählter Option Vollständiger Datenscan gelesen wurden. Dadurch ist weniger Aufwand für API-Nutzung und -Kontingente nötig, da die Daten bereits von der Quelle gelesen wurden. Etwaige Änderungen seit dem anfänglichen Datenscan können von Change Data Capture (CDC) festgestellt werden. |
Daten von Quelle laden |
Mit dieser Option wird ein neuer Ladevorgang von der Datenquelle durchgeführt. Diese Option ist nützlich, wenn:
|
Verarbeitung von „Änderungen speichern“
Die Kopfzeilenspalten der Änderungstabelle enthalten Informationen zum Änderungsverarbeitungsvorgang, wie den Typ des Vorgangs (z. B. INSERT), die Commit-Uhrzeit usw. Wenn Sie diese Informationen nicht benötigen, können Sie die Datenaufgabe so konfigurieren, dass die Änderungstabellen ohne einige oder alle der Kopfzeilenspalten erstellt werden, was ihren Speicherbedarf in der Zieldatenbank reduziert. Deaktivieren Sie hierzu die Kontrollkästchen für die Kopfzeilenspalten, die Sie ausschließen möchten.
Beachten Sie, das Sie keine weiteren Spalten entfernen oder Spalten wiederherstellen können, während eine Aufgabe ausgeführt wird. Um die anfängliche Auswahl zu ändern, müssen Sie zuerst die Aufgabe anhalten, dann die Auswahl ändern und schließlich die Zieltabellen neu laden.
Wenn Änderungsdatenpartitionierung aktiviert ist, wird eine weitere Kopfzeilenspalte namens „partition_name“ zu den Änderungstabellen hinzugefügt und in der Benutzeroberfläche automatisch ausgewählt. Da diese Spalte erforderlich ist, kann sie nicht ausgeschlossen werden.
Eine Beschreibung der Kopfzeilenspalten finden Sie unter Verwenden von Änderungstabellen.
Fehlerbearbeitung
Datenfehler
Die Bearbeitung von Datenfehlern wird nur für die Aktualisierungsmethode „Change Data Capture (CDC)“ unterstützt.
Datenabschneidefehler
Für Datenabschneidefehler: Wählen Sie aus, was geschehen soll, wenn ein Abschneiden in einem oder mehreren spezifischen Datensätzen auftritt. Sie können eine der folgenden Optionen aus der Liste auswählen:
- Ignorieren: Die Aufgabe wird fortgesetzt und der Fehler wird ignoriert.
- Tabelle aussetzen: Die Aufgabe wird fortgesetzt, aber die Daten aus der Tabelle mit dem Fehlerdatensatz werden in einen Fehlerzustand verschoben, und ihre Daten werden nicht repliziert.
- Aufgabe anhalten: Die Aufgabe wird angehalten, und ein manueller Eingriff ist erforderlich.
Andere Datenfehler
Für andere Datenfehler: Wählen Sie aus, was geschehen soll, wenn ein Fehler in einem oder mehreren spezifischen Datensätzen auftritt. Sie können eine der folgenden Optionen aus der Liste auswählen:
- Ignorieren: Die Aufgabe wird fortgesetzt und der Fehler wird ignoriert.
- Tabelle aussetzen: Die Aufgabe wird fortgesetzt, aber die Daten aus der Tabelle mit dem Fehlerdatensatz werden in einen Fehlerzustand verschoben, und ihre Daten werden nicht repliziert.
- Aufgabe anhalten: Die Aufgabe wird angehalten, und ein manueller Eingriff ist erforderlich.
Eskalieren der Datenfehlerbearbeitung
Fehlerbearbeitung eskalieren, wenn andere Datenfehler (pro Tabelle) die folgende Anzahl erreichen: Aktivieren Sie dieses Kontrollkästchen, um die Fehlerbearbeitung zu eskalieren, wenn die Anzahl der anderen Datenfehler (keine Datenabschneidung) pro Tabelle die angegebene Anzahl erreicht. Gültige Werte sind 1-10.000.
Eskalierungsaktion: Wählen Sie aus, was geschehen soll, wenn die Fehlerbearbeitung eskaliert wird. Beachten Sie, dass die verfügbaren Aktionen von der Aktion abhängen, die aus der oben beschriebenen Dropdown-Liste Für andere Datenfehler ausgewählt wurde.
-
Tabelle aussetzen (Standard): Die Aufgabe wird fortgesetzt, aber die Daten aus der Tabelle mit dem Fehlerdatensatz werden in einen Fehlerzustand verschoben, und die Daten werden nicht landed.
- Aufgabe anhalten: Die Aufgabe wird angehalten, und ein manueller Eingriff ist erforderlich.
Tabellenfehler
Beim Auftreten eines Tabellenfehlers: Wählen Sie eine der folgenden Optionen aus der Liste aus:
- Tabelle aussetzen (Standard): Die Aufgabe wird fortgesetzt, aber die Daten aus der Tabelle mit dem Fehlerdatensatz werden in einen Fehlerzustand verschoben, und ihre Daten werden nicht repliziert.
- Aufgabe anhalten: Die Aufgabe wird angehalten, und ein manueller Eingriff ist erforderlich.
Fehlerbearbeitung eskalieren, wenn Tabellenfehler (pro Tabelle) die folgende Anzahl erreichen: Aktivieren Sie dieses Kontrollkästchen, um die Fehlerbearbeitung zu eskalieren, wenn die Anzahl der Tabellenfehler pro Tabelle die angegebene Anzahl erreicht. Gültige Werte sind 1-10.000.
Eskalierungsaktion: Die Eskalationsrichtlinie für Tabellenfehler ist auf Aufgabe anhalten festgelegt und kann nicht geändert werden.
Umgebungsbezogen
-
Maximale Anzahl Wiederholungsversuche: Wählen Sie diese Option aus und geben Sie dann die maximale Anzahl der Male ein, für die eine Aufgabe wiederholt werden soll, wenn ein wiederherstellbarer umgebungsbezogener Fehler eintritt. Nachdem die angegebene Anzahl Male versucht wurde, die Aufgabe zu wiederholen, wird die Aufgabe angehalten, und ein manueller Eingriff ist erforderlich.
Um eine Aufgabe nie zu wiederholen, deaktivieren Sie das Kontrollkästchen oder geben Sie „0“ an.
Um eine Aufgabe eine unendliche Anzahl von Malen zu wiederholen, geben Sie „-1“ an.
-
Intervall zwischen Wiederholungsversuchen (Sekunden): Verwenden Sie den Zähler zur Auswahl oder geben Sie die Anzahl Sekunden an, für die das System zwischen den Wiederholungsversuchen für eine Aufgabe wartet.
Gültige Werte sind 0-2.000.
-
- Wiederholungsintervall für lange Ausfälle erhöhen: Aktivieren Sie dieses Kontrollkästchen, um das Wiederholungsintervall für lange Ausfälle zu erhöhen. Wenn diese Option aktiviert ist, wird das Intervall zwischen den einzelnen Wiederholungsversuchen verdoppelt, bis das Maximale Wiederholungsintervall erreicht ist (und die Wiederholungsversuche werden entsprechend dem angegebenen maximalen Intervall fortgesetzt).
- Maximales Wiederholungsintervall (Sekunden): Verwenden Sie den Zähler für die Auswahl oder geben Sie die Anzahl der Sekunden ein, die zwischen den Wiederholungsversuchen für eine Aufgabe gewartet werden soll, wenn die Option Wiederholungsintervall für lange Ausfälle erhöhen aktiviert ist. Gültige Werte sind 0-2.000.
Feinabstimmung der Änderungsverarbeitung
Anpassung der Transaktionsauslagerung
-
Laufende Transaktionen an Festplatte auslagern, wenn:
Transaktionsdaten werden in der Regel im Arbeitsspeicher aufbewahrt, bis der Commit-Vorgang an die Quelle bzw. an das Ziel abgeschlossen ist. Wenn die Transaktionen jedoch umfangreicher sind als der zugewiesene Arbeitsspeicher, oder wenn der Commit-Vorgang nicht innerhalb des angegebenen Zeitlimits abgeschlossen ist, werden sie auf die Festplatte ausgelagert.
- Der Gesamtarbeitsspeicher für alle Transaktionen überschreitet (MB): Der maximale Platz, den alle Transaktionen im Arbeitsspeicher belegen können, bevor sie an die Festplatte ausgelagert werden. Der Standardwert ist 1024.
- Transaktionsdauer überschreitet (Sekunden): Die maximale Zeit, die alle Transaktionen im Arbeitsspeicher bleiben können, bevor sie an die Festplatte ausgelagert werden. Die Dauer wird ab der Zeit berechnet, zu der das Qlik Talend Data Integration mit der Erfassung der Transaktion begann. Der Standardwert ist 60.
Stapeloptimierung
-
Mindestanzahl Änderungen pro Transaktion: Die Mindestanzahl der Änderungen, die in jede Transaktion eingeschlossen werden sollen. Der Standardwert ist 1000.
InformationshinweisDie Änderungen werden auf das Ziel angewendet, wenn entweder die Anzahl der Änderungen größer oder gleich dem Wert für Mindestanzahl Änderungen pro Transaktion ist, ODER wenn der unten beschriebene Wert Maximale Zeit für Stapeltransaktionen vor der Anwendung (Sekunden) erreicht ist, je nachdem, welcher Fall zuerst eintritt. Da die Häufigkeit der Änderungsanwendung auf das Ziel von diesen beiden Parametern gesteuert wird, sind Änderungen an den Quelldatensätzen möglicherweise nicht sofort in den Zieldatensätzen ersichtlich.
- Maximale Zeit für Stapeltransaktionen vor der Anwendung (Sekunden): Die maximale Zeit zum Erfassen von Transaktionen in Stapeln, bevor eine Zeitüberschreitung eintritt. Der Standardwert ist 1.
Intervall
Diese Option ist nur in folgenden Fällen verfügbar:
- Verwenden von Data Movement Gateway
- Bereitstellen aus SaaS-Anwendungsquellen
- Die Aufgabe ist mit der Aktualisierungsmethode Change Data Capture (CDC) definiert
Änderungen alle (Minuten) lesen
Legen Sie das Intervall zwischen dem Lesen von Änderungen aus der Quelle in Minuten fest. Der gültige Bereich ist 1 bis 1440.
Verschiedene Einstellungen
- Anweisungs-Cache-Größe (Anzahl der Anweisungen): Die maximale Anzahl der vorbereiteten Anweisungen zum Speichern auf dem Server zur späteren Ausführung (wenn Änderungen auf das Ziel angewendet werden). Der Standardwert ist 50. Der Höchstwert ist 200.
-
DELETE und INSERT beim Aktualisieren einer Primärschlüsselspalte: Für diese Option muss die vollständige ergänzende Protokollierung in der Quelldatenbank aktiviert sein.
Schemaentwicklung
Wählen Sie aus, wie die folgenden DDL-Änderungstypen im Schema behandelt werden sollen. Wenn Sie die Einstellungen für die Schemaentwicklung geändert haben, müssen Sie die Aufgabe erneut vorbereiten. In der folgenden Tabelle wird beschrieben, welche Aktionen für die unterstützten DDL-Änderungen verfügbar sind.
DDL-Änderung | Auf Ziel anwenden | Ignorieren | Tabelle aussetzen | Aufgabe anhalten |
---|---|---|---|---|
Spalte hinzufügen | Ja | Ja | Ja | Ja |
Spalte umbenennen | Nein | Nein | Ja | Ja |
Tabelle umbenennen | Nein | Nein | Ja | Ja |
Spaltendatentyp ändern | Nein | Ja | Ja | Ja |
Tabelle erstellen
Wenn Sie eine Auswahlregel verwendet haben, um Datensätze hinzuzufügen, die einem Muster entsprechen, werden neue Tabellen, die mit dem Muster übereinstimmen, erkannt und hinzugefügt. |
Ja | Ja | Nein | Nein |
Zeichenersetzung
Sie können Quellzeichen in der Zieldatenbank ersetzen oder löschen, bzw. Sie können Quellzeichen ersetzen oder löschen, die von einem ausgewählten Zeichensatz nicht unterstützt werden.
-
Alle Zeichen müssen als Unicode-Codepunkte angegeben werden.
- Die Zeichenersetzung wird auch in den Kontrolltabellen durchgeführt.
-
Ungültige Werte werden durch ein rotes Dreieck oben rechts in der Tabellenzelle gekennzeichnet. Wenn Sie den Mauszeiger über das Dreieck halten, wird die Fehlermeldung angezeigt.
-
Alle Umwandlungen auf Tabellenebene bzw. globalen Umwandlungen, die für die Aufgabe definiert sind, werden nach Abschluss der Zeichenersetzung durchgeführt.
-
Ersetzungsaktionen, die in der Tabelle Quellzeichen ersetzen oder löschen definiert sind, werden vor der Ersetzungsaktion in der Tabelle Quellzeichen ersetzen oder löschen, die vom ausgewählten Zeichensatz nicht unterstützt werden durchgeführt.
- Die Zeichenersetzung unterstützt keine LOB-Datentypen.
Ersetzen oder Löschen von Quellzeichen
Verwenden Sie die Tabelle Quellzeichen ersetzen oder löschen, um Ersetzungen für spezifische Quellzeichen zu definieren. Das kann beispielsweise nützlich sein, wenn die Unicode-Darstellung eines Zeichens in der Quell- und Zielplattform unterschiedlich ist. Zum Beispiel wird unter Linux das Minuszeichen im Shift_JIS-Zeichensatz als U+2212 dargestellt, unter Windows jedoch als U+FF0D.
Zweck | Vorgang |
---|---|
Ersetzungsaktionen definieren. |
|
Das angegebene Quell- oder Zielzeichen bearbeiten |
Klicken Sie auf am Ende der Zeile und wählen Sie Bearbeiten aus. |
Einträge aus der Tabelle löschen |
Klicken Sie auf am Ende der Zeile und wählen Sie Löschen aus. |
Ersetzen oder Löschen von Quellzeichen, die vom ausgewählten Zeichensatz nicht unterstützt werden
Verwenden Sie die Tabelle Vom Zeichensatz nicht unterstützte Quellzeichen, um ein einzelnes Ersatzzeichen für alle vom ausgewählten Zeichensatz nicht unterstützte Zeichen zu definieren.
Zweck | Vorgang |
---|---|
Eine Ersetzungsaktion definieren oder bearbeiten. |
|
Die Ersetzungsaktion deaktivieren. |
Wählen Sie den leeren Eintrag aus der Dropdown-Liste Zeichensatz aus. |
Weitere Optionen
Diese Optionen werden in der Benutzeroberfläche nicht angezeigt, da sie nur für bestimmte Versionen oder Umgebungen relevant sind. Daher sollten Sie diese Optionen nur festlegen, wenn Sie ausdrücklich vom Qlik-Support oder in der Produktdokumentation dazu angewiesen werden.
Um eine Option festzulegen, kopieren Sie einfach die Option in das Feld Feature-Namen hinzufügen und klicken Sie auf Hinzufügen. Legen Sie dann den Wert fest oder aktivieren Sie die Option, je nach den erhaltenen Anweisungen.
Planen von Aufgaben beim Arbeiten ohne Data Movement Gateway
Data Movement Gateway wird mit einem Qlik Talend Cloud Starter-Abonnement nicht unterstützt und ist für andere Abonnementstufen optional. Wenn Sie ohne Data Movement Gateway arbeiten, wird CDC (Change Data Capture) nahezu in Echtzeit nicht unterstützt. Sie halten die Zieldaten aktualisiert, indem Sie ein Planungsintervall festlegen. Der Zeitplan bestimmt, wie häufig die Zieldatensätze mit Änderungen an den Quelldatensätzen aktualisiert werden. Der Zeitplan bestimmt die Aktualisierungshäufigkeit, während der Datensatztyp die Aktualisierungsmethode bestimmt. Wenn die Quelldatensätze CDC (Change Data Capture) unterstützen, werden nur die Quelldaten repliziert und auf die entsprechenden Zieltabellen angewendet. Wenn die Quelldatensätze CDC nicht unterstützen (z. B. Ansichten), werden die Änderungen angewendet, indem alle Quelldaten erneut in die entsprechenden Zieltabellen geladen werden. Wenn einige der Quelldatensätze CDC unterstützen und andere nicht, werden zwei getrennte Unteraufgaben erstellt (wobei davon ausgegangen wird, dass die Aktualisierungsmethode Change Data Capture ausgewählt ist): eine zum erneuten Laden der Datensätze, die CDC nicht unterstützen, und eine zum Erfassen der Änderungen für Datensätze, die CDC unterstützen. In diesem Fall wird zum Sicherstellen der Dateneinheitlichkeit dringend empfohlen, den gleichen Zeitplan für beide Unteraufgaben zu verwenden.
So ändern Sie den Zeitplan:
Öffnen Sie Ihr Datenprojekt und führen Sie einen der folgenden Schritte aus:
- Klicken Sie in der Aufgabenansicht für eine Datenaufgabe auf und wählen Sie Planung aus.
- Klicken Sie in der Pipeline-Ansicht für eine Datenaufgabe auf und wählen Sie Planung aus.
- Öffnen Sie die Replikationsaufgabe und klicken Sie auf die Symbolleistenschaltfläche Planung.
- Ändern Sie die Planungseinstellungen nach Bedarf und klicken Sie auf OK.