Registrieren von Daten, die bereits in der Datenplattform vorhanden sind
Sie können Daten registrieren, die bereits auf der Datenplattform vorhanden sind, um Daten zusammenzustellen und umzuwandeln und um Data Marts zu erstellen. Damit können Daten nach der Eingliederung mit anderen Tools als Qlik Talend Data Integration verwendet werden, z. B. Qlik Replicate oder Stitch.
Wenn Sie Daten registrieren, werden zwei Datenaufgaben erstellt.
-
Registrierte Daten
Beim Registrieren von Daten werden Ansichten erstellt, um die Daten auf das Erstellen von Datensätzen vorzubereiten.
-
Speicher
Dazu gehört das Erstellen und Speichern von Datensätzen basierend auf den registrierten Daten.
Wenn Sie die Daten registriert haben, können Sie die generierten Datasets auf verschiedene Weise nutzen.
-
Sie können die Datensätze in einer Analyse-App verwenden.
-
Sie können Transformationen erstellen.
-
Sie können einen Data Mart erstellen.
Daten registrieren
Sie können Daten registrieren, die im Cloud Data Warehouse, das im Projekt definiert ist, vorhanden sind. Die generierten Datensätze werden im gleichen Cloud Data Warehouse gespeichert.
Weitere Informationen zu Projekten finden Sie unter Erstellen einer Daten-Pipeline.
-
Klicken Sie in einem Projekt auf Erstellen und dann auf Daten registrieren.
-
Fügen Sie einen Namen und eine Beschreibung für die Datenaufgabe hinzu.
Klicken Sie auf Weiter.
-
Wählen Sie zu registrierende Daten aus.
Auswählen einzuschließender Daten
Klicken Sie auf Weiter.
Einstellungen wird angezeigt.
-
Wählen Sie in Aktualisierungsmethode aus, wie die Daten aktualisiert werden.
Wählen Sie Inkrementell mit hohem Grenzwert aus, wenn die Daten von Qlik Replicate oder Stitch repliziert werden.
-
Verwenden Sie Inkrementell mit hohem Grenzwert, um Datenänderungen inkrementell mit einem Muster mit hohem Grenzwert zu verarbeiten. Dies ist die vorgeschlagene Methode, wenn die Daten von Qlik Replicate (mit aktivierter Option Vollständiges Laden und Änderungen speichern) oder Stitch repliziert werden.
Weitere Informationen finden Sie unter Aktualisierungsmethode.
-
Verwenden Sie Mit aktuellem Speicher vergleichen, wenn die Daten nur einmal geladen wurden oder wenn sie mit vollständigen Ladevorgängen aktualisiert werden.
-
-
Öffnen Sie eine Vorschau der beiden Datenaufgaben, die in der Übersicht erstellt werden, und benennen Sie sie bei Bedarf um.
TipphinweisDie Namen werden bei der Benennung von Datenbankschemas in der Speicherdatenaufgabe verwendet. Da ein Schema nur einer Aufgabe zugewiesen werden kann, sollten Sie Namen verwenden, die eindeutig sind, um Konflikte mit Datenaufgaben in anderen Projekten zu vermeiden, die dieselbe Datenplattform verwenden. -
Wählen Sie, ob Sie die „registrierte Daten“-Aufgabe öffnen oder zum Projekt zurückkehren möchten.
Wenn Sie bereit sind, klicken Sie auf Beenden.
Die beiden Datenaufgaben sind jetzt erstellt. Um mit der Replikation von Daten zu beginnen, müssen Sie Folgendes tun:
-
Bereiten Sie die „registrierte Daten“-Aufgabe vor.
Klicken Sie in der Datenaufgabe auf Vorbereiten.
Wenn Artefakte erstellt wurden, ist der Datenaufgabenstatus Registriert.
-
Die Speicherdatenaufgabe vorbereiten und ausführen.
Weitere Informationen finden Sie unter Speichern von Datensätzen.
Auswählen einzuschließender Daten
Wenn Sie einzuschließende Daten auswählen, können Sie bestimmte Tabellen oder Ansichten auswählen oder Auswahlregeln zum Ein- oder Ausschließen von Tabellengruppen verwenden.
Verwenden Sie % als Platzhalter, um ein Auswahlkriterium für Schemas und Tabellen zu definieren.
-
%.% definiert alle Tabellen in allen Schemas.
-
Öffentlich.% definiert alle Tabellen im Schema Öffentlich.
Auswahlkriterien bietet Ihnen eine Vorschau anhand Ihrer Auswahl.
Sie haben jetzt folgende Möglichkeiten:
-
Erstellen Sie eine Regel zum Ein- oder Ausschließen einer Gruppe von Tabellen anhand der Auswahlkriterien.
Klicken Sie auf Regel aus Auswahlkriterien hinzufügen, um eine Regel zu erstellen, und wählen Sie dann entweder Einschließen oder Ausschließen.
Sie können die Regel unter Auswahlregeln sehen.
-
Wählen Sie einen oder mehrere Datensätze aus und klicken Sie auf Ausgewählte Datasets hinzufügen.
Sie können die hinzugefügten Datensätze unter Explizit ausgewählte Datasets sehen.
Auswahlregeln gelten nur für den aktuellen Satz Tabellen und Ansichten, nicht für Tabellen und Ansichten, die in Zukunft hinzugefügt werden.
Aktualisieren von Metadaten
Sie können die Metadaten in der Aufgabe in der Ansicht Design einer Aufgabe aktualisieren, um sie an Änderungen in den Metadaten in der Quelle auszurichten. Für SaaS-Anwendungen, die Metadata Manager verwenden, muss Metadata Manager aktualisiert werden, bevor Sie Metadaten in der Datenaufgabe aktualisieren können.
-
Sie haben folgende Möglichkeiten:
-
Klicken Sie auf ... und dann auf Metadaten aktualisieren, um Metadaten für alle Datensätze in der Aufgabe zu aktualisieren.
-
Klicken Sie auf ... in einem Datensatz in Datensätze und dann auf Metadaten aktualisieren, um Metadaten für einen einzelnen Datensatz zu aktualisieren.
Sie können den Status der Metadatenaktualisierung unter Metadaten aktualisieren unten im Bildschirm anzeigen. Wenn Sie den Cursor über bewegen, können Sie sehen, wann die Metadaten zuletzt aktualisiert wurden.
-
-
Bereiten Sie die Datenaufgabe vor, um die Änderungen anzuwenden.
Wenn Sie die Datenaufgabe vorbereitet haben und die Änderungen angewendet wurden, werden die Änderungen aus Metadaten aktualisieren entfernt.
Sie müssen Speicheraufgaben vorbereiten, die diese Aufgabe nutzen, um die Änderungen weiterzugeben.
Wenn eine Spalte entfernt wird, wird eine Umwandlung mit Null-Werten hinzugefügt, um sicherzustellen, dass im Speicher keine historischen Daten verloren gehen.
Einschränkungen für die Aktualisierung von Metadaten
-
Wenn vor dem Umbenennen im gleichen Zeitfenster eine Spalte gelöscht wurde, führt dies zur Umbenennung der gelöschten Spalte, falls sie den gleichen Datentyp und die gleiche Datenlänge hat.
Beispiel:
Vorher: a b c d
Nachher: a c1 d
In diesem Beispiel wurde b gelöscht und c in c1 umbenannt, und b und c haben den gleichen Datentyp und die gleiche Datenlänge.
Dies wird als Umbenennung von b in c1 und Löschen von c interpretiert.
-
Die Umbenennung der letzten Spalte wird nicht erkannt, auch wenn die letzte Spalte gelöscht und die vorherige umbenannt wurde.
Beispiel:
Vorher: a b c d
Nachher: a b c1
In diesem Beispiel wurde d gelöscht und c in c1 umbenannt.
Dies wird als Löschen von c und d und Hinzufügen von c1 interpretiert.
-
Es wird davon ausgegangen, dass neue Spalten am Ende hinzugefügt werden. Wenn Spalten in der Mitte mit dem gleichen Datentyp wie die nächste Spalte hinzugefügt werden, kann dies als Löschen und Umbenennen interpretiert werden.
Einstellungen für registrierte Daten
Sie können Eigenschaften für die „registrierte Daten“-Aufgabe festlegen.
-
Klicken Sie auf Einstellungen.
Allgemeine Einstellungen
-
Datenbank
Datenbank, die im Ziel verwendet werden soll
-
Aufgabenschema
Sie können den Namen des Datenaufgabenschemas ändern.
- Präfix für alle Tabellen und Ansichten
Sie können ein Präfix für alle Tabellen und Ansichten festlegen, die mit dieser Aufgabe erstellt wurden.
InformationshinweisSie müssen ein eindeutiges Präfix verwenden, wenn Sie ein Datenbankschema in mehreren Datenaufgaben nutzen möchten.
Aktualisierungsmethode
Änderungserkennung
-
Verwenden Sie Mit aktuellem Speicher vergleichen, wenn die Daten nur einmal geladen wurden oder wenn sie mit vollständigen Ladevorgängen aktualisiert werden.
-
Verwenden Sie Inkrementell mit hohem Grenzwert, um Datenänderungen inkrementell mit der Methode mit hohem Grenzwert zu verarbeiten.
Für diese Option ist erforderlich, dass für alle Tabellen ein Primärschlüssel definiert ist. Für Tabellen, die keinen Primärschlüssel haben, können Sie in der Ansicht Datensätze der Tabellen manuell einen Primärschlüssel definieren.
Einstellungen für inkrementelles Laden
Diese Einstellungen sind verfügbar, wenn die Option Inkrementell mit hohem Grenzwert ausgewählt ist.
-
Wenn die Daten von einer Qlik Replicate-Aufgabe mit vollständigem Laden und Speicheränderungen repliziert werden, legen Sie Einstellungen für inkrementelles Laden auf Qlik Replicate Einstellungen fest.
-
Wenn die Daten von einer Stitch-Daten-Pipeline repliziert werden und für Ihre Quelltabellen ein Primärschlüssel definiert ist, legen Sie die Einstellungen für inkrementelles Laden auf Standardeinstellungen für Stitch fest.
-
Legen Sie Einstellungen für inkrementelles Laden andernfalls auf Benutzerdefiniert fest und definieren Sie die Einstellungen selbst.
Einstellung | Benutzerdefiniert | Qlik Replicate Einstellungen | Standardeinstellungen für Stitch |
---|---|---|---|
Änderungstabellen |
Wenn die Änderungen sich in der gleichen Tabelle befinden, wählen Sie die Option Änderungen befinden sich in der gleichen Tabelle aus. Andernfalls deaktivieren Sie die Option Änderungen befinden sich in der gleichen Tabelle und geben Sie ein Änderungstabellenmuster in Änderungstabellenmuster an. |
${SOURCE_TABLE_NAME}__ct table | Änderungen befinden sich in der gleichen Tabelle |
Grenzwertspalte | Legen Sie den Namen der Grenzwertspalte in Name fest. | header__change_seq | _SDC_BATCHED_AT |
„Von-Datum“-Spalte |
Sie können als „Von-Datum“ das Stapelstartdatum angeben oder eine ausgewählte Spalte verwenden. Wenn Sie die Option Ausgewählte „Von-Datum“-Spalte auswählen, müssen Sie ein „Von-Datum“-Muster definieren. |
header__timestamp | _SDC_BATCHED_AT
Sie können dies ändern, um „Von-Datum“ als Stapelstartdatum anzugeben, oder Sie können eine andere Spalte auswählen. |
Vorläufige Löschungen |
Sie können vorläufige Löschungen einschließen, indem Sie die Option Änderungen umfassen vorläufiges Löschen auswählen und eine Indikationsformel definieren. Die Indikationsformel muss „wahr“ ausgewertet werden, wenn die Änderung ein vorläufiger Löschvorgang ist. Beispiel: ${is_deleted} = 1 |
${header__change_oper} = 'D' |
Sie können vorläufige Löschungen einschließen, indem Sie die Option Änderungen umfassen vorläufiges Löschen auswählen und eine Indikationsformel definieren. Die Indikationsformel muss „wahr“ ausgewertet werden, wenn die Änderung ein vorläufiger Löschvorgang ist. Beispiel: ${is_deleted} = 1 |
Vor dem Image |
Sie können Datensätze vor dem Image in Änderungstabellenänderungen herausfiltern, indem Sie die Option Vor dem Image aktivieren und eine Indikationsformel definieren. Die Indikationsformel muss als „wahr“ ausgewertet werden, wenn die Zeile das Image vor der Aktualisierung enthält. Beispiel: ${header__change_oper} = 'B' |
${header__change_oper} = 'B' | Es sind keine Datensätze vor dem Image in den Daten vorhanden. |
Katalogeinstellungen
-
In Katalog veröffentlichen
Wählen Sie diese Option aus, um diese Version der Daten als Datensatz im Katalog zu veröffentlichen. Der Kataloginhalt wird aktualisiert, wenn Sie diese Aufgabe zum nächsten Mal vorbereiten.
Weitere Informationen zu Katalog finden Sie unter Verstehen Ihrer Daten mit Katalogwerkzeugen.
Empfohlene Qlik Replicate-Konfigurationen
Diese Qlik Replicate-Aufgabeneinstellungen werden empfohlen, wenn Sie Daten registrieren, die mit einer Qlik Replicate-Aufgabe, die Änderungen speichert, repliziert werden.
-
Die Qlik Replicate-Aufgabe muss mit den Optionen Vollständiges Laden und Änderungen speichern konfiguriert werden.
-
Stellen Sie in Änderungen speichern – Einstellungen > Änderungstabellen sicher, dass die folgenden Änderungstabellenspalten mit ihren Standardnamen eingeschlossen werden:
-
[header__]change_seq
-
[header__]change_oper
-
[header__] timestamp
-
-
Legen Sie in Änderungen speichern – Einstellungen > Änderungstabellen die Option Bei AKTUALISIERUNG auf Nur nach Image speichern fest.
Damit wird der Speicherplatz für jede Aktualisierung reduziert, da Änderungen vor dem Image nicht eingeschlossen werden. Verwenden Sie diese Option, wenn Sie nicht vorhaben, Änderungen vor dem Image zu verwenden.
-
Legen Sie in Änderungen speichern – Einstellungen > Änderungstabellen die Option Suffix auf den Standardwert __ct fest.
-
Wenden Sie nicht die folgenden globalen Umwandlungen an:
-
Änderungstabelle umbenennen
-
Änderungstabellenschema umbenennen
-
-
Wenn ein Primärschlüssel in einer Quelltabelle aktualisiert werden kann, aktivieren Sie LÖSCHEN und EINFÜGEN, wenn eine Primärschlüsselspalten-Option in Feineinstellung der Änderungsverarbeitung aktualisiert wird.
Der Verlauf des alten Datensatzes wird im neuen Datensatz nicht beibehalten.
InformationshinweisDiese Option wird seit Qlik Replicate November 2022 unterstützt.
Vorgänge für die „registrierte Daten“-Aufgabe
Sie können die folgenden Vorgänge für eine „registrierte Daten“-Aufgabe über das Aufgabenmenü durchführen.
-
Öffnen
Damit wird die Datenaufgabe geöffnet. Sie können die Tabellenstruktur und die Details zur Datenaufgabe anzeigen.
-
Bearbeiten
Sie können den Namen und die Beschreibung der Aufgabe bearbeiten und Tags hinzufügen.
-
Löschen
Sie können die Datenaufgabe löschen.
Die Quelldaten werden nicht gelöscht.
- Datasets synchronisieren
Dadurch werden Designänderungen synchronisiert, die nicht automatisch angepasst werden können.
-
Tabellen neu erstellen
Dadurch werden die Datasets von der Quelle neu erstellt.
-
Daten speichern
Sie können eine Speicherdatenaufgabe erstellen, die Daten dieser Bereitstellungsdatenaufgabe nutzt.
Überlegungen zum Verlauf beim Festlegen einer „Von-Datum“-Spalte
Wenn Verlaufsdaten in einer nachgelagerten Aufgabe aktiviert sind und Sie eine „Von-Datum“-Spalte verwenden, wird Zurückdatieren nicht unterstützt. Wenn also ein Änderungssatz eine ältere Version eines Datensatzes enthält, die im Speicher nicht vorhanden ist, muss der Änderungssatz auch alle neueren Versionen des Datensatzes enthalten. Wenn die neueren Versionen nicht eingeschlossen werden, werden sie gelöscht.
In diesen Beispielen enthält der Speicher die folgenden Datensätze von Anfang an:
Von-Datum | Name | Ort |
---|---|---|
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | London |
Beispiel 1:
Wenn Sie den folgenden Änderungssatz einfügen:
Von-Datum | Name | Ort |
---|---|---|
4/Oct/2023 | Joe | Paris |
Das Speicherergebnis ist wie erwartet:
Von-Datum | Name | Ort |
---|---|---|
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | London |
4/Oct/2023 | Joe | Paris |
Beispiel 2:
Wenn Sie jedoch den folgenden älteren Datensatz in einen Änderungssatz einfügen:
Von-Datum | Name | Ort |
---|---|---|
1/Oct/2023 | Joe | Berlin |
Dann werden die neueren Datensätze im Speicher entfernt:
Von-Datum | Name | Ort |
---|---|---|
1/Oct/2023 | Joe | Berlin |
Beispiel 3:
Um den Verlauf beizubehalten, muss der Änderungssatz die neueren Datensätze enthalten:
Von-Datum | Name | Ort |
---|---|---|
1/Oct/2023 | Joe | Berlin |
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | London |
Damit wird sichergestellt, dass der Verlauf auch im Speicher beibehalten wird:
Von-Datum | Name | Ort |
---|---|---|
1/Oct/2023 | Joe | Berlin |
2/Oct/2023 | Joe | New York |
3/Oct/2023 | Joe | London |
Überlegungen
-
Verwenden Sie bei der Stitch-Replikation nicht die Verlaufsoption. Verwenden Sie die Optionen zum Beibehalten von Verlaufsdaten in Qlik Talend Data Integration.
Überlegungen zur Datenkapazität
-
Wenn eine registrierte Tabelle nicht über einen Primärschlüssel verfügt, findet bei jeder Ausführung ein vollständiger Ladevorgang statt. Dies zählt für das Kontingent Ihrer monatlichen registrierten Datenkapazität. Der Grund dafür ist, dass der Speicher alle Datensätze vergleichen muss, um Änderungen zu finden.
-
Datenkapazität für registrierte Daten wird im Speicher gezählt. Somit wird eine Löschung in den registrierten Daten in eine Einfügung oder Aktualisierung des Speichers übertragen (vorläufige Löschung) und zählt hinsichtlich der Datenkapazität.
-
Vorläufige Löschungen, Einfügungen und Aktualisierungen zählen zweimal hinsichtlich der Datenkapazität, wenn eine Tabelle mit registrierten Daten in zwei Speicherdatenaufgaben verwendet wird.