Dataset-Architektur in einem Cloud Data Warehouse
Mit Qlik Talend Data Integration können Sie eine Analyse-Daten-Pipeline erstellen, verwalten und steuern, wobei Daten bis zu den Verbrauchern übermittelt werden. Wenn Sie Datasets in einem Cloud Data Warehouse mit Qlik Talend Data Integration generieren, werden Speichertabellen, Änderungstabellen und Ansichten generiert.
Eine intuitive und geführte Benutzeroberfläche unterstützt Sie bei der Erstellung, Modellierung und Ausführung von Daten-Pipelines. Generieren Sie automatisch Schemas für Operational Data Stores (ODS) und Historical Data Stores (HDS) ohne manuelle Codierung.
-
Bereitstellung
Die Bereitstellungsaufgabe in Qlik Talend Data Integration steuert die kontinuierliche Bereitstellung von Daten aus den Datenquelle im Bereitstellungsbereich. Das Beispiel im Diagramm beschreibt die Verwendung von Qlik Data Gateway - Data Movement zum Zugriff auf Datenquellen mithilfe von CDC, um Daten auf dem neuesten Stand zu halten. Sie können auch Qlik Cloud-Quellverbindungen nutzen, um vollständige Ladevorgänge durchzuführen, die für regelmäßiges Laden geplant werden können.
Weitere Informationen dazu, wann Data Movement Gateway verwendet werden muss, finden Sie unter Wann ist Data Movement Gateway erforderlich?.
InformationshinweisTabellen im Bereitstellungsbereich werden für die interne Nutzung durch Qlik Talend Data Integration-Speicherdatenaufgaben generiert. Verwenden Sie die Bereitstellungstabellen in keinen anderen nachgelagerten Prozessen. -
Speicher
Die Speicheraufgabe steuert, wann Daten auf die Speichertabellen angewendet werden, und erstellt und verwaltet die Tabellen und externen Ansichten.
-
Externe Ansichten
Bei der Datennutzung hat es sich bewährt, Ansichten zu verwenden. Ansichten haben mehrere Vorteile gegenüber Tabellen, darunter verbesserte Datengleichzeitigkeit.
Verwendung von Live-Ansichten
Sie können sowohl auf aktuelle Daten (ODS) als auch auf historische Daten (HDS) mithilfe von Live-Ansichten zugreifen. Live-Ansichten enthalten Daten für Änderungstabellen, die noch nicht auf die aktuellen oder vorherigen Tabellen angewendet wurden. Damit können Sie Daten mit geringerer Latenz anzeigen, ohne geänderte Daten häufig anwenden zu müssen. Die Tatsache, dass die Zusammenführung verzögert werden kann, macht geringere Kosten und Verarbeitungsanforderungen in der Zielplattform möglich.
Ein weiterer Vorteil bei Live-Ansichten ist, dass die Berechnungsebene nicht die ganze Zeit ausgeführt bleiben muss.
-
Die Bereitstellung kann auf ein explizites Warehouse verweisen, das klein sein kann, da es nur INSERT-Vorgänge für eine schnelle Ausführung durchführt.
-
Der Speicherprozess kann, beispielsweise wenn er einmal pro Tag ausgeführt wird, eine große Berechnungsebene für die Verarbeitung reaktivieren.
-
Die Latenz kann verbessert werden, da wir keine Änderungen mehr im Tagesverlauf anwenden müssen. Wenn eingefügte neue Datensätze in der Änderungstabelle verfügbar sind, stehen sie in den Live-Ansichten sofort zur Verfügung.
Sternschemas
Artefakte werden in einem internen Schema und einem Datenaufgabenschema generiert.
-
Das interne Schema enthält die physischen Datentabellen.
-
Das Datenaufgabenschema enthält die Ansichten, die Sie für die Nutzung der Daten verwenden können.
Wenn ein Schema mit mehr als einer Datenaufgabe verknüpft ist, muss jede Datenaufgabe ein eindeutiges Präfix für Tabellen und Ansichten verwenden. Sie können das Präfix in den Datenaufgabeneinstellungen festlegen.
Es werden nur interne Schemas für Benennungskonflikte geprüft. Bei anderen Schemas müssen Sie sicherstellen, dass keine Benennungskonflikte in den Tabellennamen bestehen. Die optimale Vorgehensweise ist die Benennung des internen Schemas mit dem gleichen Namen wie das Datenaufgabenschema, aber mit dem Namenszusatz _internal. Dadurch wird sichergestellt, dass jede Schema-Präfix-Kombination eindeutig ist.
Tabellen
Die folgenden Tabellen werden im internen Schema generiert.
-
Aktuelle Tabelle (ODS)
Diese Tabelle enthält das Replikat der Datenquelle, das mit Änderungen während des letzten Anwendungsintervalls aktualisiert wurde.
-
Vorherige Tabelle (HDS)
Diese Tabelle enthält Verlaufsdaten des Typs 2. Sie wird nun generiert, falls Verlauf in den Datenaufgabeneinstellungen aktiviert ist.
Wenn ein Quelltabellen-Datensatz aktualisiert wird, wird jedes Mal ein neuer Datensatz zur vorherigen Tabelle hinzugefügt. Der Verlaufsdatensatz ist eine Kopie des vorherigen aktuellen Datensatzes, der auch die aktualisierten Informationen und den Zeitpunkt enthält, zu dem die Informationen gültig waren.
Verwenden Sie eine Verlaufsansicht oder eine Live-Verlaufsansicht, um Verlaufsdaten anzusehen. Weitere Informationen finden Sie unter Verlaufsansicht undLive-Verlaufsansicht .
-
Änderungstabelle
Diese Tabelle enthält alle Änderungen, die noch nicht auf die aktuelle Tabelle angewandt sind. Sie wird nur generiert, wenn der Bereitstellungsmodus Vollständiges Laden und CDC verwendet wird.
Ansichten
Die folgenden Ansichten werden im Datenaufgaben-Zielschema erstellt. Welche Ansichten erstellt werden, hängt davon ab, ob Sie Live-Ansichten und Verlauf aktiviert haben und ob Sie die Änderungsverarbeitung verwenden.
-
Aktuelle Ansicht
-
Live-Ansicht
-
Änderungsansicht
-
Verlaufsansicht
-
Live-Verlaufsansicht
Aktuelle Ansicht
Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_current
Die folgenden Kopfzeilenspalten werden zur Tabellenstruktur hinzugefügt.
Feld | Typ | Beschreibung |
---|---|---|
hdr__key_hash | varbinary(20) |
Hash aller primären Schlüssel des Datensatzes. Das Hash-Format ist SHA1. Spalten werden durch ein Rücktastenzeichen getrennt. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert. |
hdr__key_id | int64 |
Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert. |
hdr__from_timestamp | Zeitstempel |
Zeitstempel in UTC
|
hdr__operation | string(1) |
Neuester Vorgang dieses Datensatzes.
|
hdr__inserted_timestamp | Zeitstempel | UTC-Zeitstempel des ersten Zeitpunkts, zu dem der Schlüssel hinzugefügt wurde. Bei Verwendung des vollständigen Ladens ist dies die Startzeit des vollständigen Ladens. |
hdr__modified_timestamp | Zeitstempel | UTC-Zeitstempel, wann das letzte Update angewandt wurde. |
Live-Ansicht
Live-Ansichten zeigen eine Ansicht für jede ausgewählte Quelltabelle, in der die Tabelle mit Änderungen aus der Änderungstabelle zusammengeführt wird. Dadurch sind Abfragen mit einer Live-Ansicht der Daten möglich, ohne auf den nächsten Anwendungszyklus warten zu müssen. Die aus der Änderungstabelle zusammengeführten Änderungen sind nicht transaktionskonsistent zwischen Tabellen.
Live-Ansichten werden nur erstellt, wenn Sie Live-Ansichten in den Einstellungen der Datenaufgabe aktivieren.
Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Live-Ansichten>
Feld | Typ | Beschreibung |
---|---|---|
hdr__key_hash | varbinary(20) |
Hash aller primären Schlüssel des Datensatzes. Das Hash-Format ist SHA1. Spalten werden durch ein Rücktastenzeichen getrennt. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert. |
hdr__key_id | int64 |
Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert. |
hdr__from_timestamp | Zeitstempel |
Zeitstempel in UTC
|
hdr__operation | string(1) |
Neuester Vorgang dieses Datensatzes.
|
hdr__inserted_timestamp | Zeitstempel | UTC-Zeitstempel des ersten Zeitpunkts, zu dem der Schlüssel hinzugefügt wurde. Bei Verwendung des vollständigen Ladens ist dies die Startzeit des vollständigen Ladens. |
hdr__modified_timestamp | Zeitstempel | UTC-Zeitstempel, wann das letzte Update angewandt wurde. |
hdr__store | varchar(10) |
Hier wird angegeben, wo sich der Datensatz befindet.
|
Änderungsansicht
Dies ist eine Ansicht der Änderungstabelle im Bereitstellungsschema für jede ausgewählte Quelltabelle.
Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_changes
Die folgenden Kopfzeilenfelder werden zur Tabellenstruktur hinzugefügt.
Feld | Typ | Beschreibung |
---|---|---|
hdr__change_identifier | string(50) |
Die Änderungskennung ist eine Zeichenkette mit zwei Teilen:
|
hdr__from_timestamp | Zeitstempel |
Zeitstempel in UTC
|
hdr__to_timestamp | Zeitstempel |
Zeitstempel in UTC
|
hdr__operation | string(1) |
Neuester Vorgang dieses Datensatzes.
|
hdr__timestamp | Zeitstempel |
Zeitstempel in UTC |
hdr__key_hash | binary(20) |
Hash aller primären Schlüssel des Datensatzes. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert. |
hdr__key_id | int64 |
Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert. |
Verlaufsansicht
Eine Verlaufsansicht wird im Datenobjektschema für jede ausgewählte Quelltabelle generiert, wenn Verlauf in den Datenaufgabeneinstellungen aktiviert ist. Die folgenden Kopfzeilenfelder werden hinzugefügt.
Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Verlaufsansichten>
Feld | Typ | Beschreibung |
---|---|---|
hdr__key_hash | binary(20) |
Hash aller primären Schlüssel des Datensatzes. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert. |
hdr__key_id | int64 |
Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert. |
hdr__store | varchar(10) |
Hier wird angegeben, wo sich der Datensatz befindet.
|
hdr__operation | string(1) |
Neuester Vorgang dieses Datensatzes.
|
hdr__deleted | bit |
Hier wird auf der Grundlage, ob hdr__operation auf D oder d steht, angegeben, ob der Datensatz vorläufig gelöscht wird. |
hdr__was _current_from_timestamp | Zeitstempel |
Zeitstempel in UTC für den ersten Zeitpunkt, zu dem der Datensatz aktuell war. |
hdr__was _current_to_timestamp | Zeitstempel |
Zeitstempel in UTC für den letzten Zeitpunkt, zu dem der Datensatz aktuell war. |
Live-Verlaufsansicht
Eine Live-Verlaufsansicht wird im Datenobjektschema für jede ausgewählte Quelltabelle generiert, die mit Änderungen aus der Änderungstabelle zusammengeführt wurde. Die folgenden Kopfzeilenfelder werden hinzugefügt.
Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Live-Verlaufsansichten>
Feld | Typ | Beschreibung |
---|---|---|
hdr__key_hash | binary(20) |
Hash aller primären Schlüssel des Datensatzes. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert. |
hdr__key_id | int64 |
Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert. |
hdr__store | varchar(10) |
Hier wird angegeben, wo sich der Datensatz befindet.
|
hdr__operation | string(1) |
Neuester Vorgang dieses Datensatzes.
|
hdr__deleted | bit |
Hier wird auf der Grundlage, ob hdr__operation auf D oder d steht, angegeben, ob der Datensatz vorläufig gelöscht wird. |