Dataset-Architektur in einem Cloud Data Warehouse

Mit Qlik Talend Data Integration können Sie eine Analyse-Daten-Pipeline erstellen, verwalten und steuern, wobei Daten bis zu den Verbrauchern übermittelt werden. Wenn Sie Datasets in einem Cloud Data Warehouse mit Qlik Talend Data Integration generieren, werden Speichertabellen, Änderungstabellen und Ansichten generiert.

Eine intuitive und geführte Benutzeroberfläche unterstützt Sie bei der Erstellung, Modellierung und Ausführung von Daten-Pipelines. Generieren Sie automatisch Schemas für Operational Data Stores (ODS) und Historical Data Stores (HDS) ohne manuelle Codierung.

Zur Anzeige in vollständiger Größe klicken — Architektur für eine Qlik Talend Data Integration-Daten-Pipeline unter Verwendung von Qlik Data Gateway – Datenbewegung und CDC

Bereitstellung

Die Bereitstellungsaufgabe in Qlik Talend Data Integration steuert die kontinuierliche Bereitstellung von Daten aus den Datenquelle im Bereitstellungsbereich. Das Beispiel im Diagramm beschreibt die Verwendung von Qlik Data Gateway – Datenbewegung zum Zugriff auf Datenquellen mithilfe von CDC, um Daten auf dem neuesten Stand zu halten. Sie können auch Qlik Cloud-Quellverbindungen nutzen, um vollständige Ladevorgänge durchzuführen, die für regelmäßiges Laden geplant werden können.

Weitere Informationen dazu, wann Data Movement Gateway verwendet werden muss, finden Sie unter Wann ist Data Movement Gateway erforderlich?.

InformationshinweisTabellen im Bereitstellungsbereich werden für die interne Nutzung durch Qlik Talend Data Integration-Speicherdatenaufgaben generiert. Verwenden Sie die Bereitstellungstabellen in keinen anderen nachgelagerten Prozessen.
Speicher

Die Speicheraufgabe steuert, wann Daten auf die Speichertabellen angewendet werden, und erstellt und verwaltet die Tabellen und externen Ansichten.
Externe Ansichten

Bei der Datennutzung hat es sich bewährt, Ansichten zu verwenden. Ansichten haben mehrere Vorteile gegenüber Tabellen, darunter verbesserte Datengleichzeitigkeit.

Verwendung von Live-Ansichten

Sie können sowohl auf aktuelle Daten (ODS) als auch auf historische Daten (HDS) mithilfe von Live-Ansichten zugreifen. Live-Ansichten enthalten Daten für Änderungstabellen, die noch nicht auf die aktuellen oder vorherigen Tabellen angewendet wurden. Damit können Sie Daten mit geringerer Latenz anzeigen, ohne geänderte Daten häufig anwenden zu müssen. Die Tatsache, dass die Zusammenführung verzögert werden kann, macht geringere Kosten und Verarbeitungsanforderungen in der Zielplattform möglich.

Ein weiterer Vorteil bei Live-Ansichten ist, dass die Berechnungsebene nicht die ganze Zeit ausgeführt bleiben muss.

Die Bereitstellung kann auf ein explizites Warehouse verweisen, das klein sein kann, da es nur INSERT-Vorgänge für eine schnelle Ausführung durchführt.
Der Speicherprozess kann, beispielsweise wenn er einmal pro Tag ausgeführt wird, eine große Berechnungsebene für die Verarbeitung reaktivieren.
Die Latenz kann verbessert werden, da wir keine Änderungen mehr im Tagesverlauf anwenden müssen. Wenn eingefügte neue Datensätze in der Änderungstabelle verfügbar sind, stehen sie in den Live-Ansichten sofort zur Verfügung.

video thumbnail

Schemas

Artefakte werden in einem internen Schema und einem Datenaufgabenschema generiert.

Das interne Schema enthält die physischen Datentabellen.
Das Datenaufgabenschema enthält die Ansichten, die Sie für die Nutzung der Daten verwenden können.

Wenn ein Schema mit mehr als einer Datenaufgabe verknüpft ist, muss jede Datenaufgabe ein eindeutiges Präfix für Tabellen und Ansichten verwenden. Sie können das Präfix in den Datenaufgabeneinstellungen festlegen.

Es werden nur interne Schemas für Benennungskonflikte geprüft. Bei anderen Schemas müssen Sie sicherstellen, dass keine Benennungskonflikte in den Tabellennamen bestehen. Die optimale Vorgehensweise ist die Benennung des internen Schemas mit dem gleichen Namen wie das Datenaufgabenschema, aber mit dem Namenszusatz _internal. Dadurch wird sichergestellt, dass jede Schema-Präfix-Kombination eindeutig ist.

Von Qlik Talend Data Integration erstellte Schemas werden nicht gelöscht, wenn Sie Aufgaben oder Projekte löschen.

Alle Tabellen und Ansichten werden von Qlik Talend Data Integration verwaltet. Verändern Sie die Daten nicht mit anderen Tools.

Tabellen

Die folgenden Tabellen werden im internen Schema generiert.

Die Tabellen des internen Schemas können ohne vorherige Ankündigung geändert werden. Sie sollten, wenn möglich, hauptsächlich Ansichten verwenden, um Daten zu nutzen.

Aktuelle Tabelle (ODS)

Diese Tabelle enthält das Replikat der Datenquelle, das mit Änderungen während des letzten Anwendungsintervalls aktualisiert wurde.
Vorherige Tabelle (HDS)

Diese Tabelle enthält Verlaufsdaten des Typs 2. Sie wird nun generiert, falls Verlauf in den Datenaufgabeneinstellungen aktiviert ist.

Wenn ein Quelltabellen-Datensatz aktualisiert wird, wird jedes Mal ein neuer Datensatz zur vorherigen Tabelle hinzugefügt. Der Verlaufsdatensatz ist eine Kopie des vorherigen aktuellen Datensatzes, der auch die aktualisierten Informationen und den Zeitpunkt enthält, zu dem die Informationen gültig waren.

Verwenden Sie eine Verlaufsansicht oder eine Live-Verlaufsansicht, um Verlaufsdaten anzusehen. Weitere Informationen finden Sie unter Verlaufsansicht undLive-Verlaufsansicht .
Änderungstabelle (Change)

Diese Tabelle enthält alle Änderungen an der entsprechenden Quelltabelle seit dem Start der Aufgabe und wird niemals abgeschnitten. Sie wird nur generiert, wenn der Bereitstellungsmodus Vollständiges Laden und CDC verwendet wird.

TipphinweisWenn Ihr System ein hohes Änderungsvolumen verarbeitet, sollten Sie in Betracht ziehen, angewendete Änderungen in den Änderungstabellen regelmäßig abzuschneiden. Dies kann den Ressourcenverbrauch reduzieren und die Leistung verbessern.

Wenn Sie einen zuvor gelöschten Datensatz wieder einfügen und die Datensätze denselben Primärschlüsselwert haben, wird für hdr__operation der Wert U - aktualisiert.

Spaltennamen, die mit hdr__ beginnen, sind für die Verwendung in Kopfzeilenspalten durch Qlik Talend Data Integration reserviert. Weitere Informationen finden Sie unter Zweideutige Spaltennamen.

Aktuelle Tabelle

Benennung: <INTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_aktuell

Die folgenden Kopfzeilenspalten werden zur Tabellenstruktur hinzugefügt.

Kopfzeilenfelder der aktuellen Tabelle

Feld	Typ	Beschreibung
hdr__key_hash	varbinary(20)	Hash aller primären Schlüssel des Datensatzes. Das Hash-Format ist SHA1. Spalten werden durch ein Rücktastenzeichen getrennt. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.
hdr__key_id	int64	Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.
hdr__from_timestamp	Zeitstempel	Zeitstempel in UTC Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs. Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.
hdr__operation	string(1)	Neuester Vorgang dieses Datensatzes. D: aus Änderungstabelle gelöscht. U: aus Änderungstabelle aktualisiert. I: aus Änderungstabelle eingefügt. L: aus vollständiger Ladeaufgabe eingefügt. d - aus Vergleichen und Anwenden gelöscht. u - aus Vergleichen und Anwenden aktualisiert. i - aus Vergleichen und Anwenden eingefügt.
hdr__inserted_timestamp	Zeitstempel	UTC-Zeitstempel des ersten Zeitpunkts, zu dem der Schlüssel hinzugefügt wurde. Bei Verwendung des vollständigen Ladens ist dies die Startzeit des vollständigen Ladens.
hdr__modified_timestamp	Zeitstempel	UTC-Zeitstempel, wann das letzte Update angewandt wurde.

Vorherige Tabelle

Die folgenden Kopfzeilenfelder werden hinzugefügt.

Naming: <INTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_vorherig

Kopfzeilenfelder der vorherigen Tabelle

Feld	Typ	Beschreibung
hdr__key_hash	varbinary(20)	Hash aller primären Schlüssel des Datensatzes. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.
hdr__key_id	int64	Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.
hdr__from_timestamp	Zeitstempel	Zeitstempel in UTC
hdr__to_timestamp	Zeitstempel	Zeitstempel in UTC
hdr__operation	string(1)	Neuester Vorgang dieses Datensatzes. D: aus Änderungstabelle gelöscht. U: aus Änderungstabelle aktualisiert. I: aus Änderungstabelle eingefügt. L: durch anfängliches Laden eingefügt. d - aus Vergleichen und Anwenden gelöscht. u - aus Vergleichen und Anwenden aktualisiert. i - aus Vergleichen und Anwenden eingefügt.
hdr__was_current_from_timestamp	timestamp	Zeitstempel in UTC für den ersten Zeitpunkt, zu dem der Datensatz aktuell war.
hdr__was_current_to_timestamp	timestamp	Zeitstempel in UTC für den letzten Zeitpunkt, zu dem der Datensatz aktuell war.

Änderungstabelle

Benennung: <INTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_ct

Die folgenden Kopfzeilenfelder werden zur Tabellenstruktur hinzugefügt.

Änderungstabellen-Kopfzeilenfelder

Feld	Typ	Beschreibung
hdr__change_identifier	varchar(50)	Die Änderungskennung ist eine Zeichenkette mit zwei Teilen: Startzeitstempel der Stapelausführung in Millisekunden seit 1/1/1970 (Zeichenkette mit 10 Stellen) Änderungszeichenfolge aus dem Replikations-Gateway (35 Zeichen)
hdr__operation	varchar(1)	Neuester Vorgang dieses Datensatzes. D: aus Änderungstabelle gelöscht. U: aus Änderungstabelle aktualisiert. I: aus Änderungstabelle eingefügt. d - aus Vergleichen und Anwenden gelöscht. u - aus Vergleichen und Anwenden aktualisiert. i - aus Vergleichen und Anwenden eingefügt.
hdr__timestamp	Zeitstempel	Zeitstempel in UTC
hdr__key_hash	binary(20)	Hash aller primären Schlüssel des Datensatzes. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.
hdr__key_id	int64	Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.

Ansichten

Die folgenden Ansichten werden im Datenaufgaben-Zielschema erstellt. Welche Ansichten erstellt werden, hängt davon ab, ob Sie Live-Ansichten und Verlauf aktiviert haben und ob Sie die Änderungsverarbeitung verwenden.

Standardansicht
Live-Ansicht
Änderungsansicht
Verlaufsansicht
Live-Verlaufsansicht

Alle Header-Spaltennamen, die mit hdr__ beginnen, sind reserviert. Wenn Sie eine Ansicht in einer Speicheraufgabe nutzen, müssen Sie die genutzten Headerspalten in der Speicheraufgabe umbenennen, um einen Namenskonflikt zu vermeiden, da die Speicheraufgabe Ansichten mit denselben Headerspalten generiert.

Standardansicht

Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>

Es werden keine Kopfzeilenspalten zur Tabellenstruktur hinzugefügt.

Live-Ansicht

Live-Ansichten zeigen eine Ansicht für jede ausgewählte Quelltabelle, in der die Tabelle mit Änderungen aus der Änderungstabelle zusammengeführt wird. Dadurch sind Abfragen mit einer Live-Ansicht der Daten möglich, ohne auf den nächsten Anwendungszyklus warten zu müssen. Die aus der Änderungstabelle zusammengeführten Änderungen sind nicht transaktionskonsistent zwischen Tabellen.

Live-Ansichten werden nur erstellt, wenn Sie Live-Ansichten in den Einstellungen der Datenaufgabe aktivieren.

Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Live-Ansichten>

Tabellenkopfzeilenfelder

Feld	Typ	Beschreibung
hdr__key_hash	varbinary(20)	Hash aller primären Schlüssel des Datensatzes. Das Hash-Format ist SHA1. Spalten werden durch ein Rücktastenzeichen getrennt. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.
hdr__key_id	int64	Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.
hdr__from_timestamp	Zeitstempel	Zeitstempel in UTC Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs. Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.
hdr__operation	string(1)	Neuester Vorgang dieses Datensatzes. D: aus Änderungstabelle gelöscht. U: aus Änderungstabelle aktualisiert. I: aus Änderungstabelle eingefügt. L: aus vollständiger Ladeaufgabe eingefügt. d - aus Vergleichen und Anwenden gelöscht. u - aus Vergleichen und Anwenden aktualisiert. i - aus Vergleichen und Anwenden eingefügt.
hdr__inserted_timestamp	Zeitstempel	UTC-Zeitstempel des ersten Zeitpunkts, zu dem der Schlüssel hinzugefügt wurde. Bei Verwendung des vollständigen Ladens ist dies die Startzeit des vollständigen Ladens.
hdr__modified_timestamp	Zeitstempel	UTC-Zeitstempel, wann das letzte Update angewandt wurde.
hdr__store	varchar(10)	Hier wird angegeben, wo sich der Datensatz befindet. CURRENT - falls sich der Datensatz in der aktuellen physischen Tabelle befindet. CHANGES - falls sich der Datensatz in der Änderungstabelle befindet.

Änderungsansicht

Dies ist eine Ansicht der Änderungstabelle im Bereitstellungsschema für jede ausgewählte Quelltabelle.

Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_changes

Die folgenden Kopfzeilenfelder werden zur Tabellenstruktur hinzugefügt.

Änderungsansichts-Kopfzeilenfelder

Feld	Typ	Beschreibung
hdr__change_identifier	string(50)	Die Änderungskennung ist eine Zeichenkette mit zwei Teilen: Startzeitstempel der Stapelausführung in Millisekunden seit 1/1/1970 (Zeichenkette mit 10 Stellen) Änderungszeichenfolge aus dem Replikations-Gateway (35 Zeichen)
hdr__from_timestamp	Zeitstempel	Zeitstempel in UTC Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs. Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.
hdr__to_timestamp	Zeitstempel	Zeitstempel in UTC Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs. Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.
hdr__operation	string(1)	Neuester Vorgang dieses Datensatzes. D: aus Änderungstabelle gelöscht. U: aus Änderungstabelle aktualisiert. I: aus Änderungstabelle eingefügt. L: aus vollständiger Ladeaufgabe eingefügt. d - aus Vergleichen und Anwenden gelöscht. u - aus Vergleichen und Anwenden aktualisiert. i - aus Vergleichen und Anwenden eingefügt.
hdr__timestamp	Zeitstempel	Zeitstempel in UTC
hdr__key_hash	binary(20)	Hash aller primären Schlüssel des Datensatzes. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.
hdr__key_id	int64	Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.

Verlaufsansicht

Eine Verlaufsansicht wird im Datenobjektschema für jede ausgewählte Quelltabelle generiert, wenn Verlauf in den Datenaufgabeneinstellungen aktiviert ist. Die folgenden Kopfzeilenfelder werden hinzugefügt.

Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Verlaufsansichten>

Felder der Kopfzeile der Verlaufsansicht

Feld	Typ	Beschreibung
hdr__key_hash	binary(20)	Hash aller primären Schlüssel des Datensatzes. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.
hdr__key_id	int64	Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.
hdr__from_timestamp	Zeitstempel	Zeitstempel in UTC Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs. Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.
hdr__to_timestamp	Zeitstempel	Zeitstempel in UTC Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs. Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.
hdr__was_current_from_timestamp	timestamp	Zeitstempel in UTC für den ersten Zeitpunkt, zu dem der Datensatz aktuell war.
hdr__was_current_to_timestamp	timestamp	Zeitstempel in UTC für den letzten Zeitpunkt, zu dem der Datensatz aktuell war.
hdr__store	varchar(7)	Hier wird angegeben, wo sich der Datensatz befindet. CURRENT - falls sich der Datensatz in der aktuellen physischen Tabelle befindet. PRIORS - falls sich der Datensatz in der vorherigen Tabelle mit Verlaufsdaten befindet.
hdr__operation	string(1)	Neuester Vorgang dieses Datensatzes. D: aus Änderungstabelle gelöscht. U: aus Änderungstabelle aktualisiert. I: aus Änderungstabelle eingefügt. L: aus vollständiger Ladeaufgabe eingefügt. d - aus Vergleichen und Anwenden gelöscht. u - aus Vergleichen und Anwenden aktualisiert. i - aus Vergleichen und Anwenden eingefügt.
hdr__deleted	bit	Hier wird auf der Grundlage, ob hdr__operation auf D oder d steht, angegeben, ob der Datensatz vorläufig gelöscht wird.

Live-Verlaufsansicht

Eine Live-Verlaufsansicht wird im Datenobjektschema für jede ausgewählte Quelltabelle generiert, die mit Änderungen aus der Änderungstabelle zusammengeführt wurde. Die folgenden Kopfzeilenfelder werden hinzugefügt.

Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Live-Verlaufsansichten>

Felder der Kopfzeile der Live-Verlaufsansicht

Feld	Typ	Beschreibung
hdr__key_hash	binary(20)	Hash aller primären Schlüssel des Datensatzes. Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.
hdr__key_id	int64	Sequenz pro Datensatz erhöht. Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.
hdr__store	varchar(10)	Hier wird angegeben, wo sich der Datensatz befindet. CURRENT - falls sich der Datensatz in der aktuellen physischen Tabelle befindet. PRIORS - falls sich der Datensatz in der vorherigen Tabelle mit Verlaufsdaten befindet. CHANGES - falls sich der Datensatz in der Änderungstabelle befindet.
hdr__operation	string(1)	Neuester Vorgang dieses Datensatzes. D: aus Änderungstabelle gelöscht. U: aus Änderungstabelle aktualisiert. I: aus Änderungstabelle eingefügt. L: aus vollständiger Ladeaufgabe eingefügt. d - aus Vergleichen und Anwenden gelöscht. u - aus Vergleichen und Anwenden aktualisiert. i - aus Vergleichen und Anwenden eingefügt.
hdr__deleted	bit	Hier wird auf der Grundlage, ob hdr__operation auf D oder d steht, angegeben, ob der Datensatz vorläufig gelöscht wird.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab