Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Dataset-Architektur in einem Cloud Data Warehouse

Mit Qlik Talend Data Integration können Sie eine Analyse-Daten-Pipeline erstellen, verwalten und steuern, wobei Daten bis zu den Verbrauchern übermittelt werden. Wenn Sie Datasets in einem Cloud Data Warehouse mit Qlik Talend Data Integration generieren, werden Speichertabellen, Änderungstabellen und Ansichten generiert.

Eine intuitive und geführte Benutzeroberfläche unterstützt Sie bei der Erstellung, Modellierung und Ausführung von Daten-Pipelines. Generieren Sie automatisch Schemas für Operational Data Stores (ODS) und Historical Data Stores (HDS) ohne manuelle Codierung.

Architektur für eine Qlik Talend Data Integration-Daten-Pipeline unter Verwendung von Qlik Data Gateway - Data Movement und CDC

  • Bereitstellung

    Die Bereitstellungsaufgabe in Qlik Talend Data Integration steuert die kontinuierliche Bereitstellung von Daten aus den Datenquelle im Bereitstellungsbereich. Das Beispiel im Diagramm beschreibt die Verwendung von Qlik Data Gateway - Data Movement zum Zugriff auf Datenquellen mithilfe von CDC, um Daten auf dem neuesten Stand zu halten. Sie können auch Qlik Cloud-Quellverbindungen nutzen, um vollständige Ladevorgänge durchzuführen, die für regelmäßiges Laden geplant werden können.

    Weitere Informationen dazu, wann Data Movement Gateway verwendet werden muss, finden Sie unter Wann ist Data Movement Gateway erforderlich?.

    InformationshinweisTabellen im Bereitstellungsbereich werden für die interne Nutzung durch Qlik Talend Data Integration-Speicherdatenaufgaben generiert. Verwenden Sie die Bereitstellungstabellen in keinen anderen nachgelagerten Prozessen.
  • Speicher

    Die Speicheraufgabe steuert, wann Daten auf die Speichertabellen angewendet werden, und erstellt und verwaltet die Tabellen und externen Ansichten.

  • Externe Ansichten

    Bei der Datennutzung hat es sich bewährt, Ansichten zu verwenden. Ansichten haben mehrere Vorteile gegenüber Tabellen, darunter verbesserte Datengleichzeitigkeit.

Verwendung von Live-Ansichten

Sie können sowohl auf aktuelle Daten (ODS) als auch auf historische Daten (HDS) mithilfe von Live-Ansichten zugreifen. Live-Ansichten enthalten Daten für Änderungstabellen, die noch nicht auf die aktuellen oder vorherigen Tabellen angewendet wurden. Damit können Sie Daten mit geringerer Latenz anzeigen, ohne geänderte Daten häufig anwenden zu müssen. Die Tatsache, dass die Zusammenführung verzögert werden kann, macht geringere Kosten und Verarbeitungsanforderungen in der Zielplattform möglich.

Ein weiterer Vorteil bei Live-Ansichten ist, dass die Berechnungsebene nicht die ganze Zeit ausgeführt bleiben muss.

  • Die Bereitstellung kann auf ein explizites Warehouse verweisen, das klein sein kann, da es nur INSERT-Vorgänge für eine schnelle Ausführung durchführt.

  • Der Speicherprozess kann, beispielsweise wenn er einmal pro Tag ausgeführt wird, eine große Berechnungsebene für die Verarbeitung reaktivieren.

  • Die Latenz kann verbessert werden, da wir keine Änderungen mehr im Tagesverlauf anwenden müssen. Wenn eingefügte neue Datensätze in der Änderungstabelle verfügbar sind, stehen sie in den Live-Ansichten sofort zur Verfügung.

Sternschemas

Artefakte werden in einem internen Schema und einem Datenaufgabenschema generiert.

  • Das interne Schema enthält die physischen Datentabellen.

  • Das Datenaufgabenschema enthält die Ansichten, die Sie für die Nutzung der Daten verwenden können.

    Wenn ein Schema mit mehr als einer Datenaufgabe verknüpft ist, muss jede Datenaufgabe ein eindeutiges Präfix für Tabellen und Ansichten verwenden. Sie können das Präfix in den Datenaufgabeneinstellungen festlegen.

Es werden nur interne Schemas für Benennungskonflikte geprüft. Bei anderen Schemas müssen Sie sicherstellen, dass keine Benennungskonflikte in den Tabellennamen bestehen. Die optimale Vorgehensweise ist die Benennung des internen Schemas mit dem gleichen Namen wie das Datenaufgabenschema, aber mit dem Namenszusatz _internal. Dadurch wird sichergestellt, dass jede Schema-Präfix-Kombination eindeutig ist.

InformationshinweisAlle Tabellen und Ansichten werden von Qlik Talend Data Integration verwaltet. Verändern Sie die Daten nicht mit anderen Tools.

Tabellen

Die folgenden Tabellen werden im internen Schema generiert.

  • Aktuelle Tabelle (ODS)

    Diese Tabelle enthält das Replikat der Datenquelle, das mit Änderungen während des letzten Anwendungsintervalls aktualisiert wurde.

  • Vorherige Tabelle (HDS)

    Diese Tabelle enthält Verlaufsdaten des Typs 2. Sie wird nun generiert, falls Verlauf in den Datenaufgabeneinstellungen aktiviert ist.

    Wenn ein Quelltabellen-Datensatz aktualisiert wird, wird jedes Mal ein neuer Datensatz zur vorherigen Tabelle hinzugefügt. Der Verlaufsdatensatz ist eine Kopie des vorherigen aktuellen Datensatzes, der auch die aktualisierten Informationen und den Zeitpunkt enthält, zu dem die Informationen gültig waren.

    Verwenden Sie eine Verlaufsansicht oder eine Live-Verlaufsansicht, um Verlaufsdaten anzusehen. Weitere Informationen finden Sie unter Verlaufsansicht undLive-Verlaufsansicht .

  • Änderungstabelle

    Diese Tabelle enthält alle Änderungen, die noch nicht auf die aktuelle Tabelle angewandt sind. Sie wird nur generiert, wenn der Bereitstellungsmodus Vollständiges Laden und CDC verwendet wird.

Ansichten

Die folgenden Ansichten werden im Datenaufgaben-Zielschema erstellt. Welche Ansichten erstellt werden, hängt davon ab, ob Sie Live-Ansichten und Verlauf aktiviert haben und ob Sie die Änderungsverarbeitung verwenden.

  • Aktuelle Ansicht

  • Live-Ansicht

  • Änderungsansicht

  • Verlaufsansicht

  • Live-Verlaufsansicht

InformationshinweisAlle Header-Spaltennamen, die mit hdr__ beginnen, sind reserviert. Wenn Sie eine Ansicht in einer Speicheraufgabe nutzen, müssen Sie die genutzten Headerspalten in der Speicheraufgabe umbenennen, um einen Namenskonflikt zu vermeiden, da die Speicheraufgabe Ansichten mit denselben Headerspalten generiert.

Aktuelle Ansicht

Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_current

Die folgenden Kopfzeilenspalten werden zur Tabellenstruktur hinzugefügt.

Tabellenkopfzeilenfelder
Feld Typ Beschreibung
hdr__key_hash varbinary(20)

Hash aller primären Schlüssel des Datensatzes. Das Hash-Format ist SHA1. Spalten werden durch ein Rücktastenzeichen getrennt.

Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.

hdr__key_id int64

Sequenz pro Datensatz erhöht.

Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.

hdr__from_timestamp Zeitstempel

Zeitstempel in UTC

  • Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs.

  • Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.

hdr__operation string(1)

Neuester Vorgang dieses Datensatzes.

  • D: aus Änderungstabelle gelöscht.

  • U: aus Änderungstabelle aktualisiert.

  • I: aus Änderungstabelle eingefügt.

  • L: aus vollständiger Ladeaufgabe eingefügt.

  • d - aus Vergleichen und Anwenden gelöscht.

  • u - aus Vergleichen und Anwenden aktualisiert.

  • i - aus Vergleichen und Anwenden eingefügt.

hdr__inserted_timestamp Zeitstempel UTC-Zeitstempel des ersten Zeitpunkts, zu dem der Schlüssel hinzugefügt wurde. Bei Verwendung des vollständigen Ladens ist dies die Startzeit des vollständigen Ladens.
hdr__modified_timestamp Zeitstempel UTC-Zeitstempel, wann das letzte Update angewandt wurde.

Live-Ansicht

Live-Ansichten zeigen eine Ansicht für jede ausgewählte Quelltabelle, in der die Tabelle mit Änderungen aus der Änderungstabelle zusammengeführt wird. Dadurch sind Abfragen mit einer Live-Ansicht der Daten möglich, ohne auf den nächsten Anwendungszyklus warten zu müssen. Die aus der Änderungstabelle zusammengeführten Änderungen sind nicht transaktionskonsistent zwischen Tabellen.

Live-Ansichten werden nur erstellt, wenn Sie Live-Ansichten in den Einstellungen der Datenaufgabe aktivieren.

Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Live-Ansichten>

Tabellenkopfzeilenfelder
Feld Typ Beschreibung
hdr__key_hash varbinary(20)

Hash aller primären Schlüssel des Datensatzes. Das Hash-Format ist SHA1. Spalten werden durch ein Rücktastenzeichen getrennt.

Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.

hdr__key_id int64

Sequenz pro Datensatz erhöht.

Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.

hdr__from_timestamp Zeitstempel

Zeitstempel in UTC

  • Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs.

  • Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.

hdr__operation string(1)

Neuester Vorgang dieses Datensatzes.

  • D: aus Änderungstabelle gelöscht.

  • U: aus Änderungstabelle aktualisiert.

  • I: aus Änderungstabelle eingefügt.

  • L: aus vollständiger Ladeaufgabe eingefügt.

  • d - aus Vergleichen und Anwenden gelöscht.

  • u - aus Vergleichen und Anwenden aktualisiert.

  • i - aus Vergleichen und Anwenden eingefügt.

hdr__inserted_timestamp Zeitstempel UTC-Zeitstempel des ersten Zeitpunkts, zu dem der Schlüssel hinzugefügt wurde. Bei Verwendung des vollständigen Ladens ist dies die Startzeit des vollständigen Ladens.
hdr__modified_timestamp Zeitstempel UTC-Zeitstempel, wann das letzte Update angewandt wurde.
hdr__store varchar(10)

Hier wird angegeben, wo sich der Datensatz befindet.

  • CURRENT - falls sich der Datensatz in der aktuellen physischen Tabelle befindet.

  • CHANGES - falls sich der Datensatz in der Änderungstabelle befindet.

Änderungsansicht

Dies ist eine Ansicht der Änderungstabelle im Bereitstellungsschema für jede ausgewählte Quelltabelle.

Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_changes

Die folgenden Kopfzeilenfelder werden zur Tabellenstruktur hinzugefügt.

Änderungstabellen-Kopfzeilenfelder
Feld Typ Beschreibung
hdr__change_identifier string(50)

Die Änderungskennung ist eine Zeichenkette mit zwei Teilen:

  • Startzeitstempel der Stapelausführung in Sekunden seit 1/1/1970 (Zeichenkette mit 10 Stellen)

  • Änderungszeichenfolge aus dem Replikations-Gateway (35 Zeichen)

hdr__from_timestamp Zeitstempel

Zeitstempel in UTC

  • Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs.

  • Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.

hdr__to_timestamp Zeitstempel

Zeitstempel in UTC

  • Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs.

  • Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.

hdr__operation string(1)

Neuester Vorgang dieses Datensatzes.

  • D: aus Änderungstabelle gelöscht.

  • U: aus Änderungstabelle aktualisiert.

  • I: aus Änderungstabelle eingefügt.

  • L: aus vollständiger Ladeaufgabe eingefügt.

  • d - aus Vergleichen und Anwenden gelöscht.

  • u - aus Vergleichen und Anwenden aktualisiert.

  • i - aus Vergleichen und Anwenden eingefügt.

hdr__timestamp Zeitstempel

Zeitstempel in UTC

hdr__key_hash binary(20)

Hash aller primären Schlüssel des Datensatzes.

Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.

hdr__key_id int64

Sequenz pro Datensatz erhöht.

Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.

Verlaufsansicht

Eine Verlaufsansicht wird im Datenobjektschema für jede ausgewählte Quelltabelle generiert, wenn Verlauf in den Datenaufgabeneinstellungen aktiviert ist. Die folgenden Kopfzeilenfelder werden hinzugefügt.

Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Verlaufsansichten>

Felder der Kopfzeile der Verlaufsansicht
Feld Typ Beschreibung
hdr__key_hash binary(20)

Hash aller primären Schlüssel des Datensatzes.

Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.

hdr__key_id int64

Sequenz pro Datensatz erhöht.

Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.

hdr__store varchar(10)

Hier wird angegeben, wo sich der Datensatz befindet.

  • CURRENT - falls sich der Datensatz in der aktuellen physischen Tabelle befindet.

  • PRIORS - falls sich der Datensatz in der vorherigen Tabelle mit Verlaufsdaten befindet.

hdr__operation string(1)

Neuester Vorgang dieses Datensatzes.

  • D: aus Änderungstabelle gelöscht.

  • U: aus Änderungstabelle aktualisiert.

  • I: aus Änderungstabelle eingefügt.

  • L: aus vollständiger Ladeaufgabe eingefügt.

  • d - aus Vergleichen und Anwenden gelöscht.

  • u - aus Vergleichen und Anwenden aktualisiert.

  • i - aus Vergleichen und Anwenden eingefügt.

hdr__deleted bit

Hier wird auf der Grundlage, ob hdr__operation auf D oder d steht, angegeben, ob der Datensatz vorläufig gelöscht wird.

hdr__was _current_from_timestamp Zeitstempel

Zeitstempel in UTC für den ersten Zeitpunkt, zu dem der Datensatz aktuell war.

hdr__was _current_to_timestamp Zeitstempel

Zeitstempel in UTC für den letzten Zeitpunkt, zu dem der Datensatz aktuell war.

Live-Verlaufsansicht

Eine Live-Verlaufsansicht wird im Datenobjektschema für jede ausgewählte Quelltabelle generiert, die mit Änderungen aus der Änderungstabelle zusammengeführt wurde. Die folgenden Kopfzeilenfelder werden hinzugefügt.

Benennung: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Live-Verlaufsansichten>

Felder der Kopfzeile der Live-Verlaufsansicht
Feld Typ Beschreibung
hdr__key_hash binary(20)

Hash aller primären Schlüssel des Datensatzes.

Diese Spalte wird nicht in Data Mart-Datenaufgaben generiert.

hdr__key_id int64

Sequenz pro Datensatz erhöht.

Diese Spalte wird nur in Data Mart-Datenaufgaben generiert.

hdr__store varchar(10)

Hier wird angegeben, wo sich der Datensatz befindet.

  • CURRENT - falls sich der Datensatz in der aktuellen physischen Tabelle befindet.

  • PRIORS - falls sich der Datensatz in der vorherigen Tabelle mit Verlaufsdaten befindet.

  • CHANGES - falls sich der Datensatz in der Änderungstabelle befindet.

hdr__operation string(1)

Neuester Vorgang dieses Datensatzes.

  • D: aus Änderungstabelle gelöscht.

  • U: aus Änderungstabelle aktualisiert.

  • I: aus Änderungstabelle eingefügt.

  • L: aus vollständiger Ladeaufgabe eingefügt.

  • d - aus Vergleichen und Anwenden gelöscht.

  • u - aus Vergleichen und Anwenden aktualisiert.

  • i - aus Vergleichen und Anwenden eingefügt.

hdr__deleted bit

Hier wird auf der Grundlage, ob hdr__operation auf D oder d steht, angegeben, ob der Datensatz vorläufig gelöscht wird.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!