Zu Hauptinhalt springen

Erstellen eines Speicherdatenobjekts mit Änderungsverarbeitung in einem Cloud Data Warehouse

Sie können ein Speicherdatenobjekt auf der Data Services-Startseite erstellen, auf das Sie über die Navigationsleiste zugreifen können. Das Speicherdatenobjekt erfasst die Daten aus dem Cloud-Bereitstellungsbereich (z. B. Snowflake) und konvertiert sie in Tabellen für die Analyse. Die Daten werden regelmäßig auf die Tabellen aus den Änderungen im Eingabedatenobjekt mithilfe von CDC (Change Data Capture) angewendet. Es werden auch Ansichten erstellt, um flexibleren Zugriff auf die Daten in den gespeicherten Tabellen zu bieten.

Einleitung

Wenn Sie Daten im Cloud Data Warehouse generieren, werden Speichertabellen, Änderungstabellen und Ansichten generiert. Bei der Datennutzung hat es sich bewährt, Ansichten zu verwenden. Ansichten haben mehrere Vorteile gegenüber Tabellen, darunter verbesserte Datengleichzeitigkeit. Wenn Sie sich nicht sicher sind, welche Ansicht Sie nutzen sollten, können Sie mit der Standardansicht für Tabellen beginnen.

Tabellen und Ansichten, die von einem Speicherdatenobjekt generiert wurden, das anhand von Änderungsverarbeitung aus einem Bereitstellungsdatenobjekt liest

Die folgenden Tabellen und Ansichten werden immer erstellt:

  • Tabellen

    Tabellen enthalten die physischen gespeicherten Daten.

  • Standardansichten für Tabellen

    In Standardansichten für Tabellen sehen Sie nur die Daten, die auf die Tabellen angewendet wurden. Das bedeutet, dass die neuesten Änderungstabellendaten, die noch nicht angewendet wurden, nicht enthalten sind. Standardansichten können verwendet werden, wenn die Konsistenz höhere Priorität als die Latenz hat.

  • Änderungstabellenansichten

    Dies ist eine Ansicht der Änderungstabelle im Bereitstellungsschema.

Sie können auch die folgenden erweiterten Ansichten auswählen:

  • Standardansichten mit Kopfzeilen

    Dies ist eine Standardansicht für eine Tabelle mit zusätzlichen Kopfzeilenfeldern, die vom Speicherdatenobjekt generiert werden.

  • Live-Ansichten

    Live-Ansichten enthalten Änderungstabellendaten, die noch nicht angewendet wurden. Damit können Sie Daten mit geringerer Latenz anzeigen, ohne geänderte Daten häufig anwenden zu müssen. Live-Ansichten sind weniger effizient als Standardansichten und benötigen mehr Ressourcen.

Weitere Einzelheiten zu Tabellen und Ansichten, die generiert werden, finden Sie unter Struktur aus Tabellen und Ansichten, die generiert werden.

Erstellen eines Speicherdatenobjekts

  1. Klicken Sie auf der Startseite von Data Integration auf Neu hinzufügen und wählen Sie Datenobjekt erstellen aus.
  2. Füllen Sie im Dialogfeld Datenobjekt erstellen die folgenden Felder aus:

    • Name: Name des Datenobjekts.

    • Bereich: Geben Sie den Zielbereich des Datenobjekts an.

    • Objekttyp: Wählen Sie Speicher (Cloud Data Warehouse) aus.

    • Wählen Sie Öffnen aus, um das Datenobjekt zu öffnen, wenn es erstellt wird.

    Klicken Sie auf Erstellen, wenn Sie fertig sind.

  3. Klicken Sie auf Quelldaten auswählen.

  4. Wählen Sie das Bereitstellungsdatenobjekt aus, das Sie als Quelle für das Speicherdatenobjekt verwenden möchten, und klicken Sie auf Auswählen. Wählen Sie ein Bereitstellungsdatenobjekt mit dem Aufgabentyp Vollständiges Laden + CDC aus. Der Aufgabentyp wird in der Listenansicht angezeigt.

    Das Dialogfeld Einstellungen wird angezeigt.

  5. Konfigurieren von Einstellungen für Speicher

    • Verbindung

      Wählen Sie die Datenverbindung mit Schreibberechtigung für das Speicher-Cloud Data Warehouse und Leseberechtigung für das Cloud Data Warehouse, das vom Bereitstellungsdatenobjekt verwendet wird. Wenn Sie keine Datenverbindung haben, müssen Sie eine erstellen.

      InformationshinweisOAuth-Authentifizierung wird für Hybrid-Datenbereitstellung nicht unterstützt.
    • Internes Schema

      Dies ist der Name des Schemas, in dem Tabellen erstellt werden.

    • Datenobjektschema

      Dies ist der Name des Schemas, in dem Ansichten erstellt werden.

    InformationshinweisSie können das gleiche Schema als internes Schema und als Datenobjektschema verwenden. Wenn Sie getrennte Schemas verwenden, können Sie aber unterschiedlichen Zugriff auf die Schemas festlegen. Beispielsweise können Sie den Zugriff auf das interne Schema beschränken und allen Nutzern Zugriff auf das Datenobjektschema gewähren.
  6. Konfigurieren von Einstellungen für Tabellen und Ansichten

    Folgende Elemente werden immer erstellt:

    • Tabellen

    • Standardansichten für Tabellen

    • Standardansichten für Änderungstabellen

    Sie können auch die folgenden Ansichten erstellen:

    • Standardansichten mit Kopfzeilen

    • Live-Ansichten

      Wenn Sie möchten, dass die Live-Ansichten transaktional einheitlich sind, wählen Sie Transaktional einheitliche Live-Ansichten aus. Wenn diese Option ausgewählt ist, werden Statustabellen nach jeder Batch-Aktualisierung aktualisiert, standardmäßig jede Minute, wenn Änderungen vorhanden sind. Das macht häufigeren Zugriff auf die Cloud-Datenbank erforderlich. Abhängig von Ihrem Cloud-Datenbankanbieter kann dies bedeuten, dass die Cloud-Datenbank nie aufgrund von Inaktivität ausgesetzt ist.

  7. Konfigurieren von Einstellungen für Präfixe und Suffixe

    Sie können ein Präfix festlegen, um die Ressourcen zu identifizieren, die von diesem Datensatz generiert wurden. Dies ermöglicht auch die Wiederverwendung des gleichen Schemas in mehreren Datenobjekten, da Sie die Tabellen und Ansichten nach Präfix unterscheiden können.

    Sie können auch Suffixe für die generierten Ansichten festlegen.

  8. Konfigurieren von Einstellungen für Laufzeit

    • Sie können das Anwendungsintervall in Minuten festlegen.

      Damit wird eingestellt, wie oft geänderte Daten auf die Speichertabelle angewendet werden. Der Intervallbereich reicht von 1 Minute bis 1440 Minuten (7 Tage).

      Es wird empfohlen, dieses Intervall nicht niedriger als die Aktualisierungshäufigkeit in der zugeordneten Qlik Replicate-Aufgabe festzulegen. Eine häufigere Datenanwendung führt auch zu höheren Ressourcenkosten im Cloud-Ziel.

      Alternativ können Sie, wenn Sie gelegentlich Daten mit niedriger Latenz benötigen, das Anwendungsintervall hoch einstellen und Live-Ansichten verwenden.

    • Sie können die maximale Anzahl Datenbankverbindungen in Parallele Ausführung festlegen.

    Laufzeit-Parameter können geändert werden, nachdem das Datenobjekt katalogisiert und ausgeführt wurde. Die Änderung wirkt sich auf die nächste tatsächliche Verarbeitung aus.

  9. Klicken Sie auf OK, um Ihre Einstellungen zu bestätigen. Sie können jetzt eine Vorschau der Tabellenstruktur anzeigen, bevor Sie mit dem Generieren von Datensätzen beginnen.

  10. Klicken Sie auf Speichern, um das Datenobjekt zu speichern.

  11. Klicken Sie auf Ausführen, um mit dem Generieren der Datensätze zu beginnen.

Die Tabellen werden jetzt generiert und mit Daten befüllt, wenn Sie bereits einen vollständigen Ladevorgang der Bereitstellungsdaten durchgeführt haben.

Überwachen der Tabellengenerierung

Sie können den Status und Fortschritt der Tabellengenerierung überwachen, indem Sie auf Überwachen klicken. Während der erste Ladevorgang läuft, können Sie den Fortschritt unter Status der vollständigen Ladung einsehen. Wenn Änderungen verarbeitet wurden, können Sie auch den Status von Letzter Satz Änderungen anzeigen.

Sie können die folgenden Details für jede Tabelle oder Änderung anzeigen:

  • Zustand

    Hier wird der aktuelle Zustand dieser Tabelle oder Änderung gezeigt.

    • Abgeschlossen: Der Ladevorgang bzw. die Änderung wurde erfolgreich abgeschlossen.

    • Wird geladen: Die Tabelle bzw. die Änderung wird verarbeitet.

    • In Warteschlange gestellt: Die Tabelle bzw. die Änderung wartet auf ihre Verarbeitung.

    • Fehler: Beim Verarbeiten der Tabelle bzw. der Änderung ist ein Fehler aufgetreten.

  • Gestartet

    Uhrzeit, um die der Ladevorgang oder die Verarbeitung der Änderungen gestartet wurde.

  • Beendet

    Uhrzeit, um die der Ladevorgang oder die Verarbeitung der Änderungen beendet wurde.

  • Dauer

    Dauer des Ladevorgangs oder der Änderungsverarbeitung im Format hh:mm:ss.

  • Verarbeitete Datensätze

    Die Anzahl der Datensätze, die bei dem Lade- oder Änderungsvorgang verarbeitet wurden.

  • Durchsatz (Datensätze/Sekunde)

    Der Durchsatz wird erst aktualisiert, nachdem der Ladevorgang abgeschlossen ist.

  • Meldung

    Zeigt eine Fehlermeldung an, wenn der Lade- oder Änderungsvorgang nicht erfolgreich verarbeitet wurde.

Die Tabellen werden fortlaufend mit neuen Daten aktualisiert, sobald der Bereitstellungsbereich von der Replikationsaufgabe aktualisiert wird. Jeder Satz bezieht sich auf Datensätze aus einem bestimmten Zeitraum. Sie können die Zeitspanne des neuesten Satzes in Letzter Satz Änderungen anzeigen.

Sie können auch die Datenobjektkarte auf der Startseite von Data Services prüfen. Wenn Daten werden aktualisiert auf das Datum und die Uhrzeit der letzten Aktualisierung zeigt, sollten die Tabellen unter Daten im Analyse-Hub verfügbar sein.

Daten aus allen Quelltransaktionen bis zum unter Datenobjekt wird aktualisiert auf angezeigten Zeitpunkt können über dieses Datenobjekt genutzt werden. Diese Informationen stehen für ein Datenobjekt zur Verfügung, nachdem alle Tabellen geladen und der erste Satz Änderungen angewendet wurde. Wenn Sie sich für die Generierung von Live-Ansichten entschieden haben, können Sie es auch sehen, wenn Live-Ansichten aktualisiert wurden.

Wenn ein Satz Änderungen anfällt, bevor der anfängliche Ladevorgang abgeschlossen ist, wird Daten werden aktualisiert auf auf der Objektkarte erst dann aktualisiert, wenn der anfängliche Ladevorgang abgeschlossen ist und der erste Satz Änderungen angewendet wurde. Nehmen wir beispielsweise an, dass Sie ein Datenobjekt laden, das eine Tabelle „Bestellungen“ mit 1 Million Bestellungen sowie eine Tabelle „Bestellungsdetails“ mit 10 Millionen Bestellungsdetails enthält. Für einen vollständigen Ladevorgang benötigen die Tabellen 10 bzw. 20 Minuten. Die Tabelle „Bestellungen“ wird zuerst geladen, gefolgt von der Tabelle „Bestellungsdetails“. Während die Tabelle „Bestellungen“ geladen wurde, wurde eine neue Bestellung eingefügt. Wenn dann die Bestellungsdetails geladen werden, kann es vorkommen, dass die Tabelle Details der neuen Bestellung enthält, die in der Tabelle „Bestellungen“ noch nicht vorhanden ist. Die Tabellen „Bestellungen“ und „Bestellungsdetails“ sind erst dann synchronisiert und vollständig auf den gleichen Zeitpunkt aktualisiert, nachdem der erste Satz Änderungen angewendet wurde.

InformationshinweisNachdem Sie mit der Generierung von Tabellen begonnen haben, können keine Einstellungen oder eingeschlossene Datensätze mehr geändert werden.

Vorgänge für das Speicherdatenobjekt

Sie können die folgenden Vorgänge für ein Speicherdatenobjekt über das Objekt-Menü auf der Startseite von Data Services durchführen.

  • Öffnen

    Damit wird das Speicherdatenobjekt geöffnet. Sie können die Tabellenstruktur und die Details des Datenobjekts anzeigen und den Status für den vollständigen Ladevorgang und die Änderungssätze überwachen.

  • Bearbeiten

    Sie können den Namen und die Beschreibung des Objekts bearbeiten und Tags hinzufügen.

  • Anhalten

    Sie können den Vorgang für das Datenobjekt anhalten. Das Datenobjekt aktualisiert dann die Tabellen nicht mehr.

  • Fortsetzen

    Sie können den Vorgang für ein Datenobjekt an der Stelle wieder aufnehmen, an der er angehalten wurde.

  • Löschen

    Sie können das Datenobjekt löschen.

Laden von Tabellen

Sie können Tabellen in einem Speicherdatenobjekt laden, wenn es geöffnet ist und die App ausgeführt wird. Der Ladevorgang startet, wenn der nächste Satz Änderungen verarbeitet wird.

Wenn die Bereitstellungsdaten älter als 96 Stunden sind, müssen Sie die Tabellen im Bereitstellungsdatenobjekt, das Daten an dieses Datenobjekt liefert, laden, bevor Sie dieses Datenobjekt ausführen.

  • So laden Sie alle Tabellen:

    Klicken Sie auf und dann auf Laden.

  • So laden Sie bestimmte Tabellen:

    1. Öffnen Sie die Registerkarte Überwachen.

    2. Wählen Sie die Tabellen aus, die Sie laden möchten.

    3. Klicken Sie auf Tabellen laden.

Wenn ein Fehler in der Replicate-Aufgabe aufgetreten ist, müssen Sie das Bereitstellungsdatenobjekt über die Replicate-Aufgabe laden, bevor Sie einen Ladevorgang im Speicherdatenobjekt ausführen können.

Struktur aus Tabellen und Ansichten, die generiert werden

In diesem Abschnitt wird die Struktur der Tabellen und Ansichten beschrieben, die im Datenobjektschema und im internen Schema generiert werden.

Alle Tabellen und Ansichten werden von Qlik Data Services verwaltet. Verändern Sie die Daten nicht mit anderen Tools.

Tabellen

Tabellen werden im internen Schema generiert.

Name: <INTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME><Suffix für Tabellen>

Die folgenden Kopfzeilenfelder werden zur Tabellenstruktur hinzugefügt.

Tabellenkopfzeilenfelder
Feld Typ Beschreibung
hdr__key_hash binary(20)

Hash aller primären Schlüssel des Datensatzes.

Das Hash-Format ist SHA1. Die Felder sind durch ein Rücktastenzeichen getrennt.

hdr__timestamp Zeitstempel

Zeitstempel in UTC

  • Für Daten, die dem vollständigen Ladevorgang entnommen sind, ist dies die Startuhrzeit des vollständigen Ladevorgangs.

  • Im Fall einer Änderung aus Änderungstabellen ist es das Zeitstempelfeld des Datensatzes.

hdr__operation string(1)

Neuester Vorgang dieses Datensatzes.

  • U: aus Änderungstabelle aktualisiert.

  • I: aus Änderungstabelle eingefügt.

  • L: aus vollständiger Ladeaufgabe eingefügt.

Löschungen in den Bereitstellungsdaten werden in dauerhafte Löschungen übertragen.

Objektzustandstabelle

Die Objektzustandstabelle wird im internen Schema generiert. Sie werden verwendet, um die zuletzt angewendete Sequenz und die zuletzt von Qlik Replicate gemeldete Sequenz beizubehalten, um die Transaktionseinheitlichkeit zu wahren. Alle Objekte in einem Datenobjekt verwenden die gleiche Objektzustandstabelle.

Name: <INTERNAL_SCHEMA>.[<PREFIX>]ASSET_STATE__<DATA_ASSET_ID>

Felder der Objektzustandstabelle
Feld Typ Beschreibung
hdr__dataset_id binary(20)

Datensatz-ID.

hdr__change_seq string(35)

Letzte angewandte Änderungssequenz.

hdr__timestamp Zeitstempel

Letzte angewandte Commit-Transaktionszeit in UTC

Standardansichten für Tabellen

Für jede ausgewählte Quelltabelle wird im Datenobjektschema eine Standardansicht mit Kopfzeilen generiert. Diese Ansicht umfasst alle ursprünglichen Felder der Tabellenstruktur, aber nicht die Kopfzeilenfelder, die im internen Schema zur Tabelle hinzugefügt wurden.

Name: <DATA_ASSET_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Standardansichten für Tabellen>

Standardansichten mit Kopfzeilen

Für jede ausgewählte Quelltabelle wird im Datenobjektschema optional eine Standardansicht mit Kopfzeilen generiert. Diese Ansicht umfasst die Kopfzeilenfelder, die zur Tabelle hinzugefügt werden.

Name: <DATA_ASSET_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Standardansichten mit Kopfzeilen>

Live-Ansichten

Live-Ansichten zeigen eine Ansicht für jede ausgewählte Quelltabelle, in der die Tabelle mit Änderungen aus der Änderungstabelle zusammengeführt wird. Dadurch sind Abfragen mit einer Live-Ansicht der Daten möglich, ohne auf den nächsten Anwendungszyklus warten zu müssen. Die aus der Änderungstabelle zusammengeführten Änderungen sind transaktionskonsistent zwischen Tabellen und nutzen Ereignisse von Replicate. Live-Ansichten werden im Datenobjektschema generiert.

Datenobjekte in Live-Ansichten führen standardmäßig jede Minute einen Vorgang im Cloud-Ziel aus, wenn Änderungen vorhanden sind. Dies kann in Qlik Replicate geändert werden.

Name: <DATA_ASSET_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Live-Ansichten>

Änderungstabellenansichten

Dies ist eine Ansicht der Änderungstabelle im Bereitstellungsschema für jede ausgewählte Quelltabelle.

Name: <DATA_ASSET_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix für Änderungstabellenansichten>

Die folgenden Kopfzeilenfelder werden zur Tabellenstruktur hinzugefügt.

Änderungstabellen-Kopfzeilenfelder
Feld Typ Beschreibung
hdr__change_seq string(35) Änderungssequenz von Qlik Replicate.
hdr__operation string(1)

Neuester Vorgang dieses Datensatzes.

  • U: aktualisiert.

  • I: eingefügt.

  • D: gelöscht.

hdr__timestamp Zeitstempel

Zeitstempel in UTC aus Qlik Replicate.

hdr__key_hash binary(20)

Hash aller primären Schlüssel des Datensatzes aus der Qlik Replicate-Änderungstabelle.