Speichern von Streaming-Datensätzen
Die folgenden Einstellungen für Streaming-Umwandlungsaufgaben gelten für Qlik Open Lakehouse-Projekte, die eine Streaming-Quelle verwenden.
Sie können Streaming-Daten mithilfe der Streaming-Umwandlungsdatenaufgabe speichern und umwandeln. Streaming-Daten enthalten oft verschachtelte Strukturen und Arrays, die eine Glättung erfordern, und Umwandlungsfunktionen werden während der Speicherphase benötigt. Diese Funktionen stehen der Streaming-Umwandlungsaufgabe zur Verfügung, sodass Sie Umwandlungen unmittelbar nach der Bereitstellung Ihrer Streaming-Daten anwenden können.
Verwalten der Datensatzgranularität
Sie können verschachtelte Strukturen und Arrays abflachen, um die Granularität zu erhöhen. Granularität wird in der Datensatzansicht angezeigt. Klicken Sie auf , um die Granularität zu bearbeiten:
-
Das Auswählen eines Feldes aus einem Array führt dazu, dass die Zieltabelle eine Zeile pro Element enthält. Dies erhöht die Anzahl der Zeilen im Ziel.
-
Sie müssen Felder aus demselben Array-Pfad auswählen. Das Auswählen von Feldern aus verschiedenen Pfaden führt zu einem Validierungsfehler.
-
Die angezeigten Datentypen spiegeln die ausgewählte Granularität wider. Zum Beispiel wird ein ARRAY<INT> zu INT, wenn es abgeflacht wird. Weitere Informationen finden Sie unter Datentypzuordnungen.
Löschen einer Aufgabe
Sie können die Datenaufgabe löschen, wenn sie nicht ausgeführt wird und keine Abhängigkeiten zu nachgelagerten Aufgaben im selben Projekt bestehen.
-
Klicken Sie in der Ansicht Pipeline-Projekt des Projekts in einer Aufgabe auf
und wählen Sie Löschen aus.
Von der Aufgabe erstellte Artefakte (Tabellen und Ansichten) werden ebenfalls gelöscht, es sei denn, Sie möchten sie beibehalten.
Anzeigen von Aufgabeninformationen
Klicken Sie in der Menüleiste auf , um Aufgabeninformationen anzuzeigen, wie zum Beispiel:
-
Besitzer
-
Bereich
-
Datenplattform
-
Projekt-ID
-
Datenaufgaben-Laufzeit-ID
Einstellungen für Streaming-Umwandlung
Speichereinstellungen
Sie können Eigenschaften für die Streaming-Umwandlungsdatenaufgabe festlegen, wenn die Datenplattform ein Qlik Open Lakehouse ist.
-
Klicken Sie auf Einstellungen.
Allgemeine Einstellungen
-
Aufgabenschema
Sie können den Namen des Streaming-Umwandlungsaufgabenschemas ändern. Der Standardname ist der Name der Speicheraufgabe.
-
Internes Schema
Sie können den Namen des Datenobjektschemas des internen Speichers ändern. Der Standardname ist der Name der Speicheraufgabe, an den _internal angehängt ist.
- Präfix für alle Tabellen und Ansichten
Sie können ein Präfix für alle Tabellen und Ansichten festlegen, die mit dieser Aufgabe erstellt wurden.
InformationshinweisSie müssen ein eindeutiges Präfix verwenden, wenn Sie ein Datenbankschema in mehreren Datenaufgaben nutzen möchten. -
Zu verwendender Ordner
Sie können den Ordner der Streaming-Umwandlungsaufgabe ändern.
-
Einstellungen für neue Datensätze laden
-
Nur anhängen
Fügt neue Datensätze ohne Änderung vorhandener Daten hinzu. Schlüsselbeschränkungen werden nicht durchgesetzt, wenn duplizierte Datensätze eintreffen.
-
Änderungen anwenden
Aktualisiert vorhandene Datensätze und fügt neue Datensätze basierend auf Schlüsselfeldern ein.
Wenn Sie Änderungen zusammenführen möchten, können Sie auch Folgendes auswählen:
-
Datensätze durch Angabe eines Löschausdrucks vorübergehend löschen
Definieren Sie einen Löschausdruck, um Datensätze zur Löschung zu markieren.
-
Verlaufsdatensätze beibehalten (Typ 2)
Behalten Sie vorherige Versionen geänderter Datensätze bei.
-
-
-
Verschachtelung der Spalten wird aufgehoben
-
Verschachtelte Spalten beibehalten
Wählen Sie diese Option, um verschachtelte Daten beizubehalten.
-
In separate Spalten aufteilen
Das Standardverhalten ist das Entpacken der Daten in separate Spalten.
-
-
Partition der Zieltabellen
InformationshinweisDiese Option ist nur verfügbar, wenn Nur anhängen in Ladeeinstellungen ausgewählt ist.-
Keine Partition
Neue Tabellen werden ohne Partitionen erstellt.
-
Partition nach Ereignisdatum
Die Tabellen werden anhand des Datums partitioniert, an dem die Ereignisse eingelesen werden.
-
-
Datenänderungsverarbeitung
InformationshinweisDiese Option ist nur verfügbar, wenn Änderungen anwenden in Ladeeinstellungen ausgewählt ist.-
Vorläufige Löschvorgänge einbeziehen: Geben Sie einen Ausdruck ein, um zu definieren, welche Datensätze zur Löschung markiert werden sollen.
-
Verlaufsdatenspeicher (Typ 2) erstellen : Dadurch werden frühere Versionen geänderter Datensätze beibehalten.
-
- Aufbewahrungsverwaltung
-
Keine Partitionsbereinigung
-
Partitionsbereinigung des aktuellen Schnappschusses
-
Laufzeiteinstellungen
-
Lakehouse-Cluster
Sie können den Lakehouse-Cluster ändern, aber dieser muss Streaming-Arbeitslasten oder gemischte Arbeitslasten unterstützen.
Schemaentwicklungseinstellungen
-
Spalten auf Root-Ebene hinzufügen
Diese Einstellung gilt, wenn auf Root-Ebene neue Spalten zur Streaming-Bereitstellungsaufgabe hinzugefügt werden.
-
Auf Ziel anwenden
Fügt automatisch neue Spalten auf Root-Ebene von der Streaming-Bereitstellungsaufgabe zur Streaming-Umwandlungsaufgabe hinzu. Dies ist die Standardeinstellung.
-
Ignorieren
Fügt keine neuen Spalten auf Root-Ebene hinzu.
-
Aufgabe anhalten
Hält die Umwandlungsaufgabe an, wenn eine neue Spalte auf Root-Ebene in der Streaming-Bereitstellungsaufgabe erkannt wird.
-
-
Spalten zu Strukturen hinzufügen
Diese Einstellung gilt, wenn neue Felder in einer vorhandenen verschachtelten Struktur in der Streaming-Bereitstellungsaufgabe hinzugefügt werden.
- Auf Ziel anwenden
Fügt automatisch neue Felder zu bestehenden Strukturen in der Streaming-Umwandlungsaufgabe hinzu, wenn sie der Bereitstellungsstruktur hinzugefügt werden.
-
Ignorieren
Fügt keine neuen Felder zu bestehenden Strukturen hinzu.
-
Aufgabe anhalten
Hält die Umwandlungsaufgabe an, wenn ein neues Feld zu einer Struktur in der Streaming-Bereitstellungsaufgabe hinzugefügt wird.
- Auf Ziel anwenden
-
Feld-Datentyp ändern
- Ignorieren
Ändert den Datentyp nicht.
-
Aufgabe anhalten
Hält die Umwandlungsaufgabe an, wenn eine Datentypänderung in der Streaming-Bereitstellungsaufgabe erkannt wird.
- Ignorieren
Dataset-Einstellungen
Die folgenden Einstellungen sind für alle Datensätze in der Ansicht Design > Datensätze verfügbar.
Klicken Sie auf neben dem Datensatz und wählen Sie Einstellungen aus.
-
Datenladeverarbeitung
Wählen Sie die Vorgehensweise zum Laden von Daten in die Zieltabelle aus.
-
Nur anhängen
Fügt neue Datensätze ohne Änderung vorhandener Daten hinzu. Schlüsselbeschränkungen werden nicht durchgesetzt, wenn duplizierte Datensätze eintreffen.
-
Änderungen anwenden
Aktualisiert vorhandene Datensätze und fügt neue Datensätze basierend auf Schlüsselfeldern ein.
-
-
Datenänderungsverarbeitung
InformationshinweisDiese Option ist nur verfügbar, wenn Änderungen anwenden in Ladeeinstellungen ausgewählt ist.-
Vorläufige Löschvorgänge einbeziehen: Geben Sie einen Ausdruck ein, um zu definieren, welche Datensätze zur Löschung markiert werden sollen. Dies muss eine Formel sein, die als „wahr“ ausgewertet wird, wenn die Änderung ein vorläufiger Löschvorgang ist.
Beispiel: operation = 'D'
-
Verlaufsdatenspeicher (Typ 2) erstellen : Dadurch werden frühere Versionen geänderter Datensätze beibehalten.
-
-
Partitionsspalten
Optional können Sie Partitionsspalten auswählen, um die Leistung zu optimieren.
Klicken Sie auf Spalte hinzufügen, um eine Partitionierungsspalte hinzuzufügen, wählen Sie dann eine Umwandlung aus und legen Sie bei Bedarf einen Parameter fest.
-
Aufbewahrungsverwaltung
Die Partitionsbereinigung entfernt Partitionen, die älter als der Aufbewahrungszeitraum sind. Dadurch werden die Daten nicht physisch gelöscht und es wirkt sich nicht sofort auf ältere Schnappschüsse aus. Ältere Daten sind möglicherweise in älteren Schnappschüssen verfügbar, bis diese ablaufen.
InformationshinweisWird nur angezeigt, wenn die Partition mindestens eine Datums- oder Datum/Uhrzeit-Spalte enthält.-
Keine Partitionsbereinigung
-
Partitionsbereinigung des aktuellen Schnappschusses
-
-
Sortierspalten
InformationshinweisDiese Option ist nur verfügbar, wenn Nur anhängen in Ladeeinstellungen ausgewählt ist.Optional können Sie die Spalten angeben, nach denen Daten innerhalb jeder Datei der Iceberg-Tabelle sortiert werden sollen. Während des Einlesens von Daten verwendet Iceberg diese Spalten zum Sortieren von Datensätzen. Wenn Sortierschlüssel für häufig in Abfragen verwendete Spalten festgelegt werden, verbessert dies die Datenlokalität, was zu schnellerer Leseleistung und effizienterer Komprimierung führt. Ordnungsgemäß konfigurierte Sortierschlüssel gewährleisten, dass Ihre Daten für die Abfrageleistung optimal organisiert sind.
Klicken Sie auf Spalte hinzufügen, um eine Sortierspalte hinzuzufügen, und legen Sie dann die Sortierreihenfolge fest.
-
Schnappschuss-Ablaufzeitraum
Mit dieser Einstellung wird gesteuert, wie lange Schnappschüsse aufbewahrt werden, was sich signifikant auf Tabellengrößen und Speicherkosten auswirkt. Für häufig aktualisierte Tabellen wird eine kürzere Dauer empfohlen, um die Speicherkosten zu reduzieren.
InformationshinweisGeben Sie zur Deaktivierung des Schnappschussablaufs 0 ein.