Streaming datasets opslaan
De volgende instellingen voor de taak Streaming-transformatie zijn van toepassing op Qlik Open Lakehouse-projecten die een streamingbron gebruiken.
U kunt streaminggegevens opslaan en transformeren met de taak Streaming gegevens transformeren. Streaminggegevens bevatten vaak geneste structuren en arrays die moeten worden afgevlakt, en tijdens de opslagfase zijn transformatiemogelijkheden nodig. Deze mogelijkheden zijn beschikbaar voor de taak Streaming-transformatie, zodat u transformaties onmiddellijk na de tussenopslag van uw streaminggegevens kunt toepassen.
Datasetgranulariteit beheren
U kunt geneste structuren en arrays afvlakken om de granulariteit te vergroten. Granulariteit wordt weergegeven in de weergave Dataset. Klik op om de granulariteit te bewerken:
-
Als u een veld uit een array selecteert, bevat de doeltabel één rij per element. Hierdoor neemt het aantal rijen in het doel toe.
-
U moet velden uit hetzelfde arraypad selecteren. Als u velden uit verschillende paden selecteert, treedt er een validatiefout op.
-
De weergegeven gegevenstypen weerspiegelen de geselecteerde granulariteit. Een ARRAY<INT> wordt bijvoorbeeld INT wanneer deze wordt afgevlakt. Zie Toewijzingen van gegevenstypen voor meer informatie.
Een taak verwijderen
U kunt de gegevenstaak verwijderen als deze niet actief is en er geen afhankelijkheden zijn van downstreamtaken in hetzelfde project.
-
Klik in de Pipeline project-weergave van het project op
bij een taak en selecteer Verwijderen.
Artefacten (tabellen en weergaven) die door de taak zijn gemaakt, worden ook verwijderd, tenzij u ervoor kiest om ze te behouden.
Taakinformatie weergeven
Klik op in de menubalk om taakinformatie weer te geven, zoals:
-
Eigenaar
-
Ruimte
-
Gegevensplatform
-
Project-id
-
Runtime-id gegevenstaak
Instellingen voor Streaming-transformatie
U kunt eigenschappen instellen voor de taak Streaming gegevens transformeren wanneer het gegevensplatform Qlik Open Lakehouse is.
-
Klik op Instellingen.
Algemene instellingen
-
Taakschema
U kunt de naam van het schema voor de taak Streaming-transformatie wijzigen. De standaardnaam is de naam van de opslagtaak.
-
Intern schema
U kunt de naam van het interne opslaggegevensassetschema wijzigen. De standaardnaam is de naam van de opslagtaak met _internal eraan toegevoegd.
- Prefix voor alle tabellen en weergaven
U kunt een prefix instellen voor alle tabellen en weergaven die met deze taak zijn gemaakt.
InformatieU moet een unieke prefix gebruiken als u een databaseschema in verschillende gegevenstaken wilt gebruiken. -
Te gebruiken map
U kunt de opslagmap voor de taak Streaming-transformatie wijzigen.
-
Laadinstellingen voor nieuwe datasets
-
Alleen toevoegen
Voegt nieuwe records toe zonder bestaande gegevens te wijzigen. Sleutelbeperkingen worden niet afgedwongen als er dubbele records binnenkomen.
-
Wijzigingen toepassen
Werkt bestaande records bij en voegt nieuwe records in op basis van sleutelvelden.
Als u ervoor kiest om wijzigingen samen te voegen, kunt u ook het volgende selecteren:
-
Records zacht verwijderen door een verwijderingsexpressie op te geven
Definieer een verwijderingsexpressie om records te markeren voor verwijdering.
-
Historische records behouden (Type 2)
Bewaar eerdere versies van gewijzigde records.
-
-
-
Kolommen ontnesten
-
Geneste kolommen behouden
Selecteer om geneste gegevens te behouden.
-
Ontnesten naar afzonderlijke kolommen
Het standaardgedrag is om gegevens te ontnesten naar afzonderlijke kolommen.
-
-
Partitie van doeltabellen
InformatieDeze optie is alleen beschikbaar wanneer Alleen toevoegen is geselecteerd in Laadinstellingen.-
Geen partitie
Nieuwe tabellen worden gemaakt zonder partities.
-
Partitioneren op gebeurtenisdatum
Nieuwe tabellen worden gepartitioneerd op de datum waarop gebeurtenissen worden opgenomen.
-
-
Afhandeling van gegevenswijzigingen
InformatieDeze optie is alleen beschikbaar wanneer Wijzigingen toepassen is geselecteerd in Laadinstellingen.-
Zachte verwijderingen opnemen: Voer een expressie in om te definiëren welke records moeten worden gemarkeerd voor verwijdering.
-
Een historische gegevensopslag maken (Type 2): Hiermee worden eerdere versies van gewijzigde records bewaard.
-
- Retentiebeheer
-
Geen partitiesnoeien
-
Huidige snapshot-partitiesnoeien
-
Tabeldefinities
-
hdr__from_timestamp
Wanneer deze optie is ingeschakeld, verschijnt de headerkolom hdr__from_timestamp in standaardweergaven. Daarnaast wordt, wanneer Partitioneren op opnamedatum van gebeurtenis is geselecteerd in de onboarding-wizard, hdr__from_timestamp gebruikt als de standaard partitiekolom.
InformatieHistorieweergaven bevatten altijd alle headerkolommen van de standaardweergave, ongeacht deze instelling.
Runtime-instellingen
-
Lakehouse-cluster
U kunt het lakehouse-cluster wijzigen, maar dit moet streaming-workloads of gemengde workloads ondersteunen.
Instellingen voor schema-evolutie
-
Kolommen toevoegen op hoofdniveau
Deze instelling is van toepassing wanneer nieuwe kolommen worden toegevoegd aan de taak voor streaming-tussenopslag op het hoofdniveau.
-
Toepassen op doel
Voegt automatisch nieuwe kolommen op hoofdniveau van de taak voor streaming-tussenopslag toe aan de taak Streaming-transformatie. Dit is de standaardinstelling.
-
Negeren
Voegt geen nieuwe kolommen op hoofdniveau toe.
-
Taak stoppen
Stopt de transformatietaak als er een nieuwe kolom op hoofdniveau wordt gedetecteerd in de taak voor streaming-tussenopslag.
-
-
Kolommen toevoegen aan structuren
Deze instelling is van toepassing wanneer nieuwe velden worden toegevoegd binnen een bestaande geneste structuur in de taak voor streaming-tussenopslag.
- Toepassen op doel
Voegt automatisch nieuwe velden toe aan bestaande structuren in de taak Streaming-transformatie als ze worden toegevoegd aan de tussenopslagstructuur.
-
Negeren
Voegt geen nieuwe velden toe aan bestaande structuren.
-
Taak stoppen
Stopt de transformatietaak als er een nieuw veld wordt toegevoegd aan een structuur in de taak voor streaming-tussenopslag.
- Toepassen op doel
-
Gegevenstype van veld wijzigen
- Negeren
Wijzigt het gegevenstype niet.
-
Taak stoppen
Stopt de transformatietaak als er een wijziging in het gegevenstype wordt gedetecteerd in de taak voor streaming-tussenopslag.
- Negeren
Datasetinstellingen
De volgende instellingen zijn beschikbaar voor alle datasets in de weergave Ontwerp > Datasets.
Klik op naast de dataset en selecteer Instellingen.
-
Afhandeling van gegevenslading
Selecteert hoe gegevens in de doeltabel worden geladen.
-
Alleen toevoegen
Voegt nieuwe records toe zonder bestaande gegevens te wijzigen. Sleutelbeperkingen worden niet afgedwongen als er dubbele records binnenkomen.
-
Wijzigingen toepassen
Werkt bestaande records bij en voegt nieuwe records in op basis van sleutelvelden.
-
-
Afhandeling van gegevenswijzigingen
InformatieDeze optie is alleen beschikbaar wanneer Wijzigingen toepassen is geselecteerd in Laadinstellingen.-
Zachte verwijderingen opnemen: Voer een expressie in om te definiëren welke records moeten worden gemarkeerd voor verwijdering. Dit moet een expressie zijn die als True wordt gevalideerd als de wijziging een zachte verwijdering is.
Voorbeeld: operation = 'D'
-
Een historische gegevensopslag maken (Type 2): Hiermee worden eerdere versies van gewijzigde records bewaard.
-
-
Partitiekolommen
Optioneel kunt u partitiekolommen selecteren om de prestaties te optimaliseren.
Klik op Kolom toevoegen om een partitiekolom toe te voegen, selecteer vervolgens een Transformatie en stel indien nodig een Parameter in.
-
Retentiebeheer
Partitiesnoeien verwijdert partities die ouder zijn dan de retentieperiode. Dit verwijdert de gegevens niet fysiek en heeft niet onmiddellijk invloed op oudere snapshots. Oudere gegevens kunnen beschikbaar zijn in oudere snapshots totdat deze zijn verlopen.
InformatieVerschijnt alleen als de partitie ten minste één datum- of datum/tijd-kolom heeft.-
Geen partitiesnoeien
-
Huidige snapshot-partitiesnoeien
-
-
Sorteerkolommen
InformatieDeze optie is alleen beschikbaar wanneer Alleen toevoegen is geselecteerd in Laadinstellingen.Optioneel kunt u de kolommen opgeven waarop gegevens worden gesorteerd binnen elk bestand van uw Iceberg-tabel. Tijdens de gegevensopname gebruikt Iceberg deze kolommen om records te ordenen. Het definiëren van sorteersleutels op kolommen die vaak in query's worden gebruikt, verbetert de gegevenslokaliteit, wat resulteert in snellere leesprestaties en efficiëntere compressie. Correct geconfigureerde sorteersleutels zorgen ervoor dat uw gegevens optimaal zijn georganiseerd voor queryprestaties.
Klik op Kolom toevoegen om een sorteerkolom toe te voegen en stel vervolgens de sorteervolgorde in.
-
Verloopduur van snapshot
Deze instelling bepaalt hoe lang snapshots worden bewaard, wat een aanzienlijke impact heeft op de tabelgrootte en opslagkosten. Voor vaak bijgewerkte tabellen wordt een kortere duur aanbevolen om de opslagkosten te helpen verlagen.
InformatieVoer 0 in om het verlopen van snapshots uit te schakelen. -
Standaardweergavekoppen
-
Overnemen van instellingen voor gegevenstaak
Dit is de standaardinstelling. Schakel dit uit als u specifieke koptekstkolommen alleen voor deze dataset wilt instellen.
-
hdr__from_timestamp
Wanneer deze optie is ingeschakeld, verschijnt de headerkolom hdr__from_timestamp in standaardweergaven. Daarnaast wordt, wanneer Partitioneren op opnamedatum van gebeurtenis is geselecteerd in de onboarding-wizard, hdr__from_timestamp gebruikt als de standaard partitiekolom.
InformatieHistorieweergaven bevatten altijd alle headerkolommen van de standaardweergave, ongeacht deze instelling.
-