Gegevens transformeren
U kunt herbruikbare en op regels gebaseerde gegevenstransformaties maken als onderdeel van uw datapijplijn. U kunt transformaties uitvoeren als onderdeel van uw data-onboarding, of herbruikbare transformatiegegevenstaken maken. U kunt transformaties op rijniveau uitvoeren, SQL-transformaties opnemen en complexe transformatiestromen ontwerpen. De resulterende datasets kunnen worden gematerialiseerd als tabellen, of worden gemaakt als weergaven die transformaties on the fly uitvoeren.
-
U kunt expliciete datasettransformaties uitvoeren of globale regels maken die meerdere datasets transformeren. U kunt ook een dataset filteren om een subset van rijen te maken.
-
U kunt SQL-transformaties toevoegen. Met een SQL-transformatie kunt u een SQL SELECT-query invoeren in een pijplijn om complexe of eenvoudige transformaties te definiëren.
-
U kunt visuele transformatiestromen toevoegen met bronnen, processors en doelen om complexe of eenvoudige transformaties te definiëren.
Een transformatiegegevenstaak bevat drie weergaven:
-
Transformeren
Deze weergave toont alle transformaties om de stroom van brondataset naar doeldataset te visualiseren.
-
Datasets
Deze weergave toont alle basistransformaties op de datasets, zoals het filteren van gegevens of het toevoegen van kolommen, evenals regels om globale transformaties uit te voeren.
-
Model
In deze weergave kunt u een gegevensmodel maken met de relaties tussen de opgenomen datasets. Zie Een gegevensmodel maken voor meer informatie.
Naast het opslaan van tabellen in het datawarehouse, kunt u tabellen ook opslaan als Iceberg-tabellen die worden beheerd door het gegevensplatform. Deze optie is momenteel alleen beschikbaar voor Snowflake-projecten. Dit is mogelijk door Snowflake-beheerde Iceberg-tabellen te selecteren onder Tabeltype in de taakinstellingen.
Een transformatiegegevenstaak maken
De eenvoudigste manier om een transformatiegegevenstaak te maken, is door op ... te klikken bij een opslaggegevenstaak en vervolgens Gegevens transformeren te selecteren.
U kunt ook op Maken klikken in een project en Gegevens transformeren selecteren. In dit geval moet u definiëren welke brongegevenstaak u wilt gebruiken.
-
Definieer uw brongegevens en doelen in Transformeren.
U kunt het volgende doen:
-
Datasettransformaties uitvoeren
Selecteer brondatasets en klik op Toevoegen aan doel om ze toe te voegen aan Doel.
U kunt vervolgens basistransformaties uitvoeren op de datasets, zoals het filteren van gegevens of het toevoegen van kolommen, in Datasets.
Zie Gegevensverzamelingen beheren voor meer informatie.
-
Een SQL-transformatie toevoegen
Selecteer brondatasets en klik op SQL-transformatie toevoegen.
Met een SQL-transformatie kunt u een SQL SELECT-query invoeren in een pijplijn om complexe of eenvoudige transformaties te definiëren.
Zie SQL-transformaties toevoegen voor meer informatie.
-
Een transformatiestroom toevoegen
Selecteer brondatasets en klik op Transformatiestroom toevoegen.
Met de stroomontwerper kunt u een transformatiestroom maken met bronnen, processors en doelen om complexe of eenvoudige transformaties te definiëren.
Zie Transformatiestromen toevoegen voor meer informatie.
-
-
U kunt ook meer datasets toevoegen uit andere opslaggegevenstaken door op Brongegevens selecteren te klikken.
U kunt datasets toevoegen uit het huidige project of uit een ander project. Om datasets uit een ander project toe te voegen:
-
U moet ten minste de rol Kan consumeren hebben in de ruimte van het geconsumeerde project.
-
Beide projecten moeten zich op hetzelfde dataplatform bevinden.
Als het geselecteerde project onder versiebeheer staat, kunt u selecteren welke branch u als bron wilt gebruiken. Zie Projectoverschrijdende pijplijnen bouwen voor meer informatie over pijplijnen over meerdere projecten.
-
-
Wanneer u de gewenste transformaties hebt toegevoegd, valideert u de datasets door op Datasets valideren te klikken. Als de validatie fouten vindt, lost u de fouten op voordat u doorgaat.
Zie De gegevensverzamelingen valideren en aanpassen voor meer informatie.
-
Een gegevensmodel maken
Klik op Model om de relaties tussen de opgenomen datasets in te stellen.
Zie Een gegevensmodel maken voor meer informatie.
-
Klik op Voorbereiden om de gegevenstaak en alle vereiste artefacten voor te bereiden. Dit kan even duren.
U kunt de voortgang volgen onder Voortgang voorbereiding in het onderste deel van het scherm.
InformatieVoordat u een taak voorbereidt, stopt u alle taken die direct downstream zijn. -
Wanneer de status Voorbereid weergeeft, kunt u de gegevenstaak uitvoeren.
Klik op ... en vervolgens op Uitvoeren.
De gegevenstaak begint nu met het maken datasets om de gegevens te transformeren.
De weergave Transformeren gebruiken
In Transformeren worden alle transformaties weergegeven om de stroom van brondataset naar doeldataset te visualiseren.
-
Selecteer een transformatie om te zien welke brondatasets worden gebruikt en welke doeldatasets worden gemaakt.
-
Selecteer een bron om alle transformaties te zien waarin deze wordt gebruikt, en alle resulterende doelen.
-
Selecteer een doel om te zien wat de brondatasets zijn en welke transformatie deze doeldataset heeft gemaakt.
Weergave Transformeren in een transformatie

U kunt de volgende instellingen wijzigen door op Weergaveopties te klikken:
-
Filteren op transformatietype
Geef alleen transformaties van één of twee transformatietypen weer.
-
Filter
Geef alle transformaties of alleen de geselecteerde transformatie weer. U moet een transformatie selecteren om deze optie in te schakelen.
-
Dichtheid
Selecteer of u transformaties wilt weergeven met een compacte lay-out of een brede lay-out die meer ruimte in beslag neemt.
De weergave Datasets gebruiken
In Datasets kunt u alle doeldatasets in de transformatietaak bekijken en bewerken.
Zie ook Gegevensverzamelingen beheren voor meer informatie.
Een doeldataset toevoegen
U kunt meer doeldatasets toevoegen aan de transformatietaak.
-
Klik op
.
-
Geef een Naam en optioneel een Beschrijving op voor de dataset.
-
Selecteer een brondataset uit de beschikbare datasets in de taak in Brondataset.
TipU kunt Geen brondataset selecteren om een lege dataset te maken die niet is verbonden met een bron. U kunt tijdens het ontwerpen kolommen toevoegen aan de dataset, maar u moet verbinding maken met een brondataset voordat u de taak kunt voorbereiden.
De doeldataset is nu toegevoegd.
De brondataset wijzigen
U kunt de brondataset van een doeldataset wijzigen.
-
Klik op
na Bron: [naam van brondataset].
-
Selecteer een andere brondataset uit de beschikbare datasets in de taak in Brondataset.
TipU kunt Geen brondataset selecteren om de doeldataset los te koppelen van de bron. U kunt de dataset tijdens het ontwerpen bewerken, maar u moet verbinding maken met een brondataset voordat u de taak kunt voorbereiden.
Nieuwe kolommen toevoegen
U kunt nieuwe kolommen toevoegen aan de doeldataset.
-
Een nieuwe kolom vanaf nul toevoegen
Klik op + Toevoegen.
Geef een naam op voor de kolom en stel een expressie in om de kolomgegevens te definiëren.
Zie Kolommen toevoegen aan een gegevensset voor meer informatie.
-
Een kolom uit de bron toevoegen
Klik op
naast Toevoegen en selecteer Kolom uit bron toevoegen.
Selecteer een kolom uit de brondataset.
Kolommen opnieuw ordenen
U kunt de ordinale positie van een kolom wijzigen.
-
Selecteer een kolom.
-
Klik op
en vervolgens op Opnieuw ordenen.
-
Gebruik de pijlen om de kolom omhoog of omlaag te verplaatsen.
-
Sluit Ordinaal wijzigen wanneer u klaar bent.
Transformatieregels maken
U kunt herbruikbare transformatieregels maken om globale transformaties op datasets uit te voeren.
Zie Regels maken om gegevensverzamelingen te transformeren voor meer informatie over het maken van regels.
Een dataset filteren
U kunt gegevens filteren om indien nodig een subset van rijen te maken.
-
Klik op
en vervolgens op Filteren.
Zie Een gegevensverzameling filteren voor meer informatie over filteren.
Een transformatietaak plannen
U kunt een transformatietaak plannen om periodiek te worden bijgewerkt. U kunt een op tijd gebaseerd schema instellen, of instellen dat de taak wordt uitgevoerd wanneer invoergegevenstaken zijn voltooid.
Klik op ... bij een gegevenstaak en selecteer Planning om een schema te maken. De standaard planningsinstelling wordt overgenomen van de instellingen in het project. Zie Standaardwaarden voor transformatie voor meer informatie over standaardinstellingen.
U moet Planning altijd instellen op Aan om het schema in te schakelen.
Op tijd gebaseerde schema's
U kunt een op tijd gebaseerd schema gebruiken om de taak uit te voeren, ongeacht wanneer de verschillende invoerbronnen worden bijgewerkt.
-
Selecteer Op een specifiek tijdstip in De gegevenstaak uitvoeren.
U kunt een schema per uur, dagelijks, wekelijks of maandelijks instellen.
Op gebeurtenissen gebaseerde schema's
U kunt een op gebeurtenissen gebaseerd schema gebruiken om de taak uit te voeren wanneer invoergegevenstaken zijn voltooid.
-
Selecteer Bij een specifieke gebeurtenis in De gegevenstaak uitvoeren.
U kunt selecteren of u de taak wilt uitvoeren wanneer een van de invoertaken met succes is voltooid, of wanneer een selectie van invoertaken met succes is voltooid.
Een transformatietaak monitoren
U kunt de status en voortgang van een transformatietaak monitoren door op Monitoren te klikken.
Zie Een afzonderlijke gegevenstaak bewaken voor meer informatie.
Gegevens opnieuw laden
U kunt tabellen handmatig opnieuw laden als de gegevens zijn gematerialiseerd als fysieke tabellen. Dit is handig wanneer er problemen zijn met een of meer tabellen.
-
Open de gegevenstaak en selecteer het tabblad Monitoren.
-
Selecteer de tabellen die u opnieuw wilt laden.
-
Klik op Tabellen opnieuw laden.
Het opnieuw laden vindt plaats de volgende keer dat de taak wordt uitgevoerd. Het herlaadproces gedraagt zich anders, afhankelijk van de geschiedenisinstelling en het transformatietype van elke dataset. Dit betekent dat het herlaadproces kan verschillen tussen datasets in een gegevenstaak.
-
Datasettransformaties worden opnieuw geladen door af te kappen en te laden.
-
SQL-transformaties en transformatiestromen kunnen opnieuw worden geladen door af te kappen en te laden, of door te vergelijken en toe te passen. Het is een best practice om te vergelijken en toe te passen.
Een dataset opnieuw laden op basis van een SQL-transformatie of transformatiestroom
U kunt het opnieuw laden annuleren voor tabellen die in behandeling zijn voor opnieuw laden door op Opnieuw laden annuleren te klikken. Dit heeft geen invloed op tabellen die al opnieuw zijn geladen, en herlaadacties die momenteel worden uitgevoerd, worden voltooid.
Downstream-taken worden opnieuw geladen om wijzigingen toe te passen en om antedateren te voorkomen.
Downstream-impact na het opnieuw laden van een taak Gegevens transformeren

De impact downstream is afhankelijk van het type herlaadbewerking dat is uitgevoerd en het type onmiddellijke downstream-dataset. Standaardverwerking betekent dat de dataset zal reageren en gegevens zal verwerken met behulp van de geconfigureerde methode voor de specifieke dataset.
Voorbeeld: Een dataset opnieuw laden via afkappen en laden
-
Als de volgende dataset datasettransformaties gebruikt, wordt deze bij de volgende uitvoering opnieuw geladen via afkappen en laden.
-
Als de volgende dataset een SQL-transformatie of transformatiestroom is, wordt deze opnieuw geladen met behulp van vergelijken en toepassen.
Een dataset zonder geschiedenis opnieuw laden
In dit geval is er geen geschiedenis om rekening mee te houden. Om de verwerking op het doel te verminderen, wordt het opnieuw laden uitgevoerd door:
-
De tabellen af te kappen.
-
Huidige gegevens uit de upstream-gegevenstaak te laden.
Downstream-taken worden opnieuw geladen om wijzigingen toe te passen.
Een dataset met ingeschakelde geschiedenis opnieuw laden
Het opnieuw laden wordt uitgevoerd door:
-
Huidige, eerdere en wijzigingstabellen af te kappen.
-
Gegevens uit de upstream-gegevenstaak te laden, inclusief eerdere tabellen.
Een dataset opnieuw laden op basis van een SQL-transformatie of transformatiestroom
-
Afkappen en opnieuw laden
InformatieDeze optie kan leiden tot verlies van geschiedenis.-
De huidige en wijzigingstabellen af te kappen.
-
De query uit te voeren en deze in de huidige tabellen te laden.
-
-
Opnieuw laden en vergelijken
-
De query uit te voeren en deze te vergelijken met de huidige tabellen.
-
Wijzigingen toe te voegen.
-
Een taak verwijderen
U kunt de gegevenstaak verwijderen als deze niet actief is en er geen afhankelijkheden zijn van downstreamtaken in hetzelfde project.
-
Klik in de Pipeline project-weergave van het project op
bij een taak en selecteer Verwijderen.
Artefacten (tabellen en weergaven) die door de taak zijn gemaakt, worden ook verwijderd, tenzij u ervoor kiest om ze te behouden.
Taakinformatie weergeven
Klik op in de menubalk om taakinformatie weer te geven, zoals:
-
Eigenaar
-
Ruimte
-
Gegevensplatform
-
Project-id
-
Runtime-id gegevenstaak
Transformatie-instellingen
U kunt eigenschappen instellen voor de transformatiegegevenstaak.
-
Klik op Instellingen.
Algemene instellingen
-
Database
Database die in de gegevensbron moet worden gebruikt.
-
Taakschema
U kunt de naam van het gegevenstaakschema wijzigen. De standaardnaam is de naam van de taak.
-
Intern schema
U kunt de naam van het interne opslagschema wijzigen. De standaardnaam is de naam van de taak met de toevoeging "__internal".
-
Standaardhoofdlettergebruik van schemanaam
U kunt het standaardhoofdlettergebruik voor alle schemanamen instellen. Als uw database is geconfigureerd om hoofdlettergebruik af te dwingen, heeft deze optie geen effect.
- Prefix voor alle tabellen en weergaven
U kunt een prefix instellen voor alle tabellen en weergaven die met deze taak zijn gemaakt.
InformatieU moet een unieke prefix gebruiken als u een databaseschema in verschillende gegevenstaken wilt gebruiken. -
Gematerialiseerd
U kunt ervoor kiezen om alleen weergaven te maken die transformaties on the fly uitvoeren (Niet-gematerialiseerd), of om zowel tabellen als weergaven te maken (Gematerialiseerd).
-
Historische gegevensopslag (Type 2)
U kunt historische wijzigingsgegevens bewaren om gegevens eenvoudig opnieuw te maken zoals deze er op een specifiek moment uitzagen. U kunt geschiedenisweergaven en live geschiedenisweergaven gebruiken om historische gegevens te bekijken.
-
Publiceren naar catalogus
Selecteer deze optie om deze versie van de gegevens als gegevensverzameling te publiceren naar Catalogus. De catalogusinhoud wordt bijgewerkt de volgende keer dat u deze taak voorbereidt.
Ga voor meer informatie over Catalogus naar Uw gegevens begrijpen met catalogushulpmiddelen.
Runtime-instellingen
-
Parallelle uitvoering
U kunt het maximale aantal verbindingen voor volledige ladingen instellen op een getal van 1 tot 5.
-
Warehouse
De naam van het clouddatawarehouse.
Instellingen voor weergavetype
De instellingen voor het weergavetype zijn alleen van toepassing op Snowflake.
-
Standaardweergaven
Gebruik Standaardweergaven voor de meeste gevallen.
-
Veilige Snowflake-weergaven
Gebruik veilige Snowflake-weergaven voor weergaven die zijn bestemd voor gegevensprivacy of de bescherming van gevoelige informatie, zoals weergaven die zijn gemaakt om de toegang tot gevoelige gegevens te beperken die niet mogen worden blootgesteld aan alle gebruikers van de onderliggende tabellen.
Informatie Veilige Snowflake-weergaven kunnen langzamer worden uitgevoerd dan Standaardweergaven.
Instellingen voor tabeltype
Deze instellingen zijn alleen beschikbaar in projecten met Snowflake als gegevensplatform.
-
Tabeltype
U kunt kiezen welk type tabel u wilt gebruiken:
-
Snowflake-tabellen
-
Snowflake-beheerde Iceberg-tabellen
U moet de standaardnaam van het externe volume instellen in Snowflake extern volume.
-
-
Te gebruiken cloudopslagmap
Selecteer welke map u wilt gebruiken voor het tijdelijk opslaan van gegevens in het tussenopslaggebied.
-
Standaardmap
Hiermee wordt een map gemaakt met de standaardnaam: <projectnaam>/<gegevenstaaknaam>.
-
Hoofdmap
Sla gegevens op in de hoofdmap van de opslag.
-
Map
Geef een mapnaam op om te gebruiken.
-
-
Synchroniseren met Snowflake Open Catalog
Schakel dit in om Snowflake Open Catalog de bestanden in de cloud bestandsopslag te laten beheren.
Best practices
-
Het is niet mogelijk om de bron voor een dataset in een datamart te wijzigen als er feiten en dimensies zijn toegevoegd. Als u flexibel wilt zijn, kunt u een voorafgaande taak Transformeren toevoegen met niet-gematerialiseerde weergaven die kunnen worden gebruikt om bronnen te wijzigen en ook om een model te hebben voor alle brontaken.
Beperkingen
-
Het is niet mogelijk om gegevenstypen in een transformatiegegevenstaak te wijzigen wanneer de optie Niet-gematerialiseerd is geselecteerd.
-
Herkomst op veldniveau is niet beschikbaar voor datasets die zijn gemaakt in SQL-transformaties of transformatiestromen.
-
Het gebruik van Toevoegen aan doel om te lezen uit een Qlik Open LakehouseSpiegelen-taak die is ingesteld op Alleen toevoegen wordt niet ondersteund.
Als tijdelijke oplossing kunt u gegevens lezen met behulp van een SQL-transformatie of een transformatiestroom.