Gegevens transformeren | Qlik Cloud Help
Ga naar hoofdinhoud Ga naar aanvullende inhoud

Gegevens transformeren

U kunt herbruikbare en op regels gebaseerde gegevenstransformaties maken als onderdeel van uw gegevenspijplijn. U kunt transformaties uitvoeren als onderdeel van uw data-onboarding, of herbruikbare transformatiegegevenstaken maken. U kunt transformaties op rijniveau uitvoeren, SQL-transformaties opnemen en complexe transformatiestromen ontwerpen. De resulterende gegevenssets kunnen worden gematerialiseerd als tabellen, of worden gemaakt als weergaven die transformaties on the fly uitvoeren.

InformatieGeavanceerde transformaties zijn beschikbaar met een Qlik Talend Cloud Premium- of Qlik Talend Cloud Enterprise-abonnement.
  • U kunt expliciete gegevenssettransformaties uitvoeren of globale regels maken die meerdere gegevenssets transformeren. U kunt ook een gegevensset filteren om een subset van rijen te maken.

  • U kunt SQL-transformaties toevoegen. Met een SQL-transformatie kunt u een SQL SELECT-query invoeren in een pijplijn om complexe of eenvoudige transformaties te definiëren.

  • U kunt SQL workbench gebruiken om gegevens in voorbereide taken te verkennen en SQL-query's te valideren in de context van uw project. Zie Gegevens verkennen met SQL Workbench voor meer informatie.

  • U kunt visuele transformatiestromen toevoegen met bronnen, processors en doelen om complexe of eenvoudige transformaties te definiëren.

InformatieGegevenstaken worden uitgevoerd in de context van de eigenaar van het project. Zie Rollen en machtigingen voor gegevensruimten voor meer informatie over de vereiste rollen en machtigingen.

Een transformatiegegevenstaak bevat drie weergaven:

  • Transformeren

    Deze weergave toont alle transformaties om de stroom van de brongegevensset naar de doelgegevensset te visualiseren.

  • Gegevenssets

    Deze weergave toont alle basistransformaties op de gegevenssets, zoals het filteren van gegevens of het toevoegen van kolommen, evenals regels om globale transformaties uit te voeren.

  • Model

    In deze weergave kunt u een gegevensmodel maken met de relaties tussen de opgenomen gegevenssets. Zie Een gegevensmodel maken voor meer informatie.

Naast het opslaan van tabellen in het datawarehouse, kunt u tabellen ook opslaan als Iceberg-tabellen die worden beheerd door het gegevensplatform. Deze optie is momenteel alleen beschikbaar voor Snowflake-projecten. Dit is mogelijk door Snowflake-beheerde Iceberg-tabellen te selecteren onder Tabeltype in de taakinstellingen.

Een transformatiegegevenstaak maken

De eenvoudigste manier om een transformatiegegevenstaak te maken, is door op ... te klikken bij een opslaggegevenstaak en vervolgens Gegevens transformeren te selecteren.

U kunt ook op Maken klikken in een project en Gegevens transformeren selecteren. In dit geval moet u definiëren welke brongegevenstaak u wilt gebruiken.

  1. Definieer uw brongegevens en doelen in Transformeren.

    U kunt het volgende doen:

    • Selecteer brongegevenssets en klik op Toevoegen aan doel om ze toe te voegen aan Doel.

      U kunt vervolgens basistransformaties uitvoeren op de gegevenssets, zoals het filteren van gegevens of het toevoegen van kolommen, in Gegevenssets.

      Zie Gegevensverzamelingen beheren voor meer informatie.

    • Selecteer brongegevenssets en klik op SQL-transformatie toevoegen.

      Met een SQL-transformatie kunt u een SQL SELECT-query invoeren in een pijplijn om complexe of eenvoudige transformaties te definiëren.

      Zie SQL-transformaties toevoegen voor meer informatie.

    • Selecteer brongegevenssets en klik op Transformatiestroom toevoegen.

      Met de stroomontwerper kunt u een transformatiestroom maken met bronnen, processors en doelen om complexe of eenvoudige transformaties te definiëren.

      Zie Transformatiestromen toevoegen voor meer informatie.

  2. U kunt ook meer gegevenssets toevoegen uit andere opslaggegevenstaken door op Brongegevens selecteren te klikken.

    U kunt gegevenssets toevoegen uit het huidige project of uit een ander project. Gegevenssets uit een ander project toevoegen:

    • U moet ten minste de rol Kan consumeren hebben in de ruimte van het geconsumeerde project.

    • Beide projecten moeten zich op hetzelfde gegevensplatform bevinden.

    Als het geselecteerde project onder versiebeheer staat, kunt u selecteren welke branch u als bron wilt gebruiken. Zie Pijplijnen over meerdere projecten bouwen voor meer informatie over projectoverschrijdende pijplijnen.

  3. Wanneer u de gewenste transformaties hebt toegevoegd, valideert u de gegevenssets door op Gegevenssets valideren te klikken. Als de validatie fouten vindt, lost u de fouten op voordat u doorgaat.

    Zie De gegevensverzamelingen valideren en aanpassen voor meer informatie.

  4. Een gegevensmodel maken

    Klik op Model om de relaties tussen de opgenomen gegevenssets in te stellen.

    Zie Een gegevensmodel maken voor meer informatie.

  5. Klik op Voorbereiden om de gegevenstaak en alle vereiste artefacten voor te bereiden. Dit kan even duren.

    U kunt de voortgang volgen onder Voortgang voorbereiding in het onderste deel van het scherm.

    InformatieVoordat u een taak voorbereidt, stopt u alle taken die direct downstream zijn.
  6. Wanneer de status Voorbereid weergeeft, kunt u de gegevenstaak uitvoeren.

    Klik op ... en vervolgens op Uitvoeren.

De gegevenstaak begint nu met het maken van gegevenssets om de gegevens te transformeren.

InformatieHet is niet mogelijk om te wijzigen welke gegevenssets zijn opgenomen wanneer u bent begonnen met het genereren van gegevenssets.

De weergave Transformeren gebruiken

In Transformeren worden alle transformaties weergegeven om de stroom van de brongegevensset naar de doelgegevensset te visualiseren.

  • Selecteer een transformatie om te zien welke brongegevenssets worden gebruikt en welke doelgegevenssets worden gemaakt.

  • Selecteer een bron om alle transformaties te zien waarin deze wordt gebruikt, en alle resulterende doelen.

  • Selecteer een doel om te zien wat de brongegevenssets zijn en welke transformatie deze doelgegevensset heeft gemaakt.

Weergave Transformeren in een transformatie

Weergave Transformeren in transformatie

U kunt de volgende instellingen wijzigen door op Weergaveopties te klikken:

  • Filteren op transformatietype

    Geef alleen transformaties van een of twee transformatietypen weer.

  • Filter

    Geef alle transformaties of alleen de geselecteerde transformatie weer. U moet een transformatie selecteren om deze optie in te schakelen.

  • Dichtheid

    Selecteer of u transformaties wilt weergeven met een compacte lay-out of een brede lay-out die meer ruimte in beslag neemt.

De weergave Gegevenssets gebruiken

In Gegevenssets kunt u alle doelgegevenssets in de transformatietaak bekijken en bewerken.

Zie ook Gegevensverzamelingen beheren voor meer informatie.

Een doelgegevensset toevoegen

U kunt meer doelgegevenssets toevoegen aan de transformatietaak.

  1. Klik op Gegevensset toevoegen.

  2. Geef een Naam en optioneel een Beschrijving op voor de gegevensset.

  3. Selecteer een brongegevensset uit de gegevenssets die beschikbaar zijn in de taak in Brongegevensset.

    TipU kunt Geen brongegevensset selecteren om een lege gegevensset te maken die niet is verbonden met een bron. U kunt tijdens het ontwerpen kolommen toevoegen aan de gegevensset, maar u moet verbinding maken met een brongegevensset voordat u de taak kunt voorbereiden.

De doelgegevensset is nu toegevoegd.

De brongegevensset wijzigen

U kunt de brongegevensset van een doelgegevensset wijzigen.

  1. Klik op bewerken na Bron: [naam van brongegevensset].

  2. Selecteer een andere brongegevensset uit de gegevenssets die beschikbaar zijn in de taak in Brongegevensset.

    TipU kunt Geen brongegevensset selecteren om de doelgegevensset los te koppelen van de bron. U kunt de gegevensset tijdens het ontwerpen bewerken, maar u moet verbinding maken met een brongegevensset voordat u de taak kunt voorbereiden.

Nieuwe kolommen toevoegen

U kunt nieuwe kolommen toevoegen aan de doelgegevensset.

  • Klik op + Toevoegen.

    Geef een naam op voor de kolom en stel een expressie in om de kolomgegevens te definiëren.

    Zie Kolommen toevoegen aan een gegevensset voor meer informatie.

  • Klik op omlaag naast Toevoegen en selecteer Kolom uit bron toevoegen.

    Selecteer een kolom uit de brongegevensset.

Kolommen opnieuw ordenen

U kunt de ordinale positie van een kolom wijzigen.

  1. Selecteer een kolom.

  2. Klik op meer en vervolgens op Opnieuw ordenen.

  3. Gebruik de pijlen om de kolom omhoog of omlaag te verplaatsen.

  4. Sluit Ordinaal wijzigen wanneer u klaar bent.

Transformatieregels maken

U kunt herbruikbare transformatieregels maken om globale transformaties op gegevenssets uit te voeren.

Zie Regels maken om datasets te transformeren voor meer informatie over het maken van regels.

TipU kunt de effecten van regels bekijken door Regeleffecten weergeven te selecteren. U kunt geen wijzigingen aanbrengen in de gegevenssets wanneer Regeleffecten weergeven is ingeschakeld.

Een gegevensset filteren

U kunt gegevens filteren om indien nodig een subset van rijen te maken.

  • Klik op meer en vervolgens op Filteren.

Zie Een dataset filteren voor meer informatie over filteren.

Een transformatietaak plannen

U kunt een transformatietaak plannen om periodiek te worden bijgewerkt. U kunt een op tijd gebaseerd schema instellen of de taak instellen om te worden uitgevoerd wanneer invoergegevenstaken zijn voltooid.

Klik op ... bij een gegevenstaak en selecteer Planning om een schema te maken. De standaard planningsinstelling wordt overgenomen van de instellingen in het project. Zie Standaardinstellingen voor transformatie voor meer informatie over standaardinstellingen.

U moet Planning altijd instellen op Aan om het schema in te schakelen.

InformatieAls alle gegevenssets in de taak niet-gematerialiseerd zijn, is er niets om uit te voeren, aangezien de transformatie on the fly wordt uitgevoerd met weergaven. U kunt nog steeds een schema maken voor een niet-gematerialiseerde transformatietaak om te worden uitgevoerd wanneer aan de schemavoorwaarde is voldaan. De taak wordt onmiddellijk voltooid, wat een downstream-taak kan activeren, bijvoorbeeld een datamart. Hierdoor kunt u een op gebeurtenissen gebaseerd pijplijnschema bouwen dat niet-gematerialiseerde transformaties bevat zonder de pijplijnstroom te onderbreken.

Op tijd gebaseerde schema's

U kunt een op tijd gebaseerd schema gebruiken om de taak uit te voeren, ongeacht wanneer de verschillende invoerbronnen worden bijgewerkt.

  • Selecteer Op een specifiek tijdstip in De gegevenstaak uitvoeren.

U kunt een schema per uur, dagelijks, wekelijks of maandelijks instellen.

Op gebeurtenissen gebaseerde schema's

U kunt een op gebeurtenissen gebaseerd schema gebruiken om de taak uit te voeren wanneer invoergegevenstaken zijn voltooid.

  • Selecteer Bij een specifieke gebeurtenis in De gegevenstaak uitvoeren.

U kunt selecteren of u de taak wilt uitvoeren wanneer een van de invoertaken met succes is voltooid, of wanneer een van een selectie van invoertaken met succes is voltooid.

InformatieDe taak wordt niet uitgevoerd als er een invoertaak of downstream-taak wordt uitgevoerd wanneer het schema wordt geactiveerd. De taak wordt overgeslagen tot de volgende geplande uitvoering.

Een transformatietaak bewaken

U kunt de status en voortgang van een transformatietaak bewaken door op Bewaken te klikken.

Zie Een afzonderlijke datataak monitoren voor meer informatie.

Gegevens opnieuw laden

U kunt tabellen handmatig opnieuw laden als de gegevens zijn gematerialiseerd als fysieke tabellen. Dit is handig wanneer er problemen zijn met een of meer tabellen.

InformatieAls gegevenssets niet-gematerialiseerd zijn, moet u de brongegevenssets in de upstream-gegevenstaak opnieuw laden om de gegevens te vernieuwen.
  1. Open de gegevenstaak en selecteer het tabblad Bewaken.

  2. Selecteer de tabellen die u opnieuw wilt laden.

  3. Klik op Tabellen opnieuw laden.

Het opnieuw laden vindt plaats de volgende keer dat de taak wordt uitgevoerd. Het herlaadproces gedraagt zich anders, afhankelijk van de geschiedenisinstelling en het transformatietype van elke gegevensset. Dit betekent dat het herlaadproces kan verschillen tussen gegevenssets in een gegevenstaak.

U kunt het opnieuw laden annuleren voor tabellen die in behandeling zijn voor opnieuw laden door op Opnieuw laden annuleren te klikken. Dit heeft geen invloed op tabellen die al opnieuw zijn geladen, en herlaadacties die momenteel worden uitgevoerd, worden voltooid.

Downstream-taken worden opnieuw geladen om wijzigingen toe te passen en om antedateren te voorkomen.

Downstream-impact na het opnieuw laden van een taak Gegevens transformeren

Downstream-effecten van transformatie opnieuw laden

De impact downstream is afhankelijk van het type herlaadbewerking dat is uitgevoerd en het type onmiddellijke downstream-gegevensset. Standaardverwerking betekent dat de gegevensset zal reageren en gegevens zal verwerken met behulp van de geconfigureerde methode voor de specifieke gegevensset.

Voorbeeld: Een gegevensset opnieuw laden via afkappen en laden

  • Als de volgende gegevensset gegevenssettransformaties gebruikt, wordt deze bij de volgende uitvoering opnieuw geladen via afkappen en laden.

  • Als de volgende gegevensset een SQL-transformatie of transformatiestroom is, wordt deze opnieuw geladen met behulp van vergelijken en toepassen.

Een gegevensset zonder geschiedenis opnieuw laden

In dit geval is er geen geschiedenis om rekening mee te houden. Om de verwerking op het doel te verminderen, wordt het opnieuw laden uitgevoerd door:

  1. De tabellen af te kappen.

  2. Huidige gegevens uit de upstream-gegevenstaak te laden.

Downstream-taken worden opnieuw geladen om wijzigingen toe te passen.

Een gegevensset met ingeschakelde geschiedenis opnieuw laden

Het opnieuw laden wordt uitgevoerd door:

  1. Huidige, eerdere en wijzigingstabellen af te kappen.

  2. Gegevens uit de upstream-gegevenstaak te laden, inclusief eerdere tabellen.

Een gegevensset opnieuw laden op basis van een SQL-transformatie of transformatiestroom

  • Afkappen en opnieuw laden

    InformatieDeze optie kan leiden tot verlies van geschiedenis.
    1. De huidige en wijzigingstabellen af te kappen.

    2. De query uit te voeren en deze in de huidige tabellen te laden.

  • Opnieuw laden en vergelijken

    1. De query uit te voeren en deze te vergelijken met de huidige tabellen.

    2. Wijzigingen toe te voegen.

InformatieWanneer een gegevensset op basis van een SQL-transformatie of transformatiestroom opnieuw wordt geladen vanwege het opnieuw laden van een upstream-taak, wordt deze altijd opnieuw geladen door te vergelijken en toe te passen. Als u deze wilt afkappen en opnieuw wilt laden, moet u een specifieke herlaadactie voor deze tabellen uitvoeren. In dit geval moet u ook rekening houden met het effect op downstream-tabellen.

Een taak verwijderen

U kunt de gegevenstaak verwijderen als deze niet actief is en er geen afhankelijkheden zijn van downstreamtaken in hetzelfde project.

  • Klik in de Pipeline project-weergave van het project op Meer bij een taak en selecteer Verwijderen.

Artefacten (tabellen en weergaven) die door de taak zijn gemaakt, worden ook verwijderd, tenzij u ervoor kiest om ze te behouden.

InformatieHoud er rekening mee dat de artefacten die u behoudt, niet langer door de taak worden bijgewerkt.

Taakinformatie weergeven

Klik op Informatie in de menubalk om taakinformatie weer te geven, zoals:

  • Eigenaar

  • Ruimte

  • Gegevensplatform

  • Project-id

  • Runtime-id gegevenstaak

Transformatie-instellingen

U kunt eigenschappen instellen voor de transformatiegegevenstaak.

  • Klik op Instellingen.

WaarschuwingAls de taak al is uitgevoerd, moet u de gegevenssets opnieuw maken als u een andere instelling dan Runtime-instellingen wijzigt.

Algemene instellingen

  • Database

    Database die in de gegevensbron moet worden gebruikt.

  • Taakschema

    U kunt de naam van het gegevenstaakschema wijzigen. De standaardnaam is de naam van de taak.

  • Intern schema

    U kunt de naam van het interne opslagschema wijzigen. De standaardnaam is de naam van de taak met de toevoeging "__internal".

  • Standaardhoofdlettergebruik van schemanaam

    U kunt het standaardhoofdlettergebruik voor alle schemanamen instellen. Als uw database is geconfigureerd om hoofdlettergebruik af te dwingen, heeft deze optie geen effect.

  • Prefix voor alle tabellen en weergaven

    U kunt een prefix instellen voor alle tabellen en weergaven die met deze taak zijn gemaakt.

    InformatieU moet een unieke prefix gebruiken als u een databaseschema in verschillende gegevenstaken wilt gebruiken.
  • Gematerialiseerd

    U kunt ervoor kiezen om alleen weergaven te maken die transformaties on the fly uitvoeren (Niet-gematerialiseerd), of om zowel tabellen als weergaven te maken (Gematerialiseerd).

  • Historische gegevensopslag (Type 2)

    U kunt historische wijzigingsgegevens bewaren, zodat u eenvoudig gegevens kunt recreëren zoals deze er op een specifiek moment uitzagen. U kunt geschiedenisweergaven en live geschiedenisweergaven gebruiken om historische gegevens te bekijken.

  • Publiceren naar catalogus

    Selecteer deze optie om deze versie van de gegevens als gegevensverzameling te publiceren naar Catalogus. De catalogusinhoud wordt bijgewerkt de volgende keer dat u deze taak voorbereidt.

    Ga voor meer informatie over Catalogus naar Uw gegevens begrijpen met catalogushulpmiddelen.

Runtime-instellingen

  • Parallelle uitvoering

    U kunt het maximale aantal verbindingen voor volledige ladingen instellen op een getal van 1 tot 5.

  • Warehouse

    De naam van het clouddatawarehouse.

Instellingen voor weergavetype

De instellingen voor het weergavetype zijn alleen van toepassing op Snowflake.

  • Standaardweergaven

    Gebruik Standaardweergaven voor de meeste gevallen.

  • Veilige Snowflake-weergaven

    Gebruik veilige Snowflake-weergaven voor weergaven die zijn bestemd voor gegevensprivacy of de bescherming van gevoelige informatie, zoals weergaven die zijn gemaakt om de toegang te beperken tot gevoelige gegevens die niet mogen worden blootgesteld aan alle gebruikers van de onderliggende tabellen.

    Informatie Veilige Snowflake-weergaven kunnen langzamer worden uitgevoerd dan Standaardweergaven.

Instellingen voor tabeltype

Deze instellingen zijn alleen beschikbaar in projecten met Snowflake als gegevensplatform.

  • Tabeltype

    U kunt kiezen welk type tabel u wilt gebruiken:

    • Snowflake-tabellen

    • Snowflake-beheerde Iceberg-tabellen

      U moet de standaardnaam van het externe volume instellen in Snowflake extern volume.

  • Te gebruiken cloudopslagmap

    Selecteer welke map u wilt gebruiken voor het tijdelijk opslaan van gegevens in het tussenopslaggebied.

    • Standaardmap

      Hiermee wordt een map gemaakt met de standaardnaam: <projectnaam>/<gegevenstaaknaam>.

    • Hoofdmap

      Sla gegevens op in de hoofdmap van de opslag.

    • Map

      Geef een mapnaam op om te gebruiken.

  • Synchroniseren met Snowflake Open Catalog

    Schakel dit in om Snowflake Open Catalog de bestanden in de cloud bestandsopslag te laten beheren.

Best practices

  • Het is niet mogelijk om de bron voor een gegevensset in een datamart te wijzigen als er feiten en dimensies zijn toegevoegd. Als u flexibel wilt zijn, kunt u een voorafgaande taak Transformeren toevoegen met niet-gematerialiseerde weergaven die kunnen worden gebruikt om bronnen te wijzigen en ook om een model te hebben voor alle brontaken.

Beperkingen

  • Het is niet mogelijk om gegevenstypen te wijzigen in een transformatiegegevenstaak wanneer de optie Niet-gematerialiseerd is geselecteerd.

  • Herkomst op veldniveau is niet beschikbaar voor gegevenssets die zijn gemaakt in SQL-transformaties of transformatiestromen.

  • Het gebruik van Toevoegen aan doel om te lezen uit een Qlik Open LakehouseSpiegelen-taak die is ingesteld op Alleen toevoegen wordt niet ondersteund.

    Als tijdelijke oplossing kunt u gegevens lezen met behulp van een SQL-transformatie of een transformatiestroom.

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!