Gegevens transformeren | Qlik Cloud Help
Ga naar hoofdinhoud Ga naar aanvullende inhoud

Gegevens transformeren

U kunt herbruikbare en op regels gebaseerde gegevenstransformaties maken als onderdeel van uw datapijplijn. U kunt transformaties uitvoeren als onderdeel van uw data-onboarding, of herbruikbare transformatiegegevenstaken maken. U kunt transformaties op rijniveau uitvoeren, SQL-transformaties opnemen en complexe transformatiestromen ontwerpen. De resulterende datasets kunnen worden gematerialiseerd als tabellen, of worden gemaakt als weergaven die transformaties on the fly uitvoeren.

InformatieGeavanceerde transformaties zijn beschikbaar met een Qlik Talend Cloud Premium of Qlik Talend Cloud Enterprise abonnement.
  • U kunt expliciete datasettransformaties uitvoeren of globale regels maken die meerdere datasets transformeren. U kunt ook een dataset filteren om een subset van rijen te maken.

  • U kunt SQL-transformaties toevoegen. Met een SQL-transformatie kunt u een SQL SELECT-query invoeren in een pijplijn om complexe of eenvoudige transformaties te definiëren.

  • U kunt visuele transformatiestromen toevoegen met bronnen, processors en doelen om complexe of eenvoudige transformaties te definiëren.

InformatieGegevenstaken worden uitgevoerd in de context van de eigenaar van het project. Zie Rollen en machtigingen voor gegevensruimten voor meer informatie over de vereiste rollen en machtigingen.

Een transformatiegegevenstaak bevat drie weergaven:

  • Transformeren

    Deze weergave toont alle transformaties om de stroom van brondataset naar doeldataset te visualiseren.

  • Datasets

    Deze weergave toont alle basistransformaties op de datasets, zoals het filteren van gegevens of het toevoegen van kolommen, evenals regels om globale transformaties uit te voeren.

  • Model

    In deze weergave kunt u een gegevensmodel maken met de relaties tussen de opgenomen datasets. Zie Een gegevensmodel maken voor meer informatie.

Naast het opslaan van tabellen in het datawarehouse, kunt u tabellen ook opslaan als Iceberg-tabellen die worden beheerd door het gegevensplatform. Deze optie is momenteel alleen beschikbaar voor Snowflake-projecten. Dit is mogelijk door Snowflake-beheerde Iceberg-tabellen te selecteren onder Tabeltype in de taakinstellingen.

Een transformatiegegevenstaak maken

De eenvoudigste manier om een transformatiegegevenstaak te maken, is door op ... te klikken bij een opslaggegevenstaak en vervolgens Gegevens transformeren te selecteren.

U kunt ook op Maken klikken in een project en Gegevens transformeren selecteren. In dit geval moet u definiëren welke brongegevenstaak u wilt gebruiken.

  1. Definieer uw brongegevens en doelen in Transformeren.

    U kunt het volgende doen:

    • Selecteer brondatasets en klik op Toevoegen aan doel om ze toe te voegen aan Doel.

      U kunt vervolgens basistransformaties uitvoeren op de datasets, zoals het filteren van gegevens of het toevoegen van kolommen, in Datasets.

      Zie Gegevensverzamelingen beheren voor meer informatie.

    • Selecteer brondatasets en klik op SQL-transformatie toevoegen.

      Met een SQL-transformatie kunt u een SQL SELECT-query invoeren in een pijplijn om complexe of eenvoudige transformaties te definiëren.

      Zie SQL-transformaties toevoegen voor meer informatie.

    • Selecteer brondatasets en klik op Transformatiestroom toevoegen.

      Met de stroomontwerper kunt u een transformatiestroom maken met bronnen, processors en doelen om complexe of eenvoudige transformaties te definiëren.

      Zie Transformatiestromen toevoegen voor meer informatie.

  2. U kunt ook meer datasets toevoegen uit andere opslaggegevenstaken door op Brongegevens selecteren te klikken.

    U kunt datasets toevoegen uit het huidige project of uit een ander project. Om datasets uit een ander project toe te voegen:

    • U moet ten minste de rol Kan consumeren hebben in de ruimte van het geconsumeerde project.

    • Beide projecten moeten zich op hetzelfde dataplatform bevinden.

    Als het geselecteerde project onder versiebeheer staat, kunt u selecteren welke branch u als bron wilt gebruiken. Zie Projectoverschrijdende pijplijnen bouwen voor meer informatie over pijplijnen over meerdere projecten.

  3. Wanneer u de gewenste transformaties hebt toegevoegd, valideert u de datasets door op Datasets valideren te klikken. Als de validatie fouten vindt, lost u de fouten op voordat u doorgaat.

    Zie De gegevensverzamelingen valideren en aanpassen voor meer informatie.

  4. Een gegevensmodel maken

    Klik op Model om de relaties tussen de opgenomen datasets in te stellen.

    Zie Een gegevensmodel maken voor meer informatie.

  5. Klik op Voorbereiden om de gegevenstaak en alle vereiste artefacten voor te bereiden. Dit kan even duren.

    U kunt de voortgang volgen onder Voortgang voorbereiding in het onderste deel van het scherm.

    InformatieVoordat u een taak voorbereidt, stopt u alle taken die direct downstream zijn.
  6. Wanneer de status Voorbereid weergeeft, kunt u de gegevenstaak uitvoeren.

    Klik op ... en vervolgens op Uitvoeren.

De gegevenstaak begint nu met het maken datasets om de gegevens te transformeren.

InformatieHet is niet mogelijk om te wijzigen welke datasets zijn opgenomen wanneer u bent begonnen met het genereren van datasets.

De weergave Transformeren gebruiken

In Transformeren worden alle transformaties weergegeven om de stroom van brondataset naar doeldataset te visualiseren.

  • Selecteer een transformatie om te zien welke brondatasets worden gebruikt en welke doeldatasets worden gemaakt.

  • Selecteer een bron om alle transformaties te zien waarin deze wordt gebruikt, en alle resulterende doelen.

  • Selecteer een doel om te zien wat de brondatasets zijn en welke transformatie deze doeldataset heeft gemaakt.

Weergave Transformeren in een transformatie

Weergave Transformeren in een transformatie

U kunt de volgende instellingen wijzigen door op Weergaveopties te klikken:

  • Filteren op transformatietype

    Geef alleen transformaties van één of twee transformatietypen weer.

  • Filter

    Geef alle transformaties of alleen de geselecteerde transformatie weer. U moet een transformatie selecteren om deze optie in te schakelen.

  • Dichtheid

    Selecteer of u transformaties wilt weergeven met een compacte lay-out of een brede lay-out die meer ruimte in beslag neemt.

De weergave Datasets gebruiken

In Datasets kunt u alle doeldatasets in de transformatietaak bekijken en bewerken.

Zie ook Gegevensverzamelingen beheren voor meer informatie.

Een doeldataset toevoegen

U kunt meer doeldatasets toevoegen aan de transformatietaak.

  1. Klik op Dataset toevoegen.

  2. Geef een Naam en optioneel een Beschrijving op voor de dataset.

  3. Selecteer een brondataset uit de beschikbare datasets in de taak in Brondataset.

    TipU kunt Geen brondataset selecteren om een lege dataset te maken die niet is verbonden met een bron. U kunt tijdens het ontwerpen kolommen toevoegen aan de dataset, maar u moet verbinding maken met een brondataset voordat u de taak kunt voorbereiden.

De doeldataset is nu toegevoegd.

De brondataset wijzigen

U kunt de brondataset van een doeldataset wijzigen.

  1. Klik op bewerken na Bron: [naam van brondataset].

  2. Selecteer een andere brondataset uit de beschikbare datasets in de taak in Brondataset.

    TipU kunt Geen brondataset selecteren om de doeldataset los te koppelen van de bron. U kunt de dataset tijdens het ontwerpen bewerken, maar u moet verbinding maken met een brondataset voordat u de taak kunt voorbereiden.

Nieuwe kolommen toevoegen

U kunt nieuwe kolommen toevoegen aan de doeldataset.

  • Klik op + Toevoegen.

    Geef een naam op voor de kolom en stel een expressie in om de kolomgegevens te definiëren.

    Zie Kolommen toevoegen aan een gegevensset voor meer informatie.

  • Klik op omlaag naast Toevoegen en selecteer Kolom uit bron toevoegen.

    Selecteer een kolom uit de brondataset.

Kolommen opnieuw ordenen

U kunt de ordinale positie van een kolom wijzigen.

  1. Selecteer een kolom.

  2. Klik op meer en vervolgens op Opnieuw ordenen.

  3. Gebruik de pijlen om de kolom omhoog of omlaag te verplaatsen.

  4. Sluit Ordinaal wijzigen wanneer u klaar bent.

Transformatieregels maken

U kunt herbruikbare transformatieregels maken om globale transformaties op datasets uit te voeren.

Zie Regels maken om gegevensverzamelingen te transformeren voor meer informatie over het maken van regels.

TipU kunt de effecten van regels bekijken door Regeleffecten weergeven te selecteren. U kunt geen wijzigingen aanbrengen in de datasets wanneer Regeleffecten weergeven is ingeschakeld.

Een dataset filteren

U kunt gegevens filteren om indien nodig een subset van rijen te maken.

  • Klik op meer en vervolgens op Filteren.

Zie Een gegevensverzameling filteren voor meer informatie over filteren.

Een transformatietaak plannen

U kunt een transformatietaak plannen om periodiek te worden bijgewerkt. U kunt een op tijd gebaseerd schema instellen, of instellen dat de taak wordt uitgevoerd wanneer invoergegevenstaken zijn voltooid.

Klik op ... bij een gegevenstaak en selecteer Planning om een schema te maken. De standaard planningsinstelling wordt overgenomen van de instellingen in het project. Zie Standaardwaarden voor transformatie voor meer informatie over standaardinstellingen.

U moet Planning altijd instellen op Aan om het schema in te schakelen.

InformatieAls alle datasets in de taak niet-gematerialiseerd zijn, is er niets om uit te voeren, aangezien de transformatie on the fly wordt uitgevoerd met weergaven. U kunt nog steeds een schema maken voor een niet-gematerialiseerde transformatietaak om uit te voeren wanneer aan de planningsvoorwaarde is voldaan. De taak wordt onmiddellijk voltooid, wat een downstream-taak kan activeren, bijvoorbeeld een datamart. Hierdoor kunt u een op gebeurtenissen gebaseerd pijplijnschema bouwen dat niet-gematerialiseerde transformaties omvat zonder de pijplijnstroom te onderbreken.

Op tijd gebaseerde schema's

U kunt een op tijd gebaseerd schema gebruiken om de taak uit te voeren, ongeacht wanneer de verschillende invoerbronnen worden bijgewerkt.

  • Selecteer Op een specifiek tijdstip in De gegevenstaak uitvoeren.

U kunt een schema per uur, dagelijks, wekelijks of maandelijks instellen.

Op gebeurtenissen gebaseerde schema's

U kunt een op gebeurtenissen gebaseerd schema gebruiken om de taak uit te voeren wanneer invoergegevenstaken zijn voltooid.

  • Selecteer Bij een specifieke gebeurtenis in De gegevenstaak uitvoeren.

U kunt selecteren of u de taak wilt uitvoeren wanneer een van de invoertaken met succes is voltooid, of wanneer een selectie van invoertaken met succes is voltooid.

InformatieDe taak wordt niet uitgevoerd als er een invoertaak of downstream-taak wordt uitgevoerd wanneer het schema wordt geactiveerd. De taak wordt overgeslagen tot de volgende geplande uitvoering.

Een transformatietaak monitoren

U kunt de status en voortgang van een transformatietaak monitoren door op Monitoren te klikken.

Zie Een afzonderlijke gegevenstaak bewaken voor meer informatie.

Gegevens opnieuw laden

U kunt tabellen handmatig opnieuw laden als de gegevens zijn gematerialiseerd als fysieke tabellen. Dit is handig wanneer er problemen zijn met een of meer tabellen.

InformatieAls datasets niet-gematerialiseerd zijn, moet u de brondatasets in de upstream-gegevenstaak opnieuw laden om de gegevens te vernieuwen.
  1. Open de gegevenstaak en selecteer het tabblad Monitoren.

  2. Selecteer de tabellen die u opnieuw wilt laden.

  3. Klik op Tabellen opnieuw laden.

Het opnieuw laden vindt plaats de volgende keer dat de taak wordt uitgevoerd. Het herlaadproces gedraagt zich anders, afhankelijk van de geschiedenisinstelling en het transformatietype van elke dataset. Dit betekent dat het herlaadproces kan verschillen tussen datasets in een gegevenstaak.

U kunt het opnieuw laden annuleren voor tabellen die in behandeling zijn voor opnieuw laden door op Opnieuw laden annuleren te klikken. Dit heeft geen invloed op tabellen die al opnieuw zijn geladen, en herlaadacties die momenteel worden uitgevoerd, worden voltooid.

Downstream-taken worden opnieuw geladen om wijzigingen toe te passen en om antedateren te voorkomen.

Downstream-impact na het opnieuw laden van een taak Gegevens transformeren

Downstream-effecten van transformatie opnieuw laden

De impact downstream is afhankelijk van het type herlaadbewerking dat is uitgevoerd en het type onmiddellijke downstream-dataset. Standaardverwerking betekent dat de dataset zal reageren en gegevens zal verwerken met behulp van de geconfigureerde methode voor de specifieke dataset.

Voorbeeld: Een dataset opnieuw laden via afkappen en laden

  • Als de volgende dataset datasettransformaties gebruikt, wordt deze bij de volgende uitvoering opnieuw geladen via afkappen en laden.

  • Als de volgende dataset een SQL-transformatie of transformatiestroom is, wordt deze opnieuw geladen met behulp van vergelijken en toepassen.

Een dataset zonder geschiedenis opnieuw laden

In dit geval is er geen geschiedenis om rekening mee te houden. Om de verwerking op het doel te verminderen, wordt het opnieuw laden uitgevoerd door:

  1. De tabellen af te kappen.

  2. Huidige gegevens uit de upstream-gegevenstaak te laden.

Downstream-taken worden opnieuw geladen om wijzigingen toe te passen.

Een dataset met ingeschakelde geschiedenis opnieuw laden

Het opnieuw laden wordt uitgevoerd door:

  1. Huidige, eerdere en wijzigingstabellen af te kappen.

  2. Gegevens uit de upstream-gegevenstaak te laden, inclusief eerdere tabellen.

Een dataset opnieuw laden op basis van een SQL-transformatie of transformatiestroom

  • Afkappen en opnieuw laden

    InformatieDeze optie kan leiden tot verlies van geschiedenis.
    1. De huidige en wijzigingstabellen af te kappen.

    2. De query uit te voeren en deze in de huidige tabellen te laden.

  • Opnieuw laden en vergelijken

    1. De query uit te voeren en deze te vergelijken met de huidige tabellen.

    2. Wijzigingen toe te voegen.

InformatieWanneer een dataset op basis van een SQL-transformatie of transformatiestroom opnieuw wordt geladen vanwege het opnieuw laden van een upstream-taak, wordt deze altijd opnieuw geladen door te vergelijken en toe te passen. Als u deze wilt afkappen en opnieuw wilt laden, moet u een specifieke herlaadactie voor deze tabellen uitvoeren. In dit geval moet u ook rekening houden met het effect op downstream-tabellen.

Een taak verwijderen

U kunt de gegevenstaak verwijderen als deze niet actief is en er geen afhankelijkheden zijn van downstreamtaken in hetzelfde project.

  • Klik in de Pipeline project-weergave van het project op Meer bij een taak en selecteer Verwijderen.

Artefacten (tabellen en weergaven) die door de taak zijn gemaakt, worden ook verwijderd, tenzij u ervoor kiest om ze te behouden.

InformatieHoud er rekening mee dat de artefacten die u behoudt, niet langer door de taak worden bijgewerkt.

Taakinformatie weergeven

Klik op Informatie in de menubalk om taakinformatie weer te geven, zoals:

  • Eigenaar

  • Ruimte

  • Gegevensplatform

  • Project-id

  • Runtime-id gegevenstaak

Transformatie-instellingen

U kunt eigenschappen instellen voor de transformatiegegevenstaak.

  • Klik op Instellingen.

WaarschuwingAls de taak al is uitgevoerd, vereist het wijzigen van een andere instelling dan Runtime-instellingen dat u de datasets opnieuw maakt.

Algemene instellingen

  • Database

    Database die in de gegevensbron moet worden gebruikt.

  • Taakschema

    U kunt de naam van het gegevenstaakschema wijzigen. De standaardnaam is de naam van de taak.

  • Intern schema

    U kunt de naam van het interne opslagschema wijzigen. De standaardnaam is de naam van de taak met de toevoeging "__internal".

  • Standaardhoofdlettergebruik van schemanaam

    U kunt het standaardhoofdlettergebruik voor alle schemanamen instellen. Als uw database is geconfigureerd om hoofdlettergebruik af te dwingen, heeft deze optie geen effect.

  • Prefix voor alle tabellen en weergaven

    U kunt een prefix instellen voor alle tabellen en weergaven die met deze taak zijn gemaakt.

    InformatieU moet een unieke prefix gebruiken als u een databaseschema in verschillende gegevenstaken wilt gebruiken.
  • Gematerialiseerd

    U kunt ervoor kiezen om alleen weergaven te maken die transformaties on the fly uitvoeren (Niet-gematerialiseerd), of om zowel tabellen als weergaven te maken (Gematerialiseerd).

  • Historische gegevensopslag (Type 2)

    U kunt historische wijzigingsgegevens bewaren om gegevens eenvoudig opnieuw te maken zoals deze er op een specifiek moment uitzagen. U kunt geschiedenisweergaven en live geschiedenisweergaven gebruiken om historische gegevens te bekijken.

  • Publiceren naar catalogus

    Selecteer deze optie om deze versie van de gegevens als gegevensverzameling te publiceren naar Catalogus. De catalogusinhoud wordt bijgewerkt de volgende keer dat u deze taak voorbereidt.

    Ga voor meer informatie over Catalogus naar Uw gegevens begrijpen met catalogushulpmiddelen.

Runtime-instellingen

  • Parallelle uitvoering

    U kunt het maximale aantal verbindingen voor volledige ladingen instellen op een getal van 1 tot 5.

  • Warehouse

    De naam van het clouddatawarehouse.

Instellingen voor weergavetype

De instellingen voor het weergavetype zijn alleen van toepassing op Snowflake.

  • Standaardweergaven

    Gebruik Standaardweergaven voor de meeste gevallen.

  • Veilige Snowflake-weergaven

    Gebruik veilige Snowflake-weergaven voor weergaven die zijn bestemd voor gegevensprivacy of de bescherming van gevoelige informatie, zoals weergaven die zijn gemaakt om de toegang tot gevoelige gegevens te beperken die niet mogen worden blootgesteld aan alle gebruikers van de onderliggende tabellen.

    Informatie Veilige Snowflake-weergaven kunnen langzamer worden uitgevoerd dan Standaardweergaven.

Instellingen voor tabeltype

Deze instellingen zijn alleen beschikbaar in projecten met Snowflake als gegevensplatform.

  • Tabeltype

    U kunt kiezen welk type tabel u wilt gebruiken:

    • Snowflake-tabellen

    • Snowflake-beheerde Iceberg-tabellen

      U moet de standaardnaam van het externe volume instellen in Snowflake extern volume.

  • Te gebruiken cloudopslagmap

    Selecteer welke map u wilt gebruiken voor het tijdelijk opslaan van gegevens in het tussenopslaggebied.

    • Standaardmap

      Hiermee wordt een map gemaakt met de standaardnaam: <projectnaam>/<gegevenstaaknaam>.

    • Hoofdmap

      Sla gegevens op in de hoofdmap van de opslag.

    • Map

      Geef een mapnaam op om te gebruiken.

  • Synchroniseren met Snowflake Open Catalog

    Schakel dit in om Snowflake Open Catalog de bestanden in de cloud bestandsopslag te laten beheren.

Best practices

  • Het is niet mogelijk om de bron voor een dataset in een datamart te wijzigen als er feiten en dimensies zijn toegevoegd. Als u flexibel wilt zijn, kunt u een voorafgaande taak Transformeren toevoegen met niet-gematerialiseerde weergaven die kunnen worden gebruikt om bronnen te wijzigen en ook om een model te hebben voor alle brontaken.

Beperkingen

  • Het is niet mogelijk om gegevenstypen in een transformatiegegevenstaak te wijzigen wanneer de optie Niet-gematerialiseerd is geselecteerd.

  • Herkomst op veldniveau is niet beschikbaar voor datasets die zijn gemaakt in SQL-transformaties of transformatiestromen.

  • Het gebruik van Toevoegen aan doel om te lezen uit een Qlik Open LakehouseSpiegelen-taak die is ingesteld op Alleen toevoegen wordt niet ondersteund.

    Als tijdelijke oplossing kunt u gegevens lezen met behulp van een SQL-transformatie of een transformatiestroom.

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!