Ga naar hoofdinhoud Ga naar aanvullende inhoud

Gegevens transformeren

U kunt herbruikbare en regelgebaseerde gegevenstransformaties maken als een deel van uw gegevenspijplijn. U kunt transformaties uitvoeren als onderdeel van uw gegevensopname, of herbruikbare transformatiegegevenstaken maken. U kunt transformaties op rijniveau uitvoeren en gegevensverzamelingen maken die ofwel worden gematerialiseerd als tabellen, ofwel worden gemaakt als weergaven die transformaties direct uitvoeren.

  • U kunt expliciete transformaties per gegevensverzameling uitvoeren of globale regels maken die meerdere gegevensverzamelingen transformeren. U kunt ook een gegevensverzameling filteren om een subset rijen te maken.

  • U kunt SQL-transformaties toevoegen.

InformatieDe situatie van de eigenaar van de gegevenstaken is bepalend voor de werking ervan. Zie Rollen en machtigingen in gegevensruimten voor meer informatie over de vereiste rollen en machtigingen.

Een transformatiegegevenstaak maken

De eenvoudigste manier om een transformatiegegevenstaak te maken is door op ... op een opslaggegevenstaak te klikken en vervolgens Gegevens transformeren te selecteren.

U kunt ook klikken op Nieuwe toevoegen in een gegevensproject en Gegevens transformeren te selecteren. In dit geval moet u opgeven welke brongegevenstaak moet worden gebruikt.

  1. Definieer uw brongegevens in Gegevensverzameling transformeren.

    Selecteer brongegevensverzamelingen en klik op Toevoegen om deze toe te voegen aan Doel.

    U kunt een SQL-transformatie toevoegen door een gegevensverzameling te selecteren en op Op SQL gebaseerde gegevensverzameling te klikken.

    SQL-transformaties toevoegen

    TipU kunt ook meer gegevensverzamelingen toevoegen vanuit andere opslaggegevensassets door te klikken op Brongegevens selecteren.
  2. Breng alle vereiste wijzigingen aan de opgenomen gegevensverzamelingen aan, zoals transformaties, het filteren van gegevens of het toevoegen van kolommen.

    Ga voor meer informatie naar Gegevensverzamelingen beheren.

  3. Wanneer u de gewenste transformaties hebt toegevoegd, valideert u de gegevensverzamelingen door te klikken op Gegevensverzamelingen valideren. Als de validatie fouten vindt, moet u de fouten oplossen voordat u verdergaat.

    Ga voor meer informatie naar Valideren en aanpassen van de gegevensverzamelingen.

  4. Een gegevensmodel maken

    Klik op Model om de relaties tussen de opgenomen gegevensverzamelingen in te stellen.

    Ga voor meer informatie naar Een gegevensmodel maken.

  5. Klik op Voorbereiden om de gegevenstaak en alle vereiste artefacten voor te bereiden. Dit kan even duren.

    U kunt de voortgang volgen onder Voortgang van voorbereiding in het onderste deel van het scherm.

  6. Wanneer de status Voorbereid weergeeft, kunt u de gegevenstaak uitvoeren.

    Klik op ... en vervolgens op Uitvoeren.

De gegevenstaak begint nu met het maken van gegevensverzamelingen om de gegevens te transformeren.

InformatieU kunt niet wijzigen welke gegevensverzamelingen worden opgenomen wanneer u bent begonnen met het genereren van gegevensverzamelingen.

SQL-transformaties toevoegen

U kunt SQL-transformaties opnemen in transformatietaken. Met een SQL-transformatie kunt u een query SQL SELECT invoeren in een pijplijn om complexe of eenvoudige transformaties te definiëren.

  • Selecteer in Gegevensverzameling transformeren de gegevensverzamelingen die moeten worden opgenomen in de query en klik op SQL-transformatie toevoegen.

Ga voor meer informatie naar SQL-transformaties toevoegen.

Een transformatietaak plannen

U kunt inplannen dat een transformatietaak periodiek wordt bijgewerkt. U kunt een planning op tijdbasis instellen of instellen dat de taak wordt uitgevoerd als ingevoerde gegevenstaken zijn voltooid.

Klik op ... van een gegevenstaak en selecteer Planning om een planning te maken. De standaard planningsinstelling wordt overgenomen van de instellingen van het gegevensproject. Ga voor meer informatie over standaardinstellingen naar Standaardwaarden transformeren.

U moet Planning altijd instellen op Aan om de planning in te schakelen.

InformatieAls alle gegevensverzamelingen in de taak niet-gematerialiseerd zijn, kan er niets worden uitgevoerd omdat de transformatie tijdens de weergaven wordt uitgevoerd. U kunt een planning maken om een niet-gematerialiseerde transformatietaak uit te voeren als er aan de planningsvoorwaarde wordt voldaan. De taak wordt direct voltooid en hierdoor kan een downstreamtaak worden geactiveerd, zoals een datamart. Dit stelt u in staat om een pijplijnplanning op basis van gebeurtenissen te maken die niet-gematerialiseerde transformaties bevat, zonder dat de stroom van de pijplijn wordt onderbroken.

Planningen op tijdbasis

U kunt een planning op tijdbasis uitvoeren om de taak uit te voeren ongeacht op welk tijdstip de verschillende invoerbronnen worden bijgewerkt.

  • Selecteer Op een specifiek tijdstip in De gegevenstaak uitvoeren.

U kunt een planning per maand, week, dag of uur instellen.

Planningen op basis van gebeurtenis

U kunt een planning op basis van gebeurtenis instellen of instellen dat de taak wordt uitgevoerd als ingevoerde gegevenstaken zijn voltooid.

  • Selecteer Bij een specifieke gebeurtenis in De gegevenstaak uitvoeren.

U kunt selecteren of u de taak wilt uitvoeren als de invoertaken zijn voltooid of als een selectie van de invoertaken is voltooid.

InformatieDe taak wordt niet uitgevoerd als een invoertaak of downstreamtaak wordt uitgevoerd als de planning wordt geactiveerd. De taak wordt overgeslagen tot de volgende geplande uitvoering.

Een transformatietaak bewaken

U kun de status en voortgang van een transformatietaak bewaken door te klikken op Bewaken.

Ga voor meer informatie naar Een afzonderlijke gegevenstaak bewaken.

Gegevens opnieuw laden

U kunt een handmatige lading van tabellen uitvoeren als de gegevens als fysieke tabellen zijn gematerialiseerd. Dit is handig wanneer er problemen zijn met één of meerdere tabellen. Als gegevensverzamelingen niet zijn gematerialiseerd, moet u de brongegevensverzamelingen laden in de upstream-gegevenstaak om de gegevens te vernieuwen.

  1. Open de gegevenstaak en selecteer het tabblad Bewaken.

  2. Selecteer de tabellen die u opnieuw wilt laden.

  3. Klik op Tabellen laden.

De lading wordt uitgevoerd nadat de taak opnieuw wordt uitgevoerd. Het laadproces wordt anders uitgevoerd afhankelijk van de historie-instelling en het transformatietype van elke gegevensverzameling. Dit betekent dat het laadproces kan verschillen tussen gegevensverzamelingen in een gegevenstaak.

U kunt het opnieuw laden van tabellen die in behandeling zijn annuleren door te klikken op Opnieuw laden annuleren. Dit heeft geen invloed op de tabellen die al opnieuw zijn geladen en ladingen die momenteel worden uitgevoerd, worden voltooid.

Downstreamtaken worden geladen om wijzigingen toe te passen en om antidatering te voorkomen. Dit wordt uitgevoerd door:

  1. Het vergelijken van de volledige lading en het toepassen van de wijzigingen.

  2. Het toepassen van de wijzigingen van na de lading.

Een gegevensverzameling zonder geschiedenis laden

Dit geval is er geen geschiedenis waarmee rekening gehouden moet worden. Om de verwerking van het doel te verminderen, wordt de lading uitgevoerd door:

  1. Het afkappen van de tabellen.

  2. Het laden van de huidige gegevens van de upstream-gegevenstaak.

Downstreamtaken worden geladen om wijzigingen toe te passen.

Een gegevensverzameling met ingeschakelde geschiedenis laden

De lading wordt uitgevoerd door:

  1. Huidige tabellen, eerdere tabellen en wijzigingstabellen afkappen.

  2. Het laden van gegevens van de upstream-gegevenstaak, inclusief eerdere tabellen.

Het laden van een gegevensverzameling die is gebaseerd op een SQL-transformatie

  • Afkappen en laden

    InformatieDeze optie kan geschiedenisverlies veroorzaken.
    1. De huidige tabellen en wijzigingstabellen afkappen.

    2. De query uitvoeren en laden in de huidige tabellen.

  • Opnieuw laden en vergelijken

    1. De query uitvoeren en vergelijken met de huidige tabellen.

    2. Wijzigingen toevoegen.

InformatieAls een gegevensverzameling die is gebaseerd op een SQL-transformatie opnieuw wordt geladen vanwege de lading van een upstreamtaak, wordt deze altijd geladen met vergelijken en toepassen. Als u de gegevensverzameling wilt afkappen en opnieuw wilt laden, moet u een specifieke lading voor deze tabellen afgeven. In dit geval moet u ook rekening houden met het effect op downstreamtabellen.

Transformatie-instellingen

U kunt eigenschappen instellen voor de transformatiegegevenstaak.

  • Klik op Instellingen.

WaarschuwingAls de taak reeds begonnen is en u wilt een andere instelling dan Runtime aanpassen, dan moet u de datasets opnieuw aanmaken.

Algemene instellingen

  • Database

    Database die moet worden gebruikt in de gegevensbron.

  • Schema van gegevenstaak

    U kunt de naam wijzigen van het schema voor opslag van gegevenstaken. Standaardnaam is opslag.

  • Intern schema

    U kunt de naam van het interne schema van de opslaggegevenstaak wijzigen. Standaardnaam is store__internal.

  • Prefix voor alle tabellen en weergaven

    U kunt een prefix instellen voor alle tabellen en weergaven die met deze taak zijn gemaakt.

    InformatieU moet een unieke prefix gebruiken als u een databaseschema in verschillende gegevenstaken wilt gebruiken.
  • Gematerialiseerd

    U kunt ervoor kiezen om alleen weergaven te maken die transformaties uitvoeren (Niet-gematerialiseerd) of maak zowel tabellen en weergaven (Gematerialiseerd).

  • Geschiedenis

    U kunt historische wijzigingsgegevens bijhouden zodat u eenvoudig gevens opnieuw kunt maken op basis van een specifiek tijdstip. U kunt historieweergaven en live-historieweergaven gebruiken om de historische gegevens te bekijken.

Runtime-instellingen

  • Parallelle uitvoering

    U kunt het maximum aantal gegevensverbindingen voor volledige ladingen instellen op een getal van 1 tot 5.

  • Warehouse

    De naam van het clouddatawarehouse.

Beperkingen

  • U kunt gegevenstypen in een transformatiegegevenstaak niet wijzigen wanneer de optie Niet-gematerialiseerd is geselecteerd.

  • Niet-gematerialiseerde SQL-gebaseerde gegevenssets bieden alleen de volledige resultatenset, incrementeel filteren wordt niet ondersteund. Niet-gematerialiseerde SQL-gebaseerde gegevenssets bieden ook alleen huidige gegevens en bewaren geen historische records.

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!