Gegevens transformeren
U kunt herbruikbare en regelgebaseerde gegevenstransformaties maken als een deel van uw gegevenspijplijn. U kunt transformaties uitvoeren als onderdeel van uw gegevensopname, of herbruikbare transformatiegegevenstaken maken. U kunt transformaties op rijniveau uitvoeren en gegevensverzamelingen maken die ofwel worden gematerialiseerd als tabellen, ofwel worden gemaakt als weergaven die transformaties direct uitvoeren.
-
U kunt expliciete transformaties per gegevensverzameling uitvoeren of globale regels maken die meerdere gegevensverzamelingen transformeren. U kunt ook een gegevensverzameling filteren om een subset rijen te maken.
-
U kunt SQL-transformaties toevoegen.
Een transformatiegegevenstaak maken
De eenvoudigste manier om een transformatiegegevenstaak te maken is door op ... op een opslaggegevenstaak te klikken en vervolgens Gegevens transformeren te selecteren.
U kunt ook klikken op Nieuwe toevoegen in een gegevensproject en Gegevens transformeren te selecteren. In dit geval moet u opgeven welke brongegevenstaak moet worden gebruikt.
-
Definieer uw brongegevens in Gegevensverzameling transformeren.
Selecteer brongegevensverzamelingen en klik op Toevoegen om deze toe te voegen aan Doel.
U kunt een SQL-transformatie toevoegen door een gegevensverzameling te selecteren en op Op SQL gebaseerde gegevensverzameling te klikken.
TipU kunt ook meer gegevensverzamelingen toevoegen vanuit andere opslaggegevensassets door te klikken op Brongegevens selecteren. -
Breng alle vereiste wijzigingen aan de opgenomen gegevensverzamelingen aan, zoals transformaties, het filteren van gegevens of het toevoegen van kolommen.
Ga voor meer informatie naar Gegevensverzamelingen beheren.
-
Wanneer u de gewenste transformaties hebt toegevoegd, valideert u de gegevensverzamelingen door te klikken op Gegevensverzamelingen valideren. Als de validatie fouten vindt, moet u de fouten oplossen voordat u verdergaat.
Ga voor meer informatie naar Valideren en aanpassen van de gegevensverzamelingen.
-
Een gegevensmodel maken
Klik op Model om de relaties tussen de opgenomen gegevensverzamelingen in te stellen.
Ga voor meer informatie naar Een gegevensmodel maken.
-
Klik op Voorbereiden om de gegevenstaak en alle vereiste artefacten voor te bereiden. Dit kan even duren.
U kunt de voortgang volgen onder Voortgang van voorbereiding in het onderste deel van het scherm.
-
Wanneer de status Voorbereid weergeeft, kunt u de gegevenstaak uitvoeren.
Klik op ... en vervolgens op Uitvoeren.
De gegevenstaak begint nu met het maken van gegevensverzamelingen om de gegevens te transformeren.
SQL-transformaties toevoegen
U kunt SQL-transformaties opnemen in transformatietaken. Met een SQL-transformatie kunt u een query SQL SELECT invoeren in een pijplijn om complexe of eenvoudige transformaties te definiëren.
-
Selecteer in Gegevensverzameling transformeren de gegevensverzamelingen die moeten worden opgenomen in de query en klik op SQL-transformatie toevoegen.
Ga voor meer informatie naar SQL-transformaties toevoegen.
Een transformatietaak plannen
U kunt inplannen dat een transformatietaak periodiek wordt bijgewerkt. U kunt een planning op tijdbasis instellen of instellen dat de taak wordt uitgevoerd als ingevoerde gegevenstaken zijn voltooid.
Klik op ... van een gegevenstaak en selecteer Planning om een planning te maken. De standaard planningsinstelling wordt overgenomen van de instellingen van het gegevensproject. Ga voor meer informatie over standaardinstellingen naar Standaardwaarden transformeren.
U moet Planning altijd instellen op Aan om de planning in te schakelen.
Planningen op tijdbasis
U kunt een planning op tijdbasis uitvoeren om de taak uit te voeren ongeacht op welk tijdstip de verschillende invoerbronnen worden bijgewerkt.
-
Selecteer Op een specifiek tijdstip in De gegevenstaak uitvoeren.
U kunt een planning per maand, week, dag of uur instellen.
Planningen op basis van gebeurtenis
U kunt een planning op basis van gebeurtenis instellen of instellen dat de taak wordt uitgevoerd als ingevoerde gegevenstaken zijn voltooid.
-
Selecteer Bij een specifieke gebeurtenis in De gegevenstaak uitvoeren.
U kunt selecteren of u de taak wilt uitvoeren als de invoertaken zijn voltooid of als een selectie van de invoertaken is voltooid.
Een transformatietaak bewaken
U kun de status en voortgang van een transformatietaak bewaken door te klikken op Bewaken.
Ga voor meer informatie naar Een afzonderlijke gegevenstaak bewaken.
Gegevens opnieuw laden
U kunt een handmatige lading van tabellen uitvoeren als de gegevens als fysieke tabellen zijn gematerialiseerd. Dit is handig wanneer er problemen zijn met één of meerdere tabellen. Als gegevensverzamelingen niet zijn gematerialiseerd, moet u de brongegevensverzamelingen laden in de upstream-gegevenstaak om de gegevens te vernieuwen.
-
Open de gegevenstaak en selecteer het tabblad Bewaken.
-
Selecteer de tabellen die u opnieuw wilt laden.
-
Klik op Tabellen laden.
De lading wordt uitgevoerd nadat de taak opnieuw wordt uitgevoerd. Het laadproces wordt anders uitgevoerd afhankelijk van de historie-instelling en het transformatietype van elke gegevensverzameling. Dit betekent dat het laadproces kan verschillen tussen gegevensverzamelingen in een gegevenstaak.
U kunt het opnieuw laden van tabellen die in behandeling zijn annuleren door te klikken op Opnieuw laden annuleren. Dit heeft geen invloed op de tabellen die al opnieuw zijn geladen en ladingen die momenteel worden uitgevoerd, worden voltooid.
Downstreamtaken worden geladen om wijzigingen toe te passen en om antidatering te voorkomen. Dit wordt uitgevoerd door:
-
Het vergelijken van de volledige lading en het toepassen van de wijzigingen.
-
Het toepassen van de wijzigingen van na de lading.
Een gegevensverzameling zonder geschiedenis laden
Dit geval is er geen geschiedenis waarmee rekening gehouden moet worden. Om de verwerking van het doel te verminderen, wordt de lading uitgevoerd door:
-
Het afkappen van de tabellen.
-
Het laden van de huidige gegevens van de upstream-gegevenstaak.
Downstreamtaken worden geladen om wijzigingen toe te passen.
Een gegevensverzameling met ingeschakelde geschiedenis laden
De lading wordt uitgevoerd door:
-
Huidige tabellen, eerdere tabellen en wijzigingstabellen afkappen.
-
Het laden van gegevens van de upstream-gegevenstaak, inclusief eerdere tabellen.
Het laden van een gegevensverzameling die is gebaseerd op een SQL-transformatie
-
Afkappen en laden
InformatieDeze optie kan geschiedenisverlies veroorzaken.-
De huidige tabellen en wijzigingstabellen afkappen.
-
De query uitvoeren en laden in de huidige tabellen.
-
-
Opnieuw laden en vergelijken
-
De query uitvoeren en vergelijken met de huidige tabellen.
-
Wijzigingen toevoegen.
-
Transformatie-instellingen
U kunt eigenschappen instellen voor de transformatiegegevenstaak.
-
Klik op Instellingen.
Algemene instellingen
-
Database
Database die moet worden gebruikt in de gegevensbron.
-
Schema van gegevenstaak
U kunt de naam wijzigen van het schema voor opslag van gegevenstaken. Standaardnaam is opslag.
-
Intern schema
U kunt de naam van het interne schema van de opslaggegevenstaak wijzigen. Standaardnaam is store__internal.
- Prefix voor alle tabellen en weergaven
U kunt een prefix instellen voor alle tabellen en weergaven die met deze taak zijn gemaakt.
InformatieU moet een unieke prefix gebruiken als u een databaseschema in verschillende gegevenstaken wilt gebruiken. -
Gematerialiseerd
U kunt ervoor kiezen om alleen weergaven te maken die transformaties uitvoeren (Niet-gematerialiseerd) of maak zowel tabellen en weergaven (Gematerialiseerd).
-
Geschiedenis
U kunt historische wijzigingsgegevens bijhouden zodat u eenvoudig gevens opnieuw kunt maken op basis van een specifiek tijdstip. U kunt historieweergaven en live-historieweergaven gebruiken om de historische gegevens te bekijken.
Runtime-instellingen
-
Parallelle uitvoering
U kunt het maximum aantal gegevensverbindingen voor volledige ladingen instellen op een getal van 1 tot 5.
-
Warehouse
De naam van het clouddatawarehouse.
Beperkingen
-
U kunt gegevenstypen in een transformatiegegevenstaak niet wijzigen wanneer de optie Niet-gematerialiseerd is geselecteerd.
-
Niet-gematerialiseerde SQL-gebaseerde gegevenssets bieden alleen de volledige resultatenset, incrementeel filteren wordt niet ondersteund. Niet-gematerialiseerde SQL-gebaseerde gegevenssets bieden ook alleen huidige gegevens en bewaren geen historische records.