Transformatiestromen toevoegen

U kunt stromen opnemen in transformatietaken. Met de stroomontwerper kunt u een transformatiestroom met bronnen, processoren en doelen maken om complexe of simpele transformaties te definiëren.

Transformatiestromen en processoren zijn logische representaties. Dit betekent dat er in ELT-taken slechts één tabel is gemaakt voor elk doel en dat alle processoren worden samengevoegd tot één SQL-instructie per doel.

Ondersteunde doelplatformen

De volgende platformen worden ondersteund voor transformatiestromen:

Snowflake
Databricks
Google BigQuery
Azure Synapse Analytics
Microsoft Fabric
Microsoft SQL Server
Amazon Redshift

InformatieDe volgende Amazon Redshift-functies zijn niet beschikbaar: generatie van UUID-tekenreeksen en afstand bewerken.

Vereisten

Voordat u een transformatiestroom maakt, moet u het volgende doen:

Vul de opslagtaak in met onboarded gegevens die u in de transformatiestroom wilt gebruiken of leg bestaande gegevens vast. Zie Gegevens onboarden en Gegevens registreren die al op het gegevensplatform bestaan voor meer informatie over het onboarden en vastleggen van gegevens.
U moet de opslag- of transformatietaak die is gebruikt als bron in uw transformatietaak voorbereiden en uitvoeren. Het uitvoeren van de opslagtaak is niet vereist, maar wordt wel aanbevolen om bij elke stap van de stroom een gegevensvoorbeeld te tonen.

Een transformatiestroom maken

Om een geldige transformatiestroom te maken, hebt u ten minste één brongegevensverzameling en één benoemd doel met gedefinieerde sleutels nodig.

Open de transformatietaak in uw gegevenspijplijn.
Selecteer in Transformeren de brongegevensverzamelingen die moeten worden opgenomen in de transformatiestroom en klik op Transformatiestroom toevoegen.
Transformatiestroom toevoegen wordt weergegeven waar u de instellingen voor de transformatie kunt opgeven.
Voer een naam in voor de doelgegevensverzameling in Naam.

U kunt ook een langere beschrijving toevoegen in Beschrijving.
Selecteer in Materialisatie of de getransformeerde uitvoer gematerialiseerd moet worden of niet. U kunt ervoor kiezen de instelling over te nemen vanuit de gegevenstaakinstellingen.
- Met Aan worden tabellen gemaakt en wordt de bijbehorende ELT-verwerking afgehandeld.
- Met Uit worden weergaven gemaakt die transformaties ad-hoc uitvoeren.
Selecteer in Historische gegevensopslag (Type 2) of u historische gegevens wilt bewaren. U kunt ervoor kiezen de instelling over te nemen vanuit de gegevenstaakinstellingen. Deze instelling vereist dat Materialisatie aan staat.
Met Incrementele lading kunt u de query aanpassen voor een incrementele gegevenslading door filters of andere voorwaarden toe te passen om de set gegevens die wordt verwerkt te verkleinen met behulp van macro's. Incrementele lading is alleen beschikbaar als de gegevens worden gematerialiseerd als tabellen.
- Wanneer Incrementele lading is ingesteld op Aan
  
  De eerste uitvoering van de taak voert een initiële lading uit, waarbij alle resultaten van de query in uw doeltabel worden ingevoerd. Opvolgende uitvoeringen voeren incrementele ladingen uit waarbij filters of specifieke voorwaarden worden gebruikt die u hebt gedefinieerd voor incrementele verwerking. Tijdens de incrementele lading verwerkt de taak alleen gegevens als een update of een invoeging, verwijderingen worden niet beheerd.
- Wanneer Incrementele lading is ingesteld op Uit
  
  De eerste uitvoering van de taak voert een initiële lading uit, waarbij alle resultaten van de query in uw doeltabel worden ingevoerd. Opvolgende uitvoeringen verwerken alle resultaten van de query door deze te vergelijken met uw doeltabel, en verwerkingsrecords die nieuw, gewijzigd of verwijderd zijn.
InformatieStel Incrementele lading in op Uit als de query alle records selecteert die in het doel moeten voorkomen. Records die niet geselecteerd zijn, worden in het doel verwijderd.
Klik op Toevoegen als u klaar bent om de transformatiestroom te maken.

De stroomontwerper wordt geopend, het doel is gemaakt en wordt getoond in uw stroom als een doelcomponent.

InformatieU moet een unieke naam voor uw stroomdoel opgeven. Als u de naam van het stroomdoel later wilt wijzigen, selecteer dan het doel en geef de nieuwe naam op in Naam van gegevensverzameling.
Klik op Bewerken naast het veld Sleutel(s) en null-waarden als er geen sleutels voor uw doel zijn gedefinieerd. Er wordt een configuratievenster geopend.
InformatieSleutels worden niet overgenomen van brongegevensverzamelingen en moeten handmatig gedefinieerd worden. Null-waarden worden overgenomen van brongegevensverzamelingen en kunnen aangepast worden.
In Sleutels en null-waarden configureren selecteert u Sleutels in de kolom die u als primaire sleutel wilt definiëren en selecteert u Null-waarden in de kolom of kolommen die u als null-waarde wilt definiëren.
Klik op Bevestigen om uw wijzigingen op te slaan en het configuratievenster te sluiten.

Als de status van uw transformatiestroom geldig is, kunt u de stroom sluiten en uw gegevens voorbereiden.

U kunt de instellingen voor Materialisatie en Incrementele lading later wijzigingen in Doelinstellingen.

Selecteer het doel en klik op Bewerken naast Instellingen in de doelconfiguratie.

Een processor toevoegen

U kunt processoren toevoegen aan uw stromen.

Processoren zijn componenten die u kunt toevoegen aan uw stromen om uw inkomende gegevens te transformeren en de getransformeerde gegevens te retourneren bij de volgende stap van de stroom.

In de stroomontwerper selecteert u het stroomcomponent waarna u een processor wilt toevoegen.
Klik op in de stroomcomponent, klik vervolgens op Processor toevoegen en selecteer welke processor u wilt toevoegen. U kunt de processor ook slepen van het linkervenster naar het canvas.

U kunt een korte beschrijving van de processor tonen door de processor te selecteren in het venster Processoren.

Configureer uw processor naar wens en klik op Opslaan om uw wijzingen op te slaan en het gegevensvoorbeeld bij te werken.
InformatieU kunt een voorbeeld van uw gegevens controleren met behulp van SQL en Gegevensvoorbeeld. Ga voor meer informatie naar Voorbeeld van gegevens bekijken.

Beschikbare processoren

Aggregate-processor

AI-processor

Cleanse-processor

Concatenate-processor

Filter-processor

Fork-processor

Hash-processor

Incremental filter (incrementeel filter)

Incremental filter-processor

Join-processor

Math-processor

Numbers-processor

Remove columnsprocessor

Select columns-processor

SQL-uitdrukkingsprocessor

Strings-processor

Union-processor

Usecase: gegevens samenvoegen, aggregeren en filteren in Snowflake

In deze usecase moeten Snowflake-klantgegevens getransformeerd worden met behulp van processoren. Omdat de klantgegevens afkomstig zijn van twee gegevensverzamelingen, moet u eerst een Join-processor toevoegen om records te combineren. U moet ook een Aggregate-processor gebruiken om de gemiddelde prijs van orders te berekenen, en een Filter-processor om te filteren op het type klantrecords dat u in uw uitvoergegevensverzamelingen wilt behouden

Een transformatiestroom met een Join-processor, een Aggregate-processor en een Filter-processor

De eerste gegevensverzameling is gebaseerd op een Snowflake-tabel met de naam CUSTOMER_ACCOUNT en het schema ziet er als volgt uit:

Schema van Snowflake-tabel over klantaccounts

De tweede gegevensverzameling is gebaseerd op een Snowflake-tabel met de naam CUSTOMER_ORDER en het schema ziet er als volgt uit:

Schema van Snowflake-tabel over klantorders

Sleep een Join-processor van het linkervenster Processoren naar het canvas.
Koppel de tweede bron aan de Join-processor zodat de gegevens van beide gegevensverzamelingen gecombineerd kunnen worden.
Configureer de Join-processor zodat de twee brongegevensverzamelingen van de sleutels van de klant-id (CUSTOMER_ID) worden samengevoegd.
Sleep een Aggregate-processor achter de Join-processor.
Configureer de Aggregate-processor om de gemiddelde hoeveelheid aankopen van klanten (ORDER_TOTAL_PRICE) te berekenen en sla het resultaat op in een nieuwe kolom met de naam avg_order_price, en groepeer records op klantsegmenttype (LEFT_CUSTOMER_SEGMENT).
Sleep een Filter-processor van het linkervenster Processoren naar het canvas.
Configureer de Filter-processor om te filteren op typen zakelijke klant (Zakelijk).
Selecteer in de Filter-processor om het menu te openen en klik op Niet-overeenkomend doel toevoegen om een tweede doel aan uw stroom toe te voegen.
Dit doel bevat de records die niet overeenkomen met de filtercriteria, de afzonderlijke klanttypen (Individueel).
Geef een naam op voor de nieuwe doelgegevensverzameling, bijvoorbeeld individual_cust.
Controleer het voorbeeld van de uitvoer in beide doelen:
Het doel business_cust toont de gemiddelde orderprijs voor typen zakelijke klanten, in dit geval 157.463687151.
Het doel individual_cust toont de gemiddelde orderprijs voor typen afzonderlijke klanten, in dit geval 153.576530612.
Zorg dat uw transformatiestroom een geldige status heeft en sluit deze vervolgens.
Klink in het venster Transformeren op Voorbereiden om uw gegevens voor te bereiden.

Aanbevolen procedure

Als u bron- of doelgegevensverzamelingen toevoegt aan uw stromen, moet u de sleutels en null-waarden instellen in het configuratievenster van de doelgegevensverzamelingen.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!

Geef hier uw feedback