Gegevensverzamelingen beheren
U kunt de gegevensverzamelingen die zijn opgenomen in gegevenstaken voor Tussenopslag, Opslag, Transformatie, Datamart en Replication beheren om transformaties te maken, de gegevens te filteren en kolommen toe te voegen.
De opgenomen gegevensverzamelingen worden vermeld onder Gegevensverzamelingen in de weergave Ontwerp. Met de kolomkiezer kunt u selecteren welke kolommen worden weergegeven ().
Transformatieregels en expliciete transformaties
U kunt zowel algemene als expliciete transformaties uitvoeren.
Transformatieregels
U kunt globale transformaties uitvoeren door een transformatieregel aan te maken die % gebruikt als jokerteken in de scope en deze toe te passen op alle overeenkomstige datasets.
-
Klik op Regels, en vervolgens op Regel toevoegen om een nieuwe transformatieregel te creëren.
Ga voor meer informatie naar Regels maken om gegevensverzamelingen te transformeren.
Transformatieregels worden aangegeven door een donkerpaarse hoek op het kenmerk
Expliciete transformaties
Expliciete transformaties worden gecreëerd:
-
Wanneer u een kolomkenmerk wijzigt met Bewerken,
-
wanneer u Naam wijzigen toepast op een gegevensverzameling,
-
wanneer u een kolom toevoegt.
Expliciete transformaties gaan boven algemene transformaties en worden aangegeven met een donkerpaarse hoek op het betreffende kenmerk.
Gegevensverzamelingsmodel
Gegevensverzamelingen kunnen zowel bron- als doelgebaseerd zijn, afhankelijk van het taaktype en de bewerkingen in de taak. Het gebruikte gegevensverzamelingsmodel beïnvloedt het gedrag van de pijplijn bij bronwijzigingen en welke bewerkingen u kunt uitvoeren.
-
Brongebaseerde gegevensverzamelingen
De gegevensverzameling is gebaseerd op brongegevensverzamelingen en bevat alleen wijzigingen in de metagegevens. Een wijziging in de brongegevens wordt automatisch toegepast, wat kan leiden tot wijzigingen in alle downstreamtaken. Het is niet mogelijk om de volgorde van kolommen te wijzigen of de brongegevensverzameling te wijzigen.
De volgende taaktypen maken altijd gebruik van een brongebaseerd gegevensverzamelingsmodel: tussenopslag, opslag, geregistreerde gegevens, replicatie en tussenopslag in een datalake.
-
Doelgebaseerde gegevensverzamelingen
De gegevensverzameling is gebaseerd op de metagegevens van het doel. Als een kolom vanuit de bron wordt toegevoegd of verwijderd, wordt deze niet automatisch toegepast op de volgende downstreamtaak. U kunt ook de volgorde van kolommen wijzigen en de brongegevensverzameling wijzigen. Dit betekent dat de taak meer autonoom is en dat u het effect van wijzigingen in de bron kunt controleren.
De volgende taaktypen kunnen gebruik maken van een doelgebaseerd gegevensverzamelingsmodel: transformeren, datamart. In sommige gevallen wordt op basis van de bewerking een brongebaseerd model gebruikt voor transformatietaken.
-
Als een SQL-transformatie of een transformatiestroom een kolomselectie uitvoert, wordt de gegevensverzameling doelgebaseerd. Als u bijvoorbeeld SELECT A, B, C from XYZ gebruikt in een SQL-transformatie of de processor Kolommen selecteren gebruikt in een transformatiestroom.
-
Als de standaardkolommen worden behouden, is de gegevensverzameling brongebaseerd. Bijvoorbeeld als u SELECT * from XYZ gebruikt in een SQL-transformatie.
-
Projecten bijwerken van een brongebaseerd model naar een brongebaseerd model
Bestaande projecten worden indien mogelijk bijgewerkt naar het doelgebaseerde gegevensverzamelingsmodel. U wordt door het bijwerkingsproces begeleid als u voor het eerst een project opent. Er zijn enkele overwegingen bij het importeren en exporteren van projecten met verschillende gegevensverzamelingen.
-
Het is niet mogelijk om een project met een brongebaseerd model te importeren naar een project met een doelgebaseerd model.
Importeer het project met een brongebaseerd model naar een nieuw project, werk het nieuwe project bij en exporteer vervolgens het resulterende project. U kunt dit project nu opnieuw importeren naar het project met een doelgebaseerd model.
-
Het is niet mogelijk om een project met een doelgebaseerd model te importeren naar een project met een brongebaseerd model.
Werk het project bij naar een doelgebaseerd model voordat een project met een doelgebaseerd model wordt geïmporteerd.
Een gegevensverzameling filteren
U kunt gegevens filteren om desgewenst een subset van rijen te maken.
-
Klik op Filteren.
Ga voor meer informatie naar Een gegevensverzameling filteren.
De naam van een gegevensverzameling wijzigen
U kunt een gegevensverzameling een andere naam geven.
-
Klik op van een gegevensverzameling en vervolgens op Bewerken.
Kolommen toevoegen
U kunt desgewenst kolommen toevoegen met transformaties op rijniveau.
-
Klik op Kolom toevoegen
Ga voor meer informatie naar Kolommen toevoegen aan een gegevensverzameling.
Een kolom bewerken
U kunt kolomeigenschappen bewerken door een kolom te selecteren en te klikken op Bewerken.
-
Naam
-
Sleutel
Stel een kolom in als primaire sleutel. U kunt ook sleutels instellen door deze te selecteren of te deselecteren in de kolom Sleutel.
-
Null-waarde toegestaan
-
Gegevenstype
Stel het gegevenstype van de kolom in. Voor sommige gegevenstypen kunt u een extra eigenschap instellen, zoals Lengte.
De invloed begrijpen van een wijziging van een gegevenstype
Er zijn twee algemene usecases voor het wijzigen van de grootte van het wijzigingstype of het wisselen naar een ander gegevenstype:
- Gegevens opnemen die niet aansluiten op het huidige gegevenstype.
- Een vereiste voor een hogere numerieke nauwkeurigheid. Bijvoorbeeld SMALLINT wijzigen in DECIMAL (p,s).
In de meeste gevallen leidt het wijzigen van een gegevenstype in een ALTER TABLE-bewerking, waarbij gegevensverlies wordt voorkomen. Als het vorige gegevenstype bijvoorbeeld STRING (25) was en het nieuwe gegevenstype STRING (50) is, worden de gegevens in de kolom met het nieuwe gegevenstype zonder problemen bijgewerkt. In sommige gevallen resulteert het wijzigen van een gegevenstype ertoe dat de tabel wordt verwijderd en opnieuw wordt gemaakt. Als het vorige gegevenstype van een kolom NUMBER is en u dit wijzigt in DATE, wordt de tabel verwijderd en opnieuw gemaakt om het converteren van getallen naar datums niet mogelijk is. Hetzelfde geldt als het doelplatform geen ALTER-tabelbewerkingen ondersteunt (zoals Databricks). De tabel wordt dan verwijderd en opnieuw gemaakt.
Er zijn enkele gevallen waarbij het theoretisch mogelijk is om een tabel te wijzigen, maar vanwege de onderliggende complexiteit wordt de gegevenstaak verwijderd en de tabel opnieuw gemaakt. Tot slot zijn er gevallen waarbij mogelijk gegevensverlies in plaats van werkelijk gegevensverlies het verwijderen en opnieuw maken op gang brengt. Als u bijvoorbeeld STRING(25) wijzigt in STRING(1) vindt gegevensverlies plaats als de opgenomen gegevens niet passen in STRING(1). Het is echter mogelijk dat STRING(25) altijd slechts één teken bevat, zodat er in de praktijk geen gegevensverlies ontstaat, maar dat de tabel nog steeds wordt verwijderd en opnieuw wordt gemaakt vanwege mogelijk gegevensverlies.
Wijzigingen van gegevenstypen waardoor de tabel wordt verwijderd en opnieuw gemaakt, ongeacht het doelplatform
Het wijzigen van een gegevenstype leidt ertoe dat de tabel wordt verwijderd en opnieuw wordt gemaakt:
- BYTES
- BLOB
- CLOB
- NCLOB
Doelplatformen die wijzingen van de omvang van gegevenstypen ondersteunen zonder de tabel te verwijderen en opnieuw te maken
Wanneer u werkt met Snowflake, Google BigQuery, Amazon Redshift, Microsoft SQL Server en Azure Synapse Analytics, kunt u de omvang van bepaalde gegevenstypen wijzigen zonder dat de tabel verwijderd en opnieuw gemaakt wordt. De volgende tabel toont welke gegevenstypen worden ondersteund voor elk van de eerder genoemde platformen.
Gegevenstype | Snowflake | Google BigQuery | Azure Synapse Analytics | Microsoft SQL Server | Amazon Redshift |
---|---|---|---|---|---|
INT1 |
Nee |
Ja |
Ja |
Ja |
Nee |
INT2 |
Nee |
Ja |
Ja |
Ja |
Nee |
INT4 |
Nee |
Ja |
Ja |
Ja |
Nee |
INT8 |
Nee |
Ja |
Ja |
Ja |
Nee |
REAL4 |
Nee |
Nee |
Ja |
Ja |
Nee |
REAL8 |
Nee |
Nee |
Ja |
Ja |
Nee |
UINT1 |
Nee |
Ja |
Ja |
Ja |
Nee |
UINT2 |
Nee |
Ja |
Ja |
Ja |
Nee |
UNIT4 |
Nee |
Ja |
Ja |
Ja |
Nee |
UNIT8 |
Nee |
Ja |
Ja |
Ja |
Nee |
NUMERIC |
Ja |
Ja |
Ja |
Ja |
Nee |
STRING |
Ja |
Ja |
Ja |
Ja |
Ja |
WSTRING |
Nee |
Ja |
Ja |
Ja |
Nee |
Doelplatformen die wijzingen van gegevenstypen naar STRING ondersteunen zonder de tabel te verwijderen en opnieuw te maken
Bij het verplaatsen van gegevens naar Microsoft SQL Server en Azure Synapse Analytics kunt u de volgende gegevenstypen wijzigen in STRING zonder dat de tabel wordt verwijderd en opnieuw gemaakt:
- BOOLEAN
- Date
- TIME
- DATETIME
- INT1
- INT2
- INT4
- INT8
- REAL4
- REAL8
- UINT1
- UINT2
- UNIT4
- UNIT8
- NUMERIC
- WSTRING (wordt alleen ondersteund bij Azure Synapse Analytics)
Kolommen verwijderen
U kunt een of meer kolommen uit een gegevensverzameling verwijderen.
-
Selecteer de te verwijderen kolommen en klik op Verwijderen.
Als u verwijderde kolommen wilt zien, klikt u op Verwijderde tabellen weergeven. Verwijderde kolommen zijn doorgestreept. U kunt een verwijderde kolom terughalen door deze te selecteren en te klikken op Herstellen.
Expliciete wijzigingen in kolommen terugdraaien
U kunt alle expliciete wijzigingen in één of meer kolommen terugdraaien.
-
Selecteer de kolommen waarvan u wijzigingen wilt terugdraaien en klik op Herstellen.
Wijzigingen door algemene transformatieregels worden niet teruggedraaid.
Als u een toegevoegde kolom terugdraait, wordt deze verwijderd.
Instellingen van gegevensverzameling
U kunt instellingen voor de gegevensverzameling wijzigen. De standaardinstelling is om de instelling van de gegevensasset over te nemen, maar u kunt een instelling ook expliciet aan of uit zetten.
-
Klik op een gegevensverzameling, en vervolgens Instellingen.
Gegevens weergeven
U kunt een voorbeeld van de gegevens tonen om de vorm van uw gegevens te bekijken en valideren als u uw gegevenspijplijn gaat ontwerpen.
Er moet aan de volgende vereisten worden voldaan:
-
Het weergeven van gegevens is ingeschakeld op tenantniveau in Beheer.
Schakel in Gegevensintegratie Instellingen > Functiebeheer > Gegevens weergeven in.
-
De rol Kan gegevens bekijken is aan u toegewezen in de ruimte waarin de verbinding zich bevindt.
-
De rol Kan bekijken is aan u toegewezen in de ruimte waarin het project zich bevindt.
Om voorbeeldgegevens weer te geven op het tabblad Gegevensverzameling in de weergave Ontwerp:
-
Klik op Gegevens weergeven in Fysieke objecten.
Er wordt een voorbeeld van de gegevens weergegeven. U kunt met Aantal rijen instellen hoeveel gegevensrijen in het voorbeeld worden opgenomen.
Om te wisselen tussen gegevensverzamelingen en tabellen:
-
Selecteer Gegevensverzamelingen om de logische weergave van de gegevens te tonen.
-
Selecteer Fysieke objecten om de fysieke weergave in de database evenals in de tabellen en weergaven te tonen.
NieuwsDeze optie is niet beschikbaar als de fysieke weergave nog niet is gemaakt.
U kunt de voorbeeldgegevens op twee manieren filteren:
-
Gebruik om te filteren welke voorbeeldgegevens worden opgehaald.
Als u het filter ${OrderYear}>2023 gebruikt en Aantal rijen is ingesteld op 10, krijgt u een voorbeeld met 10 orders van 2024.
-
U kunt de voorbeeldgegevens sorteren op een specifieke kolom.
Dit is alleen van invloed op de bestaande voorbeeldgegevens. Als u hebt gebruikt om alleen orders van 2024 op te nemen en u stelt de kolomfilter in om orders van 2022 te tonen, dan krijgt u een leeg resultaat.
U kunt de voorbeeldgegevens ook sorteren op een specifieke kolom. Het sorteren is allleen van invloed op de bestaande voorbeeldgegevens. Als u hebt gebruikt om alleen orders van 2024 op te nemen en u keert de sorteervolgorde om, dan bevatten de voorbeeldgegevens nog steeds alleen orders van 2024.
U kunt de kolommen verbergen in de gegevensweergave:
-
Verberg een afzonderlijke kolom door te klikken op op de kolom en vervolgens op Kolom verbergen.
-
Verberg meerdere kolommen door te klikken op op een kolom en vervolgens op Kolommen weergeven. Hiermee kunt u de zichtbaarheid voor alle kolommen in de weergave beheren.
Valideren en aanpassen van de gegevensverzamelingen
U kunt alle gegevensverzamelingen valideren die zijn opgenomen in de gegevenstaak.
Vouw Valideren en aanpassen uit om alle validatiefouten en ontwerpwijzigingen te zien.
Gegevensverzamelingen valideren
-
Klik op Gegevensverzamelingen valideren om de gegevensverzamelingen te valideren.
Validatie omvat het controleren of:
-
alle tabellen een primaire sleutel hebben,
-
er geen ontbrekende kenmerken zijn,
-
er geen dubbele tabel- of kolomnamen zijn.
Verder krijgt u een lijst met ontwerpwijzigingen in vergelijking met de bron:
-
toegevoegde tabellen en kolommen
-
verwijderde tabellen en kolommen
-
hernoemde tabellen en kolommen
-
gewijzigde primaire sleutels en gegevenstypen
Vouw Valideren en aanpassen uit om alle validatiefouten en ontwerpwijzigingen te zien.
-
Herstel de validatiefouten en valideer de gegevensverzamelingen opnieuw.
-
De meeste ontwerpwijzigingen kunnen automatisch worden aangepast, behalve gewijzigde primaire sleutels of gegevenstypen. In dit geval moet u de gegevensverzamelingen synchroniseren.
De gegevensverzamelingen voorbereiden
U kunt gegevensverzamelingen voorbereiden om ontwerpwijzigingen waar mogelijk zonder verlies van gegevens aan te passen. Als er ontwerpwijzigingen zijn die niet kunnen worden aangepast zonder gegevensverlies, hebt u de mogelijkheid om tabellen van de bron opnieuw te maken met gegevensverlies.
Hiervoor moet de taak worden gestopt.
-
Klik op en vervolgens op Voorbereiden.
Wanneer de gegevensverzamelingen zijn voorbereid, valideert u de gegevensverzamelingen voordat u de opslagtaak opnieuw start.
Gegevensverzamelingen opnieuw maken
U kunt de gegevensverzamelingen opnieuw maken vanuit de bron. Als u een gegevensverzameling opnieuw maakt, gaan er gegevens verloren. Zolang u beschikt over de brongegevens kunt u deze laden vanuit de bron.
Hiervoor moet de taak worden gestopt.
-
Klik op , vervolgens Opnieuw maken.
Beperkingen
-
Als u in Google BigQuery een kolom verwijdert of hernoemt, wordt de tabel opnieuw aangemaakt en gaan er gegevens verloren.