Gegevens tijdelijk opslaan met een Standard-, Premium- of Enterprise-abonnement
U kunt een taak Gegevens tijdelijk opslaan in datalake instellen om gegevens tijdelijk op te slaan in de volgende doelen:
Amazon S3
Voor informatie over het configureren van een verbinding naar uw Amazon S3, raadpleegt u Amazon S3.
Azure Data Lake Storage
Raadpleeg Azure Data Lake Storage voor informatie over het configureren van een verbinding met uw Azure Data Lake Storage.
Google Cloud Storage
Raadpleeg Google Cloud Storage voor informatie over het configureren van een verbinding met uw Google Cloud Storage.
Voor informatie over het configureren van verbindingen naar uw gegevensbronnen, raadpleegt u Verbindingen instellen naar gegevensbronnen
Ga als volgt te werk om een tussenopslagtaak voor een datalake in te stellen:
In Gegevensintegratie > Projecten klikt u op Project maken.
In het dialoogvenster Nieuw project doet u het volgende:
Geef een naam op voor uw project.
- Selecteer de ruimte waarin u het project wilt maken.
- Geef desgewenst een beschrijving op.
- Selecteer Replication als de Gebruikscase.
- Schakel eventueel het selectievakje Openen uit als u een leeg project wilt maken zonder instellingen te configureren.
Klik op Maken.
Een van de volgende dingen zal gebeuren:
- Als het selectievakje Openen in het dialoogvenster Nieuw project is geselecteerd (de standaardinstelling), wordt het project geopend.
- Wanneer u het selectievakje Openen in het dialoogvenster Nieuw project hebt uitgeschakeld, wordt het project toegevoegd aan uw lijst met projecten. U kunt het project later openen door Openen te selecteren in het menu van het project.
Nadat het project is geopend, klikt u op Gegevens tijdelijk opslaan in datalake.
De wizard Gegevens tijdelijk opslaan in datalake wordt geopend.
Op het tabblad Algemeen geeft u een naam en beschrijving op voor de tussenopslagtaak voor datalake. Klik vervolgens op Volgende.
InformatieNamen die een slash (/) of backslash (\) bevatten, worden niet ondersteund.Selecteer op het tabblad Bronverbinding selecteren een verbinding naar de brongegevens. U kunt eventueel de verbindingsinstellingen bewerken door Bewerken te selecteren in het menu in de kolom Acties.
Als er geen verbinding naar de brongegevens bestaat, moet u er eerst een maken door in de rechterbovenhoek van het tabblad te klikken op Verbinding toevoegen.
U kunt de lijst met verbindingen filteren met behulp van de filters aan de linkerkant. Verbindingen kunnen gefilterd worden op basis van brontype, gateway, ruimte en eigenaar. De knop Alle filters boven de verbindingslijst toont het aantal huidige filters. U kunt deze knop gebruiken om het venster Filters aan de linkerkant te sluiten of openen. Huidige actieve filters worden ook getoond bovenaan de lijst met beschikbare verbindingen.
U kunt de lijst ook sorteren door Laatst bijgewerkt, Laatst gemaakt of Alfabetisch te selecteren in de vervolgkeuzelijst aan de rechterkant. Klik op de pijl rechts van de lijst om de sorteervolgorde te wijzigen.
Nadat u een gegevensbronverbinding hebt geselecteerd, kunt u in de rechterbovenhoek van het tabblad op Verbinding testen klikken (aanbevolen) en vervolgens op Volgende.
Selecteer op het tabblad Gegevensverzamelingen selecteren tabellen en of/weergaven die u wilt opnemen in de tussenopslagtaak voor datalake. U kunt ook jokertekens gebruiken en selectieregels maken, zoals beschreven in Gegevens selecteren uit een database.
InformatieSchemanamen of tabelnamen die een slash (/) of backslash (\) bevatten, worden niet ondersteund.Op het tabblad Doelverbinding selecteren selecteert u een doel in de lijst met beschikbare verbindingen en klikt u vervolgens op Volgende. Wat betreft functionaliteit werkt het tabblad Bronverbinding selecteren hetzelfde als het tabblad dat eerder is beschreven.
Op het tabblad Instellingen kunt u eventueel de volgende instellingen wijzigen, klik vervolgens op Volgende.
Bijwerkmethode:
Vastleggen van wijzigingsgegevens (CDC): De tussenopslagtaak van de datalake start met een volledige lading (waarbij alle geselecteerde tabellen tijdelijk worden opgeslagen). De tijdelijk opgeslagen gegevens worden up-to-date gehouden met behulp van de CDC-technologie (Change Data Capture).
InformatieCDC (vastleggen van wijzigingsgegevens) van DDL-bewerkingen wordt niet ondersteund.Bij het werken met Gateway voor gegevensverplaatsing worden wijzigingen van de bron vrijwel direct vastgelegd. Als u werkt zonder Gateway voor gegevensverplaatsing, worden wijzigingen vastgelegd volgens de planningsinstellingen. Ga voor meer informatie naar Taken plannen bij het werken zonder Gateway voor gegevensverplaatsing.
- Opnieuw laden: Voert een volledige lading uit van de gegevens van de geselecteerde brontabellen naar het doelplatform en maakt indien nodig de doeltabellen. De volledige lading vindt automatisch plaats als de taak is gestart, maar kan indien mogelijk ook handmatig of periodiek worden uitgevoerd.
Als u Gegevens vastleggen (CDC) selecteert en uw gegevens ook tabellen bevatten die geen CDC of weergaven ondersteunen, worden er twee gegevenspijplijnen gemaakt. Een pijplijn met alle tabellen die CDC ondersteunen en een andere pijplijn met alle andere tabellen en weergaven waarbij Opnieuw laden wordt gebruikt.
Te gebruiken map:
Selecteer een van de volgende, op basis van de bucketmap waarnaar de bestanden geschreven moeten worden:
- Standaardmap: De standaardmapindeling is <uw-project-naam>/<uw-taak-naam>
- Hoofdmap: De bestanden worden direct naar de bucket geschreven.
Geef: Geef de naam van de map op. De map wordt gemaakt tijdens de uitvoering van de tussenopslagtaak van de datalake als de map niet bestaat.
Informatie De mapnaam kan geen speciale tekens bevatten (zoals, @, #, !, enz.).
Op het tabblad Overzicht ziet u een visuele weergave van de gegevenspijplijn. Kies om de <naam> taak te openen of klik op Niets doen. Klik vervolgens op Maken.
Afhankelijk van uw keuze wordt de taak geopend of er wordt een lijst met projecten getoond.
Als u ervoor kiest om de taak te openen, worden op het tabblad Gegevensverzamelingen de structuur en de metagegevens van de geselecteerde gegevensassettabellen getoond. Dit omvat alle expliciet vermelde tabellen en tabellen die voldoen aan de selectieregels.
Als u meer tabellen uit de gegevensbron wilt toevoegen, klikt u op Brongegevens selecteren.
U kunt eventueel de taakinstelling wijzigen zoals beschreven in Instellingen voor cloudopslagdoelen.
U kunt transformaties uitvoeren voor gegevensverzamelingen, gegevens filteren of kolommen toevoegen.
Ga voor meer informatie naar Gegevensverzamelingen beheren.
Wanneer u de gewenste transformaties hebt toegevoegd, kunt u de gegevensverzamelingen valideren door te klikken op Gegevensverzamelingen valideren. Als de validatie mislukt, moet u de fouten oplossen voordat u verdergaat.
Ga voor meer informatie naar Valideren en aanpassen van de gegevensverzamelingen.
Als u klaar bent, klikt u op Voorbereiden om de tussenopslagtaak te catalogiseren en klaar te maken voor uitvoering.
Nadat de gegevenstaak is voorbereid, klikt u op Uitvoeren.
De tussenopslagtaak voor datalake moet nu starten. U kunt de voortgang volgen in de voortgangsweergave. Ga voor meer informatie naar Een afzonderlijke gegevenstaak bewaken.
Laadprioriteit voor gegevensverzamelingen instellen
U kunt de laadvolgorde beheren van gegevensverzamelingen in uw gegevenstaak door aan elke gegevensverzameling een laadprioriteit toe te wijzen. Dit kan bijvoorbeeld handig zijn als u kleine gegevensverzamelingen wilt laden voorafgaand aan grotere gegevensverzamelingen.
Klik op Laadprioriteit.
Selecteer een laadprioriteit voor elke gegevensverzameling.
De standaardlaadprioriteit is Normaal. Gegevensverzamelingen worden in de volgende volgorde van prioriteit geladen:
Hoogst
Hoger
Hoog
Normaal
Laag
Lager
Laagst
Gegevensverzamelingen met dezelfde prioriteit worden in willekeurige volgorde geladen.
Klik op OK.
Metagegevens worden vernieuwd
U kunt de metagegevens in de taak vernieuwen om ze af te stemmen met wijzigingen in de metagegevens van de bron in de ontwerpweergave van een taak. In het geval van SaaS-applicaties die de Metadata Manager gebruiken moet de Metadata Manager worden vernieuwd voordat u de metagegevens in de gegeventaak kunt vernieuwen.
U kunt ofwel:
Klik op ... en vervolgens op Metagegevens vernieuwen om de metagegevens te vernieuwen voor alle gegevensverzamelingen in de taak.
Klik op ... van een gegevensverzameling in Gegevensverzamelingen en vervolgens op Metagegevens vernieuwen om de metagegevens te vernieuwen voor een afzonderlijke gegevensverzameling.
U kunt de status van de vernieuwing van metagegevens bekijken onder Metagegevens vernieuwen in het onderste deel van het scherm. Ga met de muiscursor op staan om te zien wanneer de metagegegevens voor het laatst zijn vernieuwd.
Bereid de gegeventaak voor om de wijzigingen toe te passen.
Als u de gegevenstaak hebt voorbereid en de wijzigingen zijn toegepast, worden de wijzigingen verwijderd van Metagegevens vernieuwen.
U moet opslagtaken voorbereiden die deze taak gebruiken om de wijzigingen door te geven.
Als er een kolom wordt verwijderd, wordt er een transformatie met null-waarden toegevoegd om ervoor te zorgen dat de opslag geen historische gegevens verliest.
Beperkingen
Een hernoeming met daarvoor een verwijderde kolom, in hetzelfde tijdslot, wordt vertaald naar de hernoeming van de verwijderde kolom als ze hetzelfde gegevenstype en dezelfde gegevenslengte hebben.
Voorbeeld:
Vóór: a b c d
Na: a c1 d
In dit voorbeeld is b verwijderd en is c hernoemd naar c1, en hebben b en c hetzelfde gegevenstype en dezelfde gegevenslengte.
Dit wordt geïdentificeerd als een hernoeming van b in c1 en een verwijdering van c.
De hernoeming van de laatste kolom is niet herkend, zelfs als de laatste kolom is verwijderd en de kolom ervoor is hernoemd.
Voorbeeld:
Vóór: a b c d
Na: a b c1
In dit voorbeeld is d verwijderd en is c hernoemd naar c1.
Dit wordt geïdentificeerd als een verwijdering van c en d en een toevoeging van c1.
Er wordt vanuit gegaan dat er aan het einde nieuwe kolommen worden toegevoegd. Als er in midden kolommen worden toegevoegd met hetzelfde gegevenstype als de volgende kolom, worden ze mogelijk geïnterpreteerd als een verwijdering en een hernoeming.
Beperkingen en overwegingen bij het tijdelijk opslaan van gegevens in een datalake
Voor transformaties gelden de volgende beperkingen:
- Transformaties worden niet ondersteund voor kolommen met talen van die van rechts naar links worden geschreven.
Transformaties kunnen niet uitgevoerd worden op kolommen die speciale tekens (bijv. #, \, /, -) bevatten in hun naam.
- De enige transformatie die wordt ondersteund voor LOB/CLOB-gegevenstypen is om de kolom in het doel te verwijderen.
- Een transmatie gebruiken om de naam van een kolom te wijzigen en vervolgens een kolom met dezelfde naam toe te voegen wordt niet ondersteund.
Wijzigen of null-waarden worden toegestaan is niet mogelijk in kolommen die zijn verplaatst of direct of via een transformatieregel zijn gewijzigd. Nieuwe kolommen die zijn gemaakt in de taak kunnen standaard null-waarden bevatten.