Gegevens tijdelijk opslaan met een Standard-, Premium- of Enterprise-abonnement
U kunt een taak Gegevens tijdelijk opslaan in datalake instellen om gegevens tijdelijk op te slaan in de volgende doelen:
Amazon S3
Voor informatie over het configureren van een verbinding naar uw Amazon S3, raadpleegt u Amazon S3.
Azure Data Lake Storage
Raadpleeg Azure Data Lake Storage voor informatie over het configureren van een verbinding met uw Azure Data Lake Storage.
Google Cloud Storage
Raadpleeg Google Cloud Storage voor informatie over het configureren van een verbinding met uw Google Cloud Storage.
Voor informatie over het configureren van verbindingen naar uw gegevensbronnen, raadpleegt u Verbindingen instellen naar gegevensbronnen
Ga als volgt te werk om een tussenopslagtaak voor een datalake in te stellen:
In Gegevensintegratie > Projecten klikt u op Project maken.
In het dialoogvenster Nieuw project doet u het volgende:
Geef een naam op voor uw project.
- Selecteer de ruimte waarin u het project wilt maken.
- Geef desgewenst een beschrijving op.
- Selecteer Replication als de Gebruikscase.
- Schakel eventueel het selectievakje Openen uit als u een leeg project wilt maken zonder instellingen te configureren.
Klik op Maken.
Een van de volgende dingen zal gebeuren:
- Als het selectievakje Openen in het dialoogvenster Nieuw project is geselecteerd (de standaardinstelling), wordt het project geopend.
- Wanneer u het selectievakje Openen in het dialoogvenster Nieuw project hebt uitgeschakeld, wordt het project toegevoegd aan uw lijst met projecten. U kunt het project later openen door Openen te selecteren in het menu van het project.
Nadat het project is geopend, klikt u op Gegevens tijdelijk opslaan in datalake.
De wizard Gegevens tijdelijk opslaan in datalake wordt geopend.
Op het tabblad Algemeen geeft u een naam en beschrijving op voor de tussenopslagtaak voor datalake. Klik vervolgens op Volgende.
InformatieNamen die een slash (/) of backslash (\) bevatten, worden niet ondersteund.Selecteer op het tabblad Bronverbinding selecteren een verbinding naar de brongegevens. U kunt eventueel de verbindingsinstellingen bewerken door Bewerken te selecteren in het menu in de kolom Acties.
Als er geen verbinding naar de brongegevens bestaat, moet u er eerst een maken door in de rechterbovenhoek van het tabblad te klikken op Verbinding toevoegen.
U kunt de lijst met verbindingen filteren met behulp van de filters aan de linkerkant. Verbindingen kunnen gefilterd worden op basis van brontype, gateway, ruimte en eigenaar. De knop Alle filters boven de verbindingslijst toont het aantal huidige filters. U kunt deze knop gebruiken om het venster Filters aan de linkerkant te sluiten of openen. Huidige actieve filters worden ook getoond bovenaan de lijst met beschikbare verbindingen.
U kunt de lijst ook sorteren door Laatst bijgewerkt, Laatst gemaakt of Alfabetisch te selecteren in de vervolgkeuzelijst aan de rechterkant. Klik op de pijl rechts van de lijst om de sorteervolgorde te wijzigen.
Nadat u een gegevensbronverbinding hebt geselecteerd, kunt u in de rechterbovenhoek van het tabblad op Verbinding testen klikken (aanbevolen) en vervolgens op Volgende.
Selecteer op het tabblad Gegevensverzamelingen selecteren tabellen en of/weergaven die u wilt opnemen in de tussenopslagtaak voor datalake. U kunt ook jokertekens gebruiken en selectieregels maken, zoals beschreven in Gegevens selecteren uit een database.
InformatieSchemanamen of tabelnamen die een slash (/) of backslash (\) bevatten, worden niet ondersteund.Op het tabblad Doelverbinding selecteren selecteert u een doel in de lijst met beschikbare verbindingen en klikt u vervolgens op Volgende. Wat betreft functionaliteit werkt het tabblad Bronverbinding selecteren hetzelfde als het tabblad dat eerder is beschreven.
Op het tabblad Instellingen kunt u eventueel de volgende instellingen wijzigen, klik vervolgens op Volgende.
Bijwerkmethode:
Vastleggen van wijzigingsgegevens (CDC): De tussenopslagtaak van de datalake start met een volledige lading (waarbij alle geselecteerde tabellen tijdelijk worden opgeslagen). De tijdelijk opgeslagen gegevens worden up-to-date gehouden met behulp van de CDC-technologie (Change Data Capture).
InformatieCDC (vastleggen van wijzigingsgegevens) van DDL-bewerkingen wordt niet ondersteund.Bij het werken met Gateway voor gegevensverplaatsing worden wijzigingen van de bron vrijwel direct vastgelegd. Als u werkt zonder Gateway voor gegevensverplaatsing, worden wijzigingen vastgelegd volgens de planningsinstellingen. Ga voor meer informatie naar Taken plannen bij het werken zonder Gateway voor gegevensverplaatsing.
- Opnieuw laden: Voert een volledige lading uit van de gegevens van de geselecteerde brontabellen naar het doelplatform en maakt indien nodig de doeltabellen. De volledige lading vindt automatisch plaats als de taak is gestart, maar kan indien mogelijk ook handmatig of periodiek worden uitgevoerd.
Als u Gegevens vastleggen (CDC) selecteert en uw gegevens ook tabellen bevatten die geen CDC of weergaven ondersteunen, worden er twee gegevenspijplijnen gemaakt. Een pijplijn met alle tabellen die CDC ondersteunen en een andere pijplijn met alle andere tabellen en weergaven waarbij Opnieuw laden wordt gebruikt.
Te gebruiken map:
Selecteer een van de volgende, op basis van de bucketmap waarnaar de bestanden geschreven moeten worden:
- Standaardmap: De standaardmapindeling is <uw-project-naam>/<uw-taak-naam>
- Hoofdmap: De bestanden worden direct naar de bucket geschreven.
Geef: Geef de naam van de map op. De map wordt gemaakt tijdens de uitvoering van de tussenopslagtaak van de datalake als de map niet bestaat.
Informatie De mapnaam kan geen speciale tekens bevatten (zoals, @, #, !, enz.).
Op het tabblad Overzicht ziet u een visuele weergave van de gegevenspijplijn. Kies om de <naam> taak te openen of klik op Niets doen. Klik vervolgens op Maken.
Afhankelijk van uw keuze wordt de taak geopend of er wordt een lijst met projecten getoond.
Als u ervoor kiest om de taak te openen, worden op het tabblad Gegevensverzamelingen de structuur en de metagegevens van de geselecteerde gegevensassettabellen getoond. Dit omvat alle expliciet vermelde tabellen en tabellen die voldoen aan de selectieregels.
Als u meer tabellen uit de gegevensbron wilt toevoegen, klikt u op Brongegevens selecteren.
U kunt eventueel de taakinstelling wijzigen zoals beschreven in Instellingen voor cloudopslagdoelen.
U kunt transformaties uitvoeren voor gegevensverzamelingen, gegevens filteren of kolommen toevoegen.
Ga voor meer informatie naar Gegevensverzamelingen beheren.
Wanneer u de gewenste transformaties hebt toegevoegd, kunt u de gegevensverzamelingen valideren door te klikken op Gegevensverzamelingen valideren. Als de validatie mislukt, moet u de fouten oplossen voordat u verdergaat.
Ga voor meer informatie naar Valideren en aanpassen van de gegevensverzamelingen.
Als u klaar bent, klikt u op Voorbereiden om de tussenopslagtaak te catalogiseren en klaar te maken voor uitvoering.
Nadat de gegevenstaak is voorbereid, klikt u op Uitvoeren.
De tussenopslagtaak voor datalake moet nu starten. U kunt de voortgang volgen in de voortgangsweergave. Ga voor meer informatie naar Een afzonderlijke gegevenstaak bewaken.
Laadprioriteit voor gegevensverzamelingen instellen
U kunt de laadvolgorde beheren van gegevensverzamelingen in uw gegevenstaak door aan elke gegevensverzameling een laadprioriteit toe te wijzen. Dit kan bijvoorbeeld handig zijn als u kleine gegevensverzamelingen wilt laden voorafgaand aan grotere gegevensverzamelingen.
Klik op Laadprioriteit.
Selecteer een laadprioriteit voor elke gegevensverzameling.
De standaardlaadprioriteit is Normaal. Gegevensverzamelingen worden in de volgende volgorde van prioriteit geladen:
Hoogst
Hoger
Hoog
Normaal
Laag
Lager
Laagst
Gegevensverzamelingen met dezelfde prioriteit worden in willekeurige volgorde geladen.
Klik op OK.
Metagegevens worden vernieuwd
U kunt de metagegevens in de taak vernieuwen om ze af te stemmen met wijzigingen in de metagegevens van de bron in de ontwerpweergave van een taak. In het geval van SaaS-applicaties die de Metadata Manager gebruiken moet de Metadata Manager worden vernieuwd voordat u de metagegevens in de gegeventaak kunt vernieuwen.
U kunt ofwel:
Klik op ... en vervolgens op Metagegevens vernieuwen om de metagegevens te vernieuwen voor alle gegevensverzamelingen in de taak.
Klik op ... van een gegevensverzameling in Gegevensverzamelingen en vervolgens op Metagegevens vernieuwen om de metagegevens te vernieuwen voor een afzonderlijke gegevensverzameling.
U kunt de status van de vernieuwing van metagegevens bekijken onder Metagegevens vernieuwen in het onderste deel van het scherm. Ga met de muiscursor op staan om te zien wanneer de metagegegevens voor het laatst zijn vernieuwd.
Bereid de gegeventaak voor om de wijzigingen toe te passen.
Als u de gegevenstaak hebt voorbereid en de wijzigingen zijn toegepast, worden de wijzigingen verwijderd van Metagegevens vernieuwen.
U moet opslagtaken voorbereiden die deze taak gebruiken om de wijzigingen door te geven.
Als er een kolom wordt verwijderd, wordt er een transformatie met null-waarden toegevoegd om ervoor te zorgen dat de opslag geen historische gegevens verliest.
Beperkingen voor het vernieuwen van metagegevens
Een hernoeming met daarvoor een verwijderde kolom, in hetzelfde tijdslot, wordt vertaald naar de hernoeming van de verwijderde kolom als ze hetzelfde gegevenstype en dezelfde gegevenslengte hebben.
Voorbeeld:
Vóór: a b c d
Na: a c1 d
In dit voorbeeld is b verwijderd en is c hernoemd naar c1, en hebben b en c hetzelfde gegevenstype en dezelfde gegevenslengte.
Dit wordt geïdentificeerd als een hernoeming van b in c1 en een verwijdering van c.
De hernoeming van de laatste kolom is niet herkend, zelfs als de laatste kolom is verwijderd en de kolom ervoor is hernoemd.
Voorbeeld:
Vóór: a b c d
Na: a b c1
In dit voorbeeld is d verwijderd en is c hernoemd naar c1.
Dit wordt geïdentificeerd als een verwijdering van c en d en een toevoeging van c1.
Er wordt vanuit gegaan dat er aan het einde nieuwe kolommen worden toegevoegd. Als er in midden kolommen worden toegevoegd met hetzelfde gegevenstype als de volgende kolom, worden ze mogelijk geïnterpreteerd als een verwijdering en een hernoeming.
Schema-evolutie
Met schema-evolutie kunt u eenvoudig structurele wijzigingen in meerdere gegevensbronnen detecteren en vervolgens bepalen hoe die wijzigingen worden toegepast op uw taak. Schema-evolutie kan worden gebruikt om DDL-wijzigingen in het brongegevensschema te detecteren. U kunt sommige wijzigingen ook automatisch toepassen.
Voor elk wijzigingstype kunt u selecteren hoe de wijzigingen moeten worden verwerkt in de sectie Schema-evolutie van de taakinstellingen. U kunt de wijziging toepassen, de wijziging negeren, de tabel onderbreken of de verwerking van de taak stoppen.
U kunt instellen welke actie moet worden gebruikt om de DDL-wijziging af te handelen voor elk wijzigingstype. Sommige acties zijn niet beschikbaar voor alle wijzigingstypen.
Toepassen op doel
Wijzigingen automatisch toepassen.
Negeren
Wijzigingen negeren.
Tabel onderbreken
De tabel onderbreken. De tabel wordt als fout weergegeven in Bewaken.
Taak stoppen
De verwerking van de taak stoppen. Dit is handig als u alle schemawijzigingen handmatig wilt afhandelen. Hierdoor wordt de planning ook gestopt, dat wil zeggen dat geplande uitvoeringen niet worden uitgevoerd.
De volgende wijzigingen worden ondersteund:
Kolom toevoegen
Kolomnaam wijzigen
Type kolomgegevens wijzigen
Tabel toevoegen die overeenkomt met het selectiepatroon
Als u een selectieregel hebt gebruikt om gegevensverzamelingen toe te voegen die aan een patroon voldoen, worden nieuwe tabellen die aan het patroon voldoen gedetecteerd en toegevoegd.
Voor meer informatie over taakinstellingen gaat u naar Schema-evolutie
U kunt ook meldingen krijgen over wijzigingen die met schema-evolutie worden afgehandeld. Ga voor meer informatie naar Meldingen instellen voor wijzigingen van de bewerking.
Beperkingen voor schema-evolutie
De volgende beperkingen zijn van toepassing op schema-evolutie:
Schema-evolutie wordt alleen ondersteund bij gebruik van CDC als bijwerkmethode.
Wanneer u de instellingen voor schema-evolutie hebt gewijzigd, moet u de taak opnieuw voorbereiden.
Als u tabellen hernoemt, wordt schema-evolutie niet ondersteund. In dit geval moet u metagegevens vernieuwen voordat u de taak voorbereidt.
Als u een taak ontwerpt, moet u de browser vernieuwen om wijzigingen van schema-evolutie te ontvangen. U kunt meldingen instellen om gewaarschuwd te worden bij wijzigingen.
In tussenopslagtaken wordt het verwijderen van een kolom niet ondersteund. Een kolom verwijderen en toevoegen zal resulteren in een tabelfout.
Bij tussenopslagtaken zal door een drop table-bewerking de tabel niet worden verwijderd. Als u een tabel verwijdert en vervolgens een tabel toevoegt, wordt de oude tabel alleen afgekapt en wordt er geen nieuwe tabel toegevoegd.
Het wijzigen van de lengte van een kolom is niet voor alle doelen mogelijk, afhankelijk van de ondersteuning in de doeldatabase.
Als een kolomnaam gewijzigd wordt, zullen expliciete transformaties die met die kolom gedefinieerd zijn niet worden toegepast, aangezien ze gebaseerd zijn op de kolomnaam.
Beperkingen voor het vernieuwen van metagegevens gelden ook voor schema-evolutie.
Bij het vastleggen van DDL-wijzigingen gelden de volgende beperkingen:
Wanneer er een snelle opeenvolging van bewerkingen plaatsvindt in de brondatabase (bijvoorbeeld DDL>DML>DDL), kan Qlik Talend Data Integration het logboek in de verkeerde volgorde parseren, wat kan leiden tot ontbrekende gegevens of onvoorspelbaar gedrag. Om de kans hierop te minimaliseren, kunt u het beste wachten tot de wijzigingen op het doel zijn toegepast voordat u de volgende bewerking uitvoert.
Als bijvoorbeeld tijdens het vastleggen van wijzigingen een brontabel meerdere keren kort na elkaar hernoemd wordt (en de tweede bewerking hernoemt de tabel terug naar de oorspronkelijke naam), kan er een foutmelding verschijnen dat de tabel al bestaat in de doeldatabase.
- Als u de naam van een tabel die in een taak wordt gebruikt wijzigt en vervolgens de taak stopt, zal Qlik Talend Data Integration geen wijzigingen in die tabel vastleggen nadat de taak is hervat.
Het hernoemen van een brontabel terwijl een taak gestopt is, wordt niet ondersteund.
- Het opnieuw toewijzen van de Primary Key-kolommen van een tabel wordt niet ondersteund (en zal daarom niet naar de DDL History Control-tabel worden geschreven).
- Wanneer het gegevenstype van een kolom wordt gewijzigd en de (zelfde) kolom vervolgens wordt hernoemd terwijl de taak wordt gestopt, verschijnt de DDL-wijziging in de DDL History Control-tabel als "Kolom verwijderen" en vervolgens als "Kolom toevoegen" wanneer de taak wordt hervat. Let op dat hetzelfde gedrag ook kan optreden als gevolg van langdurige latentie.
- CREATE TABLE-bewerkingen die worden uitgevoerd op de bron terwijl een taak is gestopt, worden toegepast op het doel wanneer de taak wordt hervat, maar worden niet geregistreerd als een DDL in de DDL History Control-tabel.
Bewerkingen die verband houden met wijzigingen van de metagegevens (zoals ALTER TABLE, reorg, heropbouw van een geclusterde index, enzovoort) kunnen onvoorspelbaar gedrag veroorzaken als ze werden uitgevoerd:
Tijdens volledige lading
-OF-
Tussen de Begin met verwerken van wijzigingen vanaf tijdstempel en de huidige tijd (d.w.z. het moment dat de gebruiker op OK klikt in het dialoogvenster Geavanceerde uitvoeropties).
Voorbeeld:
IF:
De aangegeven tijd voor Begin met verwerken van wijzigingen vanaf is 10:00 uur.
AND:
Een kolom met de naam Leeftijd is om 10:10 uur toegevoegd aan de tabel Werknemers.
AND:
De gebruiker klikt om 10:15 uur op OK in het dialoogvenster Geavanceerde uitvoeropties.
THEN:
Wijzigingen die plaatsvonden tussen 10:00 en 10:10 kunnen leiden tot CDC-fouten.
InformatieIn elk van de bovenstaande gevallen moet(en) de betrokken gegevenstabel(len) opnieuw worden geladen om de gegevens correct naar het doel te kunnen verplaatst.
- De DDL-instructie
ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <>
repliceert de standaardwaarde niet naar het doel en de nieuwe/gewijzigde kolom is ingesteld op NULL. Let op dat dit zelfs kan gebeuren als de DDL die de kolom heeft toegevoegd/gewijzigd in het verleden is uitgevoerd. Als in de nieuwe/gewijzigde kolom null-waarden zijn toegestaan, werkt het broneindpunt alle tabelrijen bij voordat de DDL zelf geregistreerd wordt. Het resultaat is dat Qlik Talend Data Integration de wijzigingen vastlegt, maar het doel niet bijwerkt. Aangezien de nieuwe/gewijzigde kolom is ingesteld op NULL, als de doeltabel geen primaire sleutel/unieke index heeft, zullen volgende updates het bericht "nul rijen beïnvloed" genereren. Wijzigingen van TIMESTAMP- en DATE-precisiekolommen worden niet vastgelegd.
Beperkingen en overwegingen bij het tijdelijk opslaan van gegevens in een datalake
Voor transformaties gelden de volgende beperkingen:
- Transformaties worden niet ondersteund voor kolommen met talen van die van rechts naar links worden geschreven.
Transformaties kunnen niet uitgevoerd worden op kolommen die speciale tekens (bijv. #, \, /, -) bevatten in hun naam.
- De enige transformatie die wordt ondersteund voor LOB/CLOB-gegevenstypen is om de kolom in het doel te verwijderen.
- Een transmatie gebruiken om de naam van een kolom te wijzigen en vervolgens een kolom met dezelfde naam toe te voegen wordt niet ondersteund.
Wijzigen of null-waarden worden toegestaan is niet mogelijk in kolommen die zijn verplaatst of direct of via een transformatieregel zijn gewijzigd. Nieuwe kolommen die zijn gemaakt in de taak kunnen standaard null-waarden bevatten.