Gegevens van gegevensbronnen tijdelijk opslaan
De eerste stap bij het overbrengen van de gegevens tijdens onboarding is het tijdelijk opslaan van de gegevens. Hierbij worden de gegevens continu overgebracht van een on-premise gegevensbron naar een tussenopslaggebied.
U kunt gegevens tijdelijk opslaan vanuit een aantal gegevensbronnen via bronverbindingen.
Het tussenopslaggebied wordt gedefinieerd wanneer u het project maakt.
-
Qlik Cloud (via Amazon S3)
Als u gegevens tijdelijk opslaat op Qlik Cloud (via Amazon S3), dan kunt u de gegevens gebruiken om QVD -tabellen te maken voor analyse in Qlik Cloud.
-
Clouddatawarehouse
Als u gegevens tijdelijk opslaat in een clouddatawarehouse, zoals Snowflake of Azure Synapse Analytics, kunt u in hetzelfde clouddatawarehouse tabellen opslaan.
Een tussenopslag-gegevenstaak maken en configureren
Hier wordt beschreven hoe u een tussenopslag-gegevenstaak maakt. De snelste manier om een gegevenspijplijn te creëren is door het opnemen van gegevens, waardoor een gegevenstaakvoor opslag en tussenopslag wordt gecreëerd, klaar om te worden voorbereid en uitgevoerd. Ga voor meer informatie naar Gegevens onboarden.
-
Klik in uw project op Nieuwe toevoegen en selecteer Gegevens tijdelijk opslaan.
-
Voer in het dialoogvenster Gegevens tijdelijk opslaan een naam en een beschrijving voor de gegevenstaak in.
Selecteer Openen om de tussenopslag-gegevenstaak te openen nadat hij is aangemaakt.
Klik op Maken.
-
Klik op Brongegevens selecteren.
-
Selecteer een verbinding naar de gegevensbron en klik op Volgende.
U kunt de filters in het linkervenster gebruiken om de lijst met verbindingen te filteren op brontype, ruimte en eigenaar.
Als er geen verbinding naar de brongegevens bestaat, moet u er eerst een maken door te klikken op Verbinding toevoegen.
Zie Verbindingen instellen naar gegevensbronnen voor meer informatie over het instellen van een verbinding naar de ondersteunde bronnen.
InformatieWanneer u in de volgende stap tabellen hebt geselecteerd, is het niet mogelijk om de bronverbinding te wijzigen van een on-premise gegevensbron naar een cloudgegevensbron, of omgekeerd. U kunt de verbinding alleen wijzigen in een andere gegevensbron van hetzelfde type. -
Selecteer gegevensverzamelingen om op te nemen in de gegevenstaak. Het keuzedialoogvenster is anders op basis van het type bron waarmee u bent verbonden.
Als u klaar bent met het selecteren van tabellen klikt u op Opslaan.
Gegevensverzamelingen worden weergegeven.
-
U kunt instellingen voor de tussenopslag wijzigen. Dit is niet verplicht.
-
Klik op Instellingen.
Ga voor meer informatie over instellingen naar Instellingen voor tussenopslag.
-
-
Nu kunt u een voorbeeld van de structuur en metagegevens van de geselecteerde tabellen met gegevensassets bekijken. Dit omvat alle expliciet vermelde tabellen en tabellen die voldoen aan de selectieregels.
Als u meer tabellen uit de gegevensbron wilt toevoegen, klikt u op Brongegevens selecteren.
-
U kunt basistransformaties uitvoeren voor gegevensverzamelingen, zoals gegevens filteren of kolommen toevoegen. Dit is niet verplicht.
Ga voor meer informatie naar Gegevensverzamelingen beheren.
-
Wanneer u de gewenste transformaties hebt toegevoegd, kunt u de gegevensverzamelingen valideren door te klikken op Gegevensverzamelingen valideren. Als de validatie fouten vindt, moet u de fouten oplossen voordat u verdergaat.
Ga voor meer informatie naar Valideren en aanpassen van de gegevensverzamelingen.
-
Als u klaar bent, klikt u op Voorbereiden om de gegevenstaak te catalogiseren en klaar te maken voor uitvoering.
U kunt de voortgang volgen onder Voortgang van voorbereiding in het onderste deel van het scherm.
-
Wanneer de gegevensasset is voorbereid en u klaar bent om te beginnen met het repliceren van gegevens, klikt u op Uitvoeren.
Het repliceren zou nu moeten beginnen, en u kunt de voortgang zien in Bewaken. Ga voor meer informatie naar Een afzonderlijke gegevenstaak bewaken.
Gegevens selecteren uit een database
U kunt specifieke tabellen of weergaven selecteren, of selectieregels gebruiken om groepen tabellen op te nemen of uit te sluiten.
Gebruik % als jokerteken om selectiecriteria te definiëren voor schema's en tabellen.
-
%.% definieert alle tabellen in alle schema's.
-
Public.% definieert alle tabellen in het schema Openbaar.
Selectiecriteria geeft een voorbeeld op basis van uw selecties.
U kunt nu kiezen tussen:
-
Een regel maken om een groep tabellen op te nemen of uit te sluiten op basis van de selectiecriteria.
Klik op Regel van selectiecriteria toevoegen om een regel te maken en selecteer Opnemen of Uitsluiten.
U kunt de regel bekijken onder Selectieregels.
-
Selecteer een of meer gegevensverzamelingen en klik op Geselecteerde gegevensverzamelingen toevoegen.
U kunt de toegevoegde gegevensverzamelingen bekijken onder Expliciet geselecteerde gegevensverzamelingen.
Selectieregels gelden alleen voor de huidige set tabellen en weergaven, niet voor tabellen en weergaven die in de toekomst worden toegevoegd.
Een tussenopslagtaak uitvoeren met Vastleggen van wijzigingsgegevens (CDC)
U kunt de tussenopslagtaak uitvoeren als deze taak is voorbereid. Dit start de replication, die gegevens vanuit de on-premises gegevensbron overbrengt naar het tussenopslaggebied.
-
Klik op Uitvoeren om te starten met het tijdelijk opslaan van gegevens.
De replication zou nu moeten beginnen, en de gegevenstaak krijgt de status Wordt uitgevoerd. Eerst wordt de volledige gegevensbron gekopieerd, vervolgens worden veranderingen bijgehouden. Dit betekent dat wijzigingen continu worden bijgehouden en overgebracht wanneer deze worden gevonden. Hierdoor blijven de gegevens voor tussenopslag in het tussenopslaggebied up-to-date.
Op de startpagina van Qlik Talend Data Integration kunt u de status, datum en tijd zien wanneer de tijdelijk opgeslagen gegevens zijn bijgewerkt en het aantal tabellen met fouten. U kunt de gegevenstaak ook openen en het tabblad Tabellen selecteren om standaardinformatie over de metagegevens van de tabellen te bekijken.
U kunt de voortgang in detail volgen door het tabblad Bewaken te openen. Ga voor meer informatie naar Een afzonderlijke gegevenstaak bewaken.
Wanneer alle tabellen zijn geladen en de eerste set met wijzigingen wordt verwerkt, geeft Gegevens zijn bijgewerkt met op de gegevenstaakkaart weer dat er bronwijzigingen tot die tijd beschikbaar zijn in de gegevenstaak.
Tabellen opnieuw laden
U kunt gegevens laden vanuit de bron.
Enkele tabellen opnieuw laden
U kunt u specifieke tabellen handmatig opnieuw laden zonder dat dit het vastleggen van gegevens hindert. Dit is handig wanneer er CDC-problemen zijn met één of meerdere tabellen.
-
Open de tussenopslaggegevenstaak en selecteer het tabblad Bewaken.
-
Selecteer de tabellen die u opnieuw wilt laden.
-
Klik op Tabellen laden.
Als u de problemen niet kunt oplossen door de tabellen opnieuw te laden, of als ze invloed hebben op de gehele taak, kunt u alle tabellen opnieuw naar het doel laden. Dit start het vastleggen van gegevenswijzigingen opnieuw op.
Alle tabellen opnieuw naar het doel laden
U kunt alle tabellen opnieuw naar het doel laden als u CDC-problemen hebt die u niet kunt oplossen door specifieke tabellen opnieuw te laden. Voorbeelden van problemen zijn ontbrekende gebeurtenissen, problemen die worden veroorzaakt door de reorganisatie van de brondatabase of storing in het lezen van brondatabasegebeurtenissen.
- Stop de gegevenstaak en alle taken die deze gebruiken.
-
Open de gegevenstaak en selecteer het tabblad Bewaken.
-
Klik op de knop ... en vervolgens op Opnieuw laden.
Hierdoor worden alle tabellen naar het doel geladen met behulp van de Drop/Create-methode en wordt het vastleggen van gegevens vanaf dit punt opnieuw gestart.
-
Opslagtaken die gebruikmaken van de tussenopslagtaak worden bij de volgende uitvoering opnieuw geladen via vergelijken en toepassen om de gegevens te synchroniseren. De bestaande geschiedenis blijft behouden. Geschiedenis type 2 wordt bijgewerkt om de wijzigingen te weerspiegelen nadat er opnieuw is geladen en het vergelijkingsproces is uitgevoerd.
De tijdstempel voor de vanaf-datum in de geschiedenis type 2 weerspiegelt de datum van opnieuw laden en niet noodzakelijkerwijs de datum dat de wijziging is opgetreden in de bron.
-
Liveweergaven van opslag zijn niet betrouwbaar tijdens de laadbewerking van het doel en totdat de opslag is gesynchroniseerd. Opslag wordt volledig gesynchroniseerd wanneer:
-
Alle tabellen opnieuw zijn geladen met behulp van vergelijken en toepassen;
-
Eén cyclus van wijzigingen voor iedere tabel is uitgevoerd.
-
Een tussenopslag-gegevenstaak uitvoeren met Opnieuw laden en vergelijken
U kunt gegevens kopiëren met behulp van de tijdelijke gegevenstaak als deze taak is voorbereid.
-
Klik op Uitvoeren om de volledige lading te starten.
De gegevens worden nu gekopieerd en de gegevenstaak heeft de status Wordt uitgevoerd. Wanneer de volledige gegevensbron wordt gekopieerd, is de status Voltooid.
Op de startpagina van Qlik Talend Data Integration kunt u de status, datum en tijd zien wanneer de tijdelijk opgeslagen gegevens zijn bijgewerkt en het aantal tabellen met fouten. U kunt de gegevenstaak ook openen en het tabblad Tabellen selecteren om standaardinformatie over de metagegevens van de tabellen te bekijken.
U kunt de voortgang in detail volgen door het tabblad Bewaken te openen. Ga voor meer informatie naar Een afzonderlijke gegevenstaak bewaken.
Wanneer alle tabellen zijn geladen, geeft Gegevens zijn bijgewerkt met op de gegevenstaakkaart weer dat er bronwijzigingen tot die tijd beschikbaar zijn in de gegevensasset. Sommige tabellen van de gegevenstaak kunnen echter naar een later tijdstip worden bijgewerkt, afhankelijk van wanneer de lading is gestart. Dit betekent dat gegevensconsistentie niet kan worden gegarandeerd. Als het laden bijvoorbeeld is gestart om 08:00 en 4 uur heeft geduurd, geeft Gegevens zijn bijgewerkt met 08:00 aan wanneer de lading is voltooid. Een tabel waarvoor het herladen is gestart om 11:30, zal echter bronwijzigingen bevatten die hebben plaatsgevonden tussen 08:00 en 11:30.
Gegevens zijn bijgewerkt naar geeft alleen tabellen weer die met succes zijn geladen. Het zegt niets over tabellen waarvoor het laden is mislukt. In clouddoelen is het veld leeg als een nieuwe lading is voltooid met fouten voor alle tabellen.
Gegevens laden met behulp van Opnieuw laden en vergelijken
Wanneer u Opnieuw laden en vergelijken gebruikt als bijwerkmethode, moet u gegevens opnieuw laden om deze up-to-date te houden met de gegevensbron.
-
Klik op Opnieuw laden om alle tabellen handmatig opnieuw te laden.
-
Stel een geplande nieuwe lading in.
Enkele tabellen opnieuw laden
U kunt specifieke tabellen handmatig opnieuw laden. Dit is handig wanneer er problemen zijn met één of meerdere tabellen.
-
Open de tussenopslaggegevenstaak en selecteer het tabblad Bewaken.
-
Selecteer de tabellen die u opnieuw wilt laden.
-
Klik op Tabellen laden.
- Deze optie is beschikbaar nadat de tussenopslagtaak ten minste één keer is uitgevoerd en alleen wanneer de taak niet wordt uitgevoerd.
- Wijzigingen in metagegevens worden niet ondersteund. Als er wijzigingen in de metagegevens in de bron zijn, worden ze doorgegeven aan de tussenopslag wanneer gegevens opnieuw worden geladen, maar worden ze niet goed afgehandeld. Dit kan ertoe leiden dat de gebruiksopslag mislukt.
Een tussenopslag-gegevenstaak voor Volledig laden en vergelijken plannen
U kunt periodieke nieuwe ladingen voor de tussenopslag-gegevenstaak plannen als u de rol Kan bewerken hebt in de ruimte van de gegevenstaak. Om de planninge te kunnen activeren, moet status van de gegevenstaak minstens Voorbereid zijn.
-
Klik op ... van een gegevenstaak en selecteer Planning.
U kunt een planning op tijdbasis instellen.
Raadpleeg Minimumaantal toegestane planningsintervallen voor informatie over minimum planningsintervallen op basis van type gegevensbron en abonnementsniveau.
Laadprioriteit voor gegevensverzamelingen instellen
U kunt de laadvolgorde beheren van gegevensverzamelingen in uw gegevenstaak door aan elke gegevensverzameling een laadprioriteit toe te wijzen. Dit kan bijvoorbeeld handig zijn als u kleine gegevensverzamelingen wilt laden voorafgaand aan grotere gegevensverzamelingen.
-
Klik op Laadprioriteit.
-
Selecteer een laadprioriteit voor elke gegevensverzameling.
De standaardlaadprioriteit is Normaal. Gegevensverzamelingen worden in de volgende volgorde van prioriteit geladen:
-
Hoogst
-
Hoger
-
Hoog
-
Normaal
-
Laag
-
Lager
-
Laagst
Gegevensverzamelingen met dezelfde prioriteit worden in willekeurige volgorde geladen.
-
-
Klik op OK.
Bewerkingen van de tussenopslag-gegevenstaak
U kunt de volgende bewerkingen uitvoeren op de tussenopslag-gegevenstaak vanuit het taakmenu.
-
Openen
Hiermee wordt de tussenopslag-gegevenstaak geopend. U kunt de tabelstructuur en de details over de gegevenstaak bekijken.
-
Bewerken
U kunt de naam en de beschrijving van de taak bewerken.
-
Verwijderen
U kunt de gegevenstaak verwijderen.
De volgende objecten worden niet verwijderd en moeten handmatig worden verwijderd:
-
De gegevens in de tussenopslag.
-
-
Uitvoeren
U kunt de gegevenstaak uitvoeren om te beginnen met kopiëren van gegevens.
Een tussenopslagtaak uitvoeren met Vastleggen van wijzigingsgegevens (CDC)
Een tussenopslag-gegevenstaak uitvoeren met Opnieuw laden en vergelijken
-
Stoppen
U kunt de bewerking stoppen van de gegevenstaak die wordt uitgevoerd. Het tussenopslaggebied wordt niet bijgewerkt met gewijzigde gegevens.
Wanneer u een gegevenstaak voor volledig laden met een planning voor opnieuw laden stopt, wordt alleen de huidige nieuwe lading gestopt. Als de status van de gegevenstaak Gestopt is en er een actief laadschema is, zal deze opnieuw laden op het volgende geplande tijdstip. U moet de planning voor opnieuw laden uitschakelen in Opnieuw laden inplannen.
-
Opnieuw laden
U kunt een gegevenstaak in de bijwerkmodus Opnieuw laden en vergelijken handmatig opnieuw laden.
- Voorbereiden
Hiermee wordt een taak voorbereid op uitvoering. Dit omvat de volgende handelingen:
-
Validatie dat het ontwerp geldig is.
-
De fysieke tabellen en weergaven maken of wijzigen om bij het ontwerp te laten passen.
-
De SQL-code voor de gegevenstaak genereren.
-
De catalogusinvoer maken of wijzigen voor de uitvoergegevensverzamelingen van de taak.
U kunt de voortgang volgen onder Voortgang van voorbereiding in het onderste deel van het scherm.
-
-
Tabellen opnieuw maken
Hiermee worden de gegevensverzamelingen opnieuw gemaakt vanuit de bron.
-
Planning
U kunt een geplande nieuwe lading voor tussenopslag-gegevenstaken instellen in de modus Volledig laden. U kunt een planning op tijdbasis instellen die kan worden aangepast.
U kunt ook geplande nieuwe ladingen in- of uitschakelen.
U moet beschikken over de rol Kan uitvoeren in de ruimte van de gegevenstaak om nieuwe ladingen te plannen.
-
Gegevens opslaan
U kunt een opslaggegevenstaak maken die gegevens van deze tussenopslag-gegevenstaak gebruikt.
Metagegevens worden vernieuwd
U kunt de metagegevens in de taak vernieuwen om ze af te stemmen met wijzigingen in de metagegevens van de bron in de ontwerpweergave van een taak. In het geval van SaaS-applicaties die de Metadata Manager gebruiken moet de Metadata Manager worden vernieuwd voordat u de metagegevens in de gegeventaak kunt vernieuwen.
-
U kunt ofwel:
-
Klik op ... en vervolgens op Metagegevens vernieuwen om de metagegevens te vernieuwen voor alle gegevensverzamelingen in de taak.
-
Klik op ... van een gegevensverzameling in Gegevensverzamelingen en vervolgens op Metagegevens vernieuwen om de metagegevens te vernieuwen voor een afzonderlijke gegevensverzameling.
U kunt de status van de vernieuwing van metagegevens bekijken onder Metagegevens vernieuwen in het onderste deel van het scherm. Ga met de muiscursor op staan om te zien wanneer de metagegegevens voor het laatst zijn vernieuwd.
-
-
Bereid de gegeventaak voor om de wijzigingen toe te passen.
Als u de gegevenstaak hebt voorbereid en de wijzigingen zijn toegepast, worden de wijzigingen verwijderd van Metagegevens vernieuwen.
U moet opslagtaken voorbereiden die deze taak gebruiken om de wijzigingen door te geven.
Als er een kolom wordt verwijderd, wordt er een transformatie met null-waarden toegevoegd om ervoor te zorgen dat de opslag geen historische gegevens verliest.
Beperkingen
-
Een hernoeming met daarvoor een verwijderde kolom, in hetzelfde tijdslot, wordt vertaald naar de hernoeming van de verwijderde kolom als ze hetzelfde gegevenstype en dezelfde gegevenslengte hebben.
Voorbeeld:
Vóór: a b c d
Na: a c1 d
In dit voorbeeld is b verwijderd en is c hernoemd naar c1, en hebben b en c hetzelfde gegevenstype en dezelfde gegevenslengte.
Dit wordt geïdentificeerd als een hernoeming van b in c1 en een verwijdering van c.
-
De hernoeming van de laatste kolom is niet herkend, zelfs als de laatste kolom is verwijderd en de kolom ervoor is hernoemd.
Voorbeeld:
Vóór: a b c d
Na: a b c1
In dit voorbeeld is d verwijderd en is c hernoemd naar c1.
Dit wordt geïdentificeerd als een verwijdering van c en d en een toevoeging van c1.
-
Er wordt vanuit gegaan dat er aan het einde nieuwe kolommen worden toegevoegd. Als er in midden kolommen worden toegevoegd met hetzelfde gegevenstype als de volgende kolom, worden ze mogelijk geïnterpreteerd als een verwijdering en een hernoeming.
Kolommen verwijderen
Als u een kolom neerzet die wordt gebruikt door een opslaggegevenstaak waarvoor geschiedenis is ingeschakeld, moet u de onderstaande stappen volgen om de geschiedenis te behouden en mogelijk gegevensverlies te voorkomen.
Stop de tussenopslag-gegevenstaak.
Voer de opslaggegevenstaak uit om te zorgen dat alle tijdelijke gegevens worden gelezen.
Zet de kolom neer in de tussenopslag.
Voer de tussenopslag-gegevenstaak uit.
In de opslag voegt u een kolom toe met een standaarduitdrukking (null- of standaardwaarde) of zet u de kolom neer.
Onderhoud van het tussenopslaggebied
Automatische opschoning van de tussenopslag wordt niet ondersteund. Dit kan de prestaties beïnvloeden.
Het is raadzaam dat u handmatige opschoning uitvoert van oude volledige laadgegevens in het tussenopslaggebied.
Qlik Cloud (via Amazon S3)
Als er meerdere mappen met volledige laadgegevens zijn, kunt u deze op de meest recente na allemaal verwijderen. Partities voor wijzigingsgegevens die zijn verwerkt, kunnen ook worden verwijderd.
Clouddatawarehouse
Records van volledige-lading- en wijzigingstabellen die zijn verwerkt, kunnen worden verwijderd.
Aanbevelingen
Als een primaire sleutel in een brontabel bijgewerkt kan worden, schakelt u de optie DELETE en INSERT bij het bijwerken van een primaire sleutelkolom in Verwerking van wijzigingen afstemmen in.
Beperkingen
Het repliceren van varchar-gegevens langer dan 8000 bytes, of Nvarchar langer dan 4000 bytes, wordt niet ondersteund.
Wijzigen of null-waarden worden toegestaan is niet mogelijk in kolommen die zijn verplaatst of direct of via een transformatieregel zijn gewijzigd. Nieuwe kolommen die zijn gemaakt in de taak kunnen standaard null-waarden bevatten.
Voor transformaties gelden de volgende beperkingen:
- Transformaties worden niet ondersteund voor kolommen met talen van die van rechts naar links worden geschreven.
Transformaties kunnen niet uitgevoerd worden op kolommen die speciale tekens (bijv. #, \, /, -) bevatten in hun naam.
- De enige transformatie die wordt ondersteund voor LOB/CLOB-gegevenstypen is om de kolom in het doel te verwijderen.
- Een transmatie gebruiken om de naam van een kolom te wijzigen en vervolgens een kolom met dezelfde naam toe te voegen wordt niet ondersteund.