Mellanlagra data från datakällor
Första steget när data ska överföras vid introduktion är att mellanlagra dem. I detta ingår att kontinuerligt överföra data från den lokala datakällan till ett mellanlagringsområde.
Du kan mellanlagra data från ett antal datakällor via källkopplingar.
Mellanlagringsområdet definieras när du skapar projektet.
-
Qlik Cloud (via Amazon S3)
När du mellanlagrar data till Qlik Cloud (via Amazon S3) kan du använda den till att generera QVD-tabeller som är redo för analys i Qlik Cloud.
-
Molndatalager
När du mellanlagrar data i ett molndatalager, som Snowflake eller Azure Synapse Analytics, kan du lagra tabeller i samma molndatalager.
Skapa och konfigurera en dataarbetsuppgift för mellanlagring
Här beskrivs hur du skapar en dataarbetsuppgift för mellanlagring. Det snabbaste sättet att skapa en datapipeline är att introducera data vilket skapar en dataarbetsuppgift för mellanlagring och en dataarbetsuppgift för lagring som är redo att förberedas och köras. Mer information finns i Introduktion av data.
-
I ditt projekt klickar du på Lägg till ny och välj Mellanlagra data.
-
I dialogrutan Mellanlagra data anger du ett namn och en beskrivning för dataarbetsuppgiften.
Välj Öppna för att öppna dataarbetsuppgiften för mellanlagring när den har skapats.
Klicka på Skapa.
-
Klicka på Välj källdata.
-
Välj en koppling till källdata och klicka på Nästa.
Du kan använda filtren i den vänstra panelen för att filtrera listan över anslutningar efter källtyp, utrymme och ägare.
Om du inte har en koppling till källdata ännu behöver du skapa en först genom att klicka på Lägg till koppling.
Mer information om att konfigurera en koppling till de källor som stöds finns i Konfigurera kopplingar till datakällor.
Anteckning om informationNär du har valt tabeller i nästa steg går det inte att ändra kopplingen för källan från en lokal datakälla till en molndatakälla, eller omvänt. Du kan bara ändra kopplingen till en annan datakälla av samma typ. -
Välj datauppsättningar som ska ingå i datauppgiften. Urvalsdialogen är olika beroende på vilken typ av källa du har anslutit till.
När du är klar med att välja tabeller klickar du på Spara.
Datauppsättningar visas.
-
Du kan ändra inställningarna för mellanlagringen. Detta är inte obligatoriskt.
-
Klicka på Inställningar.
Mer information om inställningar finns i Inställningar för mellanlagring.
-
-
Du kan nu förhandsgranska struktur och metadata i de valda datatillgångstabellerna. Här ingår alla tabeller som är uttryckligt listade samt tabeller som matchar urvalsreglerna.
Klicka på Välj källdata om du vill lägga till fler tabeller från datakällan.
-
Du kan utföra grundläggande transformeringar på datauppsättningarna, exempelvis filtrera data eller lägga till kolumner. Detta är inte obligatoriskt.
Mer information finns i Hantera datauppsättningar.
-
När du har lagt till de omvandlingar du vill ha kan du validera datauppsättningarna genom att klicka på Validate datasets. Om fel hittas vid valideringen åtgärdar du felen innan du fortsätter.
Mer information finns i Validera och justera datauppsättningarna.
-
När du är klar klickar du på Förbered för att katalogisera dataarbetsuppgiften och förbereda den för körning.
Du kan följa förloppet under Förlopp för förberedelse på skärmens nedre del.
-
När dataarbetsuppgiften är förberedd och du är redo att börja replikera data klickar du på Kör.
Replikeringen ska nu börja och du kan se förloppet i Övervaka. Mer information finns i Övervaka en enskild datauppgift.
Välja data från en databas
Du kan välja specifika tabeller eller vyer eller använda urvalsregler för att inkludera eller utesluta grupper med tabeller.
Använd % som jokertecken för att definiera urvalskriterier för scheman och tabeller.
-
%.% definierar alla tabeller i alla scheman.
-
Public.% definierar alla tabeller i schemat Public.
I Urvalskriterier får du en förhandsgranskning baserat på ditt urval.
Nu kan du göra något av följande:
-
Skapa en regel för att inkludera eller utesluta en grupp med tabeller baserat på urvalskriterierna.
Klicka på Lägg till regel från urvalskriterier för att skapa en regel och välj antingen Inkludera eller Uteslut.
Du kan se regeln under Urvalsregler.
-
Välj en eller flera datauppsättningar och klicka på Lägg till valda datauppsättningar.
Du kan se de tillagda datauppsättningarna under Uttryckligen valda datauppsättningar.
Urvalsreglerna gäller bara för den aktuella uppsättningen med tabeller och vyer, inte för tabeller och vyer som läggs till i framtiden.
Köra en mellanlagringsuppgift med Sammanställning av ändringsdata (CDC)
Du kan köra mellanlagringsuppgiften när den har förberetts. Då startar replikeringen som överför data från den lokala datakällan till mellanlagringsområdet.
-
Klicka på Kör för att börja mellanlagra data.
Replikeringen bör nu starta och dataarbetsuppgiften kommer att ha statusen Körs. Först kopieras hela datakällan och sedan spåras ändringarna. Det innebär att ändringar kontinuerligt spåras och överförs när de upptäcks. På så sätt hålls mellanlagringsdata i mellanlagringsområdet uppdaterade.
På Qlik Talend Data Integration-hemsidan kan du visa status, datum och tid för när mellanlagrade data uppdateras och antalet tabeller med fel. Du kan även öppna datauppgiften och välja fliken Tabeller om du vill visa grundläggande metadata för tabellerna.
Du kan övervaka förloppet i detalj genom att öppna fliken Övervaka. Mer information finns i Övervaka en enskild datauppgift.
När alla tabeller har laddats och den första uppsättningen med ändringar har bearbetats indikerar Data har uppdaterats till på datauppgiftskortet att ändringar av källan fram till den tiden är tillgängliga i dataarbetsuppgiften.
Ladda tabeller
Du kan ladda data från källan.
Ladda enstaka tabeller
Du kan ladda specifika tabeller manuellt utan att insamling av förändringsdata påverkas. Detta är användbart när det finns CDC-problem med en eller flera tabeller.
-
Öppna mellanlagringsdatauppgiften och välj fliken Övervaka.
-
Välj tabellerna du vill ladda.
-
Klicka på Ladda tabeller.
Om du inte kan åtgärda problemen genom att ladda tabeller, eller om de påverkar hela uppgiften kan du ladda alla tabeller till målet i stället. Då startas CDC om.
Ladda alla tabeller till målet
Du kan ladda alla tabeller till målet om du upplever CDC-problem som inte kan åtgärdas genom att ladda specifika tabeller. Exempel på problem är saknade händelser, problem som orsakas av omorganisering av källdatabasen eller fel när källdatabashändelser läses in.
- Stoppa datauppgiften och alla uppgifter som använder den.
-
Öppna datauppgiften och välj fliken Övervaka.
-
Klicka på ... och sedan på Ladda mål.
Då laddas alla tabeller till målet med släpp-skapa och alla insamlingar av ändringsdata startas om från och med nu.
-
Lagringsuppgifter som förbrukar mellanlagringsdatauppgiften kommer att laddas via jämför och tillämpa vid deras nästa körning så att de synkas. Befintlig historik kommer att bevaras. Typ 2-historik kommer att uppdateras för att återspegla ändringar efter att laddningen och jämförelseprocessen har utförts.
Tidsmarkören för från-datumet i typ 2-historiken kommer att återspegla laddningsdatumet och inte nödvändigtvis det datum då ändringen skedde i källan.
-
Livevyer för lagring kommer inte att vara tillförlitliga under ladda mål-åtgärden och fram till dess att lagringen är synkad. Lagringsplatsen kommer att vara helt synkad när:
-
Alla tabeller laddas om med jämför och tillämpa,
-
En ändringscykel utförs för varje tabell.
-
Köra en dataarbetsuppgift med Ladda och jämföra
Du kan kopiera data med hjälp av datauppgiften för mellanlagring när den har förberetts.
-
Klicka på Kör för att starta fullständig inläsning.
Nu börjar data kopieras, och datauppgiften får status Körs. När den fullständiga datakällan har kopierats är statusen Slutförd.
På Qlik Talend Data Integration-hemsidan kan du visa status, datum och tid för när mellanlagrade data uppdateras och antalet tabeller med fel. Du kan även öppna datauppgiften och välja fliken Tabeller om du vill visa grundläggande metadata för tabellerna.
Du kan övervaka förloppet i detalj genom att öppna fliken Övervaka. Mer information finns i Övervaka en enskild datauppgift.
När alla tabeller har laddats indikerar Data har uppdaterats till på dataarbetsuppgiftskortet att ändringar av källan fram till den tiden är tillgängliga i dataarbetsuppgiften. Vissa av tabellerna i dataarbetsuppgiften kan dock uppdateras senare beroende på när de började laddas. Det betyder att det inte är garanterat att data blir enhetliga. Om till exempel laddningen startade 08.00 och tog 4 timmar kommer Data har uppdaterats till att visa 08.00 när laddningen är slutförd. En tabell som började laddas om kl. 11.30 kommer dock att omfatta ändringar av källan som inträffade mellan 8.00 och 11.30.
Data har uppdaterats till återspeglar endast tabeller som har laddats korrekt. Det indikerar inte något om tabeller att deras omladdningar har misslyckats. I molnbaserade mål kommer fältet att vara tomt om en laddning slutfördes där alla tabeller innehöll fel.
Läsa in data när du använder Läsa in och jämföra
När du använder Ladda och jämför som uppdateringsmetod måste du ladda data igen för att hålla dem uppdaterade med datakällan.
-
Klicka på Ladda data för att utföra en manuell laddning av alla tabeller.
-
Ställa in en schemalagd laddning.
Ladda enstaka tabeller
Du kan ladda specifika tabeller manuellt. Detta är användbart när det finns problem med en eller flera tabeller.
-
Öppna mellanlagringsdatauppgiften och välj fliken Övervaka.
-
Välj tabellerna du vill ladda.
-
Klicka på Ladda tabeller.
- Det här alternativet kommer att vara tillgängligt efter att mellanlagringsuppgiften har körts minst en gång, och endast när uppgiften inte körs.
- Ändringar i metadata stöds inte. Om det finns ändringar i metadata i källan sprids de till mellanlagring när data laddas, men de kommer inte att hanteras korrekt. Detta kan leda till att förbrukningslagringen misslyckas.
Schemalägga en Läsa in och jämföra mellanlagringsdatauppgift.
Du kan schemalägga regelbundna laddningar för dataarbetsuppgiften för mellanlagring om du har rollen Kan styra i utrymmet för dataarbetsuppgiften. Status för datauppgiften måste vara minst Förberedd för att schemat ska vara aktivt.
-
Klicka på ... på en datauppgift och välj Schemaläggning.
Du kan ställa in ett tidsbaserat schema.
Information om minsta schemaläggningsintervall beroende på typ av datakälla och prenumerationsnivå finns i Minsta tillåtna schemaläggningsintervall.
Ställa in laddningsordning för datauppsättningar
Du kan kontrollera laddningsordningen för datauppsättningar i din datauppgift genom att tilldela en laddningsordning till varje datauppsättning. Detta kan vara användbart om du till exempel vill ladda små datauppsättningar före stora datauppsättningar.
-
Klicka Laddningsordning.
-
Välj en laddningsordning för varje datauppsättning.
Den förvalda laddningsordningen är Normal. Datauppsättningar laddas i följande ordningsföljd:
-
Högst
-
Högre
-
Högt
-
Normalt
-
Lågt
-
Lägre
-
Lägst
Datauppsättningar med samma prioritet laddas inte i någon särskild ordningsföljd.
-
-
Klicka på OK.
Åtgärder för datauppgiften för mellanlagring
Du kan utföra följande operationer på en dataarbetsuppgift för mellanlagring från arbetsuppgiftsmenyn.
-
Öppna
Det här öppnar dataarbetsuppgiften för mellanlagring. Du kan se tabellstrukturen och information om dataarbetsuppgiften.
-
Redigera
Du kan redigera arbetsuppgiftens namn och beskrivning.
-
Radera
Du kan radera dataarbetsuppgiften.
Följande objekt raderas inte och behöver raderas manuellt:
-
Data i mellanlagringsområdet.
-
-
Kör
Du kan köra datauppgiften för att börja kopiera data.
Köra en mellanlagringsuppgift med Sammanställning av ändringsdata (CDC)
-
Stoppa
Du kan stoppa en pågående åtgärd för en dataarbetsuppgiften. Mellanlagringsområdet uppdateras inte med ändrade data.
När du stoppar en dataarbetsuppgift med fullständig laddning som har ett laddningsschema, stoppas bara den aktuella laddningen. Om dataarbetsuppgiftens status är Stoppad, och det finns ett aktivt laddningsschema, laddas den igen vid nästa schemalagda tillfälle. Du måste stänga av laddningsschemat i Schemalägg laddning.
-
Ladda igen
Du kan utföra en manuell laddning av en dataarbetsuppgift i läget Ladda och jämför.
- Förbereda
Detta förbereder en uppgift för utförande. Detta inkluderar följande:
-
Validering av att designen är giltig.
-
Skapande eller ändring av de fysiska tabellerna och vyerna så att de stämmer överens med designen.
-
Generering av SQL-koden för datauppgiften.
-
Skapande eller ändring av katalogposterna för uppgiftens utgående datauppsättningar.
Du kan följa förloppet under Förlopp för förberedelse på skärmens nedre del.
-
-
Återskapa tabeller
Detta återskapar datauppsättningarna från källan.
-
Schemaläggning
Du kan ställa in en schemalagd laddning för mellanlagrade dataarbetsuppgifter i läget Fullständig laddning. Du kan ställa in ett tidsbaserat schema som kan anpassas.
Du kan också slå på eller av schemalagda laddningar.
Du måste ha rollen Kan styra i utrymmet för dataarbetsuppgiften för att kunna schemalägga laddningar.
-
Lagra data
Du kan skapa en lagringsdatauppgift som använder data från denna datauppgift för mellanlagring.
Uppdaterar metadata
Du kan uppdatera metadata i uppgiften så att den stämmer med ändringar i metadata i källan i Designvyn för en uppgift. För SaaS-program som använder Metadata manager måste Metadata manager uppdateras innan du kan uppdatera metadata i datauppgiften.
-
Du kan göra något av följande:
-
Klicka på ... och sedan på Uppdatera metadata för att uppdatera metadata för alla datauppsättningar i uppgiften.
-
Klicka på ... på en datauppsättning i Datauppsättningar och sedan på Uppdatera metadata för att uppdatera metadata för en enstaka datauppsättning.
Du kan visa status för uppdateringen av metadata under Uppdatera metadata i den nedre delen av skärmen. Du kan se när metadata senast uppdaterades genom att hovra över .
-
-
Förbered datauppgiften för att tillämpa ändringarna.
När du har förberett datauppgiften och ändringarna har tillämpats tas ändringarna bort från Uppdatera metadata.
Du måste förbereda lagringsåtgärder som använder den här åtgärden för att sprida ändringarna.
Om en kolumn tas bort läggs en transformation med Null-värden till för att säkerställa att lagringen inte förlorar historiska data.
Begränsningar
-
Ett namnbyte med en borttagen kolumn före det, i samma tidsfönster, kommer att översättas till namnbytet med den borttagna kolumnen om de är av samma datatyp och har samma datalängd.
Exempel:
Före: a b c d
Efter: a c1 d
I det här exemplet togs b bort och c bytte namn till c1 och b och c är av samma datatyp och har samma datalängd.
Detta kommer att identifieras som ett namnbyte för b till c1 och en borttagning av c.
-
Namnbytet för den sista kolumnen identifieras inte, även om den sista kolumnen togs bort, och den omedelbart före bytte namn.
Exempel:
Före: a b c d
Efter: a b c1
I det här exemplet togs d bort och c bytte namn till c1.
Detta kommer att identifieras som att c och d har tagits bort och att c1 har lagts till.
-
Nya kolumner förutsätts läggas till på slutet. Om kolumner läggs till i mitten med samma datatyp som nästa kolumn kan de tolkas som att de har tagits bort och bytt namn.
Ta bort kolumner
Om du släpper en kolumn som förbrukas av en lagringsdatauppgift med aktiverad historik måste du följa de här stegen för att bevara historiken och undvika eventuella dataförluster.
Stoppa dataarbetsuppgiften för mellanlagring.
Kör lagringsdatauppgiften för att säkerställa att alla mellanlagringsdata läses.
Släpp kolumnen i mellanlagringen.
Kör dataarbetsuppgiften för mellanlagring.
I lagringen lägger du till kolumnen med ett standarduttryck (null eller standardvärde), eller släpper kolumnen.
Underhåll av mellanlagringsområdet
Automatisk rensning av mellanlagringsområdet stöds inte. Detta kan påverka prestanda.
Vi rekommenderar att du manuellt rensar gamla fullständiga laddningar i mellanlagringsområdet.
Qlik Cloud (via Amazon S3)
Om det finns flera mappar med fullständiga laddningsdata kan du ta bort allt utom den senaste mappen. Du kan även ta bort ändringsdatapartitioner som har bearbetats.
Molndatalager
Du kan ta bort tabellposter från fullständig laddning och ändring som har bearbetats.
Rekommendationer
Om en primärnyckel i en källtabell kan uppdateras aktiverar du alternativet DELETE and INSERT when updating a primary key column (DELETE och INSERT vid uppdatering av en primärnyckelkolumn) i Change Processing Tuning.
Begränsningar
Replikering av varchar-data som är längre än 8000 bytes, eller Nvarchar som är längre än 4000 bytes, stöds inte.
Ändra nullbarhet stöds inte för kolumner som tas bort, antingen med direktändring eller med hjälp av en transformeringsregel. Men nya kolumner som skapas i uppgiften är som standard nullbara.
Omvandlingar har följande begränsningar:
- Omvandlingar stöds ej för kolumner med språk som skrivs från höger till vänster.
Det går inte att göra omvandlingar av kolumner som innehåller specialtecken (exempelvis #, \, /, -) i sina namn.
- Enda omvandling som stöds för LOB/CLOB-datatyper är att släppa kolumnen på målet.
- Att använda en omvandling för att döpa om en kolumn och sedan lägga till en kolumn med samma namn stöds inte.