Arkitektur för datauppsättningar i ett datalager i molnet
Qlik Talend Data Integration gör det möjligt för dig att skapa, hantera och styra en analytisk datapipeline som levererar data hela vägen till konsumenterna. När du genererar datauppsättningar i ett datalager i molnet med Qlik Talend Data Integrationgenereras lagringstabeller, ändringstabeller och vyer.
Ett intuitivt och interaktivt användargränssnitt hjälper dig att bygga, modellera och exekvera datapipelines. Generera automatiskt scheman för operativa datalager (ODS) och historiska datalager (HDS) utan manuell kodning.
-
Mellanlagring
Mellanlagringsuppgiften i Qlik Talend Data Integration styr den kontinuerliga mellanlagringen av data från datakällorna till mellanlagringszonen. Exemplet i diagrammet beskriver hur man använder Qlik Data Gateway – dataflytt för att få tillgång till datakällor med hjälp av CDC för att hålla data uppdaterade. Du kan också använda Qlik Cloud-källanslutningar för att utföra fulla belastningar som kan schemaläggas för att laddas om regelbundet.
Information om när du behöver användaGateway för dataflytt finns i När krävs Gateway för dataflytt?
Anteckning om informationTabellerna i mellanlagringszonen genereras för internt bruk av Qlik Talend Data Integration Storage-dataåtgärder. Använd inte mellanlagringstabellerna i andra processer i efterföljande led. -
Lagringsplats
Lagringsuppgiften styr när data tillämpas på lagringstabellerna och skapar och hanterar tabellerna och de externa vyerna.
-
Externa vyer
När du konsumerar data är bästa praxis att använda vyer. Vyer har flera fördelar jämfört med tabeller, bland annat förbättrad datasamtidighet.
Användning av livevyer
Du kan få tillgång till både aktuella data (ODS) och historiska data (HDS) med hjälp av livevyer. Livevyer innehåller data från ändringstabeller som ännu inte har tillämpats på de aktuella eller tidigare tabellerna. Det innebär att du kan se data med lägre latens utan att behöva tillämpa ändrade data ofta. Möjligheten att fördröja sammanslagningen gör det möjligt att minska kostnaderna och bearbetningskraven i målplattformen.
En annan fördel med livevyer är att beräkningsnivån inte behöver köras hela tiden.
-
Mellanlagringen kan peka på ett uttryckligt lager som kan vara litet, eftersom bara utför INSERT-åtgärder för snabb exekvering.
-
Lagringsprocessen, som till exempel körs en gång om dagen, kan aktivera ett stort beräkningslager för bearbetning.
-
Svarstiden kan förbättras eftersom vi inte längre behöver göra ändringar under hela dagen. När infogade nya poster är tillgängliga i ändringstabellen är de tillgängliga omgående i livevyerna.
Scheman
Artefakter genereras i ett internt schema och ett schema för datauppgifter.
-
Det interna schemat innehåller de fysiska datatabellerna.
-
Schemat för datauppgifter innehåller de vyer som du kan använda för att förbruka data.
När ett schema är associerat till fler än en datauppgift måste varje datauppgift använda ett unikt prefix för tabeller och vyer. Du kan ställa in prefixet i inställningarna för datauppgifter.
Enbart interna scheman kontrolleras för namnkonflikter. För övriga scheman måste du säkerställa att det inte förekommer namnkonflikter i tabellnamnen. Bästa metoden är att ge det interna schemat samma namn som datauppgiftsschemat med _internal tillagt. Det säkerställer effektivt att alla schema- och prefixkombinationer är unika.
Tabeller
Följande tabeller skapas i det interna schemat.
-
Aktuell tabell (ODS)
Den här tabellen innehåller kopian av datakällan som uppdaterats med ändringar under det senaste tillämpningsintervallet.
-
Föregående tabell (HDS)
Denna tabell innehåller historiska data av typ 2. Den genereras endast om History är aktiverat i inställningarna för datauppgiften.
När en post i källtabellen uppdateras läggs en ny post till i den föregående tabellen varje gång. Historikposten är en kopia av den föregående aktuella posten, som också innehåller uppgifter om vad som uppdaterades och när det var giltigt.
Använd en historikvy eller en historisk livevy för att visa historiska data. Mer information finns i Historikvy och Historisk livevy.
-
Ändringstabell
Den här tabellen innehåller alla ändringar som ännu inte har tillämpats på den aktuella tabellen. Den genereras endast om mellanlagringsläget Full load and CDC används.
Vyer
Följande vyer skapas i målschemat för datauppgifter. Vilka vyer som skapas beror på om du har aktiverat livevyer och historik och om du använder ändringshantering.
-
Aktuell vy
-
Livevy
-
Ändringsvy
-
Historikvy
-
Historisk livevy
Aktuell vy
Namngivning <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_current
Följande rubrikfält läggs till i tabellstrukturen.
Fält | Typ | Beskrivning |
---|---|---|
hdr__key_hash | varbinary(20) |
Hash för alla primära nycklar för post. Hashformat är SHA1. Kolumner separeras med ett backstegstecken. Den här kolumnen genereras inte i Data mart-datauppgifterna. |
hdr__key_id | int64 |
Sekvens ökad per post. Den här kolumnen genereras endast i Data mart-datauppgifter. |
hdr__from_timestamp | tidsmarkör |
Tidsmarkör i UTC
|
hdr__operation | string(1) |
Senaste åtgärden för den här posten.
|
hdr__inserted_timestamp | tidsmarkör | UTC-tidsmarkör för första gången nyckeln lades till. När fullständig laddning används, starttiden för fullständig laddning. |
hdr__modified_timestamp | tidsmarkör | UTC-tidsmarkör för när den senaste uppdateringen tillämpades. |
Livevy
Livevyer visar en vy för varje vald källtabell som kombinerar tabellen med ändringar från ändringstabellen. Då visas en livevy med data för frågorna utan att du behöver vänta på nästa användningscykel. De ändringar som slås samman från ändringstabellvyn är inte transaktionskonsekventa mellan tabellerna.
Livevyer skapas endast om du aktiverar Live views i inställningarna för datauppgiften.
Namngivning <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix för livevyer>
Fält | Typ | Beskrivning |
---|---|---|
hdr__key_hash | varbinary(20) |
Hash för alla primära nycklar för post. Hashformat är SHA1. Kolumner separeras med ett backstegstecken. Den här kolumnen genereras inte i Data mart-datauppgifterna. |
hdr__key_id | int64 |
Sekvens ökad per post. Den här kolumnen genereras endast i Data mart-datauppgifter. |
hdr__from_timestamp | tidsmarkör |
Tidsmarkör i UTC
|
hdr__operation | string(1) |
Senaste åtgärden för den här posten.
|
hdr__inserted_timestamp | tidsmarkör | UTC-tidsmarkör för första gången nyckeln lades till. När fullständig laddning används, starttiden för fullständig laddning. |
hdr__modified_timestamp | tidsmarkör | UTC-tidsmarkör för när den senaste uppdateringen tillämpades. |
hdr__store | varchar(10) |
Detta anger var posten finns.
|
Ändringsvy
Det här är en vy över ändringstabellen i mellanlagringschemat för varje vald källtabell.
Namngivning <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_changes
Följande rubrikfält läggs till i tabellstrukturen.
Fält | Typ | Beskrivning |
---|---|---|
hdr__change_identifier | string(50) |
Ändringsidentifieraren är en sträng med två delar:
|
hdr__from_timestamp | tidsmarkör |
Tidsmarkör i UTC
|
hdr__to_timestamp | tidsmarkör |
Tidsmarkör i UTC
|
hdr__operation | string(1) |
Senaste åtgärden för den här posten.
|
hdr__timestamp | tidsmarkör |
Tidsmarkör i UTC |
hdr__key_hash | binary(20) |
Hash för alla primära nycklar för post. Den här kolumnen genereras inte i Data mart-datauppgifterna. |
hdr__key_id | int64 |
Sekvens ökad per post. Den här kolumnen genereras endast i Data mart-datauppgifter. |
Historikvy
En historikvy genereras i schemat för datatillgångar för varje vald källtabell om History är aktiverat i inställningarna för datauppgiften. Följande rubrikfält läggs till.
Namngivning <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix för historikvyer>
Fält | Typ | Beskrivning |
---|---|---|
hdr__key_hash | binary(20) |
Hash för alla primära nycklar för post. Den här kolumnen genereras inte i Data mart-datauppgifterna. |
hdr__key_id | int64 |
Sekvens ökad per post. Den här kolumnen genereras endast i Data mart-datauppgifter. |
hdr__store | varchar(10) |
Detta anger var posten finns.
|
hdr__operation | string(1) |
Senaste åtgärden för den här posten.
|
hdr__deleted | bit |
Anger om posten är mjukt raderad, baserat på om hdr__operation är D eller d. |
hdr__was _current_from_timestamp | tidsmarkör |
Tidsmarkör i UTC för första gången posten var aktuell. |
hdr__was _current_to_timestamp | tidsmarkör |
Tidsmarkör i UTC för den senaste gången posten var aktuell. |
Historisk livevy
En historisk livevy genereras i schemat för datatillgångar för varje vald källtabell för varje vald källtabell som sammanfogats med ändringar från ändringstabellen. Följande rubrikfält läggs till.
Namngivning <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix för historiska livevyer>
Fält | Typ | Beskrivning |
---|---|---|
hdr__key_hash | binary(20) |
Hash för alla primära nycklar för post. Den här kolumnen genereras inte i Data mart-datauppgifterna. |
hdr__key_id | int64 |
Sekvens ökad per post. Den här kolumnen genereras endast i Data mart-datauppgifter. |
hdr__store | varchar(10) |
Detta anger var posten finns.
|
hdr__operation | string(1) |
Senaste åtgärden för den här posten.
|
hdr__deleted | bit |
Anger om posten är mjukt raderad, baserat på om hdr__operation är D eller d. |