Datamängdsarkitektur i ett molndatalager
Qlik Talend Data Integration låter dig skapa, hantera och styra en data-pipeline för analys, som levererar data hela vägen till konsumenterna. När du genererar datamängder i ett molndatalager med Qlik Talend Data Integration genereras lagringstabeller, ändringstabeller och vyer.
Ett intuitivt och väglett användargränssnitt hjälper dig att bygga, modellera och köra data-pipelines. Generera automatiskt scheman för operativa datalager (ODS) och historiska datalager (HDS) utan manuell kodning.
Arkitektur för en Qlik Talend Data Integration data-pipeline med Qlik Data Gateway – dataflytt och CDC
-
Mellanlagring
Mellanlagringsaktiviteten i Qlik Talend Data Integration styr den kontinuerliga mellanlagringen av data från datakällorna till mellanlagringszonen. Exemplet i diagrammet beskriver användningen av Qlik Data Gateway – dataflytt för att komma åt datakällor med CDC för att hålla data uppdaterade. Du kan också använda Qlik Cloud-källkopplingar för att utföra fullständiga laddningar som kan schemaläggas för att laddas om regelbundet.
För information om när du behöver använda Gateway för dataflytt, se När krävs Gateway för dataflytt?
Anteckning om informationTabeller i mellanlagringszonen genereras för internt bruk av Qlik Talend Data Integration-lagringsdataaktiviteter. Använd inte mellanlagringstabellerna i några andra nedströmsprocesser. -
Lagring
Lagringsaktiviteten styr när data tillämpas på lagringstabellerna, och skapar och hanterar tabellerna och de externa vyerna.
-
Externa vyer
När du konsumerar data är bästa praxis att använda vyer. Vyer ger flera fördelar jämfört med tabeller, inklusive förbättrad datakonkurrens.
Använda live-vyer
Du kan komma åt både aktuella data (ODS) och historiska data (HDS) med hjälp av live-vyer. Live-vyer inkluderar data från ändringstabeller som ännu inte har tillämpats på de aktuella eller tidigare tabellerna. Detta låter dig se data med lägre latens utan att behöva tillämpa ändrade data ofta. Möjligheten att fördröja sammanslagningen möjliggör minskade kostnader och bearbetningskrav i målplattformen.
En annan fördel med live-vyer är att beräkningsskiktet inte behöver köras hela tiden.
-
Mellanlagring kan peka på ett explicit datalager som kan vara litet, eftersom det bara utför INSERT-operationer för snabb exekvering.
-
Lagringsprocessen, som till exempel körs en gång om dagen, kan väcka ett stort beräkningsskikt för bearbetning.
-
Latensen kan förbättras, eftersom vi inte längre behöver tillämpa ändringar under hela dagen. När infogade nya poster är tillgängliga i ändringstabellen är de tillgängliga direkt i live-vyerna.
Scheman
Artefakter genereras i ett internt schema och ett dataaktivitetsschema.
-
Det interna schemat innehåller de fysiska datatabellerna.
-
Dataaktivitetsschemat innehåller de vyer som du kan använda för att konsumera data.
När ett schema är associerat med mer än en dataaktivitet måste varje dataaktivitet använda ett unikt prefix för tabeller och vyer. Du kan ställa in prefixet i dataaktivitetens inställningar.
Endast interna scheman kontrolleras för namnkonflikter. För andra scheman måste du se till att det inte finns några namnkonflikter i tabellnamnen. Bästa praxis är att ge det interna schemat samma namn som dataaktivitetsschemat med _internal tillagt. Detta säkerställer effektivt att varje kombination av schema och prefix är unik.
Scheman som skapats av Qlik Talend Data Integration kommer inte att raderas när du raderar aktiviteter eller projekt.
Tabeller
Följande tabeller skapas i det interna schemat.
-
Aktuell tabell (ODS)
Denna tabell innehåller repliken av datakällan uppdaterad med ändringar under det senaste tillämpningsintervallet.
-
Tidigare tabell (HDS)
Denna tabell innehåller historiska data av typ 2. Den genereras endast om Historik är aktiverat i dataaktivitetens inställningar.
När en källtabellspost uppdateras läggs en ny post till i den tidigare tabellen varje gång. Historikposten är en kopia av den föregående aktuella posten, som också inkluderar vad som uppdaterades och när den var giltig.
Använd en historikvy eller en historik-live-vy för att visa historiska data. För mer information, se Historikvy och Historik-live-vy.
-
Ändringstabell
Denna tabell innehåller alla ändringar som ännu inte har tillämpats på den aktuella tabellen. Den genereras endast om mellanlagringsläget Fullständig laddning och CDC används.
När du återinfogar en post som tidigare raderats, och posterna har samma primärnyckelvärde, kommer hdr__operation att ha värdet U - uppdaterad.
Kolumnnamn som börjar med hdr__ är reserverade för användning i rubrikkolumner av Qlik Talend Data Integration. För mer information, se Tvetydiga kolumnnamn.
Aktuell tabell
Namngivning: <INTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_current
Följande rubrikkolumner läggs till i tabellstrukturen.
| Fält | Typ | Beskrivning |
|---|---|---|
| hdr__key_hash | varbinary(20) |
Hash av alla primärnycklar för posten. Hash-formatet är SHA1. Kolumner separeras med ett backstegstecken. Denna kolumn genereras inte i Data mart-dataaktiviteter. |
| hdr__key_id | int64 |
Sekvens som ökas per post. Denna kolumn genereras endast i Data mart-dataaktiviteter. |
| hdr__from_timestamp | timestamp |
Tidsmarkör i UTC
|
| hdr__operation | string(1) |
Senaste operationen för denna post.
|
| hdr__inserted_timestamp | timestamp | UTC-tidsmarkör för första gången nyckeln lades till. Vid användning av fullständig laddning, starttiden för den fullständiga laddningen. |
| hdr__modified_timestamp | timestamp | UTC-tidsmarkör för när den senaste uppdateringen tillämpades. |
Tidigare tabell
Följande rubrikfält läggs till.
Namngivning: <INTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_prior
| Fält | Typ | Beskrivning |
|---|---|---|
| hdr__key_hash | varbinary(20) |
Hash av alla primärnycklar för posten. Denna kolumn genereras inte i Data mart-dataaktiviteter. |
| hdr__key_id | int64 |
Sekvens som ökas per post. Denna kolumn genereras endast i Data mart-dataaktiviteter. |
| hdr__from_timestamp | timestamp |
Tidsmarkör i UTC |
| hdr__to_timestamp | timestamp |
Tidsmarkör i UTC |
| hdr__operation | string(1) |
Senaste operationen för denna post.
|
| hdr__was_current_from_timestamp | timestamp |
Tidsmarkör i UTC för första gången posten var aktuell. |
| hdr__was_current_to_timestamp | timestamp |
Tidsmarkör i UTC för sista gången posten var aktuell. |
Ändringstabell
Namngivning: <INTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_ct
Följande rubrikfält läggs till i tabellstrukturen.
| Fält | Typ | Beskrivning |
|---|---|---|
| hdr__change_identifier | varchar(50) |
Ändringsidentifieraren är en sträng med två delar:
|
| hdr__operation | varchar(1) |
Senaste operationen för denna post.
|
| hdr__timestamp | timestamp |
Tidsmarkör i UTC. |
| hdr__key_hash | binary(20) |
Hash av alla primärnycklar för posten. Denna kolumn genereras inte i Data mart-dataaktiviteter. |
| hdr__key_id | int64 |
Sekvens som ökas per post. Denna kolumn genereras endast i Data mart-dataaktiviteter. |
Vyer
Följande vyer skapas i dataaktivitetens målschema. Vilka vyer som skapas beror på om du har aktiverat live-vyer och historik, och om du använder ändringshantering.
-
Standardvy
-
Live-vy
-
Ändringsvy
-
Historikvy
-
Historik-live-vy
Standardvy
Namngivning: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>
Inga rubrikkolumner läggs till i tabellstrukturen.
Live-vy
Live-vyer visar en vy för varje vald källtabell som slår samman tabellen med ändringar från ändringstabellen. Detta ger frågor en live-vy av data utan att behöva vänta på nästa tillämpningscykel. Ändringarna som slås samman från ändringstabellsvyn är inte transaktionskonsekventa mellan tabeller.
Live-vyer skapas endast om du aktiverar Live-vyer i inställningarna för dataaktiviteten.
Namngivning: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix för live-vyer>
| Fält | Typ | Beskrivning |
|---|---|---|
| hdr__key_hash | varbinary(20) |
Hash av alla primärnycklar för posten. Hash-formatet är SHA1. Kolumner separeras med ett backstegstecken. Denna kolumn genereras inte i Data mart-dataaktiviteter. |
| hdr__key_id | int64 |
Sekvens som ökas per post. Denna kolumn genereras endast i Data mart-dataaktiviteter. |
| hdr__from_timestamp | timestamp |
Tidsmarkör i UTC
|
| hdr__operation | string(1) |
Senaste operationen för denna post.
|
| hdr__inserted_timestamp | timestamp | UTC-tidsmarkör för första gången nyckeln lades till. Vid användning av fullständig laddning, starttiden för den fullständiga laddningen. |
| hdr__modified_timestamp | timestamp | UTC-tidsmarkör för när den senaste uppdateringen tillämpades. |
| hdr__store | varchar(10) |
Detta indikerar var posten finns.
|
Ändringsvy
Detta är en vy av ändringstabellen i mellanlagringsschemat för varje vald källtabell.
Namngivning: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_changes
Följande rubrikfält läggs till i tabellstrukturen.
| Fält | Typ | Beskrivning |
|---|---|---|
| hdr__change_identifier | string(50) |
Ändringsidentifieraren är en sträng med två delar:
|
| hdr__from_timestamp | timestamp |
Tidsmarkör i UTC
|
| hdr__to_timestamp | timestamp |
Tidsmarkör i UTC
|
| hdr__operation | string(1) |
Senaste operationen för denna post.
|
| hdr__timestamp | timestamp |
Tidsmarkör i UTC. |
| hdr__key_hash | binary(20) |
Hash av alla primärnycklar för posten. Denna kolumn genereras inte i Data mart-dataaktiviteter. |
| hdr__key_id | int64 |
Sekvens som ökas per post. Denna kolumn genereras endast i Data mart-dataaktiviteter. |
Historikvy
En historikvy genereras i datatillgångsschemat för varje vald källtabell om Historik är aktiverat i dataaktivitetens inställningar. Följande rubrikfält läggs till.
Namngivning: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix för historikvyer>
| Fält | Typ | Beskrivning |
|---|---|---|
| hdr__key_hash | binary(20) |
Hash av alla primärnycklar för posten. Denna kolumn genereras inte i Data mart-dataaktiviteter. |
| hdr__key_id | int64 |
Sekvens som ökas per post. Denna kolumn genereras endast i Data mart-dataaktiviteter. |
| hdr__from_timestamp | timestamp |
Tidsmarkör i UTC
|
| hdr__to_timestamp | timestamp |
Tidsmarkör i UTC
|
| hdr__was_current_from_timestamp | timestamp |
Tidsmarkör i UTC för första gången posten var aktuell. |
| hdr__was_current_to_timestamp | timestamp |
Tidsmarkör i UTC för sista gången posten var aktuell. |
| hdr__store | varchar(7) |
Detta indikerar var posten finns.
|
| hdr__operation | string(1) |
Senaste operationen för denna post.
|
| hdr__deleted | bit |
Indikerar om posten är mjukt raderad, baserat på om hdr__operation är D eller d. |
Historik-live-vy
En historik-live-vy genereras i datatillgångsschemat för varje vald källtabell sammanslagen med ändringar från ändringstabellen. Följande rubrikfält läggs till.
Namngivning: <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix för live-historikvyer>
| Fält | Typ | Beskrivning |
|---|---|---|
| hdr__key_hash | binary(20) |
Hash av alla primärnycklar för posten. Denna kolumn genereras inte i Data mart-dataaktiviteter. |
| hdr__key_id | int64 |
Sekvens som ökas per post. Denna kolumn genereras endast i Data mart-dataaktiviteter. |
| hdr__store | varchar(10) |
Detta indikerar var posten finns.
|
| hdr__operation | string(1) |
Senaste operationen för denna post.
|
| hdr__deleted | bit |
Indikerar om posten är mjukt raderad, baserat på om hdr__operation är D eller d. |