Gå till huvudinnehåll Gå till ytterligare innehåll

Arkitektur för datauppsättningar i ett datalager i molnet

Qlik Talend Data Integration gör det möjligt för dig att skapa, hantera och styra en analytisk datapipeline som levererar data hela vägen till konsumenterna. När du genererar datauppsättningar i ett datalager i molnet med Qlik Talend Data Integrationgenereras lagringstabeller, ändringstabeller och vyer.

Ett intuitivt och interaktivt användargränssnitt hjälper dig att bygga, modellera och exekvera datapipelines. Generera automatiskt scheman för operativa datalager (ODS) och historiska datalager (HDS) utan manuell kodning.

Arkitektur för en datapipeline för Qlik Talend Data Integration med hjälp av Qlik Data Gateway – dataflytt och CDC

  • Mellanlagring

    Mellanlagringsuppgiften i Qlik Talend Data Integration styr den kontinuerliga mellanlagringen av data från datakällorna till mellanlagringszonen. Exemplet i diagrammet beskriver hur man använder Qlik Data Gateway – dataflytt för att få tillgång till datakällor med hjälp av CDC för att hålla data uppdaterade. Du kan också använda Qlik Cloud-källanslutningar för att utföra fulla belastningar som kan schemaläggas för att laddas om regelbundet.

    Information om när du behöver användaGateway för dataflytt finns i När krävs Gateway för dataflytt?

    Anteckning om informationTabellerna i mellanlagringszonen genereras för internt bruk av Qlik Talend Data Integration Storage-dataåtgärder. Använd inte mellanlagringstabellerna i andra processer i efterföljande led.
  • Lagringsplats

    Lagringsuppgiften styr när data tillämpas på lagringstabellerna och skapar och hanterar tabellerna och de externa vyerna.

  • Externa vyer

    När du konsumerar data är bästa praxis att använda vyer. Vyer har flera fördelar jämfört med tabeller, bland annat förbättrad datasamtidighet.

Användning av livevyer

Du kan få tillgång till både aktuella data (ODS) och historiska data (HDS) med hjälp av livevyer. Livevyer innehåller data från ändringstabeller som ännu inte har tillämpats på de aktuella eller tidigare tabellerna. Det innebär att du kan se data med lägre latens utan att behöva tillämpa ändrade data ofta. Möjligheten att fördröja sammanslagningen gör det möjligt att minska kostnaderna och bearbetningskraven i målplattformen.

En annan fördel med livevyer är att beräkningsnivån inte behöver köras hela tiden.

  • Mellanlagringen kan peka på ett uttryckligt lager som kan vara litet, eftersom bara utför INSERT-åtgärder för snabb exekvering.

  • Lagringsprocessen, som till exempel körs en gång om dagen, kan aktivera ett stort beräkningslager för bearbetning.

  • Svarstiden kan förbättras eftersom vi inte längre behöver göra ändringar under hela dagen. När infogade nya poster är tillgängliga i ändringstabellen är de tillgängliga omgående i livevyerna.

Scheman

Artefakter genereras i ett internt schema och ett schema för datauppgifter.

  • Det interna schemat innehåller de fysiska datatabellerna.

  • Schemat för datauppgifter innehåller de vyer som du kan använda för att förbruka data.

    När ett schema är associerat till fler än en datauppgift måste varje datauppgift använda ett unikt prefix för tabeller och vyer. Du kan ställa in prefixet i inställningarna för datauppgifter.

Enbart interna scheman kontrolleras för namnkonflikter. För övriga scheman måste du säkerställa att det inte förekommer namnkonflikter i tabellnamnen. Bästa metoden är att ge det interna schemat samma namn som datauppgiftsschemat med _internal tillagt. Det säkerställer effektivt att alla schema- och prefixkombinationer är unika.

Anteckning om informationAlla tabeller och vyer hanteras av Qlik Talend Data Integration . Ändra inte data med andra verktyg.

Tabeller

Följande tabeller skapas i det interna schemat.

  • Aktuell tabell (ODS)

    Den här tabellen innehåller kopian av datakällan som uppdaterats med ändringar under det senaste tillämpningsintervallet.

  • Föregående tabell (HDS)

    Denna tabell innehåller historiska data av typ 2. Den genereras endast om History är aktiverat i inställningarna för datauppgiften.

    När en post i källtabellen uppdateras läggs en ny post till i den föregående tabellen varje gång. Historikposten är en kopia av den föregående aktuella posten, som också innehåller uppgifter om vad som uppdaterades och när det var giltigt.

    Använd en historikvy eller en historisk livevy för att visa historiska data. Mer information finns i Historikvy och Historisk livevy.

  • Ändringstabell

    Den här tabellen innehåller alla ändringar som ännu inte har tillämpats på den aktuella tabellen. Den genereras endast om mellanlagringsläget Full load and CDC används.

Vyer

Följande vyer skapas i målschemat för datauppgifter. Vilka vyer som skapas beror på om du har aktiverat livevyer och historik och om du använder ändringshantering.

  • Aktuell vy

  • Livevy

  • Ändringsvy

  • Historikvy

  • Historisk livevy

Anteckning om informationAlla rubrikkolumner som börjar med hdr__ är reserverade. Om du använder en vy i en lagringsaktivitet måste du byta namn på de använda rubrikkolumnerna i lagringsaktiviteten för att undvika en namnkonflikt, eftersom lagringsaktiviteten kommer att generera vyer med samma rubrikkolumner.

Aktuell vy

Namngivning <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_current

Följande rubrikfält läggs till i tabellstrukturen.

Tabellrubrikfält
Fält Typ Beskrivning
hdr__key_hash varbinary(20)

Hash för alla primära nycklar för post. Hashformat är SHA1. Kolumner separeras med ett backstegstecken.

Den här kolumnen genereras inte i Data mart-datauppgifterna.

hdr__key_id int64

Sekvens ökad per post.

Den här kolumnen genereras endast i Data mart-datauppgifter.

hdr__from_timestamp tidsmarkör

Tidsmarkör i UTC

  • För data som tagits från en fullständig laddning är detta starttiden för fullständig laddning.

  • För en förändring som kommer genom ändringstabeller är det tidsmarkörfältet för posten.

hdr__operation string(1)

Senaste åtgärden för den här posten.

  • D – raderat från ändringstabellen.

  • U – uppdaterat från ändringstabellen.

  • I – infogat från ändringstabellen.

  • L – infogat av uppgiften fullständig laddning.

  • d – raderat från jämför och tillämpa.

  • u – uppdaterat från jämför och tillämpa.

  • i – infogat från jämför och tillämpa.

hdr__inserted_timestamp tidsmarkör UTC-tidsmarkör för första gången nyckeln lades till. När fullständig laddning används, starttiden för fullständig laddning.
hdr__modified_timestamp tidsmarkör UTC-tidsmarkör för när den senaste uppdateringen tillämpades.

Livevy

Livevyer visar en vy för varje vald källtabell som kombinerar tabellen med ändringar från ändringstabellen. Då visas en livevy med data för frågorna utan att du behöver vänta på nästa användningscykel. De ändringar som slås samman från ändringstabellvyn är inte transaktionskonsekventa mellan tabellerna.

Livevyer skapas endast om du aktiverar Live views i inställningarna för datauppgiften.

Namngivning <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix för livevyer>

Tabellrubrikfält
Fält Typ Beskrivning
hdr__key_hash varbinary(20)

Hash för alla primära nycklar för post. Hashformat är SHA1. Kolumner separeras med ett backstegstecken.

Den här kolumnen genereras inte i Data mart-datauppgifterna.

hdr__key_id int64

Sekvens ökad per post.

Den här kolumnen genereras endast i Data mart-datauppgifter.

hdr__from_timestamp tidsmarkör

Tidsmarkör i UTC

  • För data som tagits från en fullständig laddning är detta starttiden för fullständig laddning.

  • För en förändring som kommer genom ändringstabeller är det tidsmarkörfältet för posten.

hdr__operation string(1)

Senaste åtgärden för den här posten.

  • D – raderat från ändringstabellen.

  • U – uppdaterat från ändringstabellen.

  • I – infogat från ändringstabellen.

  • L – infogat av uppgiften fullständig laddning.

  • d – raderat från jämför och tillämpa.

  • u – uppdaterat från jämför och tillämpa.

  • i – infogat från jämför och tillämpa.

hdr__inserted_timestamp tidsmarkör UTC-tidsmarkör för första gången nyckeln lades till. När fullständig laddning används, starttiden för fullständig laddning.
hdr__modified_timestamp tidsmarkör UTC-tidsmarkör för när den senaste uppdateringen tillämpades.
hdr__store varchar(10)

Detta anger var posten finns.

  • CURRENT – om posten finns i den aktuella fysiska tabellen.

  • CHANGES – om posten finns i ändringstabellen.

Ändringsvy

Det här är en vy över ändringstabellen i mellanlagringschemat för varje vald källtabell.

Namngivning <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>_changes

Följande rubrikfält läggs till i tabellstrukturen.

Ändringstabellens rubrikfält
Fält Typ Beskrivning
hdr__change_identifier string(50)

Ändringsidentifieraren är en sträng med två delar:

  • Tidsmarkör för start av batchkörning i sekunder sedan 1970-01-01 (tiosiffrig sträng)

  • Ändringssekvens från replikeringsgatewayen (35 tecken)

hdr__from_timestamp tidsmarkör

Tidsmarkör i UTC

  • För data som tagits från en fullständig laddning är detta starttiden för fullständig laddning.

  • För en förändring som kommer genom ändringstabeller är det tidsmarkörfältet för posten.

hdr__to_timestamp tidsmarkör

Tidsmarkör i UTC

  • För data som tagits från en fullständig laddning är detta starttiden för fullständig laddning.

  • För en förändring som kommer genom ändringstabeller är det tidsmarkörfältet för posten.

hdr__operation string(1)

Senaste åtgärden för den här posten.

  • D – raderat från ändringstabellen.

  • U – uppdaterat från ändringstabellen.

  • I – infogat från ändringstabellen.

  • L – infogat av uppgiften fullständig laddning.

  • d – raderat från jämför och tillämpa.

  • u – uppdaterat från jämför och tillämpa.

  • i – infogat från jämför och tillämpa.

hdr__timestamp tidsmarkör

Tidsmarkör i UTC

hdr__key_hash binary(20)

Hash för alla primära nycklar för post.

Den här kolumnen genereras inte i Data mart-datauppgifterna.

hdr__key_id int64

Sekvens ökad per post.

Den här kolumnen genereras endast i Data mart-datauppgifter.

Historikvy

En historikvy genereras i schemat för datatillgångar för varje vald källtabell om History är aktiverat i inställningarna för datauppgiften. Följande rubrikfält läggs till.

Namngivning <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix för historikvyer>

Rubrikfält för historikvy
Fält Typ Beskrivning
hdr__key_hash binary(20)

Hash för alla primära nycklar för post.

Den här kolumnen genereras inte i Data mart-datauppgifterna.

hdr__key_id int64

Sekvens ökad per post.

Den här kolumnen genereras endast i Data mart-datauppgifter.

hdr__store varchar(10)

Detta anger var posten finns.

  • CURRENT – om posten finns i den aktuella fysiska tabellen.

  • PRIORS – om posten finns i priors-tabellen med historiska data.

hdr__operation string(1)

Senaste åtgärden för den här posten.

  • D – raderat från ändringstabellen.

  • U – uppdaterat från ändringstabellen.

  • I – infogat från ändringstabellen.

  • L – infogat av uppgiften fullständig laddning.

  • d – raderat från jämför och tillämpa.

  • u – uppdaterat från jämför och tillämpa.

  • i – infogat från jämför och tillämpa.

hdr__deleted bit

Anger om posten är mjukt raderad, baserat på om hdr__operation är D eller d.

hdr__was _current_from_timestamp tidsmarkör

Tidsmarkör i UTC för första gången posten var aktuell.

hdr__was _current_to_timestamp tidsmarkör

Tidsmarkör i UTC för den senaste gången posten var aktuell.

Historisk livevy

En historisk livevy genereras i schemat för datatillgångar för varje vald källtabell för varje vald källtabell som sammanfogats med ändringar från ändringstabellen. Följande rubrikfält läggs till.

Namngivning <EXTERNAL_SCHEMA>.[<PREFIX>]<TABLE_NAME>< Suffix för historiska livevyer>

Rubrikfält för historisk livevy
Fält Typ Beskrivning
hdr__key_hash binary(20)

Hash för alla primära nycklar för post.

Den här kolumnen genereras inte i Data mart-datauppgifterna.

hdr__key_id int64

Sekvens ökad per post.

Den här kolumnen genereras endast i Data mart-datauppgifter.

hdr__store varchar(10)

Detta anger var posten finns.

  • CURRENT – om posten finns i den aktuella fysiska tabellen.

  • PRIORS – om posten finns i priors-tabellen med historiska data.

  • CHANGES – om posten finns i ändringstabellen.

hdr__operation string(1)

Senaste åtgärden för den här posten.

  • D – raderat från ändringstabellen.

  • U – uppdaterat från ändringstabellen.

  • I – infogat från ändringstabellen.

  • L – infogat av uppgiften fullständig laddning.

  • d – raderat från jämför och tillämpa.

  • u – uppdaterat från jämför och tillämpa.

  • i – infogat från jämför och tillämpa.

hdr__deleted bit

Anger om posten är mjukt raderad, baserat på om hdr__operation är D eller d.

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!