Inställningar för molnlagringsmål
Du kan ändra standardinställningen för mellanlagring i datasjö efter dina behov.
Allmänt
Uppdateringsmetod
Du kan mellanlagra data i två olika lägen. Det går inte att ändra läge när mellanlagringsuppgiften för datasjö har förberetts.
-
Sammanställning av ändringsdata (CDC): Mellanlagringsuppgiften för datareservoaren börjar med en fullständig laddning (under denna mellanlagras alla valda tabeller). Mellanlagrade data hålls sedan uppdaterade med hjälp av CDC-teknik (Change Data Capture).
Anteckning om informationCDC (Change Data Capture) av DDL-operationer stöds inte.När du arbetar med Gateway för dataflytt registreras ändringar från källan i nära realtid. När du arbetar utan Gateway för dataflytt registreras ändringar enligt schemaläggarens inställningar. Mer information finns här Schemalägga uppgifter när du arbetar utan Gateway för dataflytt.
- Ladda: Utför en fullständig laddning av data från de valda källtabellerna till målplattformen och skapar måltabellerna vid behov. Den fullständiga laddningen sker automatiskt när uppgiften startar, men kan också utföras manuellt eller schemalagt om den behöver upprepas periodiskt.
Mapp som ska användas
Välj en av följande beroende på vilken bucketmapp du vill att filerna ska skrivas till:
- Standardmapp: Standardmappformatet är <ditt-projekt-namn>/<din-uppgifts-namn>
- Rotmapp: filerna kommer att skrivas direkt till bucketen.
-
Mapp: ange mappens namn. Mappen kommer att skapas under mellanlagringsuppgiften för datasjö om den inte finns.
Anteckning om information Mappnamnet får inte innehålla specialtecken (exempelvis @, #, ! och så vidare).
Ändra datauppdelning
I en vanlig mellanlagringsuppgift mellanlagras ändringar i målet utan inbördes ordning. Ändra datapartitionering möjliggör bearbetning av ändringsdata från många tabeller på ett enhetligt sätt. Du kan definiera varaktigheten för partitioner och tidsperioden för partitioneringen så att den övergripande enhetligheten för partitionerade data säkerställs (dvs. inga delvisa transaktioner, inga orderrubriker utan orderrader och så vidare).
Information om partitionerna registreras i Kontrolltabellen attrep_cdc_partitions i måldatabasen. Den här informationen kan användas för att identifiera partitionerade data som behöver bearbetas ytterligare.
Partitionsalternativen följer här:
-
Partition every - Ange längden (i timmar och minuter) för varje partition.
Anteckning om informationVi rekommenderar att du anger en partitionslängd på minst en timme. Även om latensen kan förbättras genom att ange en partitionslängd som är mindre än en timme kan (mål-) prestandan även påverkas genom att skapa många partitioner på målet (särskilt på system med stora volymer med ändringar).
Om du återupptar en uppgift från före (BEFORE) den tid då den senaste partitionen skapades kommer mellanlagringsuppgiften i datasjö skriva till en partition som redan har stängts.
- Tidsperiod för partitioner - Partitioner skapas under en 24-timmarsperiod som beräknas enligt den specificerade "tidsperiod för partitionering" på källdatabasen i UTC-tid. Ett uppdelningsintervall på 8 timmar med en "bastid för uppdelning" kl. 02:00 skapar t.ex. följande uppdelningar: 02:00-10:00, 10:00-18:00, 18:00-02:00, men inte nödvändigtvis i den ordningen. Om en aktivitet startade kl. 01:00, kommer tidsramarna för den första uppdelningen att vara 18:00-02:00. Om en aktivitet startar mitt i en uppdelning (t.ex. kl. 04:00) kommer dess ändringsdata att inkluderas i 02:00-10:00-uppdelningen även om inga ändringar registrerade före kl. 04:00.
Uppladdning av data
Filattribut
Format
Du kan välja att skapa målfilerna i CSV-, JSON- eller Parquet-format.
I JSON-filer representeras varje post av en enda rad, som i följande exempel:
{ "book_id": 123, "title": "Alice in Wonderland", "price": 6.99, "is_hardcover": false }
{ "book_id": 456, "title": "Winnie the Pooh", "price": 6.49, "is_hardcover": true }
{ "book_id": 789, "title": "The Cat in the Hat", "price": 7.23, "is_hardcover": true }
Se även: Egenskaper för innehållstyp och kodning av innehåll
- Om du väljer JSON- eller Parquet-format kommer följande fält att döljas eftersom de endast är relevanta för CSV-format: Fältavgränsare, Postavgränsare, Nollvärde, Citattecken, Citat-undantagstecken och Lägg till metadatahuvud.
- Följande fält är bara relevanta för Parquet-format: Parquet-version, Parquet-tidsmarkörsenhet och Maximal LOB-storlek för Parquet (KB).
Information om mappningar av datatyper när du använder Parquet-format och begränsningar finns i Mapping from Qlik Cloud data types to Parquet
Fältavgränsare
Den avgränsare som kommer att användas för att separera fält (kolumner) i målfilerna. Standardvärdet är ett komma.
Exempel på att använda ett komma som avgränsare:
"mike","male"
Avgränsare kan vara standardtecken eller ett hexadecimalt (hex-) värde. Observera att prefixet "0x
" måste användas för att ange en hexadecimal avgränsare (t.ex. 0x01 = SOH
). I fälten Fältavgränsare, Postavgränsare och Null-värde kan avgränsaren bestå av konkatenerade hexvärden (t.ex. 0x0102
= SOHSTX
), medan den bara kan vara ett enstaka hexvärde i fälten Citattecken och Citat-undantagstecken.
Hexadecimaltalet 0x00
stöds inte (dvs. endast 0x01
-0xFF
stöds).
Null-värde
Strängen som kommer att användas för att ange ett nullvärde i målfilerna.
Exempel (där \n är postavgränsaren och @ är nullvärdet):
Postavgränsare
Den avgränsare som kommer att användas för att separera fält (kolumner) i målfilerna. Standard är ett nyradstecken (\n
).
Exempel:
Citattecken
Det tecken som kommer att användas i början och på slutet av en textkolumn. Standard är dubbelcitattecknet ("). När en kolumn som innehåller kolumnavgränsare är omsluten av dubbelcitattecken tolkas kolumnavgränsartecknen som verkliga data och inte som kolumnavgränsare.
Exempel (där är citattecknet):
Citat-undantagstecken
Det tecken som används för att undanta ett citattecken finns i de aktuella data. Standard är dubbelcitattecknet (").
Exempel (där " är citattecknet och \ är undantagstecknet):
Parquet-version
Välj vilken version som ska användas beroende på vilken version som målplattformen har stöd för. Observera att Parquet version 1.0 endast har stöd för tidsmarkörenheten MICRO , medan Parquet version 2.6 har stöd både för tidsmarkörerna MICRO och NANO.
Tidsmarkörenhet för Parquet
Om Parquet-versionen ställs in till 2.6 väljer du MICRO eller NANO. Om Parquet-versionen ställs in till 1.0 stöds bara MICRO.
Högsta LOB-storlek (kB) för Parquet
Standardvärdet för maximal LOB-storlek är 64 KB och maxvärdet du kan ange i det här fältet är 10 000 KB. Hantering av LOB-kolumner kräver större resurser, vilket i sin tur påverkar prestandan. Öka bara det här värdet om du replikerar LOB-data som är större än 64 KB och all LOB-data ska replikeras till målet.
Maximal filstorlek
Den maximala storleken en fil kan nå innan den stängs (och eventuellt komprimeras).
Den maximala storleken en fil kan nå innan den stängs. Mindre filer kan laddas upp snabbare (beroende på nätverket) och förbättrar prestandan när de används i kombination med alternativet parallell körning. Att belamra databasen med små filer anses emellertid generellt vara en dålig arbetsmetod.
Komprimera filer med
Välj ett av komprimeringsalternativen för att komprimera målfilerna NONE (standard) för att lämna dem okomprimerade. Observera att de tillgängliga komprimeringsalternativen beror på vilket filformat som har valts.
Lägg till metadatahuvud
Om du vill kan du lägga till en rubrikrad i datafilerna. Rubrikraden kan innehålla källkolumnens namn och/eller datatyperna på mellannivå (dvs. Qlik Talend Data Integration.
Exempel på en målfil med en rubrikrad när både Med kolumnnamn och Med datatyper har valts:
Position:DECIMAL(38,0),Color:VARCHAR(10)
1,"BLUE"
2,"BROWN"
3,"RED"
...
Ändra behandling
I det här delavsnittet beskrivs villkorliga inställningar i Ändringsbearbetning.
Tillämpa/lagra ändringar när
- Filstorlek når: ange den maximala mängden ändringsdata som får ackumuleras innan filen laddas upp till målet.
- Förbrukad tid når: förbrukad tid når x.
Metadatafiler
När alternativet Skapa metadatafiler i målmappen väljs kommer en motsvarande metadatafil med filtillägget .dfm att skapas i den angivna målmappen. Metadatafilerna innehåller ytterligare information om uppgiften/data, exempelvis typ av källkoppling, källtabellens namn, antalet poster i datafilen och så vidare.
En fullständig beskrivning av metadatafilen och om möjliga tillämpningar finns i Metadatafilbeskrivning
Metadata
LOB-kolumner
-
Inkludera LOB-kolumner och begränsa kolumnstorleken till (kB):
Du kan välja att inkludera LOB-kolumner i uppgiften och ställa in maximal LOB-storlek. LOB:er som är större än maximal storlek kommer att trunkeras.
Kontrolltabeller
Välj vilka av följande Kontrolltabeller du vill ska skapas på målplattformen:
- Replikeringsstatus Ger information om den aktuella mellanlagringsuppgiften, inklusive uppgiftsstatus, hur mycket minne som uppgiften använder, antal ändringar som ännu inte har tillämpats på dataplattformen och positionen i datakällan som data läses från för närvarande.
- Inaktiverade tabeller: Tillhandahåller en lista med inaktiverade tabeller, och anledningen till att de inaktiverades.
- Replikeringshistorik: Tillhandahåller information om uppgiftshistoriken, inklusive antalet och volymen med poster som bearbetas under mellanlagringsuppgifter, latensen på
- Change Data Partitions (partitionering av ändrade data): Tillhandahåller poster med partitioner som skapats på måldatabasen på Ändra datauppdelning. Du kan använda den här informationen för att identifiera partitionerade data som behöver bearbetas ytterligare.
En detaljerad beskrivning av alla kontrolltabeller finns i Kontrolltabeller.
Fullständig laddning
Finjustering av prestanda
- Maximalt antal tabeller som ska laddas parallellt: ange det maximala antalet tabeller som ska laddas till målet samtidigt. Som standard är värdet 5.
-
Tidsgräns transaktionskonsekvens (sekunder): ange antalet sekunder för att vänta på att öppna transaktioner ska stängas innan åtgärden fullständig laddning påbörjas. Standardvärdet är 600 (10 minuter). Den fullständiga laddningen kommer att påbörjas efter att värdet för överskriden tidsgräns har nåtts även om det fortfarande finns öppna transaktioner.
Anteckning om informationFör att replikera transaktioner som var öppna när fullständig laddning startades men inte överfördes förrän efter att värdet för tidsgränsen nåddes måste du ladda om måltabellerna. - Allokeringsfrekvens vid fullständig laddning: det maximala antalet händelser som kan överföras tillsammans. Som standard är värdet 10 000.
Efter slutförd fullständig laddning
Skapa primär nyckel eller unik: välj det här alternativet om du vill fördröja skapandet av primärnycklar eller unika index på målet tills efter den fullständiga laddningen har slutförts.
För initial laddning
När data flyttas från en SaaS-programkälla kan du ställa in hur den initiala fullständiga laddningen ska utföras.
Använd cachelagrade data |
Med det här alternativet kan du använda mellanlagrade data som lästes in när metadata genererades med Fullständig datasökning valt. Då skapas mindre overhead avseende API-användning och kvoter, eftersom data redan läses in från källan. Alla ändringar sedan den initiala datasökningen kan plockas upp av Change data capture (CDC). |
Ladda data från källa |
Med det här alternativet utförs en ny laddning från datakällan. Det här alternativet är användbart när:
|
Bearbetning av lagringsändringar
Rubrikkolumnerna i ändringstabellen innehåller information om åtgärden Ändra behandling, t.ex. typ av åtgärd (t.ex. INSERT), transaktionstid och så vidare. Om du inte behöver den här informationen kan du konfigurera datauppgiften så att ändringstabellerna skapas utan vissa eller alla huvudkolumner, vilket minskar den plats de tar i måldatabasen. Detta gör du genom att avmarkera kryssrutorna för de huvudkolumner som du vill utesluta.
Observera att du inte kan ta bort ytterligare kolumner eller återställa kolumner när en uppgift körs. För att ändra dina inledande val måste du först stoppa uppgiften, därefter ändra dina val och slutligen ladda om måltabellerna.
När Ändra datauppdelning är aktiverad läggs en extra huvudkolumn med namnet "partition_name" till i ändringstabellerna och väljs automatiskt i användargränssnittet. Eftersom denna kolumn är obligatorisk kan den inte uteslutas.
En beskrivning av rubrikkolumnerna finns i Använda Ändringstabeller.
Felhantering
Datafel
Hantering av datafel stöds endast med uppdateringsmetoden Samla in ändrade data (CDC).
Datatrunkeringsfel
För datatrunkeringsfel: Välj vad du vill ska hända när en trunkering sker i en eller flera poster. Du kan välja något av följande från listan:
- Ignorera: Uppgiften fortsätter och felet ignoreras.
- Inaktivera tabell: Uppgiften fortsätter men data från tabellen med felposten flyttas till ett feltillstånd och dess data replikeras inte
- Stoppa uppgift: Uppgiften stoppas och manuellt ingrepp krävs.
Övriga datafel
För övriga datafel: Välj vad du vill ska hända när ett fel sker i en eller flera poster. Du kan välja något av följande från listan:
- Ignorera: Uppgiften fortsätter och felet ignoreras.
- Inaktivera tabell: Uppgiften fortsätter men data från tabellen med felposten flyttas till ett feltillstånd och dess data replikeras inte
- Stoppa uppgift: Uppgiften stoppas och manuellt ingrepp krävs.
Eskalera datafelhantering
Eskalera felhantering när övriga datafel når (per tabell) : Välj den här kryssrutan för att eskalera felhantering när antalet icke-trunkeringsdatafel (per tabell) når det angivna antalet: Giltiga värden är 1–10 000.
Eskaleringsåtgärd: Välj vad som ska hända när felhantering eskaleras. Observera att de tillgängliga åtgärderna beror på vilken åtgärd som väljs från listrutan För övriga datafel som beskrivs ovan.
-
Inaktivera tabell (standard): Uppgiften fortsätter men data från tabellen med felposten flyttas till ett feltillstånd och dess data landed inte.
- Stoppa uppgift: Uppgiften stoppas och manuellt ingrepp krävs.
Tabellfel
När ett tabellfel hittas: Välj något av följande från listrutan:
- Inaktivera tabell (standard): Uppgiften fortsätter men data från tabellen med felposten flyttas till ett feltillstånd och dess data replikeras inte
- Stoppa uppgift: Uppgiften stoppas och manuellt ingrepp krävs.
Eskalera felhantering när tabellfel når (per tabell) : Välj den här kryssrutan för att eskalera felhantering när antalet tabellfel (per tabell) når det angivna antalet: Giltiga värden är 1–10 000.
Eskaleringsåtgärd: Eskaleringspolicyn för tabellfel är inställd till Stoppa uppgift och kan inte ändras.
Miljö
-
Maximalt antal nya försök: Välj det här alternativet och ange sedan det maximala antalet försök att utföra en uppgift igen när ett återställningsbart miljöfel inträffar. Efter att uppgiften har försökt utföras det angivna antalet gånger stoppas uppgiften och manuellt ingrepp krävs.
För att aldrig försöka utföra uppgiften igen avmarkerar du kryssrutan eller anger "0".
För att försöka utföra uppgiften ett oändligt antal gånger anger du "-1".
-
Mellanrum mellan försök (sekunder): Använd räknaren för att välja eller ange antalet sekunder som systemet väntar mellan försöken att utföra en uppgift.
Giltiga värden är 0–2 000.
-
- Förläng intervallet mellan försök vid långa avbrott: Välj den här kryssrutan för att förlänga intervallet mellan försök vid långa avbrott. När det här alternativet är aktiverat fördubblas intervallet mellan varje försök tills Maximalt intervall nås (och fortsätter att försöka enligt det angivna maximala intervallet).
- Maximalt intervall mellan försök (sekunder): Använd räknaren för att välja eller ange antalet sekunder för väntetiden mellan försöken att utföra en uppgift när alternativet Förläng intervallet för nytt försök vid långa avbrott är aktiverat. Giltiga värden är 0–2 000.
Ändra finjustering av behandling
Optimering av avlastning av transaktioner
-
Avlasta pågående transaktioner till disk om:
Transaktionsdata behålls normalt i minnet tills det är fullständigt överfört till målet eller källan. Men transaktioner som är större än det tilldelade minnet eller inte överförs inom den angivna tidsgränsen kommer att avlastas till disk.
- Total minnesstorlek för alla transaktioner överskrider (MB): den maximala storleken som alla transaktioner kan uppta i minnet innan de avlastas till disk. Standardvärdet är 1024.
- Transaktionens varaktighet överskrider (sekunder): den maximala tiden som varje transaktion kan uppta i minnet innan de avlastas till disk. Varaktigheten beräknas från tiden som Qlik Talend Data Integration började registrera transaktionen. Standardvärdet är 60.
Finjustering av batch
-
Maximalt antal ändringar per transaktion: Det minsta antalet ändringar som ska tas med i varje transaktion. Som standard är värdet 1000.
Anteckning om informationÄndringarna tillämpas i målet antingen när antalet ändringar är lika med eller större än värdet Minsta antalet ändringar per transaktion ELLER när värdet Maximal tid att samla transaktioner i batcher före tillämpning (sekunder) som beskrivs nedan nås, beroende på vilket som kommer först. Eftersom frekvensen av ändringar som tillämpas på målet styrs av dessa två parametrar kommer ändringar i källposterna eventuellt inte att återspeglas omedelbart i målposterna.
- Maxtid att samla transaktioner i batcher före tillämpning (sekunder): maxtiden för att samla transaktioner i batcher innan en tidsgräns överskrids. Som standard är värdet 1.
Intervalldata
Det här alternativet är bara tillgängligt i när:
- Använda Gateway för dataflytt
- Mellanlagring av data från SaaS-applikationskällor
- Uppgiften definieras med uppdateringsmetoden för Sammanställning av ändringsdata (CDC)
Läs in ändringar var (minuter)
Ställ in antal minuter för intervallet mellan inläsning av ändringar från källan. Giltigt intervall är 1 till 1 440.
Diverse finjustering
- Cachestorlek för satser (antal satser): Det maximala antalet förberedda satser som ska lagras på servern för senare körning (när ändringar tillämpas på målet). Standardvärdet är 50. Maxvärdet är 200.
-
DELETE och INSERT när en primärnyckelkolumn uppdateras: För det här alternativet måste full kompletterande loggning vara aktiverat i källdatabasen.
Utveckling av schema
Teckenbyte
Du kan ersätta eller ta bort källtecken i måldatabasen och/eller du kan ersätta eller ta bort källtecken som inte stöds av en vald teckenuppsättning.
-
Alla tecken måste anges som Unicode-kodpunkter.
- Teckenersättning kommer också att utföras på -kontrolltabellerna.
-
Ogiltiga värden anges med en röd triangel uppe till höger på tabellcellen. Hovra med muspekaren över triangeln för att visa felmeddelandet.
-
Alla omvandlingar på tabellnivå eller globalt som definierats för uppgiften kommer att utföras efter att teckenersättningen har slutförts.
-
Ersättningsåtgärder som definierats i tabellen Ersätt eller ta bort källtecken utförs innan ersättningsåtgärden som definierats i tabellen Ersätt eller ta bort källtecken som inte stöds av en vald teckenuppsättning.
- Teckenersättningen har inte stöd för LOB-datatyper.
Byta ut eller radera källtecken
Använd tabellen Ersätt eller ta bort källtecken för att definiera ersättningar för specifika källtecken. Detta kan exempelvis vara användbart när Unicode-representationen av ett tecken är olika på käll- och målplattformarna. Exempelvis visas minustecknet i teckenuppsättningen Shift_JIS som U+2212 på Linux, men på Windows visas det som U+FF0D.
Till | Gör så här |
---|---|
Definiera ersättningsåtgärder |
|
Redigera det angivna käll- eller måltecknet |
Klicka på i slutet av raden och välj Redigera. |
Ta bort poster från tabellen |
Klicka på i slutet av raden och välj Ta bort. |
Ersätta eller ta bort källtecken som inte stöds av den valda teckenuppsättningen.
Använd tabellen Källtecken som inte stöds av teckenuppsättning för att definiera ett enda ersättningstecken för alla tecken som inte stöds av den valda teckenuppsättningen.
Till | Gör så här |
---|---|
Definiera eller redigera en ersättningsåtgärd |
|
Inaktivera ersättningsåtgärden. |
Välj den tomma posten från listrutan Teckenuppsättning. |
Fler alternativ
Dessa alternativ visas inte i gränssnittet eftersom de bara är relevanta för specifika versioner eller miljöer. Konfigurera därför inte dessa alternativ om du inte uttryckligen har blivit instruerad att göra det av Qlik Support eller om det står i produktdokumentationen.Qlik
För att ställa in ett alternativ kopierar du bara alternativet i fältet Lägg till funktionsnamn och klickar på Lägg till. Ställ sedan in värdet eller aktivera alternativet enligt de instruktioner du har fått.
Schemalägga uppgifter när du arbetar utan Gateway för dataflytt
Gateway för dataflytt stöds inte med en Qlik Talend Cloud Starter-prenumeration och är ett tillval med andra prenumerationsnivåer. Vid arbete utan Gateway för dataflytt stöds inte CDC (Change data capture) i nära realtid. Du håller måldata uppdaterade genom att ställa in ett schemaläggningsintervall. Schemat avgör hur ofta måldatauppsättningen ska uppdateras med ändringar i källdatauppsättningen. Medan schemat bestämmer uppdateringsfrekvensen, bestämmer typen av datauppsättning uppdateringsmetoden. Om källdatauppsättningarna stöder CDC (Change Data Capture) kommer endast ändringarna i källdata att replikeras och tillämpas på motsvarande måltabeller. Om källdatauppsättningarna inte har stöd för CDC (till exempel Vyer) kommer ändringar att tillämpas genom att ladda alla källdata till motsvarande måltabeller. Om vissa av källdatauppsättningarna har stöd för CDC och andra inte, skapas två separata deluppgifter (förutsatt att uppdateringsmetoden förCDC (Change data capture) är eller att replikeringsalternativet Lagra ändringar har valts): en för att ladda om de datauppsättningar som inte stöder CDC, och den andra för att fånga ändringarna till datauppsättningar som stöder CDC. I det här fallet rekommenderas det starkt att du ställer in samma schema för båda deluppgifterna för att säkerställa dataenhetlighet.
Så här ändrar du schemaläggningen:
-
Öppna ditt dataprojekt och gör sedan något av följande:
- I uppgiftsvyn klickar du på på en datauppgift och väljer Schemaläggning.
- I pipeline-vyn klickar du på på en datauppgift och väljer Schemaläggning.
- Öppna replikeringsuppgiften och klicka på knappen Schemaläggning i verktygsfältet.
- Ändra schemaläggningsinställningarna efter behov och klicka sedan på OK.