Gå till huvudinnehåll Gå till ytterligare innehåll

Mellanlagring av data i en datasjö med en Standard-, Premium- eller Enterprise-prenumeration

Du kan konfigurera en Mellanlagra data i datasjö-uppgift för att mellanlagra data i följande mål:

  • Amazon S3

    Information om att konfigurera en koppling till Amazon S3 finns i Amazon S3

  • Azure Data Lake Storage

    Mer information om att konfigurera en koppling till Azure Data Lake Storage finns i Azure Data Lake Storage.

  • Google Cloud-lagring

    Mer information om att konfigurera en koppling till Google Cloud Storage finns i Google Cloud-lagring.

Anteckning om tipsÄven om du kan konfigurera dina kopplingsinställningar för källan och målet i Mellanlagra data i datasjö i uppgiftskonfigureringsguiden för att förenkla konfigurationsproceduren rekommenderar vi att du gör detta innan du skapar uppgiften.

Information om hur du konfigurerar kopplingar till dina datakällor finns i Konfigurera kopplingar till datakällor

För att konfigurera en mellanlagringsuppgift för datasjö:

  1. I Dataintegrering > Projekt klickar du på Skapa projekt.

  2. Gör följande i dialogrutan Nytt projekt:

    1. Ange ett Namn för ditt projekt.

    2. Välj det Utrymme där du vill att projektet ska skapas.
    3. Du kan även lägga till en beskrivning.
    4. Välj Replikering som Användningsfall.
    5. Om du vill kan du avmarkera kryssrutan Öppet om du vill skapa ett tomt projekt utan att konfigurera några inställningar.
    6. Klicka på Skapa.

      Något av följande sker:

      • Om kryssrutan Öppna i dialogrutan Nytt projekt valdes (förvalt) kommer projektet att öppnas.
      • Om du avmarkerade kryssrutan Öppna i dialogrutan Nytt projekt kommer projektet att läggas till i din lista med projekt. Du kan öppna projektet senare genom att välja Öppna från projektets -meny.
  3. När projektet öppnas klickar du på Mellanlagra data i datasjö.

    Guiden Mellanlagra data i datasjö öppnas.

  4. I fliken Allmänt anger du ett namn och en beskrivning för mellanlagringsuppgiften för datasjö. Klicka sedan på Nästa.

    Anteckning om informationNamn som innehåller snedstreck (/) eller omvända snedstreck (\) stöds inte.
  5. I fliken Välj källkoppling väljer du en koppling till källdata. Du kan också vid behov redigera kopplingsinställningarna genom att välja Redigera från menyn i kolumnen Åtgärder.

    Om du inte har koppling till källdata ännu behöver du skapa en först genom att klicka på Skapa koppling längst upp till höger på fliken

    Du kan filtrera listan med kopplingar med hjälp av filtren till vänster. Kopplingar kan flitreras efter källtyp, gateway, utrymme och ägare. Knappen Alla filter ovanför Du kan använda den här knappen för att stänga eller öppna panelen Filter till vänster. De aktiva filtren visas också ovanför listan med tillgängliga kopplingar.

    Du kan också sortera listan genom att välja Ändrades senast, Skapades senast eller Alfabetiskt från listrutan till höger. Klicka på pilen till höger om listan för att ändra sorteringsordningen.

    När du har valt en datakällkoppling kan du klicka på Testa koppling högst upp till höger på fliken (valfritt men rekommenderas) och sedan klicka på Nästa.

  6. I fliken Välj datauppsättningar väljer du tabeller och/eller vyer som ska inkluderas i mellanlagringsuppgiften för datasjö. Du kan också använda jokertecken och skapa urvalsregler enligt beskrivningen i Välja data från en databas.

    Anteckning om informationSchemanamn eller tabellnamn som innehåller snedstreck (/) eller omvända snedstreck (\) stöds inte.
  7. I fliken Välj målkoppling väljer du ett mål från listan över tillgängliga kopplingar och klickar sedan på Nästa. Avseende funktioner är fliken identisk med fliken Välj källkoppling som beskrivs tidigare.

  8. I fliken Inställningar kan du ändra följande inställningar (valfritt) och sedan klicka på Nästa.

    • Sammanställning av ändringsdata (CDC): Mellanlagringsuppgiften för datareservoaren börjar med en fullständig laddning (under denna mellanlagras alla valda tabeller). Mellanlagrade data hålls sedan uppdaterade med hjälp av CDC-teknik (Change Data Capture).

      Anteckning om informationCDC (Change Data Capture) av DDL-operationer stöds inte.

      När du arbetar med Gateway för dataflytt registreras ändringar från källan i nära realtid. När du arbetar utan Gateway för dataflytt registreras ändringar enligt schemaläggarens inställningar. Mer information finns här Schemalägga uppgifter när du arbetar utan Gateway för dataflytt.

    • Ladda: Utför en fullständig laddning av data från de valda källtabellerna till målplattformen och skapar måltabellerna vid behov. Den fullständiga laddningen sker automatiskt när uppgiften startar, men kan också utföras manuellt eller schemalagt om den behöver upprepas periodiskt.

    Om du väljer Sammanställning av ändringsdata (CDC) och dina data även innehåller tabeller som inte stöder CDC eller vyer kommer två datapipelines att skapas. En pipeline med alla tabeller som stöder CDC, och en annan pipeline med alla andra tabeller och vyer som använder Ladda om.

    Välj en av följande beroende på vilken bucketmapp du vill att filerna ska skrivas till:

    • Standardmapp: Standardmappformatet är <ditt-projekt-namn>/<din-uppgifts-namn>
    • Rotmapp: filerna kommer att skrivas direkt till bucketen.
    • Mapp: ange mappens namn. Mappen kommer att skapas under mellanlagringsuppgiften för datasjö om den inte finns.

      Anteckning om information Mappnamnet får inte innehålla specialtecken (exempelvis @, #, ! och så vidare).
  9. I fliken Sammanfattning visas en datapipeline. Välj om du vill Öppna uppgiften <namn> eller Gör ingenting. Klicka sedan på Skapa.

    Beroende på vad du väljer kommer antingen uppgiften att öppnas eller en lista med projekt att visas.

  10. Om du väljer att öppna uppgiften kommer fliken Datauppsättningar att visa struktur och metadata för de valda datatillgångstabellerna. Här ingår alla tabeller som är uttryckligt listade samt tabeller som matchar urvalsreglerna.

    Klicka på Välj källdata om du vill lägga till fler tabeller från datakällan.

  11. Ändra inställningen för uppgiften enligt beskrivningen i Inställningar för molnlagringsmål (valfritt).

  12. Du kan utföra transformeringar på datauppsättningarna, filtrera data eller lägga till kolumner.

    Se Hantera datauppsättningar för mer information.

  13. När du har lagt till de omvandlingar du vill ha kan du validera datauppsättningarna genom att klicka på Validate datasets. Om valideringen misslyckas åtgärdar du felen innan du fortsätter.

    Se Validera och justera datauppsättningarna för mer information.

  14. När du är klar klickar du på Förbered för att katalogisera mellanlagringsuppgiften och förbereda den för körning.

  15. När datauppgiften har förberetts klickar du på Kör.

  16. Mellanlagringsuppgifen för datareservoaren bör nu starta. Du kan övervaka förloppet i Övervaka-vyn. Mer information finns i Övervaka en enskild datauppgift

Ställa in laddningsordning för datauppsättningar

Du kan kontrollera laddningsordningen för datauppsättningar i din datauppgift genom att tilldela en laddningsordning till varje datauppsättning. Detta kan vara användbart om du till exempel vill ladda små datauppsättningar före stora datauppsättningar.

  1. Klicka Laddningsordning.

  2. Välj en laddningsordning för varje datauppsättning.

    Den förvalda laddningsordningen är Normal. Datauppsättningar laddas i följande ordningsföljd:

    • Högst

    • Högre

    • Högt

    • Normalt

    • Lågt

    • Lägre

    • Lägst

    Datauppsättningar med samma prioritet laddas inte i någon särskild ordningsföljd.

  3. Klicka på OK.

Anteckning om informationDatauppsättningar från applikationskällor i SaaS kan innehålla beroenden i laddningsordning. Tänk på detta när du anger laddningsordningen.

Uppdaterar metadata

Du kan uppdatera metadata i uppgiften så att den stämmer med ändringar i metadata i källan i Designvyn för en uppgift. För SaaS-program som använder Metadata manager måste Metadata manager uppdateras innan du kan uppdatera metadata i datauppgiften.

Anteckning om informationDenna åtgärd påverkar bara tabeller i en uppgifts Design-vy.
  1. Du kan göra något av följande:

    • Klicka på ... och sedan på Uppdatera metadata för att uppdatera metadata för alla datauppsättningar i uppgiften.

    • Klicka på ... på en datauppsättning i Datauppsättningar och sedan på Uppdatera metadata för att uppdatera metadata för en enstaka datauppsättning.

    Du kan visa status för uppdateringen av metadata under Uppdatera metadata i den nedre delen av skärmen. Du kan se när metadata senast uppdaterades genom att hovra över info-knapp.

  2. Förbered datauppgiften för att tillämpa ändringarna.

    När du har förberett datauppgiften och ändringarna har tillämpats tas ändringarna bort från Uppdatera metadata.

Du måste förbereda lagringsåtgärder som använder den här åtgärden för att sprida ändringarna.

Om en kolumn tas bort läggs en transformation med Null-värden till för att säkerställa att lagringen inte förlorar historiska data.

Begränsningar för uppdatering av metadata

  • Ett namnbyte med en borttagen kolumn före det, i samma tidsfönster, kommer att översättas till namnbytet med den borttagna kolumnen om de är av samma datatyp och har samma datalängd.

    Exempel:  

    Före: a b c d

    Efter: a c1 d

    I det här exemplet togs b bort och c bytte namn till c1 och b och c är av samma datatyp och har samma datalängd.

    Detta kommer att identifieras som ett namnbyte för b till c1 och en borttagning av c.

  • Namnbytet för den sista kolumnen identifieras inte, även om den sista kolumnen togs bort, och den omedelbart före bytte namn.

    Exempel:  

    Före: a b c d

    Efter: a b c1

    I det här exemplet togs d bort och c bytte namn till c1.

    Detta kommer att identifieras som att c och d har tagits bort och att c1 har lagts till.

  • Nya kolumner förutsätts läggas till på slutet. Om kolumner läggs till i mitten med samma datatyp som nästa kolumn kan de tolkas som att de har tagits bort och bytt namn.

Utveckling av schema

Med Schemautveckling kan du enkelt kan upptäcka strukturella förändringar i flera datakällor och sedan styra hur dessa förändringar kommer att tillämpas på din uppgift. Schemautveckling kan användas för att upptäcka alla DDL-ändringar som gjorts i källdataschemat. Du kan också tillämpa vissa ändringar automatiskt.

Anteckning om informationSchemautveckling är inte tillgänglig med webbapplikationskällor eller med en Qlik Talend Cloud Starter-prenumeration.

För varje ändringstyp kan du välja hur du vill hantera ändringarna i avsnittet Schemautveckling i uppgiftsinställningarna. Du kan antingen tillämpa ändringen, ignorera ändringen, avbryta tabellen eller stoppa behandlingen av uppgiften.

Du kan ange vilken åtgärd som ska användas för att hantera DDL-ändringen för varje ändringstyp. Vissa åtgärder är inte tillgängliga för alla ändringstyper.

  • Tillämpa på mål

    Tillämpa ändringar automatiskt.

  • Ignorera

    Ignorera ändringar.

  • Inaktivera tabell

    Inaktivera tabellen. Tabellen kommer att visas som fel i Övervakaren.

  • Stoppa uppgift

    Stoppa bearbetningen av uppgiften. Detta är användbart om du vill hantera alla schemaförändringar manuellt. Detta stoppar också schemaläggningen, det vill säga att schemalagda körningar inte kommer att utföras.

Följande ändringar stöds:

  • Lägg till kolumn

  • Byt namn på kolumn

  • Ändra kolumndatatyp:

  • Lägg till en tabell som matchar urvalsmönstret

    Om du använde en Urvalsregel för att lägga till datauppsättningar som matchar ett mönster kommer nya tabeller som uppfyller mönstret att upptäckas och läggas till.

Se Utveckling av schema för mer information om uppgiftsinställningar

Du kan också få meddelanden om ändringar som hanteras med schemautveckling. Mer information finns i Konfigurera aviseringar vid ändringar under drift.

Begränsningar för schemautveckling

Följande begränsningar gäller för schemautveckling:

  • Schemautveckling stöds endast när CDC används som uppdateringsmetod.

  • När du har ändrat inställningarna för schemautveckling måste du förbereda uppgiften på nytt.

  • Om du byter namn på tabeller stöds inte schemautveckling. I så fall måste du uppdatera metadata innan du förbereder uppgiften.

  • Om du håller på att utforma en uppgift måste du uppdatera webbläsaren för att ta emot ändringar i schemautvecklingen. Du kan ställa in aviseringar för att få information om ändringar.

  • Det går inte att ta bort kolumner i mellanlagringsuppgifter. Om du tar bort en kolumn och lägger till den kommer det att resultera i ett tabellfel.

  • I mellanlagringsuppgifter går det inte att ta bort en tabell med åtgärden ta bort tabell. Om du tar bort en tabell och sedan lägger till en tabell kommer den gamla tabellen bara att trunkeras, och en ny tabell kommer inte att läggas till.

  • Det är inte möjligt att ändra längden på en kolumn för alla mål beroende på stödet i måldatabasen.

  • Om ett kolumnnamn ändras kommer explicita transformeringar som definieras med hjälp av den kolumnen inte att påverkas eftersom de baseras på kolumnnamnet.

  • Begränsningarna för uppdatering av metadata gäller även för schemautveckling.

När DDL-ändringar registreras gäller följande begränsningar:

  • När en snabb sekvens av åtgärder inträffar i källdatabasen (t.ex. DDL>DML>DDL) kan Qlik Talend Data Integration analysera loggen i fel ordning, vilket kan leda till att data saknas eller till ett oförutsägbart beteende. För att minimera risken för att detta ska hända är bästa praxis att vänta på att ändringarna ska tillämpas på målet innan du utför nästa åtgärd.

    Ett exempel vid registrering av ändringar är att om en källtabell byter namn flera gånger i snabb följd (och den andra åtgärden byter tillbaka till det ursprungliga namnet), kan det uppstå ett felmeddelande om att tabellen redan finns i måldatabasen.

  • Om du ändrar namnet på en tabell som används i en uppgift och sedan stoppar uppgiften, kommer Qlik Talend Data Integration inte att fånga upp några ändringar som görs i den tabellen när uppgiften återupptas.
  • Det går inte att byta namn på en källtabell medan en uppgift stoppas.

  • Omallokering av en tabells Primary Key-kolumner stöds inte (och kommer därför inte att skrivas till kontrolltabellen för DDL-historik).
  • När en kolumns datatyp ändras och (samma) kolumn sedan byter namn medan aktiviteten stoppas, kommer DDL-ändringen att visas i kontrolltabellen DDL-historik som "Drop Column" och sedan "Add Column" när aktiviteten återupptas. Observera att samma beteende också kan uppstå som ett resultat av förlängd latens.
  • CREATE TABLE-åtgärder som utförs på källan medan en uppgift stoppas kommer att tillämpas på målet när uppgiften återupptas, men kommer inte att registreras som en DDL i kontrolltabellen DDL-historik.
  • Åtgärder som är förknippade med metadataändringar (t.ex. ALTER TABLE, reorg, återuppbyggnad av ett klustrat index osv.) kan orsaka oförutsägbart beteende om de utförs antingen

    • Under fullständig laddning

      -ELLER-

    • Mellan tidsmarkören för Börja bearbeta ändringar och aktuell tid (dvs. det ögonblick då användaren klickar på OK i dialogrutan Avancerade körningsalternativ ).

      Exempel:

      OM:

      Den angivna tiden för Börja bearbeta ändringar är 10.00.

      OCH:

      En kolumn med namnet Ålder lades till i tabellen Medarbetare kl. 10.10.

      OCH:

      Användaren klickar på OK i dialogrutan Avancerade körningsalternativ kl. 10.15.

      SEDAN:

      Ändringar som inträffade mellan 10.00 och 10.10 kan leda till CDC-fel.

    Anteckning om information

    I något av ovanstående fall måste den eller de berörda tabellerna laddas om för att data ska kunna skickas korrekt flyttad till målet.

  • DDL-satsen ALTER TABLE ADD/MODIFY <column> <data_type> DEFAULT <> replikerar inte standardvärdet till målet och den nya/modifierade kolumnen sätts till NULL. Observera att detta kan hända även om den DDL som lade till/ändrade kolumnen kördes tidigare. Om den nya/ändrade kolumnen är nullable, uppdaterar källans slutpunkt alla tabellrader innan DDL:n loggas. Därför fångar Qlik Talend Data Integration upp ändringarna, men uppdaterar inte målet. Eftersom den nya/ändrade kolumnen är inställd på NULL kommer efterföljande uppdateringar att generera ett meddelande om att "noll rader påverkas", om måltabellen inte har något Primary Key/Unique-index.
  • Ändringar i precisionskolumnerna TIDSMARKÖR och DATUM kommer inte att registreras.

Begränsningar och överväganden vid mellanlagring av data i en datasjö

Omvandlingar har följande begränsningar:

  • Omvandlingar stöds ej för kolumner med språk som skrivs från höger till vänster.
  • Det går inte att göra omvandlingar av kolumner som innehåller specialtecken (exempelvis #, \, /, -) i sina namn.

  • Enda omvandling som stöds för LOB/CLOB-datatyper är att släppa kolumnen på målet.
  • Att använda en omvandling för att döpa om en kolumn och sedan lägga till en kolumn med samma namn stöds inte.

Ändra nullbarhet stöds inte för kolumner som tas bort, antingen med direktändring eller med hjälp av en transformeringsregel. Men nya kolumner som skapas i uppgiften är som standard nullbara.

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!