Mellanlagring av data i en datasjö med en Standard-, Premium- eller Enterprise-prenumeration
Du kan konfigurera en Mellanlagra data i datasjö-uppgift för att mellanlagra data i följande mål:
Amazon S3
Information om att konfigurera en koppling till Amazon S3 finns i Amazon S3
Azure Data Lake Storage
Mer information om att konfigurera en koppling till Azure Data Lake Storage finns i Azure Data Lake Storage.
Google Cloud-lagring
Mer information om att konfigurera en koppling till Google Cloud Storage finns i Google Cloud-lagring.
Information om hur du konfigurerar kopplingar till dina datakällor finns i Konfigurera kopplingar till datakällor
För att konfigurera en mellanlagringsuppgift för datasjö:
I Dataintegrering > Projekt klickar du på Skapa projekt.
Gör följande i dialogrutan Nytt projekt:
Ange ett Namn för ditt projekt.
- Välj det Utrymme där du vill att projektet ska skapas.
- Du kan även lägga till en beskrivning.
- Välj Replikering som Användningsfall.
- Om du vill kan du avmarkera kryssrutan Öppet om du vill skapa ett tomt projekt utan att konfigurera några inställningar.
Klicka på Skapa.
Något av följande sker:
- Om kryssrutan Öppna i dialogrutan Nytt projekt valdes (förvalt) kommer projektet att öppnas.
- Om du avmarkerade kryssrutan Öppna i dialogrutan Nytt projekt kommer projektet att läggas till i din lista med projekt. Du kan öppna projektet senare genom att välja Öppna från projektets -meny.
När projektet öppnas klickar du på Mellanlagra data i datasjö.
Guiden Mellanlagra data i datasjö öppnas.
I fliken Allmänt anger du ett namn och en beskrivning för mellanlagringsuppgiften för datasjö. Klicka sedan på Nästa.
Anteckning om informationNamn som innehåller snedstreck (/) eller omvända snedstreck (\) stöds inte.I fliken Välj källkoppling väljer du en koppling till källdata. Du kan också vid behov redigera kopplingsinställningarna genom att välja Redigera från menyn i kolumnen Åtgärder.
Om du inte har koppling till källdata ännu behöver du skapa en först genom att klicka på Skapa koppling längst upp till höger på fliken
Du kan filtrera listan med kopplingar med hjälp av filtren till vänster. Kopplingar kan flitreras efter källtyp, gateway, utrymme och ägare. Knappen Alla filter ovanför Du kan använda den här knappen för att stänga eller öppna panelen Filter till vänster. De aktiva filtren visas också ovanför listan med tillgängliga kopplingar.
Du kan också sortera listan genom att välja Ändrades senast, Skapades senast eller Alfabetiskt från listrutan till höger. Klicka på pilen till höger om listan för att ändra sorteringsordningen.
När du har valt en datakällkoppling kan du klicka på Testa koppling högst upp till höger på fliken (valfritt men rekommenderas) och sedan klicka på Nästa.
I fliken Välj datauppsättningar väljer du tabeller och/eller vyer som ska inkluderas i mellanlagringsuppgiften för datasjö. Du kan också använda jokertecken och skapa urvalsregler enligt beskrivningen i Välja data från en databas.
Anteckning om informationSchemanamn eller tabellnamn som innehåller snedstreck (/) eller omvända snedstreck (\) stöds inte.I fliken Välj målkoppling väljer du ett mål från listan över tillgängliga kopplingar och klickar sedan på Nästa. Avseende funktioner är fliken identisk med fliken Välj källkoppling som beskrivs tidigare.
I fliken Inställningar kan du ändra följande inställningar (valfritt) och sedan klicka på Nästa.
Uppdateringsmetod:
Sammanställning av ändringsdata (CDC): Mellanlagringsuppgiften för datareservoaren börjar med en fullständig laddning (under denna mellanlagras alla valda tabeller). Mellanlagrade data hålls sedan uppdaterade med hjälp av CDC-teknik (Change Data Capture).
Anteckning om informationCDC (Change Data Capture) av DDL-operationer stöds inte.När du arbetar med Gateway för dataflytt registreras ändringar från källan i nära realtid. När du arbetar utan Gateway för dataflytt registreras ändringar enligt schemaläggarens inställningar. Mer information finns här Schemalägga uppgifter när du arbetar utan Gateway för dataflytt.
- Ladda: Utför en fullständig laddning av data från de valda källtabellerna till målplattformen och skapar måltabellerna vid behov. Den fullständiga laddningen sker automatiskt när uppgiften startar, men kan också utföras manuellt eller schemalagt om den behöver upprepas periodiskt.
Om du väljer Sammanställning av ändringsdata (CDC) och dina data även innehåller tabeller som inte stöder CDC eller vyer kommer två datapipelines att skapas. En pipeline med alla tabeller som stöder CDC, och en annan pipeline med alla andra tabeller och vyer som använder Ladda om.
Mapp som ska användas:
Välj en av följande beroende på vilken bucketmapp du vill att filerna ska skrivas till:
- Standardmapp: Standardmappformatet är <ditt-projekt-namn>/<din-uppgifts-namn>
- Rotmapp: filerna kommer att skrivas direkt till bucketen.
Mapp: ange mappens namn. Mappen kommer att skapas under mellanlagringsuppgiften för datasjö om den inte finns.
Anteckning om information Mappnamnet får inte innehålla specialtecken (exempelvis @, #, ! och så vidare).
I fliken Sammanfattning visas en datapipeline. Välj om du vill Öppna uppgiften <namn> eller Gör ingenting. Klicka sedan på Skapa.
Beroende på vad du väljer kommer antingen uppgiften att öppnas eller en lista med projekt att visas.
Om du väljer att öppna uppgiften kommer fliken Datauppsättningar att visa struktur och metadata för de valda datatillgångstabellerna. Här ingår alla tabeller som är uttryckligt listade samt tabeller som matchar urvalsreglerna.
Klicka på Välj källdata om du vill lägga till fler tabeller från datakällan.
Ändra inställningen för uppgiften enligt beskrivningen i Inställningar för molnlagringsmål (valfritt).
Du kan utföra transformeringar på datauppsättningarna, filtrera data eller lägga till kolumner.
Se Hantera datauppsättningar för mer information.
När du har lagt till de omvandlingar du vill ha kan du validera datauppsättningarna genom att klicka på Validate datasets. Om valideringen misslyckas åtgärdar du felen innan du fortsätter.
Se Validera och justera datauppsättningarna för mer information.
När du är klar klickar du på Förbered för att katalogisera mellanlagringsuppgiften och förbereda den för körning.
När datauppgiften har förberetts klickar du på Kör.
Mellanlagringsuppgifen för datareservoaren bör nu starta. Du kan övervaka förloppet i Övervaka-vyn. Mer information finns i Övervaka en enskild datauppgift
Ställa in laddningsordning för datauppsättningar
Du kan kontrollera laddningsordningen för datauppsättningar i din datauppgift genom att tilldela en laddningsordning till varje datauppsättning. Detta kan vara användbart om du till exempel vill ladda små datauppsättningar före stora datauppsättningar.
Klicka Laddningsordning.
Välj en laddningsordning för varje datauppsättning.
Den förvalda laddningsordningen är Normal. Datauppsättningar laddas i följande ordningsföljd:
Högst
Högre
Högt
Normalt
Lågt
Lägre
Lägst
Datauppsättningar med samma prioritet laddas inte i någon särskild ordningsföljd.
Klicka på OK.
Uppdaterar metadata
Du kan uppdatera metadata i uppgiften så att den stämmer med ändringar i metadata i källan i Designvyn för en uppgift. För SaaS-program som använder Metadata manager måste Metadata manager uppdateras innan du kan uppdatera metadata i datauppgiften.
Du kan göra något av följande:
Klicka på ... och sedan på Uppdatera metadata för att uppdatera metadata för alla datauppsättningar i uppgiften.
Klicka på ... på en datauppsättning i Datauppsättningar och sedan på Uppdatera metadata för att uppdatera metadata för en enstaka datauppsättning.
Du kan visa status för uppdateringen av metadata under Uppdatera metadata i den nedre delen av skärmen. Du kan se när metadata senast uppdaterades genom att hovra över .
Förbered datauppgiften för att tillämpa ändringarna.
När du har förberett datauppgiften och ändringarna har tillämpats tas ändringarna bort från Uppdatera metadata.
Du måste förbereda lagringsåtgärder som använder den här åtgärden för att sprida ändringarna.
Om en kolumn tas bort läggs en transformation med Null-värden till för att säkerställa att lagringen inte förlorar historiska data.
Begränsningar
Ett namnbyte med en borttagen kolumn före det, i samma tidsfönster, kommer att översättas till namnbytet med den borttagna kolumnen om de är av samma datatyp och har samma datalängd.
Exempel:
Före: a b c d
Efter: a c1 d
I det här exemplet togs b bort och c bytte namn till c1 och b och c är av samma datatyp och har samma datalängd.
Detta kommer att identifieras som ett namnbyte för b till c1 och en borttagning av c.
Namnbytet för den sista kolumnen identifieras inte, även om den sista kolumnen togs bort, och den omedelbart före bytte namn.
Exempel:
Före: a b c d
Efter: a b c1
I det här exemplet togs d bort och c bytte namn till c1.
Detta kommer att identifieras som att c och d har tagits bort och att c1 har lagts till.
Nya kolumner förutsätts läggas till på slutet. Om kolumner läggs till i mitten med samma datatyp som nästa kolumn kan de tolkas som att de har tagits bort och bytt namn.
Begränsningar och överväganden vid mellanlagring av data i en datasjö
Omvandlingar har följande begränsningar:
- Omvandlingar stöds ej för kolumner med språk som skrivs från höger till vänster.
Det går inte att göra omvandlingar av kolumner som innehåller specialtecken (exempelvis #, \, /, -) i sina namn.
- Enda omvandling som stöds för LOB/CLOB-datatyper är att släppa kolumnen på målet.
- Att använda en omvandling för att döpa om en kolumn och sedan lägga till en kolumn med samma namn stöds inte.
Ändra nullbarhet stöds inte för kolumner som tas bort, antingen med direktändring eller med hjälp av en transformeringsregel. Men nya kolumner som skapas i uppgiften är som standard nullbara.