Introduktion av data
Det första steget för att skapa en datapipeline i ett Qlik Open Lakehouse-projekt är att introducera data. Denna process omfattar överföring av data från källan och lagring av datauppsättningar i optimerade Iceberg-tabeller. Ändringar från datakällorna tillämpas kontinuerligt på lagringstabellerna i effektiva minibatcher.
Introduktionen skapas i en enda åtgärd, men utförs i två steg.
-
Mellanlagring av data
I detta ingår att kontinuerligt överföra data från den lokala datakällan till ett mellanlagringsområde med hjälp av en datauppgift för mellanlagring.
Mellanlagra data från datakällor
Du kan också mellanlagra data till ett sjöhus, där data mellanlagras till S3-lagring.
-
Lagra datauppsättningar
I detta ingår att avläsa den initiala laddningen med mellanlagringsdata eller inkrementella laddningar och tillämpa data i läsoptimerat format med en lagringsdatauppgift.
När du har introducerat data kan du använda de lagrade datauppsättningarna på flera olika sätt.
-
Du kan använda datauppsättningarna i en analysapp.
-
Du kan spegla data till Snowflake genom att lägga till en speglingsdatauppgift direkt till lagringsdatauppgiften.
-
Du kan transformera data i Snowflake genom att skapa en projektöverskridande pipeline som använder data från ditt introduktionsprojekt.
Introducera data
Du börjar introducera data i ett projekt. Datauppsättningarna kommer att lagras på den S3-plats som har definierats i projektet. Mer information om projekt finns i Skapa ett datapipelineprojekt.
-
I projektet klickar du på Skapa och sedan på Introducera data.
Anteckning om tipsDu kan också klickapå en befintlig källa i projektet och klicka sedan på Introducera data.
-
Lägg till Namn och Beskrivning för introduktionen.
Klicka på Nästa.
-
Välj källkoppling.
Du kan välja en befintlig källkoppling eller skapa en ny koppling till källan.
Mer information finns i Konfigurera kopplingar till datakällor.
Klicka på Nästa.
-
Välj data som ska laddas.
Mer information finns i Välja data.
Klicka på Nästa.
Inställningar visas. Här kan du välja uppdateringsmetod och historikinställningar.
-
Välj vilken metod som ska användas för att uppdatera data i Uppdateringsmetod.
-
Sammanställning av ändringsdata (CDC)
Om dina data innehåller tabeller som inte stöder CDC, eller visningar, kommer två datapipelines att skapas: en pipeline med alla tabeller som stöder CDC, och en annan pipeline med alla andra tabeller och vyer som använder Ladda om och jämför.
-
Ladda och jämför
-
-
Välj om du vill replikera historiken för tidigare data i tillägg till aktuell data i Historik.
-
Klicka på Nästa när du är klar.
-
Förhandsgranska de datauppgifter som skapas för att introducera data och byt namn på dem om du vill.
Anteckning om tipsNamnen används när databasscheman namnges i lagringsdatauppgiften. Överväg att använda unika namn för att undvika konflikter med datauppgifter i andra projekt som använder samma dataplattform. -
Välj om du vill öppna någon av de datauppgifter som skapats, eller återgå till projektet.
Klicka på Slutför när du är klar.
-
Onboarding-datauppgifterna är nu skapade. För att börja replikera data behöver du:
-
Förbered och kör dataarbetsuppgiften för mellanlagringsdatauppgiften.
Mer information finns i Mellanlagra data från datakällor.
-
Förbered och kör lagringsdatauppgiften.
Mer information finns i Lagra datauppsättningar.
Välja data
Du kan välja specifika tabeller eller vyer eller använda urvalsregler för att inkludera eller utesluta grupper med tabeller.
Använd % som jokertecken för att definiera urvalskriterier för scheman och tabeller.
-
%.% definierar alla tabeller i alla scheman.
-
Public.% definierar alla tabeller i schemat Public.
I Urvalskriterier får du en förhandsgranskning baserat på ditt urval.
Nu kan du göra något av följande:
-
Skapa en regel för att inkludera eller utesluta en grupp med tabeller baserat på urvalskriterierna.
Klicka på Lägg till regel från urvalskriterier för att skapa en regel och välj antingen Inkludera eller Uteslut.
Du kan se regeln under Urvalsregler.
-
Välj en eller flera datauppsättningar och klicka på Lägg till valda datauppsättningar.
Du kan se de tillagda datauppsättningarna under Uttryckligen valda datauppsättningar.
Urvalsreglerna gäller bara för den aktuella uppsättningen med tabeller och vyer, inte för tabeller och vyer som läggs till i framtiden.