Strömmande data
Introduktionsprocessen överför data från källan och lagrar den i Iceberg-tabeller. Ändringar från de strömmande datakällorna tillämpas kontinuerligt på lagringstabellerna i nära realtid.
Introducera data
Data introduceras inom ett pipelineprojekt och datamängder lagras på den S3-plats som definieras i projektinställningarna.
-
I projektet klickar du på Skapa och sedan på Introducera data.
-
Lägg till ett Uppgiftsnamn och en valfri Beskrivning för introduktionen.
Klicka på Nästa.
-
Välj källkoppling.
Du kan välja en befintlig strömmande källkoppling eller skapa en ny koppling till källan.
Mer information finns i Ansluta till dataströmmar
Klicka på Nästa och följ anvisningarna nedan för din datakälla.
Välja data
Apache Kafka och Amazon Kinesis
Listan visar tillgängliga Kafka-ämnen eller Kinesis-strömmar från värden som definierats i källkopplingen.
När du väljer dina ämnen/strömmar kan du välja specifika datauppsättningar, eller använda urvalsregler för att inkludera eller exkludera grupper av datauppsättningar:
-
Använd % som jokertecken för att definiera urvalskriterier för datamängderna.
-
%.% definierar alla datamängder i alla strömmar.
Om ämnen väljs med hjälp av urvalsregler kan du välja om alla datamängder ska läsas in i samma måltabell eller om en separat måltabell ska skapas för varje källämne:
-
Som standard härleds måltabellens Iceberg-namn från ämnesnamnet, formaterat för att följa namngivningskonventioner, till exempel gemener, borttagna mellanslag, bindestreck ersatta med understreck. I Definiera måldatamängdsnamn kan du redigera namnet på måltabellen
-
När urvalsregler används för att läsa in flera ämnen i en enda tabell måste du ange målnamnet.
-
När urvalsregler används och data läses in i separata tabeller (en datauppsättning per ämne) är standardmålnamnen ämnesnamnen. I det här skedet kan du inte redigera namnen i guiden, men detta kan göras senare i mellanlagringsuppgiften.
-
Om en regel är konfigurerad för att välja ämnen för inmatning, mellanlagras även nya ämnen som uppfyller regelkriterierna om alternativet Nytt ämne > Lägg till i mål under schemautveckling i inställningarna för mellanlagringsuppgiften är markerat.
Välj en eller flera datauppsättningar och klicka på Lägg till valda strömmar. Du kan se de tillagda datauppsättningarna under Uttryckligen valda strömmar. Klicka på Nästa.
Amazon S3
Katalogbläddraren visar en lista över alla kataloger som finns i S3-bucket för din källkoppling.
-
Välj de kataloger som ska användas vid mellanlagring av data:
-
För varje katalog, i Lägg till sökväg, ange sökvägen och filnamnsmönstret:
-
Använd * som ett jokertecken för att matcha valfritt tecken.
-
För att ange ett datumformat, använd <yyyy> som platshållare för det fyrställiga året, <MM> som platshållare för den tvåställiga månaden, <dd> som platshållare för den tvåställiga dagen och <HH> som platshållare för den tvåställiga timmen. Exempel:
-
MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv
-
MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv
-
-
-
-
Klicka på Förhandsgranska för att öppna dialogrutan Förhandsgranska data. En lista över inkluderade och uteslutna filer visas.
-
Klicka på Validera för att kontrollera data.
-
I Definiera måldatasetnamn anger du ett namn för att mappa ämnet till måltabellen Iceberg. Klicka på Nästa.
Välja innehållstypen
Välj innehållstyp för källhändelser.
-
Välj vilken typ av händelser du matar in i Välj typ av datahändelser.
-
Mer information finns i Ansluta till dataströmmar.
Den valda innehållstypen gäller för alla ämnen. Du måste skapa en ny uppgift för varje innehållstyp du vill mata in.
-
Expandera Verifiera att händelserna har lästs in korrekt för att bekräfta att data kan parsas. Du måste säkerställa att data är korrekt i detta skede, annars måste du återskapa pipelinen och ladda data igen. Använd Välj datamängd för att granska specifika datamängder och kontrollera eventuella varningar som kan påverka inläsningen av data. Klicka på ögonikonen bredvid valfri strukturkolumn för att visa data.
-
Klicka på Nästa.
Ställa in inmatningsegenskaper
Konfigurera inställningarna för din pipeline:
-
Läsa in data från
-
Börja från den tidigaste händelsen: mata in all historisk data.
-
Börja från nu: mata in ny data som anländer från den tidpunkt då pipelinen startar.
-
-
Avnästling av kolumner
-
Behåll kapslade kolumner: inga transformationer tillämpas.
-
Dela upp i separata kolumner: data delas upp i separata kolumner.
-
-
Ladda inställningar
-
Endast tillägg: generellt det bästa alternativet för händelsedata då den oftast har en kort livslängd och inte uppdateras, till exempel, Order.
-
Sammanfoga: detta passar bäst för data som uppdateras över tid, till exempel Kunder.
-
-
Partitionerad måltabell
Alternativet för partitionering av måltabell gäller alla tabeller i pipelinen. Du kan åsidosätta detta senare på tabellnivå för anpassad partitionering.
-
Ingen partitionering: tabeller skapas utan någon partitionering.
-
Partitionering utifrån inhämtning av händelse: tabeller partitioneras utifrån det datum då händelser inhämtas.
-
-
Klicka på Nästa.
Sammanfattning
Sammanfattningsskärmen ger en visuell översikt över din pipeline:
-
Valfritt, för Streaming-mellanlagring och Streaming Transform-uppgiften kan du klicka på Redigera namn och beskrivning för att ange nya värden.
-
Välj alternativet för vad du vill ska hända När pipelinen har skapats.
-
När du har konfigurerat alla inställningar klickar du på Skapa för att skapa pipeline-projektet.
-
När projektet visas kan du förbereda och köra varje uppgift för att börja mata in data.
-
Förbered och kör Streaming-mellanlagringsuppgiften.
Mer information finns i Mellanlagring av strömmande data till Qlik Open Lakehouse.
-
Förbered och kör Streaming-transformeringsuppgiften.
Mer information finns i Lagra strömmande datauppsättningar.
-