Ansluta till dataströmmar

Följande strömningstjänster stöds i Qlik Open Lakehouse-projekt. Händelsedata matas kontinuerligt in för att säkerställa tillgänglighet nära realtid för nedströms dataintegration, analys och AI, vilket möjliggör pipelines med låg latens som återspeglar den mest aktuella operativa aktiviteten.

Strömningstjänster som Apache Kafka och Amazon Kinesis tillhandahåller hållbara pipelines med hög genomströmning för att fånga operativa händelser när de inträffar. Till skillnad från filbaserade källor som förlitar sig på batchinmatning, levererar strömningskällor data kontinuerligt när händelser produceras, vilket möjliggör bearbetning nära realtid utan att vänta på att filer ska genereras eller schemaläggas. Producenter publicerar strukturerade eller semistrukturerade meddelanden som behåller sitt schema och stöder partitionering. Alla uppdateringar och borttagningar för samma post måste använda samma partitionsnyckel. Kafka och Kinesis garanterar ordning endast inom en enskild partition eller shard, inte över hela ämnet eller strömmen, så att använda en konsekvent partitionsnyckel säkerställer att ändringar för en given post bearbetas i rätt sekvens. Qlik stöder även Amazon S3 som en strömmande källa för kontinuerlig inmatning av händelsedata.

Strömmande inmatning kontra batchinmatning

Skillnaden mellan strömmande och batch-datakällor är följande:

Med båda källorna matas händelser in effektivt varje minut, vilket stöder bearbetning med låg latens och analys i nära realtid.
Med icke-strömmande källor sker först en fullständig laddning av befintlig data och sedan matas ändringar in. Du kan också ladda om den fullständiga laddningsdatan från källan.
Med strömmande källor finns det ingen tydlig skillnad mellan initial laddning och senare händelser. Qlik kan hantera kvarhållning och stöder även partitioner.

Strömningsuppgifter faktureras baserat på beräkningsanvändning (vCores x körtid) snarare än datavolym.

I ett Qlik Open Lakehouse projekt kan strömningskällor endast användas med Strömmande mellanlagringsuppgift och Strömmande transformeringsuppgift:

Strömmande data matas in med hjälp av en Strömmande mellanlagringsuppgift och istället för att bearbeta diskreta filer läser den Strömmande mellanlagringsuppgiften händelser när de anländer, mellanlagrar data i Amazon S3 och sparar händelser som Avro-filer. Denna metod bevarar schemautveckling, stöder komplexa datatyper som strukturer och ger effektiv lagring med optimerad frågeprestanda samtidigt som en kontinuerlig inmatningsmodell bibehålls.
När du lägger till data från en strömmande källa läggs en strömtransformationsuppgift automatiskt till för varje datamängd som ska lagras i Iceberg-format. Alternativt kan strömtransformationsuppgiften användas för att standardisera strukturer, berika händelsenyttolaster eller anpassa data till nedströms förbrukningsmodeller.
En dataspeglingsuppgift gör det möjligt att spegla datamängder från strömmande källor till molndatalager, vilket gör att nedströmsystem kan konsumera strömmande händelser utan att duplicera data. Mer information finns i Spegla data till ett molndatalager.

Begränsningar

Följande begränsningar gäller för alla datakällor:

Om dina filer är av olika typer, vilket kan inträffa när de kommer från flera källor eller versioner, tar transformationsuppgiften som skapats med en enda exempelfil (till exempel under introduktionen) inte automatiskt hänsyn till dessa skillnader.
Om du ändrar datatyperna i mellanlagringsuppgiften, till exempel för att du behöver hasha data, se till att transformationsdatatyperna matchar de nya datatyperna.

Källor som stöds

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här