Verbinding maken met datastreams

De volgende streamingservices worden ondersteund in Qlik Open Lakehouse projecten. Gegevens van gebeurtenissen worden continu opgenomen om bijna realtime beschikbaarheid te garanderen voor downstream-gegevensintegratie, -analyse en AI, waardoor pijplijnen met lage latentie mogelijk worden die de meest actuele operationele activiteit weerspiegelen.

Streamingservices zoals Apache Kafka en Amazon Kinesis bieden duurzame pijplijnen met hoge doorvoer voor het vastleggen van operationele gebeurtenissen zodra deze zich voordoen. In tegenstelling tot bestandsgebaseerde bronnen die afhankelijk zijn van batchopname, leveren streamingbronnen continu gegevens naarmate gebeurtenissen worden geproduceerd, waardoor bijna realtime verwerking mogelijk is zonder te wachten tot bestanden worden gegenereerd of gepland. Producenten publiceren gestructureerde of semi-gestructureerde berichten die hun schema behouden en partitionering ondersteunen. Alle updates en verwijderingen voor dezelfde record moeten dezelfde partitiesleutel gebruiken. Kafka en Kinesis garanderen de volgorde alleen binnen één partitie of shard, niet over het hele onderwerp of de hele stream, dus het gebruik van een consistente partitiesleutel zorgt ervoor dat wijzigingen voor een bepaalde record in de juiste volgorde worden verwerkt. Qlik ondersteunt ook Amazon S3 als een streamingbron voor het continu opnemen van gebeurtenisgegevens.

Streaming-opname versus batch-opname

Het verschil tussen streaming- en batchgegevensbronnen is als volgt:

Met beide bronnen worden gebeurtenissen elke minuut efficiënt opgenomen, wat verwerking met lage latentie en bijna-realtime analyses ondersteunt.
Bij niet-streamingbronnen vindt eerst een volledige lading van de bestaande gegevens plaats en worden daarna wijzigingen opgenomen. U kunt ook de volledige lading gegevens opnieuw laden vanuit de bron.
Bij streamingbronnen is er geen duidelijk onderscheid tussen de initiële lading en latere gebeurtenissen. Qlik kan retentie beheren en ondersteunt ook partities.

Streamingtaken worden gefactureerd op basis van computergebruik (vCores x runtime) in plaats van datavolume.

In een Qlik Open Lakehouse project kunnen streamingbronnen alleen worden gebruikt met de Streaming tussenopslagtaak en de Streaming transformatietaak:

Streaminggegevens worden opgenomen met behulp van een Streaming tussenopslagtaak en in plaats van discrete bestanden te verwerken, leest de Streaming tussenopslagtaak gebeurtenissen zodra deze binnenkomen, plaatst de gegevens in Amazon S3 en bewaart gebeurtenissen als Avro-bestanden. Deze aanpak behoudt schema-evolutie, ondersteunt complexe gegevenstypen zoals structs, en biedt efficiënte opslag met geoptimaliseerde queryprestaties, terwijl een continu opnamemodel wordt gehandhaafd.
Wanneer u gegevens van een streamingbron inlaadt, wordt automatisch een Streaming-transformatie taak toegevoegd voor elke dataset die in Iceberg-indeling wordt opgeslagen. Optioneel kan de Streaming-transformatie taak worden gebruikt om structuren te standaardiseren, event-payloads te verrijken of gegevens af te stemmen op downstream-consumptiemodellen.
Een Gegevensspiegeltaak maakt het mogelijk om datasets van streamingbronnen te spiegelen naar clouddatawarehouses, zodat downstream-systemen streaming-events kunnen verbruiken zonder gegevens te dupliceren.Ga voor meer informatie naar Gegevens spiegelen naar een clouddatawarehouse.

Beperkingen

De volgende beperkingen zijn van toepassing op alle gegevensbronnen:

Als uw bestanden van verschillende typen zijn, wat kan gebeuren wanneer ze afkomstig zijn van meerdere bronnen of versies, houdt de transformatietaak die is gemaakt met behulp van één voorbeeldbestand (bijvoorbeeld tijdens onboarding) niet automatisch rekening met die verschillen.
Als u de gegevenstypen in de tussenopslagtaak wijzigt, bijvoorbeeld omdat u de gegevens moet hashen, zorg er dan voor dat de transformatiegegevenstypen overeenkomen met de nieuwe gegevenstypen.

Ondersteunde bronnen

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!

Geef hier uw feedback