Tussenopslag van streaminggegevens naar Qlik Open Lakehouse
U kunt gegevens van een streamingbron in Amazon S3 in de tussenopslag plaatsen, klaar voor de taak Streaming Transform om deze te converteren naar de open tabelindeling Iceberg.
Tussenopslag van streaminggegevens naar een Qlik Open Lakehouse vereist een vooraf geconfigureerde Amazon S3-bucket. Qlik Open Lakehouse is specifiek geoptimaliseerd voor gegevensbronnen met een hoog volume en is compatibel met alle door Qlik ondersteunde streaminggegevensbronnen. Zie Verbinding maken met datastreams voor meer informatie over ondersteunde streamingbronnen.
Ruwe gegevens komen in de tussenopslag in Avro-indeling in S3 en de taak Streaming Transform converteert de gegevens naar de Iceberg-indeling. De Iceberg-specificatie maakt het mogelijk om gegevens op te vragen vanuit elke engine die Trino SQL native ondersteunt, bijvoorbeeld Amazon Athena, Ahana of Starburst Enterprise. Optioneel kunnen tabellen worden gespiegeld naar uw clouddatawarehouse, waar ze kunnen worden opgevraagd zonder gegevens te dupliceren.
Voorbereidingen
-
Zorg ervoor dat u Qlik Open Lakehouse hebt ingesteld. Dit omvat het maken van een netwerkintegratie, een lakehouse-cluster en bron- en doelverbindingen. Zie Qlik Open Lakehouse instellen voor meer informatie.
-
Om gegevens naar uw clouddatawarehouse te spiegelen, moet u eerst een Qlik Open Lakehouse-project maken om uw gegevens op te nemen en op te slaan met behulp van de open tabelindeling Iceberg. U kunt een taak Gegevens spiegelen toevoegen na de taak Streaming Transformation. Zie Gegevens spiegelen naar een clouddatawarehouse voor meer informatie.
Een taak voor tussenopslag van streaming maken
Om een taak voor tussenopslag van streaming te maken, doet u het volgende om eerst het project te maken:
-
Maak een project en selecteer Gegevenspijplijn in Use case.
-
Selecteer Qlik Open Lakehouse in Gegevensplatform en breng een verbinding tot stand met de gegevenscatalogus.
-
Stel een opslaggebied in bij Doelverbinding voor tussenopslag.
-
Klik op Maken om het project te maken.
Wanneer u gegevens onboardt of een taak voor tussenopslag in het project maakt, wordt er een Taak voor tussenopslag van streaming gemaakt in plaats van een taak Tussenopslag. Taken voor tussenopslag van streaming werken en gedragen zich vergelijkbaar met een taak Tussenopslag, behalve dat ze gegevens van streamingbronnen in de tussenopslag in cloudopslag plaatsen. Zie Verbinding maken met datastreams voor meer informatie.
Alle bestanden worden in de tussenopslag geplaatst in Avro-indeling. Nadat de gegevens in de tussenopslag zijn bijgewerkt, verbruikt de Taak Streaming Transformation de gegevens in de tussenopslag en werkt deze de externe tabellen bij.
Taakinformatie weergeven
Klik op in de menubalk om taakinformatie weer te geven, zoals:
-
Eigenaar
-
Ruimte
-
Gegevensplatform
-
Project-id
-
Runtime-id gegevenstaak
Bewerkingen
De volgende bewerkingen zijn beschikbaar in een taak voor tussenopslag van streaming:
-
Een kolom verwijderen
Selecteer de kolom en klik op Verwijderen.
Hiermee wordt een transformatieregel toegevoegd die de kolom verwijdert uit nieuw geladen gegevens nadat de taak is voorbereid en uitgevoerd. U kunt de kolom voor nieuwe records herstellen door de transformatieregel te verwijderen.
-
Een kolom hashen, bijvoorbeeld om gevoelige informatie te maskeren.
Selecteer Hash in de kolom.
Hiermee wordt een SHA-256-hash van de invoerkolom gegenereerd nadat deze is samengevoegd met een hash-salt-tekenreeks. U stelt de hash-salt-tekenreeks in de projectinstellingen in onder Metagegevens > Hash. Deze instelling is alleen beschikbaar in Qlik Open Lakehouse-projecten. Zie Metagegevens voor meer informatie.
Het gegevenstype wordt gewijzigd in Tekenreeks wanneer een kolom wordt gehasht. Als u ook niet-gehashte gegevens wilt behouden voor bevoorrechte gebruikers, voert u de hash later uit in een Transform-taak.
-
Gegevens filteren
Zie Een gegevensverzameling filteren voor meer informatie.
-
De naam van een gegevensverzameling wijzigen
Klik op
bij de gegevensverzameling en selecteer Naam wijzigen.
Een taak verwijderen
U kunt de gegevenstaak verwijderen als deze niet actief is en er geen afhankelijkheden zijn van downstreamtaken in hetzelfde project.
-
Klik in de Pipeline project-weergave van het project op
bij een taak en selecteer Verwijderen.
Artefacten (tabellen en weergaven) die door de taak zijn gemaakt, worden ook verwijderd, tenzij u ervoor kiest om ze te behouden.
Instellingen
Zie Instellingen voor Streaming lake-tussenopslag voor meer informatie over taakinstellingen.