Streaminggegevens tijdelijk opslaan in Qlik Open Lakehouse
U kunt gegevens van een streamingbron opslaan in Amazon S3, klaar voor de Streaming Transform-taak om deze te converteren naar de Iceberg open tabelindeling.
Voor tussenopslag van streaminggegevens naar een Qlik Open Lakehouse is een vooraf geconfigureerde Amazon S3-bucket nodig. Qlik Open Lakehouse is specifiek geoptimaliseerd voor gegevensbronnen met hoge volumes en compatibel met alle door Qlik ondersteunde streaminggegevensbronnen. Voor meer informatie over ondersteunde streamingbronnen, zie Verbinding maken met datastreams.
Ruwe gegevens komen in Avro-indeling terecht in S3 en de Streaming Transform-taak converteert de gegevens naar Iceberg-indeling. Met de Iceberg-specificatie kunnen gegevens worden opgevraagd vanaf elke engine die Trino SQL ondersteunt, bijvoorbeeld Amazon Athena, Ahana of Starburst Enterprise. Optioneel kunnen tabellen worden gespiegeld naar uw clouddatawarehouse, waar ze kunnen worden opgevraagd zonder gegevens te dupliceren.
Voorbereidingen
-
Zorg ervoor dat u Qlik Open Lakehouse hebt ingesteld. Dit omvat het maken van een netwerkintegratie, een lakehouse-cluster en bron- en doelverbindingen. Ga voor meer informatie naar Qlik Open Lakehouse instellen.
-
Om gegevens naar uw clouddatawarehouse te spiegelen, moet u eerst een Qlik Open Lakehouse-project maken om uw gegevens op te nemen en op te slaan met behulp van de Iceberg open tabelindeling. U kunt een gegevens spiegelen-taak toevoegen na de Streaming Transformation-taak. Ga voor meer informatie naar Gegevens spiegelen naar een clouddatawarehouse.
Een Streaming tussenopslagtaak maken
Om een Streaming tussenopslagtaak te maken, volgt u de volgende stappen om eerst het project te maken:
-
Maak een project en selecteer Gegevenspijplijn in Gebruiksscenario.
-
Selecteer Qlik Open Lakehouse in Gegevensplatform en breng een verbinding met de gegevenscatalogus tot stand.
-
Stel een opslaggebied in Doelverbinding voor tussenopslag in.
-
Klik op Maken om het project aan te maken.
Wanneer u gegevens inlaadt of een tussenopslagtaak maakt in het project, wordt er een Streaming tussenopslagtaak gemaakt in plaats van een Tussenopslagtaak. Streaming tussenopslagtaken werken en gedragen zich vergelijkbaar met een Tussenopslagtaak, behalve dat ze gegevens opslaan in cloudopslag vanuit streamingbronnen. Ga voor meer informatie naar Verbinding maken met datastreams.
Alle bestanden worden opgeslagen in Avro-indeling. Nadat de tussenopslaggegevens zijn bijgewerkt, verbruikt de Streaming transformatietaak de tussenopslaggegevens en werkt de externe tabellen bij.
Taakinformatie weergeven
Klik op in de menubalk om taakinformatie weer te geven, zoals:
-
Eigenaar
-
Ruimte
-
Gegevensplatform
-
Project-id
-
Runtime-id gegevenstaak
Bewerkingen
De volgende bewerkingen zijn beschikbaar in een streaming tussenopslagtaak:
-
Een kolom laten vervallen
Selecteer de kolom en klik op Verwijderen.
Hiermee wordt een transformatieregel toegevoegd die de kolom verwijdert uit nieuw geladen gegevens nadat de taak is voorbereid en uitgevoerd. U kunt de kolom herstellen voor nieuwe records door de transformatieregel te verwijderen.
-
Een kolom hashen, bijvoorbeeld om gevoelige informatie te maskeren.
Selecteer Hash in de kolom.
Hiermee wordt een SHA-256-hash van de invoerkolom gegenereerd na deze te hebben samengevoegd met de Hash salt string. Hash salt string is een projectinstelling, beschikbaar in Qlik Open Lakehouse projecten.
Gegevenstype wordt gewijzigd in Tekenreeks wanneer een kolom wordt gehasht. Als u niet-gehashte gegevens ook wilt bewaren voor bevoegde gebruikers, voert u de hash later uit in een Transform-taak.
-
Gegevens filteren
Ga voor meer informatie naar Een gegevensverzameling filteren.
-
De naam van een gegevensverzameling wijzigen
Klik op
op de gegevensverzameling en selecteer Naam wijzigen.
Instellingen
Voor meer informatie over taakinstellingen gaat u naar Instellingen voor Streaming lake-tussenopslag