Mellanlagra strömmande data till Qlik Open Lakehouse
Du kan mellanlagra data från en strömmande källa i Amazon S3, redo för uppgiften Strömmande transformering att konvertera den till det öppna tabellformatet Iceberg.
Mellanlagring av strömmande data till en Qlik Open Lakehouse kräver en förkonfigurerad Amazon S3-bucket. Qlik Open Lakehouse är särskilt optimerad för datakällor med stora volymer och är kompatibel med alla strömmande datakällor som stöds av Qlik. För mer information om strömmande källor som stöds, se Ansluta till dataströmmar.
Rådata mellanlagras i Avro-format i S3 och uppgiften Strömmande transformering konverterar data till Iceberg-format. Iceberg-specifikationen gör det möjligt att ställa frågor mot data från valfri motor som har inbyggt stöd för Trino SQL, till exempel Amazon Athena, Ahana eller Starburst Enterprise. Alternativt kan tabeller speglas till ditt molndatalager där de kan frågas utan att data dupliceras.
Förberedelser
-
Se till att du har konfigurerat Qlik Open Lakehouse. Detta inkluderar att skapa en nätverksintegration, ett lakehouse-kluster samt käll- och målkopplingar. För mer information, se Konfigurera Qlik Open Lakehouse.
-
För att spegla data till ditt molndatalager måste du först skapa ett Qlik Open Lakehouse-projekt för att importera dina data och lagra dem med det öppna tabellformatet Iceberg. Du kan lägga till en uppgift för att spegla data efter uppgiften Strömmande transformering. För mer information, se Spegla data till ett molndatalager.
Skapa en uppgift för strömmande mellanlagring
För att skapa en uppgift för strömmande mellanlagring gör du följande för att först skapa projektet:
-
Skapa ett projekt och välj Datapipeline under Användningsfall.
-
Välj Qlik Open Lakehouse under Dataplattform och upprätta en koppling till datakatalogen.
-
Konfigurera ett lagringsutrymme under Målkoppling för mellanlagring.
-
Klicka på Skapa för att skapa projektet.
När du introducerar data eller skapar en mellanlagringsuppgift i projektet skapas en Uppgift för strömmande mellanlagring i stället för en Mellanlagring-uppgift. Uppgifter för strömmande mellanlagring fungerar och beter sig på liknande sätt som en Mellanlagring-uppgift, förutom att de mellanlagrar data till molnlagring från strömmande källor. För mer information, se Ansluta till dataströmmar.
Alla filer mellanlagras i Avro-format. Efter att mellanlagringsdata har uppdaterats konsumerar Uppgiften Strömmande transformering mellanlagringsdata och uppdaterar de externa tabellerna.
Visa uppgiftsinformation
Klicka på i menyraden för att visa uppgiftsinformation, till exempel:
-
Ägare
-
Utrymme
-
Dataplattform
-
Projekt-id
-
Körnings-ID för datauppgift
Åtgärder
Följande åtgärder är tillgängliga i en uppgift för strömmande mellanlagring:
-
Ta bort en kolumn
Välj kolumnen och klicka på Ta bort.
Detta lägger till en transformeringsregel som tar bort kolumnen från nyligen inlästa data efter att uppgiften har förberetts och körts. Du kan återställa kolumnen för nya poster genom att ta bort transformeringsregeln.
-
Hasha en kolumn, till exempel för att maskera känslig information.
Välj Hash i kolumnen.
Detta genererar en SHA-256-hash av indatakolumnen efter att den har sammanfogats med en hash-saltsträng. Du ställer in hash-saltsträngen i projektinställningarna under Metadata > Hash. Den här inställningen är endast tillgänglig i Qlik Open Lakehouse-projekt. För mer information, se Metadata
Datatypen ändras till Sträng när en kolumn hashas. Om du vill behålla icke-hashade data även för behöriga användare, utför hashen senare i en transformeringsuppgift.
-
Filtrera data
För mer information, se Filtrera en datauppsättning.
-
Byta namn på en datauppsättning
Klicka på
på datauppsättningen och välj Byt namn.
Ta bort en uppgift
Du kan ta bort datauppgiften om den inte körs och det inte finns några beroenden till efterföljande uppgifter i samma projekt.
-
I projektvyn Pipelineprojekt klickar du på
på en uppgift och väljer Ta bort.
Artefakter (tabeller och vyer) som skapats av uppgiften kommer också att tas bort, om du inte väljer att behålla dem.
Inställningar
För mer information om uppgiftsinställningar, se Inställningar för mellanlagring av strömmande datasjö