Mellanlagringsdata till Qlik Open Lakehouse

Data mellanlagras i Amazon S3, redo för lagringsdatauppgiften att konvertera dem till Icebergs öppna tabellformat. Du kan mellanlagra data från datakällor som stöds av Qlik.

Mellanlagring av data till en Qlik Open Lakehouse kräver en förkonfigurerad Amazon S3 bucket. Qlik Open Lakehouse är särskilt optimerat för strömmande datakällor med stora volymer och är kompatibelt med alla datakällor som stöds av Qlik. Mellanlagring av data i CSV-format i S3. Lagringsdatauppgiften konverterar data till Iceberg-format och kopierar dem till Parquet-filer. Iceberg-specifikationen gör det möjligt att ställa frågor om data från alla motorer som har inbyggt stöd för Trino SQL, till exempel Amazon Athena, Ahana eller Starburst Enterprise. Som tillval kan tabeller speglas till Redshift eller Snowflake där de kan användas utan att data kopieras.

Mellanlagring av data till ett Qlik Open Lakehouse är tillgängligt i projekt med en AWS Glue datakatalog-målkoppling.

Förberedelser

För att spegla data till ditt molndatalager måste du först skapa ett Qlik Open Lakehouse-projekt för att mata in dina data och lagra dem med hjälp av Icebergs öppna tabellformat. Du kan lägga till en speglad datauppgift efter Lagringsdatauppgiften. För att utföra datatransformeringar skapar du ett Redshift- eller Snowflake-projekt som använder Qlik Open Lakehouse-projektet som källa. Mer information finns i Spegla data till ett molndatalager.
Även om du kan konfigurera dina kopplingsinställningar för källan och målet i uppgiftskonfigureringsguiden för att förenkla konfigurationsprocessen, rekommenderar vi att du gör det innan du skapar uppgiften.

Skapa en mellanlagringsuppgift för datasjö

Gör följande för att skapa en mellanlagringsuppgift för datasjö:

Skapa ett projekt och välj Datapipeline i Användningsfall.
Välj Qlik Open Lakehouse i dataplattformen och upprätta en koppling till datakatalogen.
Sätt upp en lagringsplats i Koppling till mål för mellanlagring.
Klicka på Skapa för att skapa projektet.

När du introducerar data eller skapar en mellanlagringsuppgift i projektet skapas en Mellanlagring i datasjö-uppgift i stället för en Mellanlagringsuppgift. Mellanlagring i datasjö-uppgifter fungerar och beter sig i stort sett som Mellanlagringsuppgifter förutom att de mellanlagrar data i molnet. Mer information finns i Mellanlagring av data från datakällor.

Alla filer mellanlagras i CSV-format. När mellanlagringsdata har uppdaterats kommer den lagringsuppgift som använder mellanlagringsuppgiften att uppdatera de exgterna tabellerna.

Visa uppgiftsinformation

Klicka på i menyraden för att visa uppgiftsinformation, till exempel:

Ägare
Utrymme
Dataplattform
Projekt-id
Körnings-ID för datauppgift

Inställningar

Se Inställningar för Lake-mellanlagring för mer information om uppgiftsinställningar.

Begränsningar

Mellanlagringsdata partitioneras inte i bucket på grund av lagringsuppgiften som körs varje minut. Därför kan datapartitionsfrekvensen inte uppdateras i uppgiftsinställningarna.
Även om mellanlagringsdata från SaaS-källor är schemalagd, kör lagringsuppgiften minibatcher varje minut. Detta kräver ett aktivt datasjöhuskluster till minimal kostnad.
Om ett primärnyckelvärde ändras markeras poster med den ursprungliga nyckeln som borttagna och raden som innehåller det ändrade nyckelvärdet markeras som infogat.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här