Gå till huvudinnehåll Gå till ytterligare innehåll

Mellanlagringsdata till Qlik Open Lakehouse

Data mellanlagras i Amazon S3, redo för lagringsdatauppgiften att konvertera dem till Icebergs öppna tabellformat. Du kan mellanlagra data från datakällor som stöds av Qlik.

Mellanlagring av data till en Qlik Open Lakehouse kräver en förkonfigurerad Amazon S3 bucket. Qlik Open Lakehouse är särskilt optimerat för strömmande datakällor med stora volymer och är kompatibelt med alla datakällor som stöds av Qlik. Mellanlagring av data i CSV-format i S3. Lagringsdatauppgiften konverterar data till Iceberg-format och kopierar dem till Parquet-filer. Iceberg-specifikationen gör det möjligt att ställa frågor om data från alla motorer som har inbyggt stöd för Trino SQL, till exempel Amazon Athena, Ahana eller Starburst Enterprise. Som tillval kan tabeller speglas till Snowflake där de kan användas utan att data kopieras.

Mellanlagring av data till ett Qlik Open Lakehouse är tillgängligt i projekt med en AWS Glue datakatalog-målkoppling.

Förberedelser

  • För att spegla data till Snowflake måste du först skapa ett Qlik Open Lakehouse-projekt för att ta in dina data och lagra dem med hjälp av Icebergs öppna tabellformat. Du kan lägga till en speglad datauppgift efter Lagringsdatauppgiften. För att utföra datatransformeringar skapar du ett Snowflake-projekt som använder Qlik Open Lakehouse-projektet som källa. Mer information finns i Spegling av data till ett molndatalager.

  • Även om du kan konfigurera dina kopplingsinställningar för källan och målet i uppgiftskonfigureringsguiden för att förenkla konfigurationsprocessen, rekommenderar vi att du gör det innan du skapar uppgiften.

Skapa en mellanlagringsuppgift för datasjö

Gör följande för att skapa en mellanlagringsuppgift för datasjö:

  1. Skapa ett projekt och välj Datapipeline i Användningsfall.

  2. Välj Qlik Open Lakehouse i dataplattformen och upprätta en koppling till datakatalogen.

  3. Sätt upp en lagringsplats i Koppling till mål för mellanlagring.

  4. Klicka på Skapa för att skapa projektet.

När du introducerar data eller skapar en mellanlagringsuppgift i projektet skapas en Mellanlagring i datasjö-uppgift i stället för en Mellanlagringsuppgift. Mellanlagring i datasjö-uppgifter fungerar och beter sig i stort sett som Mellanlagringsuppgifter förutom att de mellanlagrar data i molnet. Mer information finns i Mellanlagra data från datakällor.

Alla filer mellanlagras i CSV-format. När mellanlagringsdata har uppdaterats kommer den lagringsuppgift som använder mellanlagringsuppgiften att uppdatera de exgterna tabellerna.

Inställningar

Se Inställning för mellanlagring i datasjö för mer information om uppgiftsinställningar.

Begränsningar

  • Mellanlagringsdata partitioneras inte i bucket på grund av lagringsuppgiften som körs varje minut. Därför kan datapartitionsfrekvensen inte uppdateras i uppgiftsinställningarna.

  • Även om mellanlagringsdata från SaaS-källor är schemalagd, kör lagringsuppgiften minibatcher varje minut. Detta kräver ett aktivt datasjöhuskluster till minimal kostnad.

  • Om ett primärnyckelvärde ändras markeras poster med den ursprungliga nyckeln som borttagna och raden som innehåller det ändrade nyckelvärdet markeras som infogat.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!