Mellanlagring av strömmande data till Qlik Open Lakehouse
Data mellanlagras i Amazon S3, redo för Streaming Transform-uppgiften att konvertera dem till Icebergs öppna tabellformat. Du kan mellanlagra data från strömmande datakällor som stöds av Qlik.
Mellanlagring av strömmande data till en Qlik Open Lakehouse kräver en förkonfigurerad Amazon S3 bucket. Qlik Open Lakehouse är särskilt optimerat för datakällor med stora volymer och är kompatibelt med alla strömmande datakällor som stöds av Qlik. Mer information om strömmande källor som stöds finns i Ansluta till dataströmmar.
Rådata hamnar i Avro-format i S3 och uppgiften Streaming Transform konverterar data till Iceberg-format. Iceberg-specifikationen gör det möjligt att ställa frågor om data från alla motorer som har inbyggt stöd för Trino SQL, till exempel Amazon Athena, Ahana eller Starburst Enterprise. Som tillval kan tabeller speglas till ditt molndatalager där de kan användas utan att data kopieras.
Mellanlagring av data till ett Qlik Open Lakehouse är tillgängligt i projekt med en AWS Glue datakatalog-målkoppling.
Förberedelser
-
Ett lagrings-lakehouse-kluster krävs för att köra inmatningen och måste konfigureras innan du skapar ditt projekt.
-
Även om du kan konfigurera dina kopplingsinställningar för källan och målet i konfigurationsguiden, för att förenkla konfigurationsproceduren, rekommenderas det att göra detta innan du skapar uppgiften.
-
För att spegla data till ditt molndatalager måste du först skapa ett Qlik Open Lakehouse-projekt för att ta in dina data och lagra dem med hjälp av Icebergs öppna tabellformat. Du kan lägga till en speglad datauppgift efter Streaming Transformation-uppgiften. Mer information finns i Spegling av data till ett molndatalager.
Skapa en Streaming mellanlagringsuppgift
För att skapa en Streaming mellanlagringsuppgift, gör följande för att först skapa projektet:
-
Skapa ett projekt och välj Datapipeline i Användningsfall.
-
Välj Qlik Open Lakehouse i dataplattformen och upprätta en koppling till datakatalogen.
-
Sätt upp en lagringsplats i Koppling till mål för mellanlagring.
-
Välj Storage lakehouse-kluster för att utföra inmatning och optimering av data.
-
Klicka på Skapa för att skapa projektet.
När du introducerar data eller skapar en mellanlagringsuppgift i projektet, skapas en Strömmande mellanlagringsuppgift i stället för en Mellanlagringsuppgift. Strömmande mellanlagringsuppgifter fungerar och beter sig på liknande sätt som en Mellanlagringsuppgift, förutom att de mellanlagrar data till molnlagring från strömmande källor. Mer information finns i Ansluta till dataströmmar.
Alla filer mellanlagras i Avro-format. När mellanlagringsdata har uppdaterats, konsumerar den Strömmande transformationsuppgiften mellanlagringsdata och uppdaterar de externa tabellerna.
Inställningar
Se Inställningar för mellanlagring av strömmande datasjö för mer information om uppgiftsinställningar