Introduktion av data
Det första steget för att skapa en datapipeline i ett Qlik Open Lakehouse-projekt är att introducera data. Denna process omfattar överföring av data från källan och lagring av datauppsättningar i optimerade Iceberg-tabeller.
Introduktionen skapas i en enda åtgärd, men utförs i två steg. Datakällstypen, antingen CDC eller strömmande, avgör uppgifterna i ditt projekt:
CDC-källor
-
Mellanlagring av data
Detta innebär att data överförs i kontinuerliga minibatchar från den lokala datakällan till ett mellanlagringsområde med hjälp av en datauppgift för mellanlagring.
Mellanlagra data från datakällor
Du kan också mellanlagra data till ett sjöhus, där data mellanlagras till S3-lagring.
-
Lagra datauppsättningar
I detta ingår att avläsa den initiala laddningen med mellanlagringsdata eller inkrementella laddningar och tillämpa data i läsoptimerat format med en lagringsdatauppgift.
Strömningskällor
-
Mellanlagring av data
Detta innebär att data kontinuerligt strömmas från källan till ett mellanlagringsområde med hjälp av en datauppgift för strömmande mellanlagring.
-
Lagra datauppsättningar
Detta innebär att läsa in den initiala laddningen av mellanlagringsdata och tillämpa data i läsoptimerat format med en lagrings-Transformera data-uppgift.
Använda introducerade data
När du har introducerat data kan du använda de lagrade datauppsättningarna på flera olika sätt, inklusive:
-
Du kan använda datauppsättningarna i en analysapplikation.
-
Du kan spegla data till ett eller flera molndatalager, inklusive Amazon Redshift och Snowflake, genom att lägga till en speglingsdatauppgift direkt till lagringsdatauppgiften för CDC-källor, eller strömmande transformuppgiften för strömmande källor.
Mer information finns i Spegling av data till ett molndatalager.
-
Du kan transformera data i ditt molndatalager genom att skapa en projektöverskridande pipeline som använder data från ditt introduktionsprojekt.