Gå till huvudinnehåll Gå till ytterligare innehåll

Introduktion av data

Det första steget för att skapa en datapipeline i ett Qlik Open Lakehouse-projekt är att introducera data. Denna process omfattar överföring av data från källan och lagring av datauppsättningar i optimerade Iceberg-tabeller.

Introduktionen skapas i en enda åtgärd, men utförs i två steg. Datakällstypen, antingen CDC eller strömmande, avgör uppgifterna i ditt projekt:

CDC-källor

  • Mellanlagring av data

    Detta innebär att data överförs i kontinuerliga minibatchar från den lokala datakällan till ett mellanlagringsområde med hjälp av en datauppgift för mellanlagring.

    Mellanlagra data från datakällor

    Du kan också mellanlagra data till ett sjöhus, där data mellanlagras till S3-lagring.

    Mellanlagringsdata till Qlik Open Lakehouse

  • Lagra datauppsättningar

    I detta ingår att avläsa den initiala laddningen med mellanlagringsdata eller inkrementella laddningar och tillämpa data i läsoptimerat format med en lagringsdatauppgift.

    Lagra datauppsättningar

Strömningskällor

Använda introducerade data

När du har introducerat data kan du använda de lagrade datauppsättningarna på flera olika sätt, inklusive:

  • Du kan använda datauppsättningarna i en analysapplikation.

  • Du kan spegla data till ett eller flera molndatalager, inklusive Amazon Redshift och Snowflake, genom att lägga till en speglingsdatauppgift direkt till lagringsdatauppgiften för CDC-källor, eller strömmande transformuppgiften för strömmande källor.

    Mer information finns i Spegling av data till ett molndatalager.

  • Du kan transformera data i ditt molndatalager genom att skapa en projektöverskridande pipeline som använder data från ditt introduktionsprojekt.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!