Gå till huvudinnehåll Gå till ytterligare innehåll

Skapa en datapipeline

Du kan skapa en datapipeline för att utföra all dataintegrering inom ett dataprojekt med dataarbetsuppgifter. Vid introduktionen flyttas data till projektet från lokala datakällor eller i molnet och lagrar data i datauppsättningar som kan användas direkt. Du kan även utföra omvandlingar och skapa datamarter för att utnyttja dina genererade och omvandlade datauppsättningar. Datapipelinen kan vara enkel och linjär, men den kan också vara en komplex pipeline som använder flera datakällor och genererar mycket utdata.

Alla dataarbetsuppgifter kommer att skapas i samma utrymme som det dataprojekt som de tillhör.

Du kan också visa ursprung för att spåra data och dataomvandlingar bakåt till ursprungskällan och utföra påverkansanalys som visar den framåtpekande nedströmsvyn av en datauppgift, datauppsättning eller fältberoenden. Mer information finns i Arbeta med ursprung och påverkansanalys i Dataintegrering.

Introduktion av data

Här ingår mellanlagring av data till ett mellanlagringsområde och sedan att lagra dataposterna i ett molndatalager. Dataarbetsuppgifter för mellanlagring och lagring skapas i ett enda steg. Vid behov kan du även utföra mellanlagring och lagring som separata uppgifter.

Registrera data som redan finns på dataplattformen

Registrera data som redan finns på dataplattformen för att kurera och omvandla data och skapa datamarter. Det innebär att du kan använda data som har introducerats med andra verktyg än Qlik Cloud Data Integration, till exempel Qlik Replicate eller Stitch.

Omvandla data

Skapa återanvändbara omvandlingar på radnivå för introducerade data baserat på regler och anpassad SQL. Detta skapar en dataarbetsuppgift för omvandling.

Skapa och hantera datamarter

Skapa en datamart för att utnyttja dina datauppsättningar. Detta skapar en datamart-dataarbetsuppgift.

Måldataplattformar

Dataprojektet är kopplat till en dataplattform som används som mål för all utdata.

Mer information om dataplattformar som stöds finns i Ansluta till mål.

Videointroduktion till dataprojekt

Exempel på att skapa ett dataprojekt

I det följande exemplet utförs introduktion av data, omvandling av data och en datamart skapas. Därigenom skapas en enkel linjär datapipeline som du kan utöka genom att registrera fler datakällor, skapa fler omvandlingar och lägga till de genererade datauppsättningarna i datamarten.

Exempel på en linjär datapipeline i ett dataprojekt

  1. Klicka på Lägg till nytt och sedan Skapa dataprojekt i Qlik Cloud Data Integration Home.

    1. Ange ett namn och en beskrivning för dataprojektet och skapa ett utrymme att skapa dataprojektet i. Alla dataarbetsuppgifter kommer att skapas i samma utrymme som det dataprojekt som de tillhör.

    2. Välj Datapipeline i Användningsfall.
    3. Välj vilken dataplattform du vill använda i projektet.

    4. Välj en datakoppling till det molndatalager som du vill använda i projektet. Det kommer att användas för att introducera datafiler och lagra datauppsättningar och vyer. Om du inte redan har förberett en datakoppling skapar du en med Lägg till koppling.

      Om du har valt Google BigQuery, Databricks eller Microsoft Azure Synapse Analytics som dataplattform måste du också koppla till ett mellanlagringsområde.

    5. Om du har valt Qlik Cloud som dataplattform:

      Du kan antingen lagra data i Qlik-hanterad lagring eller din egen hanterade Amazon S3-bucket. Om du vill använda din egen Amazon S3-bucket måste du välja en datakoppling för denna bucket.

      I båda fallen måste du använda en datakoppling till ett mellanlagringsområde för Amazon S3. OM du använder samma bucket som du definierade i det föregående steget måste du använda en annan katalog i bucket för mellanlagring.

    6. Klicka på Skapa.

      Dataprojektet skapas och du kan skapa din datapipeline genom att lägga till dataarbetsuppgifter.

  2. Klicka på Lägg till nytt och sedan på Introducera data.

    Mer information finns i Introduktion av data.

    Detta kommer att skapa en dataarbetsuppgift för mellanlagring och en för lagring. För att börja replikera data behöver du:

  3. När dataarbetsuppgiften för lagring skapas går du tillbaka till dataprojektet. Du kan nu utföra omvandlingar på de skapade datauppsättningarna.

    Klicka på ... på dataarbetsuppgiften för lagring och välj Omvandla data för att skapa en dataarbetsuppgift för omvandling baserat på den här dataarbetsuppgiften för lagring. Se Omvandla data för instruktioner om omvandlingar.

  4. Du kan skapa en datamart baserat på en dataarbetsuppgift lagring eller en dataarbetsuppgift för omvandling.

    Klicka på på dataarbetsuppgiften och välj Skapa datamart för att skapa en dataarbetsuppgift för datamart. Instruktioner om att skapa en datamart finns på:

    Skapa och hantera datamarter

När du har skapat den första fullständiga laddningen av lagrade och omvandlade datatillgångar och datamarter kan du till exempel använda dem i en analysapp. Mer information om att skapa analysappar finns i Skapa en analysapp med datauppsättningar som genererats av Qlik Cloud Data Integration.

Du kan också utöka datapipelinen genom att introducera fler datakällor och kombinera dem i omvandlingen eller i datamarten.

Åtgärder i ett dataprojekt

Du kan utföra samma operationer som är tillgängliga för en datauppgift som dataprojektoperationer. På så sätt kan du organisera åtgärderna i datapipelinen.

Anteckning om informationDu kan bara utföra en dataprojektoperation åt gången per dataprojekt.
  • Slå på och av scheman

  • Utför designåtgärder.

  • Starta och stoppa utförandet av datauppgifter

  • Ta bort datauppgifter

Klicka på Operationer för att visa statusen för en pågående operation eller den senast utförda operationen.

Du kan stoppa en pågående operation genom att klicka på Stoppa operation. Datauppgifter som pågår stoppas inte, men alla uppgifter som ännu inte har startats avbryts.

Slå på och av scheman

Du kan styra schemana för datauppgifter på projektnivå.

  • Klicka på och sedan på Schema.

    Du kan aktivera eller inaktivera schemat för alla datauppgifter eller ett urval av uppgifter. Endast uppgifter med ett definierat schema visas.

    Anteckning om informationDet här alternativet är inte tillgängligt för dataprojekt med Qlik Cloud som dataplattform.

Mer information om schemaläggning av individuella datauppgifter finns i:

Utföra designåtgärder.

Du kan utföra designåtgärder på alla datauppgifter i dataprojektet eller på ett urval av uppgifter. Detta gör det lättare att styra uppgifterna för datauppsättningen i dataprojektet, i stället för att utföra designåtgärderna individuellt i varje uppgift.

  • Validera

    Klicka på Validera för att validera alla uppgifter eller ett urval av uppgifter. Datauppgifter som ändrats sedan den senaste valideringsoperationen väljs i förväg.

    Datauppgifterna valideras i pipeline-ordning.

  • Förbered

    Klicka på Förbered för att förbereda alla uppgifter eller ett urval av uppgifter. Datauppgifter som ändrats sedan den senaste förberedelseoperationen väljs i förväg.

    Du kan välja att återskapa datauppsättningar som kräver en strukturförändring som inte stöds av dataplattformen. Det kan leda till dataförlust.

  • Återskapa

    Klicka på och sedan på Återskapa för att återskapa datauppsättningarna från källan för alla uppgifter eller för ett urval av uppgifter.

Köra datauppgifter

Du kan initiera utförandet av alla datauppgifter i dataprojektet eller för ett urval av åtgärder i stället för att köra åtgärderna individuellt. Du kan till exempel köra alla uppgifter med ett tidsbaserat schema. Detta kommer att initiera nedströmsuppgifter med ett händelsebaserat schema.

  • Kör

    Klicka på Kör för att påbörja utförandet av alla uppgifter eller ett urval av uppgifter. Detta initierar körningen av alla valda uppgifter och avslutas så snart de börjar utföras.

    Du kan välja bland alla uppgifter som är redo att köras. Uppgifter med ett tidsbaserat schema och uppgifter som använder CDC är förvalda. Uppgifter med ett händelsebaserat schema är inte förvalda eftersom de utförs när de har data att bearbeta.

    I ett projekt med Qlik Cloud som dataplattform är alla mellanlagrings- och lagringsuppgifter förvalda.

    Anteckning om informationAlla datauppgifter utförs parallellt. Detta innebär att kontroller av beroenden kan hindra vissa uppgifter från att köras.
  • Stoppa

    Klicka på Stoppa för att stoppa alla uppgifter eller ett urval av uppgifter.

    Du kan välja bland uppgifter som körs.

Ta bort datauppgifter

  • Klicka på Ta bort för att ta bort alla datauppgifter i dataprojektet eller ett urval av uppgifter.

Ändra vy för ett dataprojekt

Det finns två olika vyer av dataprojekt. Du kan växla mellan vyerna genom att klicka på Pipelinevy.

  • Pipelinevyn visar dataflödet för datauppgifterna.

    Du kan välja hur mycket information om ska visas för datauppgifterna genom att klicka på Skikt. Slå på eller av följande information:

    • Status

    • Uppgifternas aktualitet

    • Schema

  • I kortvyn visas en kortvy med information om datauppgiften.

    Du kan filtrera efter tillgångstyp och ägare.

Exportera och importera dataprojekt

Du kan exportera ett dataprojekt till en JSON-fil som innehåller allt som behövs för att rekonstruera dataprojektet. Den exporterade JSON-filen kan importeras på samma klientorganisation eller på en annan klientorganisation. Du kan till exempel använda detta för att flytta dataprojekt från en klientorganisation till en annan eller för att göra säkerhetskopior av dataprojekt.

Mer information finns i Exportera och importera datapipelines.

Dataprojektinställningar

Du kan ställa in egenskaper som är gemensamma för projektet och alla dataarbetsuppgifter som ingår.

  • Klicka på Settings.

Mer information finns i Dataprojektinställningar.

Mer information

Var den här sidan till hjälp för dig?

Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!