Skapa ett dataprojekt för en pipeline | Qlik CloudHjälp
Gå till huvudinnehåll Gå till ytterligare innehåll

Skapa ett dataprojekt för en pipeline

Du kan skapa en datapipeline för att utföra all din dataintegrering inom ett projekt med hjälp av datauppgifter. Onboarding flyttar data till projektet från datakällor som finns lokalt eller i molnet och lagrar data i datauppsättningar som är redo att konsumeras. Du kan onboarda data till ett molndatalager eller till Qlik Open Lakehouse.

När du onboardar data till ett molndatalager kan du också utföra transformeringar och skapa data marts för att dra nytta av dina genererade och transformerade datauppsättningar. Datapipelinen kan vara enkel och linjär, eller så kan det vara en komplex pipeline som konsumerar flera datakällor och genererar många utdata.

Anteckning om informationDataprojekt för pipelines stöder inte förhandsgranskningskopplingar för SaaS-applikationer. För att ta reda på om din koppling är i förhandsgranskning, se hjälpen för kopplingen.

Alla datauppgifter kommer att skapas i samma utrymme som projektet de tillhör.

Du kan också visa ursprung för att spåra data och datatransformeringar bakåt till den ursprungliga källan, och utföra konsekvensanalys som visar den framåtblickande, nedströmsvyn av beroenden för datauppgifter, datauppsättningar eller fält. För mer information, se Arbeta med ursprung och påverkansanalys i Dataintegrering.

Anteckning om informationFör att skapa ett pipeline-projekt måste du ha en anpassad roll med behörigheten Pipeline-projekt, eller så måste behörigheten vara aktiverad i inställningarna för Användarstandard. För mer information, se Behörigheter i User Default och anpassade roller.

Introduktion av data till ett datalager

Detta inkluderar mellanlagring av data till ett mellanlagringsområde, och sedan lagring av datauppsättningarna i ett molndatalager. Datauppgifter för mellanlagring och lagring skapas i ett enda steg. Om du behöver kan du också utföra mellanlagring och lagring med separata uppgifter.

Introducear data till Qlik Open Lakehouse

Skapa ett pipeline-projekt för Qlik Open Lakehouse för att kopiera data från valfri stödd källa till det öppna tabellformatet Iceberg. Tabeller kan nås och frågas från analysmotorn i ditt molndatalager, utan att duplicera data genom att använda en datauppgift för spegling.

Registrera data som redan finns på dataplattformen

Registrera data som redan finns på dataplattformen för att kurera och transformera data, och skapa data marts. Detta låter dig använda data som har onboardats med andra verktyg än Qlik Talend Data Integration, till exempel Qlik Replicate eller Stitch.

Transformera data

Skapa återanvändbara transformeringar på radnivå på onboardade data baserat på regler och anpassad SQL. Detta skapar en datauppgift för att Transformera data.

Skapa och hantera data marts

Skapa en data mart för att dra nytta av dina datauppsättningar. Detta skapar en datauppgift för Data mart.

Skapa kunskapsmartar

Skapa en knowledge mart för att bädda in och lagra dina strukturerade och ostrukturerade data i en vektordatabas. Detta skapar en datauppgift för Knowledge mart.

Måldataplattformar

Projektet är associerat med en dataplattform som används som mål för alla utdata.

För mer information om stödda dataplattformar, se Konfigurera kopplingar till mål.

Videointroduktion till projekt

video thumbnail

Exempel på att skapa ett projekt

Följande exempel utför onboarding av data, transformering av data och skapande av en data mart. Detta kommer att skapa en enkel linjär datapipeline som du kan utöka genom att onboarda fler datakällor, skapa fler transformeringar och lägga till de genererade datauppgifterna i data marten.

Exempel på en linjär datapipeline i ett projekt

Flödesschema över datapipelines
  1. I Data Integration > Pipeline-projekt, klicka på Skapa nytt > Projekt.

    1. Ange ett namn och en beskrivning för projektet.

      Anteckning om informationOm du senare aktiverar versionshantering för projektet kommer du inte att kunna ändra projektnamnet medan det är under versionshantering.
    2. Välj ett utrymme att skapa projektet i. Alla datauppgifter kommer att skapas i utrymmet för det projekt som de tillhör.

    3. Välj Datapipeline i Användningsfall.
    4. Välj vilken dataplattform som ska användas i projektet.

    5. Välj en koppling till det molndatalager som du vill använda i projektet. Detta kommer att användas för att mellanlagra datafiler och lagra datauppsättningar och vyer. Om du inte redan har förberett en koppling, skapa en med Skapa ny.

      • Om du valde Google BigQuery, Databricks eller Microsoft Azure Synapse Analytics som dataplattform måste du också ansluta till ett mellanlagringsområde.

      • Om du valde Snowflake som dataplattform kan du välja att mellanlagra data till molnlagring. Se Mellanlagring av data till ett datasjöhus.

      • Om du valde Qlik Cloud som dataplattform:

        Du kan antingen lagra data i Qlik-hanterad lagring eller i din egen hanterade Amazon S3-bucket. Om du vill använda din egen Amazon S3-bucket måste du välja en koppling till den bucketen.

        I båda fallen måste du också välja en koppling till ett Amazon S3-mellanlagringsområde. Om du använder samma bucket som du definierade i föregående steg, se till att du använder en annan mapp i bucketen för mellanlagring.

    6. Klicka på Skapa.

      Projektet skapas och du kan skapa din datapipeline genom att lägga till datauppgifter.

  2. I projektet, klicka på Skapa och sedan på Onboarda data.

    För mer information, se Introduktion av data till ett datalager.

    Detta kommer att skapa en datauppgift för mellanlagring och en datauppgift för lagring. För att börja replikera data måste du:

  3. När datauppgiften för lagring har skapats, gå tillbaka till projektet. Du kan nu utföra transformeringar på de skapade datauppsättningarna.

    Klicka på ... på datauppgiften för lagring och välj Transformera data för att skapa en datauppgift för transformering baserad på denna datauppgift för lagring. För instruktioner om transformeringar, se Transformera data.

  4. Du kan skapa en data mart baserad på en datauppgift för lagring eller en datauppgift för transformering.

    Klicka på ... på datauppgiften och välj Skapa data mart för att skapa en datauppgift för data mart. För instruktioner om att skapa en data mart, se:

    Skapa och hantera data marts

När du har utfört den första fullständiga laddningen av de lagrade och transformerade datauppsättningarna och data marts kan du använda dem i till exempel en analysapplikation. För mer information om att skapa analysapplikationer, se Skapa en analysapp med datauppsättningar som genererats i Dataintegrering.

Du kan också utöka datapipelinen genom att onboarda fler datakällor och kombinera dem i transformeringen eller i data marten.

Bygga pipelines över flera projekt

Du kan bygga pipelines över flera projekt där en uppgift kan konsumera uppgifter från ett annat projekt. Detta låter dig uppnå segmentering på flera möjliga sätt:

  • Du kan skapa en separat pipeline för dataförflyttning för varje organisationsenhet och konsumera utdata i en enda pipeline för data mart.

  • Du kan skapa en enda pipeline för dataförflyttning och konsumera utdata i flera pipelines för transformering.

Anteckning om varningSkapa under inga omständigheter cirkulära uppgiftsberoenden i dataprojekt för pipelines. Cirkulära uppgiftsberoenden påverkar stabilitet, prestanda och underhållbarhet allvarligt.

Uppgifter för Transformering och Data mart kan konsumera uppgifter för Lagring och Transformering som finns i ett annat projekt.

  • Du måste ha minst rollen Kan konsumera i utrymmet för det konsumerade projektet.

  • Båda projekten måste vara på samma dataplattform.

Alla datauppsättningar för en uppgift delas med nedströmsprojekt. Detta innebär att om du vill uppnå segregering av datauppsättningar måste du filtrera bort datauppsättningar i det konsumerade projektet genom att skapa en transformeringsuppgift.

I projektvyn kan du visa uppgifter som konsumeras av ett annat projekt, och uppgifter från andra projekt som konsumeras i det aktuella projektet. Alla uppgifter utanför det aktuella projektet är gråa. Beroendena är via referens och inte namn, vilket innebär att du kan byta namn på en uppgift utan att bryta referensen. Detta innebär också att om du tar bort en uppgift som konsumeras och skapar en ny uppgift med samma namn, kommer referensen fortfarande att vara bruten.

Det finns flera sätt att återanvända befintliga data:

  • Skapa ett nytt projekt

    Välj alternativet Använd data från ett annat projekt efter att du har skapat ett projekt.

    Du kan skapa en transformering eller en data mart som konsumerar onboardade data från en annan pipeline.

  • I en uppgift för Transformering eller Data mart kan du välja data från ett annat projekt i Välj källdata.

    När du väljer källdata, välj Projekt. Om det valda projektet är under versionshantering, välj en Gren. Standardgrenen är main. Listan över datauppgifter uppdateras för att återspegla den valda grenen. Välj sedan en Datauppgift för att se vilka datauppsättningar som är tillgängliga.

Du kan välja om du vill visa uppgifter i andra projekt som konsumerar en uppgift i detta projekt.

  • Klicka på Skikt och slå på eller av Utdata över flera projekt.

Alla uppgifter utanför det aktuella projektet är gråa.

Begränsningar för versionshantering

Eftersom pipelines över flera projekt är uppdelade mellan flera projekt, lägger detta till komplexitet när man använder versionshantering. I dessa exempel konsumeras Project1 av Project2.

Exempel på en pipeline över flera projekt

  • Project2 kan konsumera en specifik gren av Project1. Välj grenen i Välj källdata i uppgiften för transformering eller data mart. Standardgrenen är main. Om det refererade projektet inte är under versionshantering visas inte grenväljaren och Project2 använder projektet som det är.

  • Du kan skapa en gren för Project1, men den grenade versionen kommer inte att visa att den konsumeras av Project2.

  • Du kan slå samman Project2 till main, men beroendet kommer fortfarande att finnas kvar.

Anteckning om information

Om grenen som valts i Project1 senare tas bort, bryts referensen på samma sätt som när en refererad uppgift tas bort. Om den refererade uppgiften har olika utdata på den valda grenen, beter sig referensen på samma sätt som när den refererade uppgiftens utdata ändras.

Bästa praxis

  • Kontrollera att uppgifterna i det konsumerade projektet åtminstone är förberedda, för att säkerställa att de är giltiga.

  • Om du planerar att exportera och importera projekt mellan klientorganisationer blir det enklare om du behåller samma namn för utrymmen och projekt i klientorganisationerna. Om namnen skiljer sig åt måste du mappa projekt och uppgifter när du importerar projektet.

  • Om du vill byta dataplattform med hjälp av export och import måste alla projekt med beroenden vara på samma plattform.

    Följ dessa steg för ett säkert och enkelt plattformsbyte. I det här exemplet kallas projektet som konsumeras för Consumed, och projektet som läser från Consumed kallas för Consumer.

    1. Exportera Consumed och Consumer.

    2. Importera Consumed till Consumed_New, och byt till den nya dataplattformen.

    3. Importera Consumer till Consumer_New, byt till samma dataplattform som Consumed_New, och ersätt källprojektet (Consumed) med Consumed_New.

Åtgärder i ett dataprojekt för en pipeline

Du kan utföra samma åtgärder som är tillgängliga för en datauppgift som projektåtgärder. Detta gör att du kan orkestrera åtgärderna i datapipelinen.

Anteckning om informationDu kan bara utföra en projektåtgärd i taget per projekt.
  • Slå på och av scheman

  • Utföra designåtgärder

  • Starta och stoppa körning av datauppgifter

  • Ta bort datauppgifter

Klicka på Åtgärder för att visa status för en pågående åtgärd, eller den senast utförda åtgärden.

Du kan stoppa en pågående åtgärd genom att klicka på Stoppa åtgärd. Datauppgifter som pågår kommer inte att stoppas, men det kommer att avbryta alla uppgifter som ännu inte har startat.

Slå på och av scheman

Du kan styra scheman för datauppgifter på projektnivå.

  • Klicka på ... och sedan på Schema.

    Du kan slå på eller av schemat för alla datauppgifter, eller ett urval av uppgifter. Endast uppgifter med ett definierat schema visas.

    Anteckning om informationDetta alternativ är inte tillgängligt för projekt med Qlik Cloud som dataplattform.

För mer information om schemaläggning av enskilda datauppgifter, se:

Utföra designåtgärder

Du kan utföra designåtgärder på alla datauppgifter i projektet, eller på ett urval av uppgifter. Detta gör det enklare att styra datauppsättningsuppgifterna i projektet, istället för att utföra designåtgärderna individuellt i varje uppgift.

  • Validera

    Klicka på Validera för att validera alla uppgifter, eller ett urval av uppgifter. Datauppgifter som har ändrats sedan den senaste valideringsåtgärden är förvalda.

    Datauppgifterna valideras i pipeline-ordning.

  • Förbered

    Klicka på Förbered för att förbereda alla uppgifter, eller ett urval av uppgifter. Datauppgifter som har ändrats sedan den senaste förberedelseåtgärden är förvalda.

    Du kan välja att återskapa datauppsättningar som kräver en strukturändring som inte stöds av dataplattformen. Detta kan leda till dataförlust.

  • Återskapa

    Klicka på ... och sedan på Återskapa tabeller för att återskapa datauppsättningarna från källan för alla uppgifter, eller för ett urval av uppgifter.

    Anteckning om informationOm det uppstår problem med enskilda tabeller rekommenderas du att först försöka läsa in tabellerna igen istället för att återskapa dem. Om du återskapar tabeller kan detta leda till att historiska data förloras. Om det sker stora förändringar måste du också förbereda datauppgifter nedströms som använder de återskapade datauppgifterna för att ladda data på nytt.

Köra datauppgifter

Du kan initiera körningen av alla datauppgifter i projektet, eller på ett urval av uppgifter, istället för att köra uppgifter individuellt. Till exempel kan du köra alla uppgifter med ett tidsbaserat schema. Detta kommer att initiera nedströmsuppgifter med ett händelsebaserat schema.

  • Kör

    Klicka på Kör för att initiera körningen av alla uppgifter, eller ett urval av uppgifter. Detta initierar körningen av alla valda uppgifter och slutförs så snart de börjar köras.

    Du kan välja bland alla uppgifter som är redo att köras. Uppgifter med ett tidsbaserat schema och uppgifter som använder CDC är förvalda. Uppgifter med ett händelsebaserat schema är inte förvalda eftersom de kommer att köras när de har data att bearbeta.

    I ett projekt med Qlik Cloud som dataplattform är alla uppgifter för mellanlagring och lagring förvalda.

    Anteckning om informationAlla datauppgifter körs parallellt. Detta innebär att beroendekontroller kan förhindra att vissa uppgifter körs.
  • Stoppa

    Klicka på Stoppa för att stoppa alla uppgifter, eller ett urval av uppgifter.

    Du kan välja bland uppgifter som körs.

Ta bort datauppgifter

  • Klicka på Ta bort för att ta bort alla datauppgifter i projektet, eller ett urval av uppgifter.

Det är inte möjligt att ta bort uppgifter som körs, eller uppgifter som används av andra uppgifter.

Ändra vyn för ett projekt

Det finns två olika vyer för projekt. Du kan växla mellan vyerna genom att klicka på Pipeline-vy.

  • Pipeline-vyn visar dataflödet för datauppgifterna.

    Du kan välja hur mycket information som ska visas för datauppgifterna genom att klicka på Skikt. Slå på eller av följande information:

    • Status

    • Senaste aktualisering

    • Schema

    • Utdata över flera projekt

      Detta kommer att visa uppgifter i andra projekt som konsumerar en uppgift i detta projekt. Alla uppgifter utanför det aktuella projektet är gråa.

  • Kortvyn visar en kortvy med information om datauppgiften.

    Du kan filtrera på tillgångstyp och ägare.

Ta bort ett projekt

  • I vyn Pipeline-projekt, klicka på Mer på ett projekt och välj Ta bort.

Du kan välja att behålla artefakter (tabeller och vyer) som skapats av en uppgift för varje enskild uppgift, förutom följande typer där artefakter alltid behålls:

  • Uppgifter för mellanlagring

  • Uppgifter för mellanlagring i lake

  • Uppgifter för replikering

Anteckning om informationTänk på att de artefakter du behåller inte längre kommer att uppdateras av uppgiften.

Visa data

Du kan visa ett urval av data för att se och validera formen på dina data när du designar din datapipeline.

Följande behörigheter krävs:

  • Visning av data är aktiverat på klientorganisationsnivå i Administration.

    Aktivera Inställningar > Funktionskontroll > Visa data i Dataintegrering.

  • Du har tilldelats rollen Kan visa data i utrymmet där kopplingen finns.

  • Du har tilldelats rollen Kan visa i utrymmet där projektet finns.

För att visa exempeldata i datapipeline-vyn:

  1. Klicka på Upp i förhandsgranskningsbannern längst ner i pipeline-vyn.

  2. Välj vilken datauppgift du vill förhandsgranska data för.

Ett urval av data visas. Du kan ställa in hur många datarader som ska inkluderas i urvalet med Antal rader.

Exportera och importera projekt

Du kan exportera ett projekt till en JSON-fil som innehåller allt som krävs för att rekonstruera projektet. Den exporterade JSON-filen kan importeras på samma klientorganisation, eller på en annan klientorganisation. Du kan använda detta till exempel för att flytta projekt från en klientorganisation till en annan, eller för att göra säkerhetskopior av projekt.

För mer information, se Exportera och importera datapipelines.

Byta ägare av ett projekt

Datauppgifter fungerar i kontexten av ägaren till det projekt de tillhör. Du kan byta ägare av ett projekt för att överföra kontrollen över alla uppgifter i dataprojektet till en annan användare. Detta är till exempel användbart om det finns projekt som ägs av en användare som har tagits bort.

Anteckning om informationAtt byta ägare av ett projekt kräver rollen Klientorganisationsadministratör eller Dataadministratör. För mer information om nödvändiga roller och behörigheter, se Roller och behörigheter för datautrymmen.
  • I projektvyn, klicka på ... och sedan på Byt ägare.

Ägarbytet kommer att gälla för alla uppgifter i projektet. Alla katalogiserade datauppsättningar som skapas av uppgifter i projektet kommer också att byta ägare.

Ändra koppling för dataplattform

Om du ändrar kopplingen för Dataplattform för ett projekt måste du:

  1. Återskapa tabeller i alla uppgifter för mellanlagring.

  2. Förbereda alla andra uppgifter i projektet.

Visa projektinformation

Klicka på Information i menyraden för att visa projektinformation, till exempel:

  • Ägare

  • Utrymme

  • Dataplattform

  • Projekt-id

Projektinställningar

Du kan ställa in egenskaper som är gemensamma för projektet och alla inkluderade datauppgifter.

  • Klicka på Inställningar.

För mer information, se Dataprojektinställningar.

Mer information

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!