Skapa och hantera projekt för datapipeline

Du kan skapa en datapipeline för att utföra all din dataintegration inom ett projekt med hjälp av datauppgifter. Onboarding flyttar data till projektet från datakällor som finns lokalt eller i molnet och lagrar data i datauppsättningar som är redo att konsumeras. Du kan utföra onboarding av data till ett datalager eller till Qlik Open Lakehouse.

När du utför onboarding av data till ett datalager kan du också utföra transformeringar och skapa datamarts för att dra nytta av dina genererade och transformerade datauppsättningar. Datapipelinen kan vara enkel och linjär, eller så kan det vara en komplex pipeline som konsumerar flera datakällor och genererar många utdata.

Projekt för datapipeline stöder inte förhandsgranskningskopplingar för SaaS-applikationer. För att ta reda på om din koppling är i förhandsgranskning, se kopplingens hjälp.

Alla datauppgifter kommer att skapas i samma utrymme som det projekt de tillhör.

Du kan också visa ursprung för att spåra data och datatransformeringar bakåt till den ursprungliga källan, och utföra konsekvensanalys som visar den framåtblickande, nedströmsvyn av beroenden för datauppgifter, datauppsättningar eller fält. Mer information finns i Arbeta med ursprung och konsekvensanalys i Dataintegrering.

För att skapa ett pipeline-projekt måste du ha en anpassad roll med behörigheten Pipeline-projekt, eller så måste behörigheten vara aktiverad i inställningarna för Användarstandard. Mer information finns i Behörigheter i User Default och anpassade roller.

Introduktion av data till ett datalager

Detta inkluderar mellanlagring av data till ett mellanlagringsområde, och sedan lagring av datauppsättningarna i ett molndatalager. Datauppgifter för mellanlagring och lagring skapas i ett enda steg. Om du behöver kan du också utföra mellanlagring och lagring med separata uppgifter.

Introducear data till Qlik Open Lakehouse

Skapa ett Qlik Open Lakehouse-pipeline-projekt för att kopiera data från valfri stödd källa till Icebergs öppna tabellformat. Tabeller kan nås och frågas från ditt molndatalagers analysmotor, utan att duplicera data genom att använda en Spegla data-uppgift.

Registrera data som redan finns på dataplattformen

Registrera data som redan finns på dataplattformen för att kurera och transformera data, och skapa datamarts. Detta låter dig använda data som har genomgått onboarding med andra verktyg än Qlik Talend Data Integration, till exempel Qlik Replicate eller Stitch.

Transformera data

Skapa återanvändbara transformeringar på radnivå på onboarding-data baserat på regler och anpassad SQL. Detta skapar en Transformera data-uppgift.

Skapa och hantera data marts

Skapa en datamart för att dra nytta av dina datauppsättningar. Detta skapar en Datamart-datauppgift.

Skapa kunskapsmartar

Skapa en knowledge mart för att bädda in och lagra dina strukturerade och ostrukturerade data i en vektordatabas. Detta skapar en Knowledge mart-datauppgift.

Måldataplattformar

Projektet är associerat med en dataplattform som används som mål för alla utdata.

Mer information om stödda dataplattformar finns i Konfigurera kopplingar till mål.

Videointroduktion till projekt

Exempel på att skapa ett projekt

Följande exempel utför onboarding av data, transformering av data och skapande av en datamart. Detta kommer att skapa en enkel linjär datapipeline som du kan utöka genom att utföra onboarding av fler datakällor, skapa fler transformeringar och lägga till de genererade datauppgifterna i datamarten.

Flödesdiagram över datapipelines — Exempel på en linjär datapipeline i ett projekt

Skapa ett nytt projekt.

I Dataintegration > Pipeline-projekt, klicka på Skapa nytt > Projekt.
1. Ange ett namn och en beskrivning för projektet.
  
  Anteckning om informationOm du senare aktiverar versionshantering för projektet kommer du inte att kunna ändra projektnamnet medan det är under versionshantering.
2. Välj ett utrymme att skapa projektet i. Alla datauppgifter kommer att skapas i utrymmet för det projekt de tillhör.
3. Välj Datapipeline i Användningsfall.
4. Välj vilken dataplattform som ska användas i projektet.
5. Välj en koppling till det molndatalager som du vill använda i projektet. Detta kommer att användas för att mellanlagra datafiler och lagra datauppsättningar och vyer. Om du inte redan har förberett en koppling, skapa en med Skapa ny.
  - Om du valde Google BigQuery, Databricks eller Microsoft Azure Synapse Analytics som dataplattform måste du också ansluta till ett mellanlagringsområde.
  - Om du valde Snowflake som dataplattform kan du välja att mellanlagra data till molnlagring. Se Mellanlagring av data till ett datasjöhus.
  - Om du valde Qlik Cloud som dataplattform:
    
    Du kan antingen lagra data i Qlik-hanterad lagring eller din egen hanterade Amazon S3-bucket. Om du vill använda din egen Amazon S3-bucket måste du välja en koppling till den bucket.
    
    I båda fallen måste du också välja en koppling till ett Amazon S3-mellanlagringsområde. Om du använder samma bucket som du definierade i föregående steg, se till att du använder en annan mapp i bucket för mellanlagring.
6. Klicka på Skapa.
  
  Projektet skapas och du kan skapa din datapipeline genom att lägga till datauppgifter.
Utför onboarding av data

I projektet klickar du på Skapa och sedan på Onboarding av data.

Mer information finns i Introduktion av data till ett datalager.

Detta kommer att skapa en datauppgift för mellanlagring och en datauppgift för lagring. För att börja replikera data måste du:
- Förbereda och köra datauppgiften för mellanlagring.
  
  Mer information finns i Mellanlagring av data från datakällor.
- Förbereda och köra datauppgiften för lagring.
  
  Mer information finns i Lagra datauppsättningar.
Transformera data

När datauppgiften för lagring har skapats går du tillbaka till projektet. Du kan nu utföra transformeringar på de skapade datauppsättningarna.

Klicka på ... på datauppgiften för lagring och välj Transformera data för att skapa en datauppgift för transformering baserad på denna datauppgift för lagring. För instruktioner om transformeringar, se Transformera data.
Skapa en datamart

Du kan skapa en datamart baserad på en datauppgift för lagring eller en datauppgift för transformering.

Klicka på ... på datauppgiften och välj Skapa datamart för att skapa en datamart-datauppgift. För instruktioner om att skapa en datamart, se:

Skapa och hantera data marts

När du har utfört den första fullständiga laddningen av de lagrade och transformerade datauppsättningarna och datamarts kan du använda dem i till exempel en analysapplikation. Mer information om att skapa analysapplikationer finns i Skapa en analysapp med datauppsättningar som genererats i Dataintegrering.

Du kan också utöka datapipelinen genom att utföra onboarding av fler datakällor och kombinera dem i transformeringen eller i datamarten.

Bygga pipelines över flera projekt

Du kan bygga pipelines över flera projekt där en uppgift kan konsumera uppgifter från ett annat projekt. Detta låter dig uppnå segmentering på flera möjliga sätt:

Du kan skapa en separat pipeline för dataförflyttning för varje organisationsenhet och konsumera utdata i en enda datamart-pipeline.
Du kan skapa en enda pipeline för dataförflyttning och konsumera utdata i flera transformeringspipelines.

Skapa under inga omständigheter cirkulära uppgiftsberoenden i projekt för datapipeline. Cirkulära uppgiftsberoenden påverkar allvarligt stabilitet, prestanda och underhållbarhet.

Transformera- och Datamart-uppgifter kan konsumera Lagrings- och Transformera-uppgifter som finns i ett annat projekt.

Du måste ha minst rollen Kan konsumera i utrymmet för det konsumerade projektet.
Båda projekten måste vara på samma dataplattform.

Alla datauppsättningar för en uppgift delas med nedströmsprojekt. Detta innebär att om du vill uppnå segregering av datauppsättningar måste du filtrera bort datauppsättningar i det konsumerade projektet genom att skapa en transformeringsuppgift.

I projektvyn kan du visa uppgifter som konsumeras av ett annat projekt, och uppgifter från andra projekt som konsumeras i det aktuella projektet. Alla uppgifter utanför det aktuella projektet är gråa. Beroendena är via referens och inte namn, vilket innebär att du kan byta namn på en uppgift utan att bryta referensen. Detta innebär också att om du tar bort en uppgift som konsumeras och skapar en ny uppgift med samma namn, kommer referensen fortfarande att vara bruten.

Det finns flera sätt att återanvända befintliga data:

Skapa ett nytt projekt

Välj alternativet Använd data från ett annat projekt efter att ha skapat ett projekt.

Du kan skapa en transformering eller en datamart som konsumerar onboarding-data från en annan pipeline.
I en Transformera-uppgift eller Datamart-uppgift kan du välja data från ett annat projekt i Välj källdata.

När du väljer källdata, välj Projekt. Om det valda projektet är under versionshantering, välj en Gren. Standardgrenen är main. Listan över datauppgifter uppdateras för att återspegla den valda grenen. Välj sedan en Datauppgift för att se vilka datauppsättningar som är tillgängliga.

Du kan välja om du vill visa uppgifter i andra projekt som konsumerar en uppgift i detta projekt.

Klicka på Skikt och slå på eller av Utdata över flera projekt.

Alla uppgifter utanför det aktuella projektet är gråa.

Begränsningar för versionshantering

Eftersom pipelines över flera projekt är uppdelade mellan flera projekt, lägger detta till komplexitet vid användning av versionshantering. I dessa exempel konsumeras Project1 av Project2.

Klicka för att visa i full storlek — Exempel på en pipeline över flera projekt

Project2 kan konsumera en specifik gren av Project1. Välj grenen i Välj källdata i transformerings- eller datamart-uppgiften. Standardgrenen är main. Om det refererade projektet inte är under versionshantering visas inte grenväljaren och Project2 använder projektet som det är.
Du kan skapa en gren för Project1, men den grenade versionen kommer inte att visa att den konsumeras av Project2.
Du kan slå samman Project2 till main, men beroendet kommer fortfarande att finnas kvar.

Om grenen som valts i Project1 senare tas bort, bryts referensen på samma sätt som när en refererad uppgift tas bort. Om den refererade uppgiften har olika utdata på den valda grenen, beter sig referensen på samma sätt som när den refererade uppgiftens utdata ändras.

Bästa praxis

Kontrollera att uppgifterna i det konsumerade projektet åtminstone är förberedda, för att säkerställa att de är giltiga.
Om du planerar att exportera och importera projekt mellan klientorganisationer blir det enklare om du behåller samma namn för utrymmen och projekt i klientorganisationerna. Om namnen skiljer sig åt måste du mappa projekt och uppgifter när du importerar projektet.
Om du vill byta dataplattform med hjälp av export och import måste alla projekt med beroenden vara på samma plattform.

Följ dessa steg för ett säkert och enkelt plattformsbyte. I det här exemplet kallas projektet som konsumeras för Consumed, och projektet som läser från Consumed kallas för Consumer.
1. Exportera Consumed och Consumer.
2. Importera Consumed till Consumed_New, och byt till den nya dataplattformen.
3. Importera Consumer till Consumer_New, byt till samma dataplattform som Consumed_New, och ersätt källprojektet (Consumed) med Consumed_New.

Åtgärder i ett projekt för datapipeline

Du kan utföra samma åtgärder som är tillgängliga för en datauppgift som projektåtgärder. Detta gör att du kan orkestrera åtgärderna i datapipelinen.

Du kan bara utföra en projektåtgärd i taget per projekt.

Slå på och av scheman
Utföra designåtgärder
Starta och stoppa körning av datauppgifter
Ta bort datauppgifter

Klicka på Åtgärder för att visa status för en pågående åtgärd, eller den senast utförda åtgärden.

Du kan stoppa en pågående åtgärd genom att klicka på Stoppa åtgärd. Datauppgifter som pågår kommer inte att stoppas, men det kommer att avbryta alla uppgifter som ännu inte har startat.

Slå på och av scheman

Du kan styra scheman för datauppgifter på projektnivå.

Klicka på ... och sedan på Schema.

Du kan slå på eller av schemat för alla datauppgifter, eller ett urval av uppgifter. Endast uppgifter med ett definierat schema visas.

Anteckning om informationDetta alternativ är inte tillgängligt för projekt med Qlik Cloud som dataplattform.

Mer information om schemaläggning av enskilda datauppgifter finns i:

Utföra designåtgärder

Du kan utföra designåtgärder på alla datauppgifter i projektet, eller på ett urval av uppgifter. Detta gör det enklare att styra datauppsättningsuppgifterna i projektet, istället för att utföra designåtgärderna individuellt i varje uppgift.

Validera

Klicka på Validera för att validera alla uppgifter, eller ett urval av uppgifter. Datauppgifter som har ändrats sedan den senaste valideringsåtgärden är förvalda.

Datauppgifterna valideras i pipeline-ordning.
Förbered

Klicka på Förbered för att förbereda alla uppgifter, eller ett urval av uppgifter. Datauppgifter som har ändrats sedan den senaste förberedelseåtgärden är förvalda.

Du kan välja att återskapa datauppsättningar som kräver en strukturändring som inte stöds av dataplattformen. Detta kan leda till dataförlust.
Återskapa

Klicka på ... och sedan på Återskapa tabeller för att återskapa datauppsättningarna från källan för alla uppgifter, eller för ett urval av uppgifter.

Anteckning om informationOm det uppstår problem med enskilda tabeller rekommenderas du att först försöka läsa in tabellerna igen istället för att återskapa dem. Om du återskapar tabeller kan detta leda till att historiska data förloras. Om det sker stora förändringar måste du också förbereda datauppgifter nedströms som använder de återskapade datauppgifterna för att ladda data på nytt.

Köra datauppgifter

Du kan initiera körningen av alla datauppgifter i projektet, eller på ett urval av uppgifter, istället för att köra uppgifter individuellt. Till exempel kan du köra alla uppgifter med ett tidsbaserat schema. Detta kommer att initiera nedströmsuppgifter med ett händelsebaserat schema.

Kör

Klicka på Kör för att initiera körningen av alla uppgifter, eller ett urval av uppgifter. Detta initierar körningen av alla valda uppgifter och slutförs så snart de börjar köras.

Du kan välja bland alla uppgifter som är redo att köras. Uppgifter med ett tidsbaserat schema och uppgifter som använder CDC är förvalda. Uppgifter med ett händelsebaserat schema är inte förvalda eftersom de kommer att köras när de har data att bearbeta.

I ett projekt med Qlik Cloud som dataplattform är alla uppgifter för mellanlagring och lagring förvalda.

Anteckning om informationAlla datauppgifter körs parallellt. Detta innebär att beroendekontroller kan förhindra att vissa uppgifter körs.
Stoppa

Klicka på Stoppa för att stoppa alla uppgifter, eller ett urval av uppgifter.

Du kan välja bland uppgifter som körs.

Ta bort datauppgifter

Klicka på Ta bort för att ta bort alla datauppgifter i projektet, eller ett urval av uppgifter.

Det är inte möjligt att ta bort uppgifter som körs, eller uppgifter som används av andra uppgifter.

Ändra vyn för ett projekt

Det finns två olika vyer av projekt. Du kan växla mellan vyerna genom att klicka på Pipeline-vy.

Pipeline-vyn visar dataflödet för datauppgifterna.

Du kan välja hur mycket information som ska visas för datauppgifterna genom att klicka på Skikt. Slå på eller av följande information:
- Status
- Senaste aktualisering av data
- Schema
- Utdata över flera projekt
  
  Detta kommer att visa uppgifter i andra projekt som konsumerar en uppgift i detta projekt. Alla uppgifter utanför det aktuella projektet är gråa.
Kortvyn visar en kortvy med information om datauppgiften.

Du kan filtrera på tillgångstyp och ägare.

Ta bort ett projekt

I vyn Pipeline-projekt klickar du på på ett projekt och väljer Ta bort.

Välj Behåll tabeller och vyer skapade av uppgifterna i detta projekt för att behålla tabeller och vyer som normalt skulle tas bort efter att ett projekt har tagits bort. Observera att för följande uppgiftstyper kommer tabeller och vyer alltid att behållas, även när detta alternativ inte är valt:

Uppgifter för mellanlagring
Uppgifter för mellanlagring i sjö
Replikeringsuppgifter

Tänk på att de artefakter du behåller inte längre kommer att uppdateras av uppgiften.

Visa data

Du kan visa ett urval av data för att se och validera formen på dina data när du designar din datapipeline.

Följande behörigheter krävs:

Visning av data är aktiverat på klientorganisationsnivå i Administration.

Aktivera Inställningar > Funktionskontroll > Visa data i Dataintegrering.
Du har tilldelats rollen Kan visa data i det utrymme där kopplingen finns.
Du har tilldelats rollen Kan visa i det utrymme där projektet finns.

För att visa exempeldata i datapipeline-vyn:

Klicka på i förhandsgranskningsbannern längst ner i pipeline-vyn.
Välj vilken datauppgift du vill förhandsgranska data för.

Ett urval av data visas. Du kan ställa in hur många datarader som ska inkluderas i urvalet med Antal rader.

Exportera och importera projekt

Du kan exportera ett projekt till en JSON-fil som innehåller allt som krävs för att rekonstruera projektet. Den exporterade JSON-filen kan importeras på samma klientorganisation, eller på en annan klientorganisation. Du kan använda detta till exempel för att flytta projekt från en klientorganisation till en annan, eller för att göra säkerhetskopior av projekt.

Mer information finns i Exportera och importera datapipelines.

Ändra ägare av ett projekt

Datauppgifter fungerar i kontexten av ägaren till det projekt de tillhör. Du kan ändra ägaren av ett projekt för att överföra kontrollen över alla uppgifter i dataprojektet till en annan användare. Detta är till exempel användbart om det finns projekt som ägs av en användare som har tagits bort.

Att ändra ägare av ett projekt kräver en roll som Klientorganisationsadministratör eller Dataadministratör. Mer information om nödvändiga roller och behörigheter finns i Roller och behörigheter för datautrymmen.

I projektvyn klickar du på ... och sedan på Ändra ägare.

Ägarbytet kommer att gälla för alla uppgifter i projektet. Alla katalogiserade datauppsättningar som skapas av uppgifter i projektet kommer också att byta ägare.