Skapa ett dataprojekt för en pipeline
Du kan skapa en datapipeline för att utföra all din dataintegrering inom ett projekt med hjälp av datauppgifter. Onboarding flyttar data till projektet från datakällor som finns lokalt eller i molnet och lagrar data i datauppsättningar som är redo att konsumeras. Du kan onboarda data till ett molndatalager eller till Qlik Open Lakehouse.
När du onboardar data till ett molndatalager kan du också utföra transformeringar och skapa data marts för att dra nytta av dina genererade och transformerade datauppsättningar. Datapipelinen kan vara enkel och linjär, eller så kan det vara en komplex pipeline som konsumerar flera datakällor och genererar många utdata.
Alla datauppgifter kommer att skapas i samma utrymme som projektet de tillhör.
Du kan också visa ursprung för att spåra data och datatransformeringar bakåt till den ursprungliga källan, och utföra konsekvensanalys som visar den framåtblickande, nedströmsvyn av beroenden för datauppgifter, datauppsättningar eller fält. För mer information, se Arbeta med ursprung och påverkansanalys i Dataintegrering.
Introduktion av data till ett datalager
Detta inkluderar mellanlagring av data till ett mellanlagringsområde, och sedan lagring av datauppsättningarna i ett molndatalager. Datauppgifter för mellanlagring och lagring skapas i ett enda steg. Om du behöver kan du också utföra mellanlagring och lagring med separata uppgifter.
Introducear data till Qlik Open Lakehouse
Skapa ett pipeline-projekt för Qlik Open Lakehouse för att kopiera data från valfri stödd källa till det öppna tabellformatet Iceberg. Tabeller kan nås och frågas från analysmotorn i ditt molndatalager, utan att duplicera data genom att använda en datauppgift för spegling.
Registrera data som redan finns på dataplattformen
Registrera data som redan finns på dataplattformen för att kurera och transformera data, och skapa data marts. Detta låter dig använda data som har onboardats med andra verktyg än Qlik Talend Data Integration, till exempel Qlik Replicate eller Stitch.
Transformera data
Skapa återanvändbara transformeringar på radnivå på onboardade data baserat på regler och anpassad SQL. Detta skapar en datauppgift för att Transformera data.
Skapa och hantera data marts
Skapa en data mart för att dra nytta av dina datauppsättningar. Detta skapar en datauppgift för Data mart.
Skapa kunskapsmartar
Skapa en knowledge mart för att bädda in och lagra dina strukturerade och ostrukturerade data i en vektordatabas. Detta skapar en datauppgift för Knowledge mart.
Måldataplattformar
Projektet är associerat med en dataplattform som används som mål för alla utdata.
För mer information om stödda dataplattformar, se Konfigurera kopplingar till mål.
Videointroduktion till projekt
Exempel på att skapa ett projekt
Följande exempel utför onboarding av data, transformering av data och skapande av en data mart. Detta kommer att skapa en enkel linjär datapipeline som du kan utöka genom att onboarda fler datakällor, skapa fler transformeringar och lägga till de genererade datauppgifterna i data marten.
Exempel på en linjär datapipeline i ett projekt
-
Skapa ett nytt projekt.
I Data Integration > Pipeline-projekt, klicka på Skapa nytt > Projekt.
-
Ange ett namn och en beskrivning för projektet.
Anteckning om informationOm du senare aktiverar versionshantering för projektet kommer du inte att kunna ändra projektnamnet medan det är under versionshantering. -
Välj ett utrymme att skapa projektet i. Alla datauppgifter kommer att skapas i utrymmet för det projekt som de tillhör.
- Välj Datapipeline i Användningsfall.
-
Välj vilken dataplattform som ska användas i projektet.
-
Välj en koppling till det molndatalager som du vill använda i projektet. Detta kommer att användas för att mellanlagra datafiler och lagra datauppsättningar och vyer. Om du inte redan har förberett en koppling, skapa en med Skapa ny.
-
Om du valde Google BigQuery, Databricks eller Microsoft Azure Synapse Analytics som dataplattform måste du också ansluta till ett mellanlagringsområde.
-
Om du valde Snowflake som dataplattform kan du välja att mellanlagra data till molnlagring. Se Mellanlagring av data till ett datasjöhus.
-
Om du valde Qlik Cloud som dataplattform:
Du kan antingen lagra data i Qlik-hanterad lagring eller i din egen hanterade Amazon S3-bucket. Om du vill använda din egen Amazon S3-bucket måste du välja en koppling till den bucketen.
I båda fallen måste du också välja en koppling till ett Amazon S3-mellanlagringsområde. Om du använder samma bucket som du definierade i föregående steg, se till att du använder en annan mapp i bucketen för mellanlagring.
-
-
Klicka på Skapa.
Projektet skapas och du kan skapa din datapipeline genom att lägga till datauppgifter.
-
-
Onboarda data
I projektet, klicka på Skapa och sedan på Onboarda data.
För mer information, se Introduktion av data till ett datalager.
Detta kommer att skapa en datauppgift för mellanlagring och en datauppgift för lagring. För att börja replikera data måste du:
-
Förbereda och köra datauppgiften för mellanlagring.
För mer information, se Mellanlagra data från datakällor.
-
Förbereda och köra datauppgiften för lagring.
För mer information, se Lagra datauppsättningar.
-
-
Transformera data
När datauppgiften för lagring har skapats, gå tillbaka till projektet. Du kan nu utföra transformeringar på de skapade datauppsättningarna.
Klicka på ... på datauppgiften för lagring och välj Transformera data för att skapa en datauppgift för transformering baserad på denna datauppgift för lagring. För instruktioner om transformeringar, se Transformera data.
-
Skapa en data mart
Du kan skapa en data mart baserad på en datauppgift för lagring eller en datauppgift för transformering.
Klicka på ... på datauppgiften och välj Skapa data mart för att skapa en datauppgift för data mart. För instruktioner om att skapa en data mart, se:
När du har utfört den första fullständiga laddningen av de lagrade och transformerade datauppsättningarna och data marts kan du använda dem i till exempel en analysapplikation. För mer information om att skapa analysapplikationer, se Skapa en analysapp med datauppsättningar som genererats i Dataintegrering.
Du kan också utöka datapipelinen genom att onboarda fler datakällor och kombinera dem i transformeringen eller i data marten.
Bygga pipelines över flera projekt
Du kan bygga pipelines över flera projekt där en uppgift kan konsumera uppgifter från ett annat projekt. Detta låter dig uppnå segmentering på flera möjliga sätt:
-
Du kan skapa en separat pipeline för dataförflyttning för varje organisationsenhet och konsumera utdata i en enda pipeline för data mart.
-
Du kan skapa en enda pipeline för dataförflyttning och konsumera utdata i flera pipelines för transformering.
Uppgifter för Transformering och Data mart kan konsumera uppgifter för Lagring och Transformering som finns i ett annat projekt.
-
Du måste ha minst rollen Kan konsumera i utrymmet för det konsumerade projektet.
-
Båda projekten måste vara på samma dataplattform.
Alla datauppsättningar för en uppgift delas med nedströmsprojekt. Detta innebär att om du vill uppnå segregering av datauppsättningar måste du filtrera bort datauppsättningar i det konsumerade projektet genom att skapa en transformeringsuppgift.
I projektvyn kan du visa uppgifter som konsumeras av ett annat projekt, och uppgifter från andra projekt som konsumeras i det aktuella projektet. Alla uppgifter utanför det aktuella projektet är gråa. Beroendena är via referens och inte namn, vilket innebär att du kan byta namn på en uppgift utan att bryta referensen. Detta innebär också att om du tar bort en uppgift som konsumeras och skapar en ny uppgift med samma namn, kommer referensen fortfarande att vara bruten.
Det finns flera sätt att återanvända befintliga data:
-
Skapa ett nytt projekt
Välj alternativet Använd data från ett annat projekt efter att du har skapat ett projekt.
Du kan skapa en transformering eller en data mart som konsumerar onboardade data från en annan pipeline.
-
I en uppgift för Transformering eller Data mart kan du välja data från ett annat projekt i Välj källdata.
När du väljer källdata, välj Projekt. Om det valda projektet är under versionshantering, välj en Gren. Standardgrenen är main. Listan över datauppgifter uppdateras för att återspegla den valda grenen. Välj sedan en Datauppgift för att se vilka datauppsättningar som är tillgängliga.
Du kan välja om du vill visa uppgifter i andra projekt som konsumerar en uppgift i detta projekt.
-
Klicka på Skikt och slå på eller av Utdata över flera projekt.
Alla uppgifter utanför det aktuella projektet är gråa.
Begränsningar för versionshantering
Eftersom pipelines över flera projekt är uppdelade mellan flera projekt, lägger detta till komplexitet när man använder versionshantering. I dessa exempel konsumeras Project1 av Project2.
Exempel på en pipeline över flera projekt

-
Project2 kan konsumera en specifik gren av Project1. Välj grenen i Välj källdata i uppgiften för transformering eller data mart. Standardgrenen är main. Om det refererade projektet inte är under versionshantering visas inte grenväljaren och Project2 använder projektet som det är.
-
Du kan skapa en gren för Project1, men den grenade versionen kommer inte att visa att den konsumeras av Project2.
-
Du kan slå samman Project2 till main, men beroendet kommer fortfarande att finnas kvar.
Om grenen som valts i Project1 senare tas bort, bryts referensen på samma sätt som när en refererad uppgift tas bort. Om den refererade uppgiften har olika utdata på den valda grenen, beter sig referensen på samma sätt som när den refererade uppgiftens utdata ändras.
Bästa praxis
-
Kontrollera att uppgifterna i det konsumerade projektet åtminstone är förberedda, för att säkerställa att de är giltiga.
-
Om du planerar att exportera och importera projekt mellan klientorganisationer blir det enklare om du behåller samma namn för utrymmen och projekt i klientorganisationerna. Om namnen skiljer sig åt måste du mappa projekt och uppgifter när du importerar projektet.
-
Om du vill byta dataplattform med hjälp av export och import måste alla projekt med beroenden vara på samma plattform.
Följ dessa steg för ett säkert och enkelt plattformsbyte. I det här exemplet kallas projektet som konsumeras för Consumed, och projektet som läser från Consumed kallas för Consumer.
-
Exportera Consumed och Consumer.
-
Importera Consumed till Consumed_New, och byt till den nya dataplattformen.
-
Importera Consumer till Consumer_New, byt till samma dataplattform som Consumed_New, och ersätt källprojektet (Consumed) med Consumed_New.
-
Åtgärder i ett dataprojekt för en pipeline
Du kan utföra samma åtgärder som är tillgängliga för en datauppgift som projektåtgärder. Detta gör att du kan orkestrera åtgärderna i datapipelinen.
-
Slå på och av scheman
-
Utföra designåtgärder
-
Starta och stoppa körning av datauppgifter
-
Ta bort datauppgifter
Klicka på Åtgärder för att visa status för en pågående åtgärd, eller den senast utförda åtgärden.
Du kan stoppa en pågående åtgärd genom att klicka på Stoppa åtgärd. Datauppgifter som pågår kommer inte att stoppas, men det kommer att avbryta alla uppgifter som ännu inte har startat.
Slå på och av scheman
Du kan styra scheman för datauppgifter på projektnivå.
-
Klicka på ... och sedan på Schema.
Du kan slå på eller av schemat för alla datauppgifter, eller ett urval av uppgifter. Endast uppgifter med ett definierat schema visas.
Anteckning om informationDetta alternativ är inte tillgängligt för projekt med Qlik Cloud som dataplattform.
För mer information om schemaläggning av enskilda datauppgifter, se:
Utföra designåtgärder
Du kan utföra designåtgärder på alla datauppgifter i projektet, eller på ett urval av uppgifter. Detta gör det enklare att styra datauppsättningsuppgifterna i projektet, istället för att utföra designåtgärderna individuellt i varje uppgift.
-
Validera
Klicka på Validera för att validera alla uppgifter, eller ett urval av uppgifter. Datauppgifter som har ändrats sedan den senaste valideringsåtgärden är förvalda.
Datauppgifterna valideras i pipeline-ordning.
-
Förbered
Klicka på Förbered för att förbereda alla uppgifter, eller ett urval av uppgifter. Datauppgifter som har ändrats sedan den senaste förberedelseåtgärden är förvalda.
Du kan välja att återskapa datauppsättningar som kräver en strukturändring som inte stöds av dataplattformen. Detta kan leda till dataförlust.
-
Återskapa
Klicka på ... och sedan på Återskapa tabeller för att återskapa datauppsättningarna från källan för alla uppgifter, eller för ett urval av uppgifter.
Anteckning om informationOm det uppstår problem med enskilda tabeller rekommenderas du att först försöka läsa in tabellerna igen istället för att återskapa dem. Om du återskapar tabeller kan detta leda till att historiska data förloras. Om det sker stora förändringar måste du också förbereda datauppgifter nedströms som använder de återskapade datauppgifterna för att ladda data på nytt.
Köra datauppgifter
Du kan initiera körningen av alla datauppgifter i projektet, eller på ett urval av uppgifter, istället för att köra uppgifter individuellt. Till exempel kan du köra alla uppgifter med ett tidsbaserat schema. Detta kommer att initiera nedströmsuppgifter med ett händelsebaserat schema.
-
Kör
Klicka på Kör för att initiera körningen av alla uppgifter, eller ett urval av uppgifter. Detta initierar körningen av alla valda uppgifter och slutförs så snart de börjar köras.
Du kan välja bland alla uppgifter som är redo att köras. Uppgifter med ett tidsbaserat schema och uppgifter som använder CDC är förvalda. Uppgifter med ett händelsebaserat schema är inte förvalda eftersom de kommer att köras när de har data att bearbeta.
I ett projekt med Qlik Cloud som dataplattform är alla uppgifter för mellanlagring och lagring förvalda.
Anteckning om informationAlla datauppgifter körs parallellt. Detta innebär att beroendekontroller kan förhindra att vissa uppgifter körs. -
Stoppa
Klicka på Stoppa för att stoppa alla uppgifter, eller ett urval av uppgifter.
Du kan välja bland uppgifter som körs.
Ta bort datauppgifter
-
Klicka på Ta bort för att ta bort alla datauppgifter i projektet, eller ett urval av uppgifter.
Det är inte möjligt att ta bort uppgifter som körs, eller uppgifter som används av andra uppgifter.
Ändra vyn för ett projekt
Det finns två olika vyer för projekt. Du kan växla mellan vyerna genom att klicka på Pipeline-vy.
-
Pipeline-vyn visar dataflödet för datauppgifterna.
Du kan välja hur mycket information som ska visas för datauppgifterna genom att klicka på Skikt. Slå på eller av följande information:
-
Status
-
Senaste aktualisering
-
Schema
-
Utdata över flera projekt
Detta kommer att visa uppgifter i andra projekt som konsumerar en uppgift i detta projekt. Alla uppgifter utanför det aktuella projektet är gråa.
-
-
Kortvyn visar en kortvy med information om datauppgiften.
Du kan filtrera på tillgångstyp och ägare.
Ta bort ett projekt
-
I vyn Pipeline-projekt, klicka på
på ett projekt och välj Ta bort.
Du kan välja att behålla artefakter (tabeller och vyer) som skapats av en uppgift för varje enskild uppgift, förutom följande typer där artefakter alltid behålls:
-
Uppgifter för mellanlagring
-
Uppgifter för mellanlagring i lake
-
Uppgifter för replikering
Visa data
Du kan visa ett urval av data för att se och validera formen på dina data när du designar din datapipeline.
Följande behörigheter krävs:
-
Visning av data är aktiverat på klientorganisationsnivå i Administration.
Aktivera Inställningar > Funktionskontroll > Visa data i Dataintegrering.
-
Du har tilldelats rollen Kan visa data i utrymmet där kopplingen finns.
-
Du har tilldelats rollen Kan visa i utrymmet där projektet finns.
För att visa exempeldata i datapipeline-vyn:
-
Klicka på
i förhandsgranskningsbannern längst ner i pipeline-vyn.
-
Välj vilken datauppgift du vill förhandsgranska data för.
Ett urval av data visas. Du kan ställa in hur många datarader som ska inkluderas i urvalet med Antal rader.
Exportera och importera projekt
Du kan exportera ett projekt till en JSON-fil som innehåller allt som krävs för att rekonstruera projektet. Den exporterade JSON-filen kan importeras på samma klientorganisation, eller på en annan klientorganisation. Du kan använda detta till exempel för att flytta projekt från en klientorganisation till en annan, eller för att göra säkerhetskopior av projekt.
För mer information, se Exportera och importera datapipelines.
Byta ägare av ett projekt
Datauppgifter fungerar i kontexten av ägaren till det projekt de tillhör. Du kan byta ägare av ett projekt för att överföra kontrollen över alla uppgifter i dataprojektet till en annan användare. Detta är till exempel användbart om det finns projekt som ägs av en användare som har tagits bort.
-
I projektvyn, klicka på ... och sedan på Byt ägare.
Ägarbytet kommer att gälla för alla uppgifter i projektet. Alla katalogiserade datauppsättningar som skapas av uppgifter i projektet kommer också att byta ägare.
Ändra koppling för dataplattform
Om du ändrar kopplingen för Dataplattform för ett projekt måste du:
-
Återskapa tabeller i alla uppgifter för mellanlagring.
-
Förbereda alla andra uppgifter i projektet.
Visa projektinformation
Klicka på i menyraden för att visa projektinformation, till exempel:
-
Ägare
-
Utrymme
-
Dataplattform
-
Projekt-id
Projektinställningar
Du kan ställa in egenskaper som är gemensamma för projektet och alla inkluderade datauppgifter.
-
Klicka på Inställningar.
För mer information, se Dataprojektinställningar.