Skapa en datapipeline
Du kan skapa en datapipeline för att utföra all dataintegrering inom ett projekt med dataarbetsuppgifter. Vid introduktionen flyttas data till projektet från lokala datakällor eller i molnet och lagrar data i datauppsättningar som kan användas direkt. Du kan även utföra omvandlingar och skapa datamarter för att utnyttja dina genererade och omvandlade datauppsättningar. Datapipelinen kan vara enkel och linjär, men den kan också vara en komplex pipeline som använder flera datakällor och genererar mycket utdata.
Alla dataarbetsuppgifter kommer att skapas i samma utrymme som det projekt som de tillhör.
Du kan också visa ursprung för att spåra data och dataomvandlingar bakåt till ursprungskällan och utföra påverkansanalys som visar den framåtpekande nedströmsvyn av en datauppgift, datauppsättning eller fältberoenden. Mer information finns i Arbeta med ursprung och påverkansanalys i Dataintegrering.
Introduktion av data
Här ingår mellanlagring av data till ett mellanlagringsområde och sedan att lagra dataposterna i ett molndatalager. Dataarbetsuppgifter för mellanlagring och lagring skapas i ett enda steg. Vid behov kan du även utföra mellanlagring och lagring som separata uppgifter.
Registrera data som redan finns på dataplattformen
Registrera data som redan finns på dataplattformen för att kurera och omvandla data och skapa datamarter. Det innebär att du kan använda data som har introducerats med andra verktyg än Qlik Talend Data Integration, till exempel Qlik Replicate eller Stitch.
Omvandla data
Skapa återanvändbara omvandlingar på radnivå för introducerade data baserat på regler och anpassad SQL. Detta skapar en dataarbetsuppgift för omvandling.
Skapa och hantera datamarter
Skapa en datamart för att utnyttja dina datauppsättningar. Detta skapar en datamart-dataarbetsuppgift.
Måldataplattformar
Projektet är kopplat till en dataplattform som används som mål för all utdata.
Mer information om dataplattformar som stöds finns i Konfigurera kopplingar till mål.
Videointroduktion till projekt
Exempel på att skapa ett projekt
I det följande exemplet utförs introduktion av data, omvandling av data och en datamart skapas. Därigenom skapas en enkel linjär datapipeline som du kan utöka genom att registrera fler datakällor, skapa fler omvandlingar och lägga till de genererade datauppsättningarna i datamarten.
-
Skapa ett nytt projekt
I Dataintegrering > Projekt klickar du på Skapa projekt.
-
Ange ett namn och en beskrivning för projektet och skapa ett utrymme att skapa projektet i. Alla dataarbetsuppgifter kommer att skapas i utrymmet för det projekt som de tillhör.
Anteckning om informationOm du senare aktiverar versionskontroll för projektet kommer du inte att kunna ändra projektnamnet när det är under versionskontroll. - Välj Datapipeline i Användningsfall.
-
Välj vilken dataplattform du vill använda i projektet.
-
Välj en koppling till det molndatalager som du vill använda i projektet. Det kommer att användas för att introducera datafiler och lagra datauppsättningar och vyer. Om du inte redan har förberett en koppling skapar du en med Lägg till koppling.
Om du har valt Google BigQuery, Databricks eller Microsoft Azure Synapse Analytics som dataplattform måste du också koppla till ett mellanlagringsområde.
-
Om du har valt Qlik Cloud som dataplattform:
Du kan antingen lagra data i Qlik-hanterad lagring eller din egen hanterade Amazon S3-bucket. Om du vill använda din egen Amazon S3-bucket måste du välja en koppling för denna bucket.
I båda fallen måste du använda en koppling till ett mellanlagringsområde för Amazon S3. OM du använder samma bucket som du definierade i det föregående steget måste du använda en annan katalog i bucket för mellanlagring.
-
Klicka på Skapa.
Projektet skapas och du kan skapa din datapipeline genom att lägga till dataarbetsuppgifter.
-
-
Introducera data
I projektet klickar du på Skapa och sedan på Introducera data.
Mer information finns i Introduktion av data.
Detta kommer att skapa en dataarbetsuppgift för mellanlagring och en för lagring. För att börja replikera data behöver du:
-
Förbered och kör dataarbetsuppgiften för mellanlagring.
Mer information finns i Mellanlagra data från datakällor.
-
Förbered och kör lagringsuppgiften.
Mer information finns i Lagra datauppsättningar.
-
-
Omvandla data
När dataarbetsuppgiften för lagring skapas går du tillbaka till projektet. Du kan nu utföra omvandlingar på de skapade datauppsättningarna.
Klicka på ... på dataarbetsuppgiften för lagring och välj Omvandla data för att skapa en dataarbetsuppgift för omvandling baserat på den här dataarbetsuppgiften för lagring. Se Omvandla data för instruktioner om omvandlingar.
-
Skapa en datamart
Du kan skapa en datamart baserat på en dataarbetsuppgift lagring eller en dataarbetsuppgift för omvandling.
Klicka på … på dataarbetsuppgiften och välj Skapa datamart för att skapa en dataarbetsuppgift för datamart. Instruktioner om att skapa en datamart finns på:
När du har skapat den första fullständiga laddningen av lagrade och omvandlade datatillgångar och datamarter kan du till exempel använda dem i en analysapp. Mer information om att skapa analysappar finns i Skapa en analysapp med datauppsättningar som genererats av Qlik Talend Data Integration.
Du kan också utöka datapipelinen genom att introducera fler datakällor och kombinera dem i omvandlingen eller i datamarten.
Åtgärder i ett datapipelineprojekt
Du kan utföra samma operationer som är tillgängliga för en datauppgift som projektåtgärder. På så sätt kan du organisera åtgärderna i datapipelinen.
Slå på och av scheman
Utför designåtgärder.
Starta och stoppa utförandet av datauppgifter
Ta bort datauppgifter
Klicka på Operationer för att visa statusen för en pågående operation eller den senast utförda operationen.
Du kan stoppa en pågående operation genom att klicka på Stoppa operation. Datauppgifter som pågår stoppas inte, men alla uppgifter som ännu inte har startats avbryts.
Slå på och av scheman
Du kan styra schemana för datauppgifter på projektnivå.
Klicka på … och sedan på Schema.
Du kan aktivera eller inaktivera schemat för alla datauppgifter eller ett urval av uppgifter. Endast uppgifter med ett definierat schema visas.
Anteckning om informationDet här alternativet är inte tillgängligt för projekt med Qlik Cloud som dataplattform.
Mer information om schemaläggning av individuella datauppgifter finns i:
Utföra designåtgärder.
Du kan utföra designåtgärder på alla datauppgifter i projektet eller på ett urval av uppgifter. Detta gör det lättare att styra uppgifterna för datauppsättningen i projektet, i stället för att utföra designåtgärderna individuellt i varje uppgift.
Validera
Klicka på Validera för att validera alla uppgifter eller ett urval av uppgifter. Datauppgifter som ändrats sedan den senaste valideringsoperationen väljs i förväg.
Datauppgifterna valideras i pipeline-ordning.
Förbered
Klicka på Förbered för att förbereda alla uppgifter eller ett urval av uppgifter. Datauppgifter som ändrats sedan den senaste förberedelseoperationen väljs i förväg.
Du kan välja att återskapa datauppsättningar som kräver en strukturförändring som inte stöds av dataplattformen. Det kan leda till dataförlust.
Återskapa
Klicka på … och sedan på Återskapa för att återskapa datauppsättningarna från källan för alla uppgifter eller för ett urval av uppgifter.
Köra datauppgifter
Du kan initiera utförandet av alla datauppgifter i projektet eller för ett urval av åtgärder i stället för att köra åtgärderna individuellt. Du kan till exempel köra alla uppgifter med ett tidsbaserat schema. Detta kommer att initiera nedströmsuppgifter med ett händelsebaserat schema.
Kör
Klicka på Kör för att påbörja utförandet av alla uppgifter eller ett urval av uppgifter. Detta initierar körningen av alla valda uppgifter och avslutas så snart de börjar utföras.
Du kan välja bland alla uppgifter som är redo att köras. Uppgifter med ett tidsbaserat schema och uppgifter som använder CDC är förvalda. Uppgifter med ett händelsebaserat schema är inte förvalda eftersom de utförs när de har data att bearbeta.
I ett projekt med Qlik Cloud som dataplattform är alla mellanlagrings- och lagringsuppgifter förvalda.
Anteckning om informationAlla datauppgifter utförs parallellt. Detta innebär att kontroller av beroenden kan hindra vissa uppgifter från att köras.Stoppa
Klicka på Stoppa för att stoppa alla uppgifter eller ett urval av uppgifter.
Du kan välja bland uppgifter som körs.
Ta bort datauppgifter
Klicka på Ta bort för att ta bort alla datauppgifter i projektet eller ett urval av uppgifter.
Ändra vy för ett projekt
Det finns två olika vyer av projekt. Du kan växla mellan vyerna genom att klicka på Pipelinevy.
Pipelinevyn visar dataflödet för datauppgifterna.
Du kan välja hur mycket information om ska visas för datauppgifterna genom att klicka på Skikt. Slå på eller av följande information:
Status
Uppgifternas aktualitet
Schema
I kortvyn visas en kortvy med information om datauppgiften.
Du kan filtrera efter tillgångstyp och ägare.
Visa data
Du kan visa ett exempel på data och visa och validera formen på dina data när du utformar din datapipeline.
Följande behörigheter krävs:
Visning av data är aktiverat på klientorganisationsnivån i Administration.
Aktivera Inställningar > Funktionskontroll > Visa data i Dataintegrering.
Du har tilldelats rollen Kan visa data i det utrymme där kopplingen finns.
Du har tilldelats rollen Kan visa i det utrymme där projektet finns.
För att visa exempeldata i datapipelinevyn:
Klicka på i förhandsgranskningsbanderollen längst ner i pipelinevyn.
Välj vilken datauppgift du vill förhandsgranska data för.
Ett urval av data visas. Du kan ställa in hur många datarader som ska tas med i exemplet med Antal rader.
Exportera och importera projekt
Du kan exportera ett projekt till en JSON-fil som innehåller allt som behövs för att rekonstruera projektet. Den exporterade JSON-filen kan importeras på samma klientorganisation eller på en annan klientorganisation. Du kan till exempel använda detta för att flytta projekt från en klientorganisation till en annan eller för att göra säkerhetskopior av projekt.
Mer information finns i Exportera och importera datapipelines.
Projektinställningar
Du kan ställa in egenskaper som är gemensamma för projektet och alla dataarbetsuppgifter som ingår.
Klicka på Settings.
Mer information finns i Dataprojektinställningar.