Een gegevenspijplijn maken

U kunt een gegevenspijplijn maken om al uw gegevensintegraties uit te voeren binnen een project met behulp van gegevenstaken. Bij het vrijgeven worden gegevens naar het project verplaatst vanuit gegevensbronnen die zich lokaal of in de cloud bevinden en worden gegevens in de gebruiksklare gegevensverzamelingen opgeslagen. U kunt ook transformaties uitvoeren en datamarts maken om uw gegenereerde en getransformeerde gegevensverzamelingen te gebruiken. De gegevenspijplijn kan eenvoudig en lineair zijn of het kan een complexe gegevenspijplijn zijn die verschillende gegevensbronnen gebruikt en veel uitvoergegevens genereert.

Gegevensprojecten ondersteunen geen voorbeeldconnectoren van de SaaS-applicatie. Om te weten te komen of uw connector in de preview staat, raadpleegt u de connector help.

Alle gegevenstaken worden in dezelfde ruimte gemaakt als het project waartoe ze behoren.

U kunt ook herkomst bekijken om gegevens en gegevenstransformaties terug te leiden naar de originele bron, en een impactanalyse uitvoeren om de vooruitziende downstreamweergave van afhankelijkheden van een gegevenstaak, gegevensverzameling of veld te tonen. Ga voor meer informatie naar Werken met herkomst en impactanalyse in Gegevensintegratie.

Gegevens onboarden

Dit omvat het tijdelijk opslaan van gegevens in een tussenopslag, om de gegevensverzamelingen vervolgens in een clouddatewarehouse op te slaan. Taken voor het (tijdelijk) opslaan van gegegevens worden in één stap gemaakt. Indien gewenst kunt u de tussenopslag en definitieve opslag met verschillende taken uitvoeren.

Gegevens registreren die al op het gegevensplatform bestaan

Registreer gegevens die al in het gegevensplatform bestaan om gegevens te beheren en transformeren en datamarts te maken. Hiermee kunt u gegevens gebruiken die onderdeel uitmaken van andere hulpmiddelen dan Qlik Talend Data Integration, zoals Qlik Replicate of Stitch.

Gegevens transformeren

Maak herbruikbare transformaties op rijniveau in de onboardinggevens op basis van regels en aangepaste SQL. Hiermee maakt u een transformatiegegevenstaak.

Datamarts maken en beheren

Maak een datamart om uw gegevensverzamelingen te gebruiken. Hiermee maakt u een datamartgegevenstaak.

Doelgegevensplatformen

Het project wordt gekoppeld aan een gegevensplatform dat wordt gebruikt als doel voor alle uitvoergegevens.

Voor meer informatie over ondersteunde gegevensplatformen gaat u naar Verbindingen naar doelen instellen.

Inleidende video voor projecten

Voorbeeld van het maken van een project

In het volgende voorbeeld worden gegevens vrijgegeven en getransformeerd en wordt een datamart gemaakt. Hiermee maakt u een simpele lineaire gegevenspijplijn die u kunt uitbreiden door meer gegevensbronnen vrij te geven, meer transformaties te maken en door de gegenereerde gegevenstaken toe te voegen aan de datamart.

Flowdiagram van gegevenspijplijnen — Voorbeeld van een lineaire gegevenspijplijn in een project

Maak een nieuw project.

In Gegevensintegratie > Projecten klikt u op Nieuwe maken > Project.
1. Voer een naam en een beschrijving voor het project in.
  
  InformatieAls u later versiebeheer voor het project inschakelt, kunt u de projectnaam niet wijzigen terwijl het onder versiebeheer staat.
2. Selecteer een ruimte om het project in te maken. Alle gegevenstaken worden gemaakt in de ruimte van het project waartoe ze behoren.
3. Selecteer Gegevenspijplijn in Gebruikscase.
4. Selecteer welk gegevensplatform u in het project wilt gebruiken.
5. Selecteer een verbinding naar het clouddatawarehouse dat u in het project wilt gebruiken. Deze wordt gebruikt om gegevensbestanden tijdelijk in op te slaan en om gegevensverzamelingen en weergaven op te slaan. Als u nog geen verbinding hebt voorbereid, maak er dan een met Nieuwe maken.
  - Als u Google BigQuery, Databricks of Microsoft Azure Synapse Analytics als gegevensplatform hebt gesecteerd, moet u ook verbinding maken met een tussenopslag.
  - Als u Snowflake als gegevensplatform hebt geselecteerd, kunt u ervoor kiezen om gegevens op te slaan in de cloud. Zie: Tussenopslag in een lakehouse.
  - Als u Qlik Cloud als gegevensplatform hebt geselecteerd.
    
    U kunt gegevens opslaan in een door Qlik beheerde opslag of uw eigen beheerde Amazon S3-bucket. Als u uw eigen Amazon S3-bucket wilt gebruiken, moet u een verbinding naar die bucket selecteren.
    
    In beide gevallen moet u een verbinding naar een Amazon S3-tussenopslag selecteren. Als u dezelfde bucket gebruikt als die u in de vorige stap hebt gedefinieerd, gebruik dan een andere map in de bucket voor de tijdelijke opslag.
6. Klik op Maken.
  
  Het project is gemaakt en u kunt uw gegevenspijplijn maken door gegevenstaken toe te voegen.
De gegevens vrijgeven

Klik in het project op Maken en vervolgens op Gegevens onboarden.

Ga voor meer informatie naar Gegevens onboarden.

Hiermee wordt een taak voor tussenopslag en voor het opslaan van gegevens gemaakt. Ga als volgt te werk om gegevens te repliceren:
- Bereid de taak voor tussenopslag voor en voer deze uit.
  
  Ga voor meer informatie naar Gegevens van gegevensbronnen tijdelijk opslaan.
- Bereid de taak voor de opslag van gegevens voor en voer deze uit.
  
  Ga voor meer informatie naar Gegevensverzamelingen opslaan.
De gegevens transformeren

Nadat de taak voor de opslag van gegevens is gemaakt, gaat u terug naar het project. U kunt nu transformaties uitvoeren voor de gemaakte gegevensverzamelingen.

Klik op ... op de taak voor de opslag van gegevens en selecteer Gegevens transformeren om een taak voor de transformatie van gegevens te maken op basis van deze taak voor de opslag van gegevens. Voor informatie over transformaties gaat u naar Gegevens transformeren.
Een datamart maken

U kunt een datamart maken op basis van een taak voor de opslag van gegevens of een taak voor de transformatie van gegevens.

Klik op ... op de gegevenstaak en selecteer Datamart maken om een datamartgegevenstaak te maken. Voor instructies voor het maken van een datamart, raadpleegt u:

Datamarts maken en beheren

Als u de eerste volledige lading van de opgeslagen en getransformeerde gegevensassets en datamarts hebt uitgevoerd, kunt u deze bijvoorbeeld gebruiken in een analyse-app. Zie Een analyse-app maken met behulp van gegevensverzamelingen die zijn gegenereerd door Qlik Talend Data Integration voor meer informatie over het maken van analyse-apps.

U kunt de gegevenspijplijn ook uitbreiden door meer gegevensbronnen vrij te geven en deze te combineren in de transformatie of de datamart.

Projectoverstijgende pijplijnen maken

U kunt projectoverstijgende pijplijnen bouwen waarbij een taak de taken van een ander project kan gebruiken. Hiermee kunt u op verschillende manieren segmentatie bereiken:

U kunt voor elke organisatorische eenheid een aparte pijplijn voor gegevensverplaatsing maken en de uitvoer in één enkele datamartpijplijn gebruiken.
U kunt één pijplijn voor gegevensverplaatsing maken en de uitvoer in meerdere transformatiepijplijnen gebruiken.

Transformatie- en datamarttaken kunnen opslag- en transformatietaken gebruiken die zich in een ander project bevinden.

U moet ten minste de rol Kan gebruiken hebben in de ruimte van het geconsumeerde project.
Beide projecten moeten zich op hetzelfde gegevensplatform bevinden.

Alle gegevensverzamelingen van een taak worden gedeeld met downstreamprojecten. Dit betekent dat als u scheiding van gegevensverzamelingen wilt bereiken, u gegevensverzamelingen moet uitfilteren in het gebruikte project door een transformatietaak te maken.

In de projectenweergave kunt u taken bekijken die door een ander project worden gebruikt en taken van andere projecten die in het huidige project worden gebruikt. Alle taken buiten het huidige project worden grijs weergegeven. De afhankelijkheden staan op verwijzing en niet op naam, wat betekent dat u een taak kunt hernoemen zonder de verwijzing te verbreken. Dit betekent ook dat als u een taak die gebruikt is, verwijdert en een nieuwe taak met dezelfde naam maakt, de verwijzing nog steeds verbroken wordt.

Er zijn verschillende manieren om bestaande gegevens te hergebruiken:

Een nieuw project maken

Selecteer de optie Gegevens van een ander project gebruiken nadat u een project hebt gemaakt.

U kunt een transformatie of een datamart maken, waarbij onboarded gegevens van een andere pijplijn worden gebruikt.
In een transformatietaak of datamarttaak kunt u gegevens van een ander project selecteren in Brongegevens selecteren.

Selecteer bij het selecteren van gegevensbronnen Project en vervolgens Gegevenstaak om te zien welke gegevensverzamelingen beschikbaar zijn.

U kunt kiezen of u taken in andere projecten wilt weergeven die een taak in dit project gebruiken.

Klik op Lagen en schakel Projectoverstijgende uitvoer in of uit.

Alle taken buiten het huidige project worden grijs weergegeven.

Beperkingen van versiebeheer

Aangezien projectoverstijgende pijplijnen over verschillende projecten worden verdeeld, voegt dit complexiteit toe bij het gebruik van versiebeheer. In deze voorbeelden wordt Project1 gebruikt door Project2.

Klik om op volledige grootte te bekijken — Voorbeeld van een projectoverstijgende pijplijn

Project2 kan alleen de hoofdvertakking van Project1 gebruiken, maar Project2 kan zelf op een andere vertakking zitten.
U kunt een vertakking maken voor Project1, maar de vertakte versie zal niet laten zien dat het gebruikt wordt door Project2.
U kunt Project2 samenvoegen met hoofd maar de afhankelijkheid blijft bestaan.

Aanbevolen procedures

Controleer of de taken in het gebruikte project ten minste voorbereid zijn, om er zeker van te zijn dat ze geldig zijn.
Vermijd het ontwerpen van pijplijnen die een lus of wederzijdse afhankelijkheden tussen projecten creëren.
Als u van plan bent om projecten tussen tenants te exporteren en importeren, zal het gemakkelijker zijn als u dezelfde namen aanhoudt voor ruimten en projecten in de tenants. Als de namen verschillen, moet u projecten en taken toewijzen bij het importeren van het project.
Als u het gegevensplatform wilt wijzigen met exporteren en importeren, moeten alle projecten met afhankelijkheden op hetzelfde platform staan.

Volg deze stappen voor een veilige en gemakkelijke platformwissel. In dit voorbeeld heet het project dat gebruikt wordt Consumed, en het project dat uit Consumed leest Consumer.
1. Exporteer Consumed en Consument.
2. Importeer Consumed naar Consumed_New, waarbij u overschakelt naar het nieuwe gegevensplatform.
3. Importeer Consumer naar Consumer_New, verander naar hetzelfde gegevensplatform als Consumed_New en vervang het bronproject (Consumed) door Consumed_New.

Bewerkingen in een gegevenspijplijnproject

U kunt dezelfde bewerkingen uitvoeren als die beschikbaar zijn voor een gegevenstaak in projectbewerkingen. Dit stelt u in staat de bewerkingen te sturen in de gegevenspijplijn.

U kunt slechts één projectbewerking tegelijk per project uitvoeren.

Planningen in- en uitschakelen
Ontwerpbewerkingen uitvoeren
Uitvoer van gegevenstaken starten en stoppen
Gegevenstaken verwijderen

Klik op Bewerkingen om de status van een bewerking die in uitvoer is of de laatst uitgevoerde bewerking te bekijken.

U kunt een bewerking die in uitvoer is stoppen door op Bewerking stoppen te klikken. Gegevenstaken die in uitvoer zijn, worden niet gestopt, maar het annuleert alle taken die nog niet zijn gestart.

Planningen in- en uitschakelen

U kunt de planningen voor gegevenstaken op projectniveau regelen.

Klik op ... en vervolgens op Planning.

U kunt de planning voor alle of voor een aantal gegevenstaken in- of uitschakelen. Alleen taken met een ingestelde planning worden weergegeven.

InformatieDeze optie is niet beschikbaar voor projecten met Qlik Cloud als gegevensplatform.

Voor meer informatie over het plannen van afzonderlijke gegevenstaken gaat u naar:

Ontwerpbewerkingen uitvoeren

U kunt ontwerpbewerkingen uitvoeren voor alle of een deel van de gegevenstaken in het project. Dit maakt het gemakkelijker om de gegevensverzamelingtaken in het project te regelen, in plaats van dat de ontwerpbewerkingen individueel per taak moeten worden uitgevoerd.

Valideren

Klik op Valideren om alle taken of een deel van de taken te valideren. Gegevenstaken die sinds de laatste validatiebewerking zijn gewijzigd, zijn al geselecteerd.

De gegevenstaken worden in pijplijnvolgorde gevalideerd.
Voorbereiden

Klik op Voorbereiden om alle taken of een deel van de taken voor te bereiden. Gegevenstaken die sinds de laatste voorbereiding zijn gewijzigd, zijn al geselecteerd.

U kunt ervoor kiezen gegevensverzamelingen opnieuw te maken waarvoor een structuurwijziging is vereist die niet wordt ondersteund door het gegevensplatform. Hierdoor kunnen gegevens verloren gaan.
Opnieuw maken

Klik op ... en vervolgens op Tabellen opnieuw maken om de gegevensverzamelingen uit de bron voor alle taken of een deel van de taken opnieuw te maken.

InformatieAls er problemen met afzonderlijke tabellen zijn, wordt aanbevolen om eerst de tabellen opnieuw te laden voordat u ze opnieuw maakt. Door het opnieuw maken van de tabellen kunnen historische gegevens verloren gaan. Als er grote wijzigingen zijn, moet u ook downstream gegevenstaken voorbereiden die gebruikmaken van de opnieuw gemaakte gegevenstaken om de gegevens te laden.

Gegevenstaken uitvoeren

U kunt de uitvoer van alle of een deel van de gegevenstaken in het project initiëren in plaats van dat u taken individueel moet uitvoeren. Zo kunt u alle taken uitvoeren op basis van een tijdschema. Dit start downstream-taken met een gebeurtenisgebaseerd schema.

Uitvoeren

Klik op Uitvoeren om de uitvoer van alle of een deel van de taken te starten. Dit start de uitvoer van alle geselecteerde taken en is voltooid zodra ze worden uitgevoerd.

U kunt kiezen uit alle taken die klaar zijn om te worden uitgevoerd. Taken met een tijdschema en taken die CDC gebruiken, zijn al geselecteerd. Taken met een schema op basis van gebeurtenissen, zijn nog niet geselecteerd omdat ze worden uitgevoerd zodra ze gegevens hebben om te verwerken.

In een project met Qlik Cloud als gegevensplatform, zijn alle tussenopslag- en opslagtaken al geselecteerd.

InformatieAlle gegevenstaken worden parallel uitgevoerd. Dit houdt in dat afhankelijkheidscontroles ervoor kunnen zorgen dat bepaalde taken niet worden uitgevoerd.
Stoppen

Klik op Stoppen om alle taken of een deel van de taken te stoppen.

U kunt kiezen uit taken die worden uitgevoerd.

Gegevenstaken verwijderen

Klik op Verwijderen om alle gegevenstaken of een deel van de taken in het project te verwijderen.

De weergave van een project wijzigen

Voor een project zijn twee verschillende weergaven beschikbaar. U kunt tussen de weergaven wisselen door te klikken op Pijplijnweergave.

De pijplijnweergave toont de gegevensstroom van de gegevenstaken.

Klik op Lagen om te kiezen hoeveel gegevens er getoond moeten worden voor de gegevenstaken. Schakel de volgende gegevens in of uit:
- Status
- Nieuwheid van gegevens
- Planning
- Uitvoer tussen projecten
  
  Hierdoor worden taken in andere projecten weergegeven die een taak in dit project gebruiken. Alle taken buiten het huidige project worden grijs weergegeven.
De kaartweergave toont een kaartweergave met informatie over de gegevenstaak.

U kunt filteren op assettype en eigenaar.

Gegevens weergeven

U kunt een voorbeeld van de gegevens tonen om de vorm van uw gegevens te bekijken en valideren als u uw gegevenspijplijn gaat ontwerpen.

De volgende machtigingen zijn vereist:

Het weergeven van gegevens is ingeschakeld op tenantniveau in Beheer.

Schakel in Gegevensintegratie Instellingen > Functiebeheer > Gegevens weergeven in.
De rol Kan gegevens bekijken is aan u toegewezen in de ruimte waarin de verbinding zich bevindt.
De rol Kan bekijken is aan u toegewezen in de ruimte waarin het project zich bevindt.

Ga als volgt te werk om voorbeeldgegevens in de gegevenspijplijnweergave te bekijken:

Klik op in de voorbeeldbanner onderaan de pijplijnweergave.
Selecteer voor welke gegeventaak u voorbeeldgegevens wilt bekijken.

Er wordt een voorbeeld van de gegevens weergegeven. U kunt met Aantal rijen instellen hoeveel gegevensrijen in het voorbeeld worden opgenomen.

Projecten exporteren en importeren

U kunt een project exporteren naar een JSON-bestand dat alles bevat dat nodig is om het project te reconstrueren. Het geëxporteerde JSON-bestsand kan op dezelfde tenant of een andere tenant worden geïmporteerd. U kunt dit bijvoorbeeld gebruiken om projecten van de ene tenant naar de andere te verplaatsen of om back-ups te maken van projecten.

Ga voor meer informatie naar Gegevenspijplijnen exporteren en importeren.

De eigenaar van een project wijzigen

Gegevenstaken worden uitgevoerd in de context van de eigenaar van het project. U kunt de eigenaar van een project wijzigen om de controle over alle taken in het gegevensproject over te dragen aan een andere gebruiker. Dit is bijvoorbeeld handig als er projecten zijn die eigendom zijn van een gebruiker die verwijderd is.

Als u de eigenaar van een project wilt wijzigen, hebt u de rol Tenantbeheerder of Gegevensbeheerder nodig. Zie Rollen en machtigingen in gegevensruimten voor meer informatie over de vereiste rollen en machtigingen.

Klik in de projectweergave op ... en vervolgens op Eigenaar wijzigen.

De verandering van eigenaar geldt voor alle taken in het project. Alle gecatalogiseerde gegevensverzamelingen die zijn aangemaakt door taken in het project zullen ook van eigenaar veranderen.

Projectinstellingen

U kunt eigenschappen instellen die van toepassing zijn op het project en alle opgenomen gegevenstaken.

Klik op Instellingen.

Ga voor meer informatie naar Instellingen voor gegevenspijplijnproject.

GERELATEERD LESMATERIAAL:

Qlik Cloud Data Integration gebruiken om gegevens te onboarden en transformeren

Meer informatie

Qlik Cloud Data Integration gebruiken om gegevens te onboarden en transformeren

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!

Geef hier uw feedback