Een gegevenspijplijn maken

U kunt een gegevenspijplijn maken om al uw gegevensintegraties uit te voeren binnen een gegevensproject met behulp van gegevenstaken. Bij het vrijgeven worden gegevens naar het project verplaatst vanuit gegevensbronnen die zich lokaal of in de cloud bevinden en worden gegevens in de gebruiksklare gegevensverzamelingen opgeslagen. U kunt ook transformaties uitvoeren en datamarts maken om uw gegenereerde en getransformeerde gegevensverzamelingen te gebruiken. De gegevenspijplijn kan eenvoudig en lineair zijn of het kan een complexe gegevenspijplijn zijn die verschillende gegevensbronnen gebruikt en veel uitvoergegevens genereert.

Alle gegevenstaken worden in dezelfde ruimte gemaakt als het gegevensproject waartoe ze behoren.

U kunt ook herkomst bekijken om gegevens en gegevenstransformaties terug te leiden naar de originele bron, en een impactanalyse uitvoeren om de vooruitziende downstreamweergave van afhankelijkheden van een gegevenstaak, gegevensverzameling of veld te tonen. Ga voor meer informatie naar Werken met herkomst en impactanalyse in Gegevensintegratie.

Gegevens onboarden

Dit omvat het tijdelijk opslaan van gegevens in een tussenopslag, om de gegevensverzamelingen vervolgens in een clouddatewarehouse op te slaan. Taken voor het (tijdelijk) opslaan van gegegevens worden in één stap gemaakt. Indien gewenst kunt u de tussenopslag en definitieve opslag met verschillende taken uitvoeren.

Gegevens registreren die al op het gegevensplatform bestaan

Registreer gegevens die al in het gegevensplatform bestaan om gegevens te beheren en transformeren en datamarts te maken. Hiermee kunt u gegevens gebruiken die onderdeel uitmaken van andere hulpmiddelen dan Qlik Cloud Gegevensintegratie, zoals Qlik Replicate of Stitch.

Gegevens transformeren

Maak herbruikbare transformaties op rijniveau in de onboardinggevens op basis van regels en aangepaste SQL. Hiermee maakt u een transformatiegegevenstaak.

Datamarts maken en beheren

Maak een datamart om uw gegevensverzamelingen te gebruiken. Hiermee maakt u een datamartgegevenstaak.

Doelgegevensplatformen

Het gegevensproject wordt gekoppeld aan een gegevensplatform dat wordt gebruikt als doel voor alle uitvoergegevens.

Voor meer informatie over ondersteunde gegevensplatformen gaat u naar Verbinding maken met doelen.

Inleidende video voor gegevensprojecten

Voorbeeld van het maken van een gegevensproject

In het volgende voorbeeld worden gegevens vrijgegeven en getransformeerd en wordt een datamart gemaakt. Hiermee maakt u een simpele lineaire gegevenspijplijn die u kunt uitbreiden door meer gegevensbronnen vrij te geven, meer transformaties te maken en door de gegenereerde gegevenstaken toe te voegen aan de datamart.

Klik om op volledige grootte te bekijken — Voorbeeld van een lineaire gegevenspijplijn in een gegevensproject

Maak een nieuw gegevensproject.

Klik op Nieuwe toevoegen en vervolgens op Gegevensproject maken op de startpagina van Qlik Cloud Gegevensintegratie.
1. Geef een naam en omschrijving op voor het gegevensproject en selecteer een ruimte waarin u het gegevensproject wilt maken. Alle gegevenstaken worden gemaakt in de ruimte van het gegevensproject waartoe ze behoren.
2. Selecteer Gegevenspijplijn in Gebruikscase.
3. Selecteer welk gegevensplatform u in het project wilt gebruiken.
4. Selecteer een gegevensverbinding naar het clouddatawarehouse dat u in het project wilt gebruiken. Deze wordt gebruikt om gegevensbestanden tijdelijk in op te slaan en om gegevensverzamelingen en weergaven op te slaan. Als u nog geen gegevensverbinding hebt voorbereid, maak er dan een met Verbinding maken.
  
  Als u Google BigQuery, Databricks of Microsoft Azure Synapse Analytics als gegevensplatform hebt gesecteerd, moet u ook verbinding maken met een tussenopslag.
5. Als u Qlik Cloud als gegevensplatform hebt geselecteerd.
  
  U kunt gegevens opslaan in een door Qlik beheerde opslag of uw eigen beheerde Amazon S3-bucket. Als u uw eigen Amazon S3-bucket wilt gebruiken, moet u een gegevensverbinding naar die bucket selecteren.
  
  In beide gevallen moet u een gegevensverbinding naar een Amazon S3-tussenopslag selecteren. Als u dezelfde bucket gebruikt als die u in de vorige stap hebt gedefinieerd, gebruik dan een andere map in de bucket voor de tijdelijke opslag.
6. Klik op Maken.
  
  Het gegevensproject is gemaakt en u kunt uw gegevenspijplijn maken door gegevenstaken toe te voegen.
De gegevens vrijgeven

Klik op Nieuwe toevoegen en vervolgens op Gegevens vrijgeven.

Ga voor meer informatie naar Gegevens onboarden.

Hiermee wordt een taak voor tussenopslag en voor het opslaan van gegevens gemaakt. Ga als volgt te werk om gegevens te repliceren:
- Bereid de taak voor tussenopslag voor en voer deze uit.
  
  Ga voor meer informatie naar Gegevens van gegevensbronnen tijdelijk opslaan.
- Bereid de taak voor de opslag van gegevens voor en voer deze uit.
  
  Ga voor meer informatie naar Gegevensverzamelingen opslaan.
De gegevens transformeren

Nadat de taak voor de opslag van gegevens is gemaakt, gaat u terug naar het gegevensproject. U kunt nu transformaties uitvoeren voor de gemaakte gegevensverzamelingen.

Klik op ... op de taak voor de opslag van gegevens en selecteer Gegevens transformeren om een taak voor de transformatie van gegevens te maken op basis van deze taak voor de opslag van gegevens. Voor informatie over transformaties gaat u naar Gegevens transformeren.
Een datamart maken

U kunt een datamart maken op basis van een taak voor de opslag van gegevens of een taak voor de transformatie van gegevens.

Klik op ... op de gegevenstaak en selecteer Datamart maken om een datamartgegevenstaak te maken. Voor instructies voor het maken van een datamart, raadpleegt u:

Datamarts maken en beheren

Als u de eerste volledige lading van de opgeslagen en getransformeerde gegevensassets en datamarts hebt uitgevoerd, kunt u deze bijvoorbeeld gebruiken in een analyse-app. Zie Een analyse-app maken met behulp van gegevensverzamelingen die zijn gegenereerd door Qlik Cloud Gegevensintegratie voor meer informatie over het maken van analyse-apps.

U kunt de gegevenspijplijn ook uitbreiden door meer gegevensbronnen vrij te geven en deze te combineren in de transformatie of de datamart.

Bewerkingen in een gegevensproject

U kunt dezelfde bewerkingen uitvoeren als die beschikbaar zijn voor een gegevenstaak in gegevensprojectbewerkingen. Dit stelt u in staat de bewerkingen te sturen in de gegevenspijplijn.

U kunt slechts één gegevensprojectbewerking tegelijk per gegevensproject uitvoeren.

Planningen in- en uitschakelen
Ontwerpbewerkingen uitvoeren
Uitvoer van gegevenstaken starten en stoppen
Gegevenstaken verwijderen

Klik op Bewerkingen om de status van een bewerking die in uitvoer is of de laatst uitgevoerde bewerking te bekijken.

U kunt een bewerking die in uitvoer is stoppen door op Bewerking stoppen te klikken. Gegevenstaken die in uitvoer zijn, worden niet gestopt, maar het annuleert alle taken die nog niet zijn gestart.

Planningen in- en uitschakelen

U kunt de planningen voor gegevenstaken op projectniveau regelen.

Klik op ... en vervolgens op Planning.

U kunt de planning voor alle of voor een aantal gegevenstaken in- of uitschakelen. Alleen taken met een ingestelde planning worden weergegeven.

InformatieDeze optie is niet beschikbaar voor gegevensprojecten met Qlik Cloud als gegevensplatform.

Voor meer informatie over het plannen van afzonderlijke gegevenstaken gaat u naar:

Ontwerpbewerkingen uitvoeren

U kunt ontwerpbewerkingen uitvoeren voor alle of een deel van de gegevenstaken in het gegevensproject. Dit maakt het gemakkelijker om de gegevensverzamelingtaken in het gegevensproject te regelen, in plaats van dat de ontwerpbewerkingen individueel per taak moeten worden uitgevoerd.

Valideren

Klik op Valideren om alle taken of een deel van de taken te valideren. Gegevenstaken die sinds de laatste validatiebewerking zijn gewijzigd, zijn al geselecteerd.

De gegevenstaken worden in pijplijnvolgorde gevalideerd.
Voorbereiden

Klik op Voorbereiden om alle taken of een deel van de taken voor te bereiden. Gegevenstaken die sinds de laatste voorbereiding zijn gewijzigd, zijn al geselecteerd.

U kunt ervoor kiezen gegevensverzamelingen opnieuw te maken waarvoor een structuurwijziging is vereist die niet wordt ondersteund door het gegevensplatform. Hierdoor kunnen gegevens verloren gaan.
Opnieuw maken

Klik op ... en vervolgens op Opnieuw maken om de gegevensverzamelingen uit de bron voor alle taken of een deel van de taken opnieuw te maken.

Gegevenstaken uitvoeren

U kunt de uitvoer van alle of een deel van de gegevenstaken in het gegevensproject initiëren in plaats van dat u taken individueel moet uitvoeren. Zo kunt u alle taken uitvoeren op basis van een tijdschema. Dit start downstream-taken met een gebeurtenisgebaseerd schema.

Uitvoeren

Klik op Uitvoeren om de uitvoer van alle of een deel van de taken te starten. Dit start de uitvoer van alle geselecteerde taken en is voltooid zodra ze worden uitgevoerd.

U kunt kiezen uit alle taken die klaar zijn om te worden uitgevoerd. Taken met een tijdschema en taken die CDC gebruiken, zijn al geselecteerd. Taken met een schema op basis van gebeurtenissen, zijn nog niet geselecteerd omdat ze worden uitgevoerd zodra ze gegevens hebben om te verwerken.

In een project met Qlik Cloud als gegevensplatform, zijn alle tussenopslag- en opslagtaken al geselecteerd.

InformatieAlle gegevenstaken worden parallel uitgevoerd. Dit houdt in dat afhankelijkheidscontroles ervoor kunnen zorgen dat bepaalde taken niet worden uitgevoerd.
Stoppen

Klik op Stoppen om alle taken of een deel van de taken te stoppen.

U kunt kiezen uit taken die worden uitgevoerd.

Gegevenstaken verwijderen

Klik op Verwijderen om alle gegevenstaken of een deel van de taken in het gegevensproject te verwijderen.

De weergave van een gegevensproject wijzigen

Voor een gegevensproject zijn twee verschillende weergaven beschikbaar. U kunt tussen de weergaven wisselen door te klikken op Pijplijnweergave.

De pijplijnweergave toont de gegevensstroom van de gegevenstaken.

Klik op Lagen om te kiezen hoeveel gegevens er getoond moeten worden voor de gegevenstaken. Schakel de volgende gegevens in of uit:
- Status
- Nieuwheid van gegevens
- Planning
De kaartweergave toont een kaartweergave met informatie over de gegevenstaak.

U kunt filteren op assettype en eigenaar.

Gegevensprojecten exporteren en importeren

U kunt een gegevensproject exporteren naar een JSON-bestand dat alles bevat dat nodig is om het gegevensproject te reconstrueren. Het geëxporteerde JSON-bestand kan op dezelfde tenant of een andere tenant worden geïmporteerd. U kunt dit bijvoorbeeld gebruiken om gegevensprojecten van de ene tenant naar de andere te verplaatsen of om back-ups te maken van gegevensprojecten.

Ga voor meer informatie naar Gegevenspijplijnen exporteren en importeren.

Instellingen voor gegevensproject

U kunt eigenschappen instellen die van toepassing zijn op het project en alle opgenomen gegevenstaken.

Klik op Instellingen.

Ga voor meer informatie naar Instellingen voor gegevensproject.

GERELATEERD LESMATERIAAL:

Qlik Cloud Data Integration gebruiken om gegevens te onboarden en transformeren

Meer informatie

Qlik Cloud Data Integration gebruiken om gegevens te onboarden en transformeren

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!

Geef hier uw feedback