Een gegevenspijplijn maken
U kunt een gegevenspijplijn maken om al uw gegevensintegraties uit te voeren binnen een project met behulp van gegevenstaken. Bij het vrijgeven worden gegevens naar het project verplaatst vanuit gegevensbronnen die zich lokaal of in de cloud bevinden en worden gegevens in de gebruiksklare gegevensverzamelingen opgeslagen. U kunt ook transformaties uitvoeren en datamarts maken om uw gegenereerde en getransformeerde gegevensverzamelingen te gebruiken. De gegevenspijplijn kan eenvoudig en lineair zijn of het kan een complexe gegevenspijplijn zijn die verschillende gegevensbronnen gebruikt en veel uitvoergegevens genereert.
Alle gegevenstaken worden in dezelfde ruimte gemaakt als het project waartoe ze behoren.
U kunt ook herkomst bekijken om gegevens en gegevenstransformaties terug te leiden naar de originele bron, en een impactanalyse uitvoeren om de vooruitziende downstreamweergave van afhankelijkheden van een gegevenstaak, gegevensverzameling of veld te tonen. Ga voor meer informatie naar Werken met herkomst en impactanalyse in Gegevensintegratie.
Gegevens onboarden
Dit omvat het tijdelijk opslaan van gegevens in een tussenopslag, om de gegevensverzamelingen vervolgens in een clouddatewarehouse op te slaan. Taken voor het (tijdelijk) opslaan van gegegevens worden in één stap gemaakt. Indien gewenst kunt u de tussenopslag en definitieve opslag met verschillende taken uitvoeren.
Gegevens registreren die al op het gegevensplatform bestaan
Registreer gegevens die al in het gegevensplatform bestaan om gegevens te beheren en transformeren en datamarts te maken. Hiermee kunt u gegevens gebruiken die onderdeel uitmaken van andere hulpmiddelen dan Qlik Talend Data Integration, zoals Qlik Replicate of Stitch.
Gegevens transformeren
Maak herbruikbare transformaties op rijniveau in de onboardinggevens op basis van regels en aangepaste SQL. Hiermee maakt u een transformatiegegevenstaak.
Datamarts maken en beheren
Maak een datamart om uw gegevensverzamelingen te gebruiken. Hiermee maakt u een datamartgegevenstaak.
Doelgegevensplatformen
Het project wordt gekoppeld aan een gegevensplatform dat wordt gebruikt als doel voor alle uitvoergegevens.
Voor meer informatie over ondersteunde gegevensplatformen gaat u naar Verbindingen naar doelen instellen.
Inleidende video voor projecten
Voorbeeld van het maken van een project
In het volgende voorbeeld worden gegevens vrijgegeven en getransformeerd en wordt een datamart gemaakt. Hiermee maakt u een simpele lineaire gegevenspijplijn die u kunt uitbreiden door meer gegevensbronnen vrij te geven, meer transformaties te maken en door de gegenereerde gegevenstaken toe te voegen aan de datamart.
-
Maak een nieuw project.
In Gegevensintegratie > Projecten klikt u op Project maken.
-
Geef een naam en omschrijving op voor het project en selecteer een ruimte waarin u het project wilt maken. Alle gegevenstaken worden gemaakt in de ruimte van het project waartoe ze behoren.
- Selecteer Gegevenspijplijn in Gebruikscase.
-
Selecteer welk gegevensplatform u in het project wilt gebruiken.
-
Selecteer een verbinding naar het clouddatawarehouse dat u in het project wilt gebruiken. Deze wordt gebruikt om gegevensbestanden tijdelijk in op te slaan en om gegevensverzamelingen en weergaven op te slaan. Als u nog geen verbinding hebt voorbereid, maak er dan een met Verbinding maken.
Als u Google BigQuery, Databricks of Microsoft Azure Synapse Analytics als gegevensplatform hebt gesecteerd, moet u ook verbinding maken met een tussenopslag.
-
Als u Qlik Cloud als gegevensplatform hebt geselecteerd.
U kunt gegevens opslaan in een door Qlik beheerde opslag of uw eigen beheerde Amazon S3-bucket. Als u uw eigen Amazon S3-bucket wilt gebruiken, moet u een verbinding naar die bucket selecteren.
In beide gevallen moet u een verbinding naar een Amazon S3-tussenopslag selecteren. Als u dezelfde bucket gebruikt als die u in de vorige stap hebt gedefinieerd, gebruik dan een andere map in de bucket voor de tijdelijke opslag.
-
Klik op Maken.
Het project is gemaakt en u kunt uw gegevenspijplijn maken door gegevenstaken toe te voegen.
-
-
De gegevens vrijgeven
Klik in het project op Nieuwe toevoegen en vervolgens op Gegevens onboarden.
Ga voor meer informatie naar Gegevens onboarden.
Hiermee wordt een taak voor tussenopslag en voor het opslaan van gegevens gemaakt. Ga als volgt te werk om gegevens te repliceren:
-
Bereid de taak voor tussenopslag voor en voer deze uit.
Ga voor meer informatie naar Gegevens van gegevensbronnen tijdelijk opslaan.
-
Bereid de taak voor de opslag van gegevens voor en voer deze uit.
Ga voor meer informatie naar Gegevensverzamelingen opslaan.
-
-
De gegevens transformeren
Nadat de taak voor de opslag van gegevens is gemaakt, gaat u terug naar het project. U kunt nu transformaties uitvoeren voor de gemaakte gegevensverzamelingen.
Klik op ... op de taak voor de opslag van gegevens en selecteer Gegevens transformeren om een taak voor de transformatie van gegevens te maken op basis van deze taak voor de opslag van gegevens. Voor informatie over transformaties gaat u naar Gegevens transformeren.
-
Een datamart maken
U kunt een datamart maken op basis van een taak voor de opslag van gegevens of een taak voor de transformatie van gegevens.
Klik op ... op de gegevenstaak en selecteer Datamart maken om een datamartgegevenstaak te maken. Voor instructies voor het maken van een datamart, raadpleegt u:
Als u de eerste volledige lading van de opgeslagen en getransformeerde gegevensassets en datamarts hebt uitgevoerd, kunt u deze bijvoorbeeld gebruiken in een analyse-app. Zie Een analyse-app maken met behulp van gegevensverzamelingen die zijn gegenereerd door Qlik Talend Data Integration voor meer informatie over het maken van analyse-apps.
U kunt de gegevenspijplijn ook uitbreiden door meer gegevensbronnen vrij te geven en deze te combineren in de transformatie of de datamart.
Bewerkingen in een project
U kunt dezelfde bewerkingen uitvoeren als die beschikbaar zijn voor een gegevenstaak in projectbewerkingen. Dit stelt u in staat de bewerkingen te sturen in de gegevenspijplijn.
-
Planningen in- en uitschakelen
-
Ontwerpbewerkingen uitvoeren
-
Uitvoer van gegevenstaken starten en stoppen
-
Gegevenstaken verwijderen
Klik op Bewerkingen om de status van een bewerking die in uitvoer is of de laatst uitgevoerde bewerking te bekijken.
U kunt een bewerking die in uitvoer is stoppen door op Bewerking stoppen te klikken. Gegevenstaken die in uitvoer zijn, worden niet gestopt, maar het annuleert alle taken die nog niet zijn gestart.
Planningen in- en uitschakelen
U kunt de planningen voor gegevenstaken op projectniveau regelen.
-
Klik op ... en vervolgens op Planning.
U kunt de planning voor alle of voor een aantal gegevenstaken in- of uitschakelen. Alleen taken met een ingestelde planning worden weergegeven.
InformatieDeze optie is niet beschikbaar voor projecten met Qlik Cloud als gegevensplatform.
Voor meer informatie over het plannen van afzonderlijke gegevenstaken gaat u naar:
Ontwerpbewerkingen uitvoeren
U kunt ontwerpbewerkingen uitvoeren voor alle of een deel van de gegevenstaken in het project. Dit maakt het gemakkelijker om de gegevensverzamelingtaken in het project te regelen, in plaats van dat de ontwerpbewerkingen individueel per taak moeten worden uitgevoerd.
-
Valideren
Klik op Valideren om alle taken of een deel van de taken te valideren. Gegevenstaken die sinds de laatste validatiebewerking zijn gewijzigd, zijn al geselecteerd.
De gegevenstaken worden in pijplijnvolgorde gevalideerd.
-
Voorbereiden
Klik op Voorbereiden om alle taken of een deel van de taken voor te bereiden. Gegevenstaken die sinds de laatste voorbereiding zijn gewijzigd, zijn al geselecteerd.
U kunt ervoor kiezen gegevensverzamelingen opnieuw te maken waarvoor een structuurwijziging is vereist die niet wordt ondersteund door het gegevensplatform. Hierdoor kunnen gegevens verloren gaan.
-
Opnieuw maken
Klik op ... en vervolgens op Opnieuw maken om de gegevensverzamelingen uit de bron voor alle taken of een deel van de taken opnieuw te maken.
Gegevenstaken uitvoeren
U kunt de uitvoer van alle of een deel van de gegevenstaken in het project initiëren in plaats van dat u taken individueel moet uitvoeren. Zo kunt u alle taken uitvoeren op basis van een tijdschema. Dit start downstream-taken met een gebeurtenisgebaseerd schema.
-
Uitvoeren
Klik op Uitvoeren om de uitvoer van alle of een deel van de taken te starten. Dit start de uitvoer van alle geselecteerde taken en is voltooid zodra ze worden uitgevoerd.
U kunt kiezen uit alle taken die klaar zijn om te worden uitgevoerd. Taken met een tijdschema en taken die CDC gebruiken, zijn al geselecteerd. Taken met een schema op basis van gebeurtenissen, zijn nog niet geselecteerd omdat ze worden uitgevoerd zodra ze gegevens hebben om te verwerken.
In een project met Qlik Cloud als gegevensplatform, zijn alle tussenopslag- en opslagtaken al geselecteerd.
InformatieAlle gegevenstaken worden parallel uitgevoerd. Dit houdt in dat afhankelijkheidscontroles ervoor kunnen zorgen dat bepaalde taken niet worden uitgevoerd. -
Stoppen
Klik op Stoppen om alle taken of een deel van de taken te stoppen.
U kunt kiezen uit taken die worden uitgevoerd.
Gegevenstaken verwijderen
-
Klik op Verwijderen om alle gegevenstaken of een deel van de taken in het project te verwijderen.
De weergave van een project wijzigen
Voor een project zijn twee verschillende weergaven beschikbaar. U kunt tussen de weergaven wisselen door te klikken op Pijplijnweergave.
-
De pijplijnweergave toont de gegevensstroom van de gegevenstaken.
Klik op Lagen om te kiezen hoeveel gegevens er getoond moeten worden voor de gegevenstaken. Schakel de volgende gegevens in of uit:
-
Status
-
Nieuwheid van gegevens
-
Planning
-
-
De kaartweergave toont een kaartweergave met informatie over de gegevenstaak.
U kunt filteren op assettype en eigenaar.
Gegevens weergeven
U kunt een voorbeeld van de gegevens tonen om de vorm van uw gegevens te bekijken en valideren als u uw gegevenspijplijn gaat ontwerpen.
De volgende machtigingen zijn vereist:
-
Het weergeven van gegevens is ingeschakeld op tenantniveau in Beheer.
Schakel in Gegevensintegratie Instellingen > Functiebeheer > Gegevens weergeven in.
-
De rol Kan gegevens bekijken is aan u toegewezen in de ruimte waarin de verbinding zich bevindt.
-
De rol Kan bekijken is aan u toegewezen in de ruimte waarin het project zich bevindt.
Ga als volgt te werk om voorbeeldgegevens in de gegevenspijplijnweergave te bekijken:
-
Klik op in de voorbeeldbanner onderaan de pijplijnweergave.
-
Selecteer voor welke gegeventaak u voorbeeldgegevens wilt bekijken.
Er wordt een voorbeeld van de gegevens weergegeven. U kunt met Aantal rijen instellen hoeveel gegevensrijen in het voorbeeld worden opgenomen.
Projecten exporteren en importeren
U kunt een project exporteren naar een JSON-bestand dat alles bevat dat nodig is om het project te reconstrueren. Het geëxporteerde JSON-bestsand kan op dezelfde tenant of een andere tenant worden geïmporteerd. U kunt dit bijvoorbeeld gebruiken om projecten van de ene tenant naar de andere te verplaatsen of om back-ups te maken van projecten.
Ga voor meer informatie naar Gegevenspijplijnen exporteren en importeren.
Projectinstellingen
U kunt eigenschappen instellen die van toepassing zijn op het project en alle opgenomen gegevenstaken.
Klik op Instellingen.
Ga voor meer informatie naar Instellingen voor gegevenspijplijnproject.