Gegevens onboarden
De eerste stap bij het creëren van een gegevenspijplijn in een Qlik Talend Data Integration project betreft het onboarden van de gegevens. Hierbij worden de gegevens overgebracht van de gegevensbron en gegevensverzamelingen die zijn opgeslagen in een voor lezen geoptimaliseerde indeling. U kunt gegevens bijwerken met continue afhandeling van wijzigingen of maak gebruik van geplande ladingen.
U maakt het onboarden in één bewerking aan, maar het wordt in twee stappen uitgevoerd.
-
De gegevens tijdelijk opslaan
Hierbij worden de gegevens continu overgebracht van een on-premise gegevensbron naar een tussenopslaggebied met behulp van een tussenopslag-gegevenstaak.
-
Gegevensverzamelingen opslaan
Dit behelst het lezen van de initiële lading van tussenopslaggegevens of stapsgewijze ladingen en het toepassen van de gegevens in een voor lezen geoptimaliseerde opmaak met een gegevensopslagtaak.
Wanneer u de gegevens hebt ingevoerd, kunt u de opgeslagen gegevensverzamelingen op verschillende manieren gebruiken.
-
U kunt de gegevensverzamelingen in een analyse-app gebruiken.
-
U kunt transformaties maken.
-
U kunt een datamart maken.
Gegevens onboarden
U begint met het invoeren van gegevens in een project. Gegevensverzamelingen worden opgeslagen in het clouddatawarehouse dat is gedefinieerd in het project. Voor meer informatie over projecten, gaat u naar Een gegevenspijplijn maken .
-
Klik in uw project op Nieuwe toevoegen en vervolgens op Gegevens onboarden.
TipU kunt ook klikken op van een bestaande bron in het project en vervolgens klikken op Gegevens vrijgeven. -
Voeg Naam en Beschrijving in voor het onboarden.
Klik op Volgende.
-
Selecteer de bronverbinding.
U kunt een bestaande bronverbinding selecteren of een nieuwe verbinding met de bron maken.
Ga voor meer informatie naar Verbindingen instellen naar gegevensbronnen.
Klik op Volgende.
-
Gegevens selecteren om te laden.
Ga voor meer informatie naar Gegevens selecteren.
Klik op Volgende.
Instellingen wordt weergegeven waar u een updatemethode en geschiedenisinstellingen kunt selecteren.
-
Selecteer welke methode u wilt gebruiken om gegevens bij te werken in Methode bijwerken:
-
Vastleggen van wijzigingsgegevens (CDC)
Als uw gegevens ook tabellen bevatten die geen CDC of weergaven ondersteunen, worden er twee gegevenspijplijnen gemaakt. Een pijplijn met alle tabellen die CDC ondersteunen en een andere pijplijn met alle andere tabellen en weergaven waarbij Opnieuw laden en vergelijken wordt gebruikt.
-
Opnieuw laden en vergelijken
-
-
Selecteer als u de geschiedenis van eerdere gegevens wilt repliceren naast de huidige gegevens in Geschiedenis.
Klik op Volgende als u klaar bent.
-
Als u Gateway voor gegevensverplaatsing niet gebruikt om uw gegevensbron te openen, wordt de volgende sectie weergegeven in de instellingen.
Replicatieplanner
-
Gegevens repliceren na: U kunt inplannen hoe vaak wijzigingen van de gegevensbronnen worden vastgelegd. Daarnaast kunt u een begintijd en begindatum instellen. Als de bronmetagegevens CDC (wijzigingsgegevens vastleggen) ondersteunen, worden alleen de wijzigingen van de brongegevens gerepliceerd en toegepast op de betreffende doeltabellen. Ondersteunen de brongegevensverzamelingen CDC niet (zoals, Weergaven), worden wijzigingen toegepast door alle brongegevens te laden naar de betreffende doeltabellen. In het geval enkele brongegevensverzamelingen CDC ondersteunen en andere niet, worden er twee afzonderlijke subtaken gemaakt: één voor het laden van de gegevensverzamelingen die geen CDC ondersteunen en één subtaak voor het vastleggen van de wijzigingen naar gegevensverzamelingen die CDC wel ondersteunen.
Met de configuratiewizard voor vrijgeven kunt een uurinterval inplannen. Nadat u het instellen van vrijgeven hebt voltooid, kunt u verschillende planningsopties verkennen, zoals beschreven in Taken plannen bij het werken zonder Gateway voor gegevensverplaatsing.
Raadpleeg Minimumaantal toegestane planningsintervallen voor informatie over minimum planningsintervallen op basis van type gegevensbron en abonnementsniveau.
-
-
Bekijk de gegevenstaken die zijn gemaakt om gegevens in te voeren en geef ze een andere naam als u dat wilt.
TipDe namen worden gebruikt bij het benoemen van databaseschema's in de gegevensasset voor opslag. Aangezien een schema slechts aan één taak kan worden gekoppeld, kunt u overwegen namen te gebruiken die uniek zijn om conflicten te vermijden met gegevensassets in andere projecten die hetzelfde gegevensplatform gebruiken. -
Selecteer als u een van de gegevenstaken die zijn gemaakt wilt openen of keer terug naar het project.
Als u klaar bent klikt u op Voltooien.
De ingevoerde gegevenstaken worden nu gemaakt. Ga als volgt te werk om gegevens te repliceren:
-
Bereid de taak voor tussenopslag voor en voer deze uit.
Ga voor meer informatie naar Gegevens van gegevensbronnen tijdelijk opslaan.
-
Bereid de taak voor de opslag van gegevens voor en voer deze uit.
Ga voor meer informatie naar Gegevensverzamelingen opslaan.
Gegevens selecteren
U kunt specifieke tabellen of weergaven selecteren, of selectieregels gebruiken om groepen tabellen op te nemen of uit te sluiten.
Gebruik % als jokerteken om selectiecriteria te definiëren voor schema's en tabellen.
-
%.% definieert alle tabellen in alle schema's.
-
Public.% definieert alle tabellen in het schema Openbaar.
Selectiecriteria geeft een voorbeeld op basis van uw selecties.
U kunt nu kiezen tussen:
-
Een regel maken om een groep tabellen op te nemen of uit te sluiten op basis van de selectiecriteria.
Klik op Regel van selectiecriteria toevoegen om een regel te maken en selecteer Opnemen of Uitsluiten.
U kunt de regel bekijken onder Selectieregels.
-
Selecteer een of meer gegevensverzamelingen en klik op Geselecteerde gegevensverzamelingen toevoegen.
U kunt de toegevoegde gegevensverzamelingen bekijken onder Expliciet geselecteerde gegevensverzamelingen.
Selectieregels gelden alleen voor de huidige set tabellen en weergaven, niet voor tabellen en weergaven die in de toekomst worden toegevoegd.