Ga naar hoofdinhoud Ga naar aanvullende inhoud

Gegevens tijdelijk opslaan in een datalake

U kunt een taak Gegevens tijdelijk opslaan in datalake instellen om gegevens tijdelijk op te slaan in de volgende doelen:

  • Amazon S3

    Voor informatie over het configureren van een verbinding naar uw Amazon S3, raadpleegt u Amazon S3.

  • Azure Data Lake Storage

    Raadpleeg Azure Data Lake Storage voor informatie over het configureren van een verbinding met uw Azure Data Lake Storage.

  • Google Cloud Storage

    Raadpleeg Google Cloud Storage voor informatie over het configureren van een verbinding met uw Google Cloud Storage.

TipU kunt de instellingen van uw bronverbinding en doelverbinding in de wizard Taakinstellingen configureren in de instellingen Gegevens tijdelijk opslaan in datalake, maar om de setupprocedure te vereenvoudigen wordt aanbevolen om dit te doen voordat u de taak maakt.

Voor informatie over het configureren van verbindingen naar uw gegevensbronnen, raadpleegt u Verbinding maken met gegevensbronnen

Ga als volgt te werk om een tussenopslagtaak voor een datalake in te stellen:

  1. Klik in de rechterbovenhoek op de knop Nieuwe toevoegen en selecteer vervolgens Gegevensproject maken in het vervolgkeuzemenu.

  2. In het dialoogvenster Nieuw gegevensproject doet u het volgende:

    1. Geef een naam op voor uw project.

    2. Selecteer de ruimte waarin u het project wilt maken.
    3. Geef desgewenst een beschrijving op.
    4. Selecteer Replication als de Gebruikscase.
    5. Schakel eventueel het selectievakje Openen uit als u een leeg project wilt maken zonder instellingen te configureren.
    6. Klik op Maken.

      Een van de volgende dingen zal gebeuren:

      • Als het selectievakje Openen in het dialoogvenster Nieuw gegevensproject is geselecteerd (de standaardinstelling), wordt het project geopend.
      • Wanneer u het selectievakje Openen in het dialoogvenster Nieuw gegevensproject hebt uitgeschakeld, wordt het project toegevoegd aan uw lijst met projecten. U kunt het project later openen door Openen te selecteren in het menu van het project.
  3. Nadat het project is geopend, klikt u op Gegevens tijdelijk opslaan in datalake.

    De wizard Gegevens tijdelijk opslaan in datalake wordt geopend.

  4. Op het tabblad Algemeen geeft u een naam en beschrijving op voor de tussenopslagtaak voor datalake. Klik vervolgens op Volgende.

    InformatieNamen die een slash (/) of backslash (\) bevatten, worden niet ondersteund.
  5. Selecteer op het tabblad Bronverbinding selecteren een verbinding naar de brongegevens. U kunt eventueel de verbindingsinstellingen bewerken door Bewerken te selecteren in het menu in de kolom Acties.

    Als er geen gegevensverbinding naar de brongegevens bestaat, moet u er eerst een maken door in de rechterbovenhoek van het tabblad te klikken op Verbinding toevoegen.

    U kunt de lijst met verbindingen filteren met behulp van de filters aan de linkerkant. Verbindingen kunnen gefilterd worden op basis van brontype, gateway, ruimte en eigenaar. De knop Alle filters boven de verbindingslijst toont het aantal huidige filters. U kunt deze knop gebruiken om het venster Filters aan de linkerkant te sluiten of openen. Huidige actieve filters worden ook getoond bovenaan de lijst met beschikbare gegevensverbindingen.

    U kunt de lijst ook sorteren door Laatst bijgewerkt, Laatst gemaakt of Alfabetisch te selecteren in de vervolgkeuzelijst aan de rechterkant. Klik op de pijl rechts van de lijst om de sorteervolgorde te wijzigen.

    Nadat u een gegevensbronverbinding hebt geselecteerd, kunt u in de rechterbovenhoek van het tabblad op Verbinding testen klikken (aanbevolen) en vervolgens op Volgende.

  6. Selecteer op het tabblad Gegevensverzamelingen selecteren tabellen en of/weergaven die u wilt opnemen in de tussenopslagtaak voor datalake. U kunt ook jokertekens gebruiken en selectieregels maken, zoals beschreven in Gegevens selecteren uit een database.

    InformatieSchemanamen of tabelnamen die een slash (/) of backslash (\) bevatten, worden niet ondersteund.
  7. Op het tabblad Doelverbinding selecteren selecteert u een doel in de lijst met beschikbare verbindingen en klikt u vervolgens op Volgende. Wat betreft functionaliteit werkt het tabblad Bronverbinding selecteren hetzelfde als het tabblad dat eerder is beschreven.

  8. Op het tabblad Instellingen kunt u eventueel de volgende instellingen wijzigen, klik vervolgens op Volgende.

    • Vastleggen van wijzigingsgegevens (CDC): De tussenopslagtaak van de datalake start met een volledige lading (waarbij alle geselecteerde tabellen tijdelijk worden opgeslagen). De tijdelijk opgeslagen gegevens worden up-to-date gehouden met behulp van de CDC-technologie (Change Data Capture).

      InformatieCDC (vastleggen van wijzigingsgegevens) van DDL-bewerkingen wordt niet ondersteund.
    • Opnieuw laden: Voert een volledige lading uit van de gegevens van de geselecteerde brontabellen naar het doelplatform en maakt indien nodig de doeltabellen. De volledige lading vindt automatisch plaats als de taak is gestart, maar kan indien mogelijk ook handmatig of periodiek worden uitgevoerd.

    Als u Gegevens vastleggen (CDC) selecteert en uw gegevens ook tabellen bevatten die geen CDC of weergaven ondersteunen, worden er twee gegevenspijplijnen gemaakt. Een pijplijn met alle tabellen die CDC ondersteunen en een andere pijplijn met alle andere tabellen en weergaven waarbij Opnieuw laden wordt gebruikt.

    Selecteer een van de volgende, op basis van de bucketmap waarnaar de bestanden geschreven moeten worden:

    • Standaardmap: De standaardmapindeling is <uw-project-naam>/<uw-taak-naam>
    • Hoofdmap: De bestanden worden direct naar de bucket geschreven.
    • Geef: Geef de naam van de map op. De map wordt gemaakt tijdens de uitvoering van de tussenopslagtaak van de datalake als de map niet bestaat.

      Informatie De mapnaam kan geen speciale tekens bevatten (zoals, @, #, !, enz.).
  9. Op het tabblad Overzicht ziet u een visuele weergave van de gegevenspijplijn. Kies om de <naam> taak te openen of klik op Niets doen. Klik vervolgens op Maken.

    Afhankelijk van uw keuze wordt de taak geopend of er wordt een lijst met projecten getoond.

  10. Als u ervoor kiest om de taak te openen, worden op het tabblad Gegevensverzamelingen de structuur en de metagegevens van de geselecteerde gegevensassettabellen getoond. Dit omvat alle expliciet vermelde tabellen en tabellen die voldoen aan de selectieregels.

    Als u meer tabellen uit de gegevensbron wilt toevoegen, klikt u op Brongegevens selecteren.

  11. U kunt eventueel de taakinstelling wijzigen zoals beschreven in Instellingen voor tijdelijk opslaan in een datalake.

  12. U kunt transformaties uitvoeren voor gegevensverzamelingen, gegevens filteren of kolommen toevoegen.

    Ga voor meer informatie naar Gegevensverzamelingen beheren.

  13. Wanneer u de gewenste transformaties hebt toegevoegd, kunt u de gegevensverzamelingen valideren door te klikken op Gegevensverzamelingen valideren. Als de validatie mislukt, moet u de fouten oplossen voordat u verdergaat.

    Ga voor meer informatie naar Valideren en aanpassen van de gegevensverzamelingen.

  14. Als u klaar bent, klikt u op Voorbereiden om de tussenopslagtaak te catalogiseren en klaar te maken voor uitvoering.

  15. Nadat de gegevenstaak is voorbereid, klikt u op Uitvoeren.

  16. De tussenopslagtaak voor datalake moet nu starten. U kunt de voortgang volgen in de voortgangsweergave. Ga voor meer informatie naar Een afzonderlijke gegevenstaak bewaken.

Laadprioriteit voor gegevensverzamelingen instellen

U kunt de laadvolgorde beheren van gegevensverzamelingen in uw gegevenstaak door aan elke gegevensverzameling een laadprioriteit toe te wijzen. Dit kan bijvoorbeeld handig zijn als u kleine gegevensverzamelingen wilt laden voorafgaand aan grotere gegevensverzamelingen.

  1. Klik op Laadprioriteit.

  2. Selecteer een laadprioriteit voor elke gegevensverzameling.

    De standaardlaadprioriteit is Normaal. Gegevensverzamelingen worden in de volgende volgorde van prioriteit geladen:

    • Hoogst

    • Hoger

    • Hoog

    • Normaal

    • Laag

    • Lager

    • Laagst

    Gegevensverzamelingen met dezelfde prioriteit worden in willekeurige volgorde geladen.

  3. Klik op OK.

InformatieGegevensverzamelingen van SaaS-applicatiebronnen kunnen afhankelijkheden bevatten in de laadvolgorde. Houd hier rekening mee bij het instellen van de laadprioriteit.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!