Ga naar hoofdinhoud Ga naar aanvullende inhoud

Streaminggegevens

Het onboardingproces draagt gegevens over van de bron en slaat deze op in Iceberg-tabellen. Wijzigingen van de streaminggegevensbronnen worden continu toegepast op de opslagtabellen in bijna realtime.

Gegevens vrijgeven

Gegevens worden onboarded binnen een pijplijnproject en datasets worden opgeslagen op de S3-locatie die is gedefinieerd in de projectinstellingen.

  1. Klik in uw project op Maken en vervolgens op Gegevens onboarden.

  2. Voeg een Taaknaam en optionele Beschrijving toe voor het onboarden.

    Klik op Volgende.

  3. Selecteer de bronverbinding.

    U kunt een bestaande streaming-bronverbinding selecteren of een nieuwe verbinding met de bron maken.

    Ga voor meer informatie naar Verbinding maken met datastreams.

    Klik op Volgende en volg de onderstaande instructies voor uw gegevensbron.

Gegevens selecteren

Apache Kafka en Amazon Kinesis

De lijst toont de beschikbare Kafka-onderwerpen of Kinesis-streams van de host die is gedefinieerd in de bronverbinding.

Wanneer u uw onderwerpen/streams selecteert, kunt u specifieke gegevensverzamelingen selecteren of selectieregels gebruiken om groepen gegevensverzamelingen op te nemen of uit te sluiten:

  • Gebruik % als jokerteken om selectiecriteria te definiëren voor de datasets.

  • %.% definieert alle datasets in alle streams.

Als onderwerpen worden geselecteerd met behulp van selectieregels, kunt u kiezen of u alle datasets in dezelfde doeltabel wilt laden of een afzonderlijke doeltabel wilt maken voor elk brononderwerp:

  • Standaard wordt de naam van de doel-Iceberg-tabel afgeleid van de onderwerpnaam, geformatteerd om te voldoen aan naamgevingsconventies, bijvoorbeeld kleine letters, spaties verwijderd, streepjes vervangen door underscores. In Doeldatasetnaam definiëren kunt u de naam van de doeltabel bewerken

  • Wanneer selectieregels worden gebruikt om meerdere onderwerpen in één tabel te laden, moet u de doelnaam opgeven.

  • Wanneer selectieregels worden gebruikt en de gegevens in afzonderlijke tabellen (één dataset per onderwerp) worden geladen, zijn de standaarddoelnamen de onderwerpsnamen. In dit stadium kunt u de namen in de wizard niet bewerken, maar dit kan later in de tussenopslagtaak worden gedaan.

  • Als een regel is geconfigureerd om onderwerpen voor opname te selecteren, worden alle nieuwe onderwerpen die aan de regelcriteria voldoen ook in de tussenopslag geplaatst als de optie Nieuw onderwerp  > Toevoegen aan doel onder schema-evolutie in de instellingen van de tussenopslagtaak is aangevinkt.

Selecteer een of meer datasets en klik op Geselecteerde streams toevoegen. U kunt de toegevoegde gegevensverzamelingen bekijken onder Expliciet geselecteerde streams. Klik op Volgende.

Amazon S3

De mappenbrowser geeft een lijst weer van alle mappen die zich bevinden in de S3-bucket van uw bronverbinding. 

  • Selecteer welke mappen u wilt opnemen bij het tijdelijk opslaan van gegevens:

    • Voer voor elke map, in Pad toevoegen, het pad en het bestandsnaam-patroon in:

      • Gebruik * als een jokerteken om elk teken te matchen.

      • Als u een datumpatroon wilt invoeren, gebruikt u <yyyy> als de tijdelijke aanduiding voor het viercijferige jaar, <MM> als de tijdelijke aanduiding voor de tweecijferige maand, <dd> als de tijdelijke aanduiding voor de tweecijferige dag en <HH> als de tijdelijke aanduiding voor het tweecijferige uur. Bijvoorbeeld:

        • MyDir3/<yyyy>_<MM>_<dd>_<HH>_orders.csv

        • MyDir3/<yyyy>/<MM>/<dd>/<HH>_orders.csv

  • Klik op Voorbeeld om het dialoogvenster Voorbeeldgegevens te openen. Een lijst met opgenomen en uitgesloten bestanden wordt weergegeven.

  • Klik op Valideren om de gegevens te controleren.

  • Geef in Doeldatasetnaam definiëren een naam op om het onderwerp toe te wijzen aan de doel-Iceberg-tabel. Klik op Volgende.

Het inhoudstype selecteren

Kies het inhoudstype van brongebeurtenissen.

  • Selecteer het type gebeurtenissen dat u opneemt in Kies het type gegevensgebeurtenissen.

  • Voor meer informatie raadpleegt u Verbinding maken met gegevensstreams.

    Het geselecteerde inhoudstype is van toepassing op alle onderwerpen. U moet een nieuwe taak maken voor elk inhoudstype dat u wilt opnemen.

  • Vouw Controleer of de gebeurtenissen correct zijn geladen uit om te bevestigen dat de gegevens kunnen worden geparseerd. U moet ervoor zorgen dat de gegevens in dit stadium correct zijn, anders moet u de pijplijn opnieuw maken en de gegevens opnieuw laden. Gebruik Dataset selecteren om specifieke datasets te onderzoeken en eventuele waarschuwingen te controleren die van invloed kunnen zijn op het laden van de gegevens. Klik op het oogpictogram naast structuurkolommen om de gegevens te bekijken.

  • Klik op Volgende.

Opname-eigenschappen instellen

Configureer de instellingen voor uw pijplijn:

  • Gegevens lezen vanuit

    • Begin bij de vroegste gebeurtenis: alle historische gegevens opnemen.

    • Begin nu: nieuwe gegevens opnemen die binnenkomen vanaf het moment dat de pijplijn start.

  • Kolom unnesten

    • Geneste kolommen behouden: er worden geen transformaties toegepast.

    • Opsplitsen in afzonderlijke kolommen: gegevens worden gesplitst in afzonderlijke kolommen.

  • Laadinstellingen

    • Alleen toevoegen: over het algemeen de beste optie voor gebeurtenisgegevens, aangezien deze meestal een korte levensduur hebben en niet worden bijgewerkt, bijvoorbeeld Orders.

    • Samenvoegen: dit is het meest geschikt voor gegevens die in de loop van de tijd worden bijgewerkt, bijvoorbeeld Klanten.

  • Doeltabelpartitie

    De partitieoptie voor de doeltabel is van toepassing op alle tabellen in de pijplijn. U kunt dit later op tabelniveau overschrijven voor aangepaste partitionering.

    • Geen partitie: tabellen worden gemaakt zonder partities.

    • Partitie op basis van opnamedatum van gebeurtenis: tabellen worden gepartitioneerd op basis van de datum dat gebeurtenissen zijn opgenomen.

  • Klik op Volgende.

Overzicht

Het overzichtsscherm biedt een visuele weergave van uw pijplijn:

  • Optioneel kunt u voor de Streaming-tussenopslag- en Streaming-transformatie-taak klikken op Naam en beschrijving bewerken om nieuwe waarden op te geven.

  • Selecteer de optie voor wat u wilt dat er gebeurt Nadat de pijplijn is gemaakt.

  • Wanneer u alle instellingen hebt geconfigureerd, klikt u op Maken om het pijplijnproject te maken.

  • Wanneer het project wordt weergegeven, kunt u elke taak voorbereiden en uitvoeren om te beginnen met het opnemen van de gegevens.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!