Gegevens onboarden

De eerste stap bij het maken van een gegevenspijplijn in een Qlik Open Lakehouse-project betreft het onboarden van de gegevens. Tijdens dit proces worden gegevens van de bron overgebracht en opgeslagen in geoptimaliseerde Iceberg-tabellen.

U maakt het onboarden in één bewerking aan, maar het wordt in twee stappen uitgevoerd. Het type gegevensbron, CDC of streaming, bepaalt de taken in uw project:

CDC-bronnen

De gegevens tijdelijk opslaan

Dit omvat het overbrengen van de gegevens in continue mini-batches van de on-premises gegevensbron naar een tussenopslaggebied, met behulp van een tussenopslag-gegevenstaak.

Gegevens tussenoplaan uit gegevensbronnen

U kunt gegevens ook tijdelijk opslaan in een lakehouse, waar de gegevens tijdelijk worden opgeslagen in een S3-bestandsopslag.

Gegevens tijdelijk opslaan in Qlik Open Lakehouse
Gegevensverzamelingen opslaan

Dit behelst het lezen van de initiële lading van tussenopslaggegevens of stapsgewijze ladingen en het toepassen van de gegevens in een voor lezen geoptimaliseerde opmaak met een gegevensopslagtaak.

Gegevensverzamelingen opslaan

Streamingbronnen

De gegevens tijdelijk opslaan

Dit omvat het continu streamen van de gegevens van de bron naar een tussenopslaggebied, met behulp van een streaming tussenopslag-gegevenstaak.

Tussenopslag van streaminggegevens naar Qlik Open Lakehouse
Gegevensverzamelingen opslaan

Dit behelst het lezen van de initiële lading van tussenopslaggegevens en het toepassen van de gegevens in een voor lezen geoptimaliseerde opmaak met een Storage Gegevens transformeren-taak.

Streaming datasets opslaan

Gebruik van ingevoerde gegevens

Wanneer u de gegevens hebt ingevoerd, kunt u de opgeslagen gegevensverzamelingen op verschillende manieren gebruiken, waaronder:

U kunt de gegevensverzamelingen in een analyse-applicatie gebruiken.
U kunt gegevens spiegelen naar een of meer clouddatawarehouses, waaronder Amazon Redshift en Snowflake, door een Gegevens spiegelen-taak rechtstreeks toe te voegen aan de Opslaggegevenstaak voor CDC-bronnen, of de Streaming Transform-taak voor streamingbronnen.

Ga voor meer informatie naar Gegevens spiegelen naar een clouddatawarehouse.
U kunt gegevens transformeren in uw clouddatawarehouse door een projectoverschrijdende pijplijn te maken die gegevens van uw onboardingproject gebruikt.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!

Geef hier uw feedback