Gegevens onboarden
De eerste stap bij het maken van een gegevenspijplijn in een Qlik Open Lakehouse-project betreft het onboarden van de gegevens. Tijdens dit proces worden gegevens van de bron overgebracht en opgeslagen in geoptimaliseerde Iceberg-tabellen.
U maakt het onboarden in één bewerking aan, maar het wordt in twee stappen uitgevoerd. Het type gegevensbron, CDC of streaming, bepaalt de taken in uw project:
CDC-bronnen
-
De gegevens tijdelijk opslaan
Dit omvat het overbrengen van de gegevens in continue mini-batches van de on-premises gegevensbron naar een tussenopslaggebied, met behulp van een tussenopslag-gegevenstaak.
Gegevens van gegevensbronnen tijdelijk opslaan
U kunt gegevens ook tijdelijk opslaan in een lakehouse, waar de gegevens tijdelijk worden opgeslagen in een S3-bestandsopslag.
-
Gegevensverzamelingen opslaan
Dit behelst het lezen van de initiële lading van tussenopslaggegevens of stapsgewijze ladingen en het toepassen van de gegevens in een voor lezen geoptimaliseerde opmaak met een gegevensopslagtaak.
Streamingbronnen
-
De gegevens tijdelijk opslaan
Dit omvat het continu streamen van de gegevens van de bron naar een tussenopslaggebied, met behulp van een streaming tussenopslag-gegevenstaak.
-
Gegevensverzamelingen opslaan
Dit behelst het lezen van de initiële lading van tussenopslaggegevens en het toepassen van de gegevens in een voor lezen geoptimaliseerde opmaak met een Storage Gegevens transformeren-taak.
Gebruik van ingevoerde gegevens
Wanneer u de gegevens hebt ingevoerd, kunt u de opgeslagen gegevensverzamelingen op verschillende manieren gebruiken, waaronder:
-
U kunt de gegevensverzamelingen in een analyse-applicatie gebruiken.
-
U kunt gegevens spiegelen naar een of meer clouddatawarehouses, waaronder Amazon Redshift en Snowflake, door een Gegevens spiegelen-taak rechtstreeks toe te voegen aan de Opslaggegevenstaak voor CDC-bronnen, of de Streaming Transform-taak voor streamingbronnen.
Ga voor meer informatie naar Gegevens spiegelen naar een clouddatawarehouse.
-
U kunt gegevens transformeren in uw clouddatawarehouse door een projectoverschrijdende pijplijn te maken die gegevens van uw onboardingproject gebruikt.