Stap 4: een Qlik Open Lakehouse-project maken
Maak een Qlik Open Lakehouse-pijplijnproject om gegevens van een willekeurige bron op te nemen. Sla uw gegevens op in een Iceberg open tabelindeling.
Vereisten
Om een Qlik Open Lakehouse-project te maken, hebt u het volgende nodig:
-
Een netwerkintegratie waarmee Qlik namens u rekenkracht kan leveren en beheren.
-
Een lakehouse-cluster dat is geconfigureerd om de gegevensopslagtaak binnen uw Iceberg-project uit te voeren.
-
Een verbinding met een gegevenscatalogus om te gebruiken als datadoel voor uw project, of de nodige details zodat u een nieuwe verbinding kunt maken.
Ondersteunde taken
De volgende taken worden ondersteund in een Qlik Open Lakehouse-project:
-
Gegevenstaak voor lake-tussenopslag
Tussenopslag van gegevens in CSV‑indeling in S3, van elke door Qlik ondersteunde gegevensbron, inclusief een hoog volume aan gegevensstromen.
-
Opslaggegevenstaak
De opslaggegevenstaak gebruikt de gegevens die tijdelijk zijn opgeslagen in de cloud door de lake-tussenopslagtaak. De taak schrijft gegevens naar Iceberg-tabellen voor efficiënte opslag en de uitvoering van query's.
-
Gegevens spiegelen-taak
Spiegel Iceberg-tabellen van uw Qlik Open Lakehouse naar Snowflake. Gebruikers kunnen query's uitvoeren op gegevens via externe tabellen zonder dat ze gegevens naar Snowflake hoeven te migreren.
Voorbeeld van het maken van een Qlik Open Lakehouse-project
In het volgende voorbeeld wordt een Qlik Open Lakehouse-pijplijnproject gemaakt, worden gegevens toegevoegd en opgeslagen in tabellen in Iceberg-indeling. In dit voorbeeld wordt een eenvoudige pijplijn gemaakt die u kunt uitbreiden door meer gegevensbronnen toe te voegen. U kunt een gegevens spiegelen-taak toevoegen om uw tabellen in Snowflake te spiegelen zonder gegevens te dupliceren of u kunt dit project gebruiken als bron voor een project dat transformaties in Snowflake vereist.
Om een Qlik Open Lakehouse-project te maken, doet u het volgende:
-
Klik op de startpagina van Gegevensintegratie op Pijplijn maken en configureer deze:
-
Naam: voer de naam voor het project in.
-
Ruimte: selecteer de ruimte waartoe het project behoort.
-
Beschrijving: voer optioneel een beschrijving voor het project in.
-
Selecteer Gegevenspijplijn voor Gebruiksscenario.
-
Configureer het gegevensplatform:
-
Gegevensplatform: selecteer Qlik Open Lakehouse in de lijst.
-
Verbinding gegevenscatalogus: selecteer in de lijst een bestaande verbinding of klik op Nieuwe maken om een nieuwe gegevenscatalogusverbinding toe te voegen.
-
Doelverbinding tussenopslag: selecteer de S3-bucket voor tussenopslag van de gegevens of klik op Nieuwe maken om een nieuwe bucketlocatie toe te voegen.
-
Rekencluster opslag: selecteer het lakehouse-cluster dat de opslagtaak zal uitvoeren.
-
Maak het project.
-
Volg de stappen in de wizard voor het toevoegen van gegevens. Ga voor meer informatie naar Gegevens onboarden.