Gegevens tijdelijk opslaan in Qlik Open Lakehouse
De gegevens worden opgeslagen in Amazon S3, klaar voor de opslaggegevenstaak om ze te converteren naar de Iceberg open tabelindeling. U kunt gegevens tijdelijk opslaan vanuit elke bron die door Qlik wordt ondersteund.
Voor tussenopslag van gegevens naar een Qlik Open Lakehouse is een vooraf geconfigureerde Amazon S3-bucket nodig. Qlik Open Lakehouse is specifiek geoptimaliseerd voor streaming-gegevensbronnen met hoge volumes en is compatibel met alle gegevensbronnen die Qlik ondersteunt. De gegevens worden tijdelijk opgeslagen in de CSV-indeling in S3. De opslaggevenstaak converteert de gegevens naar de Iceberg-indeling en kopieert ze naar Parquet-bestanden. Met de Iceberg-specificatie kunnen gegevens worden opgevraagd vanaf elke engine die Trino SQL ondersteunt, bijvoorbeeld Amazon Athena, Ahana of Starburst Enterprise. Optioneel kunnen tabellen worden gespiegeld naar Snowflake, waar ze kunnen worden opgevraagd zonder gegevens te dupliceren.
Tussenopslag van gegevens in een Qlik Open Lakehouse is beschikbaar in projecten met een AWS Glue Data Catalog-doelverbinding.
Voorbereidingen
-
Om gegevens naar Snowflake te spiegelen, moet u eerst een Qlik Open Lakehouse-project maken om uw gegevens op te nemen en op te slaan met behulp van de Iceberg open tabelindeling. U kunt een gegevens spiegelen-taak toevoegen na de opslaggegevenstaak. Om gegevenstransformaties uit te voeren, maakt u een Snowflake-project dat het Qlik Open Lakehouse-project als bron gebruikt. Ga voor meer informatie naar Gegevens spiegelen naar een clouddatawarehouse.
-
U kunt de instellingen van uw bronverbinding en doelverbinding in de wizard Taakinstellingen configureren, maar om de installatieprocedure te vereenvoudigen wordt aanbevolen om dit te doen voordat u de taak maakt.
Een tussenopslagtaak voor een lake maken
Om een lake-tussenopslagtaak te maken, doet u het volgende:
-
Maak een project en selecteer Gegevenspijplijn in Gebruiksscenario.
-
Selecteer Qlik Open Lakehouse in Gegevensplatform en breng een verbinding met de gegevenscatalogus tot stand.
-
Stel een opslaggebied in Doelverbinding voor tussenopslag in.
-
Klik op Maken om het project aan te maken.
Wanneer u gegevens vrijgeeft of een tussenopslagtaak in het project maakt, wordt er een tussenopslagtaak in lake gemaakt in plaats van een tussenopslagtaak. Tussenopslagtaken in lake werken en gedragen zich voornamelijk als taken voor tussenopslag, behalve dat ze gegevens in de cloudopslag opslaan. Ga voor meer informatie naar Gegevens van gegevensbronnen tijdelijk opslaan.
Alle bestanden zijn opgeslagen in de CSV-indeling. Nadat de tussenopslaggegevens zijn bijgewerkt, werkt de opslagtaak die de tussenopslag gebruikt de externe tabellen bij.
Instellingen
Voor meer informatie over taakinstellingen gaat u naar Instellingen voor tussenopslag in lake
Beperkingen
-
Tussenopslaggegevens worden niet gepartitioneerd in de bucket omdat de opslagtaak elke minuut wordt uitgevoerd. Daarom kan de frequentie van de gegevenspartitie niet worden bijgewerkt in de taakinstellingen.
-
Hoewel tussenopslaggegevens uit SaaS-bronnen gepland zijn, voert de opslagtaak elke minuut minibatches uit. Dit vereist een actief lakehouse-cluster tegen minimale kosten.
-
Als een Primary Key-waarde verandert, worden records met de oorspronkelijke sleutel gemarkeerd als Verwijderd en wordt de rij met de gewijzigde sleutelwaarde gemarkeerd als Invoegen.