Tussenopslag in een lakehouse
U kunt gegevens tijdelijk opslaan in een Snowflake-datalakehouse. Hierbij worden de gegevens van de gegevensbron overgebracht naar bestandsopslag in de cloud, die wordt beheerd door het gegevensplatform.
Tussenopslag van gegevens in een lakehouse brengt geen duur gebruik van het warehouse met zich mee, vergeleken met gewone tussenopslag van gegevens in een datawarehouse. Hierdoor kunt u met een hoge frequentie tijdelijk opslaan en naar behoefte met een lagere frequentie verbruiken. U kunt mogelijk ook gemakkelijker gegevens delen met andere platformen. U kunt Iceberg-tabellen synchroniseren met Snowflake Open Catalog om interoperabiliteit met andere tools, zoals Apache Spark, mogelijk te maken.
Gegevens tijdelijk opslaan in een lakehouse is alleen beschikbaar in projecten met Snowflake als gegevensplatform.
Voorbereidingen
-
Als u Iceberg-tabellen wilt synchroniseren met Snowflake Open Catalog, moet u een catalogusintegratie instellen in uw Snowflake-instantie. De naam van deze integratie is nodig bij het aanmaken van de taak. Zie CREATE CATALOG INTEGRATION (Snowflake Open Catalog) voor meer informatie.
-
U kunt de instellingen van uw bronverbinding en doelverbinding in de wizard Taakinstellingen configureren, maar om de setupprocedure te vereenvoudigen wordt aanbevolen om dit te doen voordat u de taak maakt.
Een tussenopslagtaak voor een lake maken
-
Maak een project en selecteer Gegevenspijplijn in Gebruikscase.
-
Selecteer Snowflake in Gegevensplatform en stel een verbinding met het datawarehouse in.
Zie Snowflake voor meer informatie over instellingen voor het Snowflake-doel.
-
Selecteer Cloudopslag in Tussenopslagdoel.
-
Stel een tussenopslaggebied in Cloudopslagverbinding in.
U kunt de volgende verbindingstypes gebruiken:
-
Stel de naam van de Integratie Snowflake-opslag in. Raadpleeg voor meer informatie de Snowflake-documentatie voor uw geselecteerde opslaggebied.
-
Selecteer welk type tabel standaard moet worden aangemaakt voor opslag-, transformatie- en datamarttaken. Deze instelling kan later gewijzigd worden in de projectinstellingen. U kunt ook het tabeltype instellen voor elke afzonderlijke taak in het project.
-
Snowflake-tabellen
-
Snowflake-beheerde Iceberg-tabellen
U moet in dit geval de standaardnaam van het externe volume instellen in Standaard extern volume.
InformatieIceberg-tabellen nemen het beleid voor opslagserialisatie over dat is ingesteld op schema-, database- of accountniveau. Dit kan van invloed zijn op de interoperabiliteit met andere producten die tabellen rechtstreeks via Snowflake inlezen.
-
-
Klik op Maken om het project aan te maken.
Wanneer u gegevens vrijgeeft of een tussenopslagtaak in het project maakt, wordt er een tussenopslagtaak in lake gemaakt in plaats van een tussenopslagtaak. Tussenopslagtaken in lake werken en gedragen zich voornamelijk als taken voor tussenopslag, behalve dat ze gegevens in de cloudopslag opslaan. Ga voor meer informatie naar Gegevens van gegevensbronnen tijdelijk opslaan.
Alle bestanden zijn opgeslagen in de CSV-indeling. De opslagtaak die de tussenopslagtaak gebruikt, zorgt ervoor dat externe tabellen worden bijgewerkt nadat de tussenopslaggegevens zijn bijgewerkt.
Instellingen
Voor meer informatie over taakinstellingen gaat u naar Instellingen voor tussenopslag inl ake
Beperkingen
-
Het is niet mogelijk om een tabelpad te wijzigen nadat het is aangemaakt. Dit omvat ook het hernoemen van de tabel.
-
Als tussenopslagtabellen worden gebruikt als externe tabellen, worden liveweergaven van opslag uitgeschakeld.
-
Bij het synchroniseren van tabellen met Snowflake Open Catalog worden de tabellen van het interne schema gesynchroniseerd, en niet de weergaven die in het schema van de gegevenstaak worden gegenereerd. Deze beperking kan in de toekomst worden opgeheven. Zie Tabellen voor meer informatie over tabellen in het interne schema.