Mellanlagring av data till ett datasjöhus
Du kan mellanlagra data till ett Snowflake datasjöhus. Detta innebär att data överförs från datakällan till fillagring i molnet som hanteras av dataplattformen.
Mellanlagring av data till ett datasjöhus innebär inte någon kostsam användning av datalagret under mellanlagringen, jämfört med vanlig mellanlagring till ett datalager. Detta gör att du kan mellanlagra i hög frekvens och konsumera i lägre frekvens på behovsbasis. Det kan också bli lättare att dela data med andra plattformar. Du kan synkronisera Iceberg-tabeller med Snowflake Open Catalog för att möjliggöra interoperabilitet med andra verktyg, t.ex. Apache Spark.
Mellanlagring av data i ett datasjöhus är endast tillgängligt i projekt med Snowflake som dataplattform.
Förberedelser
-
Om du vill synkronisera Iceberg-tabeller med Snowflake Open Catalog måste du konfigurera en katalogintegration i din Snowflake-instans. Namnet på denna integration behövs när du skapar uppgiften. Mer information finns i avsnittet SKAPA KATALOGINTEGRATION (Snowflake Open Catalog).
-
Även om du kan konfigurera dina kopplingsinställningar för källan och målet i uppgiftskonfigureringsguiden för att förenkla konfigurationsprocessen, rekommenderar vi att du gör det innan du skapar uppgiften.
Skapa en mellanlagringsuppgift för datasjö
-
Skapa ett projekt och välj Datapipeline i Användningsfall.
-
Välj Snowflake i Dataplattform och konfigurera en koppling till datalagret.
Mer information om inställningar för Snowflake-målet finns på Snowflake.
-
Välj Molnlagring i Mål för mellanlagring.
-
Sätt upp en samlingsplats i Koppling till molnlagring.
Du kan använda följande typer av kopplingar:
-
Ange namnet på Integrering av Snowflake-lagring. Mer information finns i Snowflake-dokumentationen för det valda lagringsområdet.
-
Välj vilken typ av tabell som ska skapas som standard för uppgifterna Lagra, Transformera och Datamart. Denna inställning kan ändras senare i projektinställningarna. Du kan också ställa in tabelltypen för varje enskild uppgift i projektet.
-
Snowflake-tabeller
-
Iceberg-tabeller som hanteras av Snowflake
I det här fallet måste du ange standardnamnet på den externa volymen i Standard extern volym.
Anteckning om informationIceberg-tabeller ärver den princip för serialisering av lagring som har ställts in på schema-, databas- eller kontonivå. Detta kan påverka interoperabiliteten med andra produkter som läser tabeller direkt via Snowflake.
-
-
Klicka på Skapa för att skapa projektet.
När du introducerar data eller skapar en mellanlagringsuppgift i projektet skapas en Mellanlagring i datasjö-uppgift i stället för en Mellanlagringsuppgift. Mellanlagring i datasjö-uppgifter fungerar och beter sig i stort sett som Mellanlagringsuppgifter förutom att de mellanlagrar data i molnet. Mer information finns i Mellanlagra data från datakällor.
Alla filer mellanlagras i CSV-format. Den lagringsuppgift som använder mellanlagringsuppgiften kommer att se till att externa tabeller uppdateras efter att data för mellanlagringen har uppdaterats.
Inställningar
Se Inställning för mellanlagring i datasjö för mer information om uppgiftsinställningar.
Begränsningar
-
Det går inte att ändra en tabellsökväg efter att den har skapats. Detta inkluderar att byta namn på tabellen.
-
Om tabeller för mellanlagring används som externa tabeller inaktiveras livevyer för lagring.
-
När du synkroniserar tabeller med Snowflake Open Catalog synkroniseras tabellerna i det interna schemat och inte de vyer som genereras i datatabellschemat. Denna begränsning kan komma att upphävas i framtiden. Mer information om tabeller för internt schema finns på Tabeller.