Umieszczanie danych w lakehouse
Dane można umieszczać w lakehouse Snowflake. Obejmuje to przesyłanie danych ze źródła danych do pamięci na pliki w chmurze, która jest zarządzana przez platformę danych.
Umieszczanie danych w lakehouse nie wiąże się z kosztownym wykorzystaniem hurtowni podczas umieszczania danych, w odróżnieniu od zwykłego umieszczania danych w hurtowni danych. Pozwala to na umieszczanie danych z dużą częstotliwością i korzystanie z nich z mniejszą częstotliwością w zależności od potrzeb. Możesz także łatwiej udostępniać dane innym platformom. Tabele Iceberg można zsynchronizować z katalogiem Snowflake Open Catalog, aby umożliwić współpracę z innymi narzędziami, takimi jak Apache Spark.
Umieszczanie danych w lakehouse jest dostępne tylko w projektach, w których platformą danych jest Snowflake.
Przygotowania
-
Aby zsynchronizować tabele Iceberg z usługą Snowflake Open Catalog, należy skonfigurować integrację katalogu w instancji Snowflake. Nazwa tej integracji jest wymagana podczas tworzenia zadania. Więcej informacji zawiera temat CREATE CATALOG INTEGRATION (Snowflake Open Catalog).
-
Chociaż można skonfigurować ustawienia połączenia źródła i miejsca docelowego w kreatorze konfiguracji zadania, aby uprościć procedurę konfiguracji, zaleca się wykonanie tej czynności przed utworzeniem zadania.
Tworzenie zadania umieszczania w jeziorze danych
-
Utwórz projekt i wybierz opcję Potok danych w obszarze Zastosowanie.
-
Wybierz Snowflake w obszarze Platforma danych i skonfiguruj połączenie z hurtownią danych.
Więcej informacji na temat ustawień miejsca docelowego Snowflake można znaleźć na stronie Snowflake.
-
Wybierz Pamięć w chmurze w obszarze Miejsce docelowe umieszczania.
-
Skonfiguruj obszar tymczasowy w obszarze Połączenie pamięci w chmurze.
Można korzystać z następujących typów połączeń:
-
Ustaw nazwę Integracji pamięci Snowflake. Więcej informacji można znaleźć w dokumentacji Snowflake dotyczącej wybranego obszaru pamięci masowej.
-
Wybierz typ tabeli, który ma być domyślnie tworzony dla zadań Przechowywanie, Transformacja i Data mart. Ustawienie to można zmienić później w ustawieniach projektu. Można również ustawić typ tabeli dla każdego zadania w projekcie.
-
Tabele Snowflake
-
Tabele Iceberg zarządzane przez Snowflake
W tym przypadku należy ustawić domyślną nazwę woluminu zewnętrznego w Domyślny wolumin zewnętrzny.
InformacjaTabele Iceberg dziedziczą zasady serializacji przechowywania danych ustawione na poziomie schematu, bazy danych lub konta. Może to mieć wpływ na interoperacyjność z innymi produktami odczytującymi tabele bezpośrednio przez Snowflake.
-
-
Kliknij przycisk Utwórz, aby utworzyć projekt.
Podczas dołączania danych lub tworzenia zadania umieszczania w projekcie, zamiast zadania Umieszczania jest tworzone zadanie Umieszczanie w jeziorze danych. Zadania Umieszczanie w jeziorze danych działają i zachowują się przeważnie jak zadania Umieszczanie, z takim wyjątkiem, że umieszczają dane w pamięci masowej w chmurze. Więcej informacji zawiera temat Umieszczanie danych ze źródeł danych.
Wszystkie pliki są umieszczane w formacie CSV. Zadanie pamięci masowej, które wykorzystuje zadanie umieszczania, zapewni, że tabele zewnętrzne będą aktualizowane po aktualizacji danych umieszczania.
Ustawienia
Więcej informacji o ustawieniach zadania zawiera temat Ustawienia umieszczania w jeziorze danych.
Ograniczenia
-
Ścieżki tabeli nie można zmienić po jej utworzeniu. Obejmuje to zmianę nazwy tabeli.
-
Jeśli tabele do umieszczania są używane jako tabele zewnętrzne, widoki pamięci masowej na żywo są wyłączone.
-
Podczas synchronizacji tabel z usługą Snowflake Open Catalog są synchronizowane tabele schematu wewnętrznego, a nie widoki wygenerowane w schemacie zadania danych. To ograniczenie może zostać zniesione w przyszłości. Więcej informacji na temat tabel schematu wewnętrznego zawiera temat Tabele.