Umieszczanie danych w lakehouse

Dane można umieszczać w lakehouse Snowflake. Obejmuje to przesyłanie danych ze źródła danych do pamięci na pliki w chmurze, która jest zarządzana przez platformę danych.

Umieszczanie danych w lakehouse nie wiąże się z kosztownym wykorzystaniem hurtowni podczas umieszczania danych, w odróżnieniu od zwykłego umieszczania danych w hurtowni danych. Pozwala to na umieszczanie danych z dużą częstotliwością i korzystanie z nich z mniejszą częstotliwością w zależności od potrzeb. Możesz także łatwiej udostępniać dane innym platformom. Tabele Iceberg można zsynchronizować z katalogiem Snowflake Open Catalog, aby umożliwić współpracę z innymi narzędziami, takimi jak Apache Spark.

Umieszczanie danych w lakehouse jest dostępne tylko w projektach, w których platformą danych jest Snowflake.

Przygotowania

Aby zsynchronizować tabele Iceberg z usługą Snowflake Open Catalog, należy skonfigurować integrację katalogu w instancji Snowflake. Nazwa tej integracji jest wymagana podczas tworzenia zadania. Więcej informacji zawiera temat CREATE CATALOG INTEGRATION (Snowflake Open Catalog).
Chociaż można skonfigurować ustawienia połączenia źródła i miejsca docelowego w kreatorze konfiguracji zadania, aby uprościć procedurę konfiguracji, zaleca się wykonanie tej czynności przed utworzeniem zadania.

Tworzenie zadania umieszczania w jeziorze danych

Utwórz projekt i wybierz opcję Potok danych w obszarze Zastosowanie.
Wybierz Snowflake w obszarze Platforma danych i skonfiguruj połączenie z hurtownią danych.

Więcej informacji na temat ustawień miejsca docelowego Snowflake można znaleźć na stronie Snowflake.
Wybierz Pamięć w chmurze w obszarze Miejsce docelowe umieszczania.
Skonfiguruj obszar tymczasowy w obszarze Połączenie pamięci w chmurze.

Można korzystać z następujących typów połączeń:
Ustaw nazwę Integracji pamięci Snowflake. Więcej informacji można znaleźć w dokumentacji Snowflake dotyczącej wybranego obszaru pamięci masowej.
Wybierz typ tabeli, który ma być domyślnie tworzony dla zadań Przechowywanie, Transformacja i Data mart. Ustawienie to można zmienić później w ustawieniach projektu. Można również ustawić typ tabeli dla każdego zadania w projekcie.
- Tabele Snowflake
- Tabele Iceberg zarządzane przez Snowflake
  
  W tym przypadku należy ustawić domyślną nazwę woluminu zewnętrznego w Domyślny wolumin zewnętrzny.
  
  InformacjaTabele Iceberg dziedziczą zasady serializacji przechowywania danych ustawione na poziomie schematu, bazy danych lub konta. Może to mieć wpływ na interoperacyjność z innymi produktami odczytującymi tabele bezpośrednio przez Snowflake.
Kliknij przycisk Utwórz, aby utworzyć projekt.

Podczas dołączania danych lub tworzenia zadania umieszczania w projekcie, zamiast zadania Umieszczania jest tworzone zadanie Umieszczanie w jeziorze danych. Zadania Umieszczanie w jeziorze danych działają i zachowują się przeważnie jak zadania Umieszczanie, z takim wyjątkiem, że umieszczają dane w pamięci masowej w chmurze. Więcej informacji zawiera temat Umieszczanie danych ze źródeł danych.

Wszystkie pliki są umieszczane w formacie CSV. Zadanie pamięci masowej, które wykorzystuje zadanie umieszczania, zapewni, że tabele zewnętrzne będą aktualizowane po aktualizacji danych umieszczania.

Usuwanie zadania

Możesz usunąć zadanie danych, jeśli nie jest uruchomione i nie ma zależności od zadań podrzędnych w tym samym projekcie.

W widoku Projekt potoku projektu kliknij na zadaniu i wybierz Usuń.

Artefakty (pliki) utworzone przez zadanie nie zostaną usunięte.

Wyświetlanie informacji o zadaniu

Kliknij na pasku menu, aby wyświetlić informacje o zadaniu, takie jak:

Właściciel
Przestrzeń
Platforma danych
Identyfikator projektu
Identyfikator czasu wykonania zadania danych

Ustawienia

Więcej informacji o ustawieniach zadania zawiera temat Ustawienia umieszczania w jeziorze danych.

Ograniczenia

Ścieżki tabeli nie można zmienić po jej utworzeniu. Obejmuje to zmianę nazwy tabeli.
Jeśli tabele do umieszczania są używane jako tabele zewnętrzne, widoki pamięci masowej na żywo są wyłączone.
Podczas synchronizacji tabel z usługą Snowflake Open Catalog są synchronizowane tabele schematu wewnętrznego, a nie widoki wygenerowane w schemacie zadania danych. To ograniczenie może zostać zniesione w przyszłości. Więcej informacji na temat tabel schematu wewnętrznego zawiera temat Tabele.
Kolumny źródłowe typu CLOB i BLOB będą domyślnie ustawione jako dopuszczające wartości null, nawet jeśli są oznaczone jako niedopuszczające wartości null w źródle. Można je zmienić na niedopuszczające wartości null, ale wtedy trzeba dodać wyrażenie, aby dodać wartość inną niż null w przypadku, gdy ze źródła nadejdzie wartość null. Może się to zdarzyć w przypadku usuniętych rekordów.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!

Przekaż tu opinię