Praca z plikami Apache Parquet
Apache Parquet to kolumnowy format pamięci masowej, wykazujący się wysoką wydajnością podczas przechowywania i wysyłania zapytań do dużych zestawów danych. W Qlik Sense można odczytywać dane z plików Parquet i przechowywać tabele jako pliki Parquet.
Parquet umożliwia efektywne odpytywanie określonych kolumn zamiast czytania całej tabeli. Dzięki temu doskonale nadaje się do użytku podczas przetwarzania zbiorów big data. Ponadto Parquet obsługuje wydajną kompresję i kodowanie danych. Może to jeszcze bardziej zmniejszyć zajmowane miejsce w pamięci i poprawić wydajność zapytań.
Tworzenie plików Parquet
Pliki Parquet można tworzyć za pomocą polecenia Store w skrypcie. W skrypcie należy określić, że wcześniej wczytana tabela lub część takiej tabeli ma zostać eksportowana do pliku o podanej nazwie i lokalizacji.
Więcej informacji można znaleźć w temacie Store.
Odczyt danych z plików Parquet
Dane z pliku Parquet można odczytywać tak jak z każdego innego pliku danych obsługiwanego przez Qlik Sense. Dotyczy to Menedżera danych, Edytora ładowania danych lub dodawania danych do nowej aplikacji.
Więcej informacji można znaleźć w temacie Ładowanie danych z plików.
Możesz także załadować dane z pliku Parquet w skrypcie ładowania danych za pomocą polecenia LOAD. Na przykład:
Więcej informacji można znaleźć w temacie Load.
Ograniczenia
-
Zagnieżdżone typy pól nie są obsługiwane przez Qlik Sense. Pola są ładowane, ale zawartość będzie pusta.
-
Pliki Parquet, które zawierają pole znacznika czasu int96, mogą nie być ładowane poprawnie.
Int96 to przestarzały typ danych, który zawiera sygnaturę czasową bez informacji o strefie czasowej. Zostanie podjęta próba odczytania pola jako wartości w strefie czasowej UTC, ale ponieważ istnieją różne implementacje producentów, nie ma gwarancji powodzenia.
Sprawdź załadowane dane i w razie potrzeby dostosuj je do prawidłowej strefy czasowej, używając przesunięcia.