Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Procesy optymalizacji Iceberg

Optymalizator adaptacyjny dla Apache Iceberg to inteligentny agent, który stale kontroluje pliki danych i optymalizuje sposób ich organizacji i przechowywania w celu przyspieszenia zapytań i obniżenia kosztów przechowywania.

Qlik wykorzystuje procesy optymalizacji w celu zwiększenia wydajności i łatwości zarządzania tabelami Iceberg w Qlik Open Lakehouse. Procesy te mają na celu utrzymanie wydajnej pamięci masowej i zapewnienie najwyższej wydajności zapytań. Automatyczna optymalizacja lakehouse w tle zmniejsza koszty operacyjne związane z ręcznym monitorowaniem, rozwiązywaniem problemów i utrzymywaniem zadań.

Optymalizator adaptacyjny

Optymalizator adaptacyjny przeprowadza analizę algorytmiczną w celu określenia sposobu optymalizacji tabel Iceberg, który zapewnia największe korzyści. Agent decyduje, kiedy i jak zoptymalizować dane Iceberg i oblicza, kiedy usunąć pliki na podstawie takich czynników, jak profil danych, właściwości tabeli, częstotliwość zmian na poziomie wierszy, koszt i charakterystyka wydajności.

Korzystając z zaawansowanych algorytmów, Optymalizator adaptacyjny stale ocenia i łączy te czynniki, aby uzyskać najlepszą możliwą optymalizację dla każdej tabeli, zapewniając dużą szybkość zapytań i niskie koszty przechowywania. Podczas pozyskiwania i zagęszczania danych Optymalizator adaptacyjny zbiera i odświeża statystyki tabel bez konieczności analizowania każdej z nich. Statystyki te pomagają mechanizmom zapytań w planowaniu i wykonywaniu zapytań na tabelach Iceberg.

Inteligentne optymalizacje w unikalny sposób adaptują się do danych, aby poprawić higienę jezior i wydajność zapytań. Nie wszystkie tabele są sobie równe, więc Optymalizator adaptacyjny dostosowuje się do indywidualnych cech surowych danych. Unikalnie strukturyzuje, organizuje i optymalizuje każdą tabelę.

Obserwowane kluczowe procesy optymalizacji są wykonywane automatycznie przez Qlik i nie wymagają interwencji:

Zagęszczanie ciągłe

Proces zagęszczania jest ciągły i zoptymalizowany pod kątem danych przesyłanych strumieniami, ale obsługuje wszystkie obciążenia. Zagęszczanie obejmuje:

  • Monitorowanie i selekcja: regularne sprawdzanie potencjalnych możliwości zagęszczania.

  • Kryteria optymalizacji: wybór zagęszczeń, które oferują najwyższy przewidywany wzrost wydajności zapytań i redukcję kosztów. Decyzja ta jest związana z kosztem wykonania zagęszczania, co zapewnia, że tabele Iceberg pozostają zoptymalizowane pod kątem wydajności zapytań bez ponoszenia niepotrzebnych kosztów obliczeniowych.

Wygaśnięcie migawki

Operacje Iceberg generują nowe migawki, które są dostępne dla zapytań użytkowników. Migawki umożliwiają korzystanie z takich cech jak podróże w czasie. Przechowywanie tych migawek może jednak prowadzić do zwiększenia wymagań dotyczących pamięci masowej. Aby temu zaradzić, Qlik automatycznie usuwa stare migawki. Proces czyszczenia odbywa się co kilka godzin, zapewniając zachowanie tylko niezbędnych migawek w celu optymalizacji wykorzystania pamięci masowej.

Czyszczenie wiszących plików

Podczas operacji wykonywanych przez Iceberg, do niektórych plików może nie być żadnych odniesień – są to tzw. pliki „wiszące”. Pliki takie mogą się kumulować, prowadząc do wzrostu kosztów przechowywania. Qlik wykonuje codzienne czyszczenie wykrytych plików, aby zmniejszyć dodatkowe koszty przechowywania. Operacja czyszczenia automatycznie wyszukuje i usuwa zwisające pliki z lokalizacji przechowywania tabeli, utrzymując porządek i ekonomiczne środowisko przechowywania.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!