Prozesse zur Optimierung von Iceberg
Adaptiver Optimierer für Apache Iceberg ist ein intelligenter Agent, der Ihre Datendateien kontinuierlich überprüft und deren Organisation und Speicherung optimiert, um schnellere Abfragen und geringere Speicherkosten zu ermöglichen.
Qlik nutzt Optimierungsprozesse, um die Leistung und Verwaltbarkeit der Iceberg-Tabellen in Ihrem Qlik Open Lakehouse zu verbessern. Diese Prozesse wurden entwickelt, um eine effiziente Speicherung und eine erstklassige Abfrageleistung zu gewährleisten. Durch die automatische Optimierung Ihres Lakehouse im Hintergrund wird der betriebliche Aufwand für die manuelle Überwachung, Fehlerbehebung und Wartung reduziert.
Adaptiver Optimierer
Adaptiver Optimierer führt eine algorithmische Analyse durch, um zu ermitteln, wie Sie Ihre Iceberg-Tabellen so optimieren können, dass sie die größte Wirkung erzielen. Der Agent entscheidet, wann und wie er Ihre Iceberg-Daten optimiert, und berechnet anhand von Faktoren wie Datenprofil, Tabelleneigenschaften, Häufigkeit von Änderungen auf Zeilenebene, Kosten und Leistungsmerkmalen, wann Dateien gelöscht werden müssen.
Mithilfe fortschrittlicher Algorithmen wertet Adaptiver Optimierer diese Faktoren kontinuierlich aus und kombiniert sie, um die bestmöglichen Optimierungen für jede Tabelle zu erzielen und sicherzustellen, dass die Abfragegeschwindigkeit hoch und die Speicherkosten niedrig bleiben. Während des Einlesens und Verdichtens erfasst und aktualisiert Adaptiver Optimierer Tabellenstatistiken, ohne dass jede Tabelle analysiert werden muss. Diese Statistiken unterstützen Abfrage-Engines bei der Planung und Ausführung von Abfragen von Iceberg-Tabellen.
Intelligente Optimierungen werden auf einzigartige Weise an Ihre Daten angepasst, um die Lake-Hygiene und die Abfrageleistung zu verbessern. Nicht alle Tabellen in Ihrem Data Lakehouse sind gleich, daher passt sich Adaptiver Optimierer an die individuellen Eigenschaften der Rohdaten an. Jede Tabelle wird auf individuelle Weise strukturiert, organisiert und optimiert.
Die folgenden wichtigen Optimierungsprozesse werden automatisch von Qlik durchgeführt und erfordern kein Eingreifen:
Kontinuierliche Verdichtung
Der Verdichtungsprozess ist fortlaufend und speziell für Streaming-Daten optimiert, unterstützt aber alle Arbeitslasten. Die Verdichtung beinhaltet:
-
Überwachung und Auswahl: Regelmäßige Überprüfung auf potenzielle Verdichtungsmöglichkeiten.
-
Optimierungskriterien: Auswahl der Verdichtungen, die den höchsten prognostizierten Gewinn an Abfrageleistung und Kostenreduzierung bieten. Diese Entscheidung steht im Verhältnis zu den Kosten für die Durchführung der Verdichtung, ein Ansatz, der sicherstellt, dass die Iceberg-Tabellen für die Abfrageleistung optimiert bleiben, ohne unnötige Rechenkosten zu verursachen.
Ablauf von Schnappschüssen
Iceberg-Vorgänge generieren neue Schnappschüsse, die für Benutzerabfragen zur Verfügung stehen. Schnappschüsse ermöglichen Funktionen wie die Zeitreise. Allerdings kann die Speicherung dieser Schnappschüsse zu einem erhöhten Speicherbedarf führen. Um dies zu verwalten, löscht Qlik automatisch alte Schnappschüsse. Der Bereinigungsprozess wird alle paar Stunden durchgeführt und stellt sicher, dass nur notwendige Schnappschüsse beibehalten werden, um die Speichernutzung zu optimieren.
Bereinigen von verwaisten Dateien
Bei Iceberg-Vorgängen kann es vorkommen, dass Dateien nicht referenziert werden oder „verwaisen“. Verwaiste Dateien können sich ansammeln, was zu erhöhten Speicherkosten führt. Qlik führt eine tägliche Bereinigung von entdeckten verwaisten Dateien durch, um zusätzliche Speicherkosten zu reduzieren. Die Bereinigungsfunktion findet und entfernt automatisch verwaiste Dateien aus dem Tabellenspeicherort und sorgt so für eine aufgeräumte und kostengünstige Umgebung.