Prozesse zur Optimierung von Iceberg

Adaptiver Optimierer für Apache Iceberg ist ein intelligenter Agent, der Ihre Datendateien kontinuierlich überprüft und deren Organisation und Speicherung optimiert, um schnellere Abfragen und geringere Speicherkosten zu ermöglichen.

Qlik nutzt Optimierungsprozesse, um die Leistung und Verwaltbarkeit der Iceberg-Tabellen in Ihrem Qlik Open Lakehouse zu verbessern. Diese Prozesse wurden entwickelt, um eine effiziente Speicherung und eine erstklassige Abfrageleistung zu gewährleisten. Durch die automatische Optimierung Ihres Lakehouse im Hintergrund wird der betriebliche Aufwand für die manuelle Überwachung, Fehlerbehebung und Wartung reduziert.

Adaptiver Optimierer

Adaptiver Optimierer führt eine algorithmische Analyse durch, um zu ermitteln, wie Sie Ihre Iceberg-Tabellen so optimieren können, dass sie die größte Wirkung erzielen. Der Agent entscheidet, wann und wie er Ihre Iceberg-Daten optimiert, und berechnet anhand von Faktoren wie Datenprofil, Tabelleneigenschaften, Häufigkeit von Änderungen auf Zeilenebene, Kosten und Leistungsmerkmalen, wann Dateien gelöscht werden müssen.

Mithilfe fortschrittlicher Algorithmen wertet Adaptiver Optimierer diese Faktoren kontinuierlich aus und kombiniert sie, um die bestmöglichen Optimierungen für jede Tabelle zu erzielen und sicherzustellen, dass die Abfragegeschwindigkeit hoch und die Speicherkosten niedrig bleiben. Während des Einlesens und Verdichtens erfasst und aktualisiert Adaptiver Optimierer Tabellenstatistiken, ohne dass jede Tabelle analysiert werden muss. Diese Statistiken unterstützen Abfrage-Engines bei der Planung und Ausführung von Abfragen von Iceberg-Tabellen.

Intelligente Optimierungen werden auf einzigartige Weise an Ihre Daten angepasst, um die Lake-Hygiene und die Abfrageleistung zu verbessern. Nicht alle Tabellen in Ihrem Data Lakehouse sind gleich, daher passt sich Adaptiver Optimierer an die individuellen Eigenschaften der Rohdaten an. Jede Tabelle wird auf individuelle Weise strukturiert, organisiert und optimiert.

Die folgenden wichtigen Optimierungsprozesse werden automatisch von Qlik durchgeführt und erfordern kein Eingreifen:

Kontinuierliche Verdichtung

Der Verdichtungsprozess ist fortlaufend und speziell für Streaming-Daten optimiert, unterstützt aber alle Arbeitslasten. Die Verdichtung beinhaltet:

Überwachung und Auswahl: Regelmäßige Überprüfung auf potenzielle Verdichtungsmöglichkeiten.
Optimierungskriterien: Auswahl der Verdichtungen, die den höchsten prognostizierten Gewinn an Abfrageleistung und Kostenreduzierung bieten. Diese Entscheidung steht im Verhältnis zu den Kosten für die Durchführung der Verdichtung, ein Ansatz, der sicherstellt, dass die Iceberg-Tabellen für die Abfrageleistung optimiert bleiben, ohne unnötige Rechenkosten zu verursachen.

Ablauf von Schnappschüssen

Iceberg-Vorgänge generieren neue Schnappschüsse, die für Benutzerabfragen zur Verfügung stehen. Schnappschüsse ermöglichen Funktionen wie die Zeitreise. Allerdings kann die Speicherung dieser Schnappschüsse zu einem erhöhten Speicherbedarf führen. Um dies zu verwalten, löscht Qlik automatisch alte Schnappschüsse. Der Bereinigungsprozess wird alle paar Stunden durchgeführt und stellt sicher, dass nur notwendige Schnappschüsse beibehalten werden, um die Speichernutzung zu optimieren.

Bereinigen von verwaisten Dateien

Bei Iceberg-Vorgängen kann es vorkommen, dass Dateien nicht referenziert werden oder „verwaisen“. Verwaiste Dateien können sich ansammeln, was zu erhöhten Speicherkosten führt. Qlik führt eine tägliche Bereinigung von entdeckten verwaisten Dateien durch, um zusätzliche Speicherkosten zu reduzieren. Die Bereinigungsfunktion findet und entfernt automatisch verwaiste Dateien aus dem Tabellenspeicherort und sorgt so für eine aufgeräumte und kostengünstige Umgebung.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab