Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Qlik Open Lakehouse-Architektur

Qlik Open Lakehouse bietet unter Qlik Talend Cloud eine vollständig verwaltete End-to-End-Lösung zum Einlesen, Verarbeiten und Optimieren von Daten in einem Iceberg-basierten Lakehouse. Diese Lösung bietet eine niedrige Latenzzeit für Abfragen und effiziente Datenvorgänge im großen Maßstab.

Die Architektur von Qlik Open Lakehouse kombiniert sichere Kommunikation, skalierbare Rechenleistung und effiziente Datenverarbeitung, um ein modernes Lakehouse-Erlebnis zu bieten. Qlik Open Lakehouse nutzt AWS-eigene Komponenten, einschließlich EC2, S3 und Kinesis.

Kernkomponenten

Die folgenden Entitäten sind erforderlich, um ein Qlik Open Lakehouse zu erstellen.

Data Movement Gateway (CDC)

Das Data Movement Gateway wird in Ihrer Umgebung vor Ort oder in der Cloud ausgeführt. Es erfasst Änderungen aus Quellsystemen wie RDBMS, SAP oder Mainframes und sendet die Daten an eine Amazon S3-Bereitstellungszone.

Netzwerkintegrationsagent (EC2-Instanz)

Der Netzwerkintegrationsagent ist eine EC2-Instanz, die die sichere Kommunikation zwischen Qlik Diensten in der Cloud und Lakehouse-Clustern in Ihrer Umgebung ermöglicht. Der Agent wird während des Netzwerkintegrationsprozesses automatisch als On-Demand-Instanz bereitgestellt und vollständig von Qlik verwaltet. Neue Versionen werden bei der Veröffentlichung automatisch bereitgestellt.

Wenn die Netzwerkintegration korrekt funktioniert, wird in der Ansicht Lakehouse-Cluster im Aktivitätscenter „Verwaltung“ der Status Verbunden angezeigt. Der Status ändert sich in Getrennt, wenn Probleme mit der Verbindung auftreten.

Lakehouse-Cluster (EC2-Gruppe mit automatischer Skalierung)

Der Lakehouse-Cluster ist eine Gruppe von AWS EC2-Instanzen, die für die Datenverarbeitung zuständig sind. Die Cluster-Instanzen koordinieren und führen die Arbeitslasten aus, um eingehende Daten aus dem Bereitstellungsbereich zu verarbeiten und die Daten nach der Verarbeitung am Zielspeicherort im Iceberg-Format zu speichern.

Ein Lakehouse-Cluster mit einer einzelnen AWS Spot-Instanz wird bei der Einrichtung Ihrer Netzwerkintegration automatisch erstellt. Sie können zusätzliche Cluster verwalten und erstellen, um Ihre laufenden Lakehouse-Anforderungen zu erfüllen. Wenn Sie einen Cluster konfigurieren, erteilen Sie Qlik die Berechtigung, die Server zu erstellen, zu starten, anzuhalten, zu skalieren oder ein Rollback durchzuführen, um die Anforderungen der Datenverarbeitung zu erfüllen. Jeder Cluster ist mit einer einzelnen Netzwerkintegration verbunden; es können aber mehrere Cluster innerhalb der gleichen Netzwerkintegration ausgeführt werden. Ein einziger Cluster kann viele Lakehouse-Aufgaben ausführen.

Eine AWS Spot-Instanz nutzt freie Amazon EC2-Kapazität zu geringeren Kosten als reguläre Instanzen, kann aber von AWS kurzfristig unterbrochen werden. Standardmäßig verwendet Qlik flüchtige Spot-Instanzen für die Datenverarbeitung. Wenn im AWS Spot-Markt nicht genügend Spot-Instanzen verfügbar sind, verwendet Qlik automatisch On-Demand-Instanzen, um die Kontinuität zu gewährleisten. Das System wechselt zu Spot-Instanzen zurück, wenn diese wieder verfügbar werden. Die Lakehouse-Cluster-Technologie ist so konzipiert, dass sie einen reibungslosen Übergang zwischen Spot- und On-Demand-Instanzen ermöglicht, indem sie Jobs zwischen den Knoten verschiebt. Dieser Prozess läuft automatisch ab, ohne dass Sie manuell eingreifen müssen. In den Cluster-Einstellungen können Sie konfigurieren, wie viele Spot- und On-Demand-Instanzen im Cluster verwendet werden sollen. Durch die Nutzung von Spot-Instanzen können Sie die laufenden Rechenkosten Ihres Qlik Open Lakehouse reduzieren.

Sie können nicht nur die Anzahl der zu verwendenden Spot- und On-Demand-Instanzen festlegen, sondern auch eine Skalierungsstrategie konfigurieren, die der Arbeitslast und dem Budget für Ihr Projekt am besten entspricht. Die folgenden Skalierungsstrategien können auf einen Cluster angewendet werden:

  • Geringe Kosten: Ideal für Entwicklungs- oder QA-Umgebungen und Arbeitslasten, die nicht auf aktuelle Echtzeitdaten angewiesen sind. Qlik ist bestrebt, die Kosten so niedrig wie möglich zu halten, was gelegentlich zu hohen Latenzzeiten führt.

  • Geringe Latenz: Konzipiert für nicht unternehmenskritische Arbeitslasten, bei denen die Aktualität der Daten nahezu in Echtzeit akzeptabel ist. Diese Strategie zielt zwar auf eine geringe Latenzzeit ab, aber es kann zu kurzen Spitzen kommen.

  • Anhaltend niedrige Latenz: Geeignet für Produktionsumgebungen mit großen Datenmengen, die aktuelle Daten in Echtzeit benötigen. Qlik skaliert die Instanzen proaktiv, um eine niedrige Latenz zu gewährleisten, was zu höheren Kosten führen kann.

  • Keine Skalierung: Eine gute Option für Arbeitslasten, die ein konsistentes Datenvolumen verarbeiten. Wählen Sie diese Option, um eine statische Anzahl von Instanzen ohne automatische Skalierung und mit vorhersehbaren Kosten beizubehalten.

Kinesis-Stream (Arbeitslastkoordination)

Qlik benötigt einen Kinesis-Stream, um den Status jedes Servers im Lakehouse-Cluster zu erfassen und weiterzuleiten. Die Server melden den Status von Aufgaben und Betriebsmetriken wie CPU und Arbeitsspeicher direkt an Kinesis, da die Server nicht miteinander kommunizieren. Jeder Server fragt Daten aus dem Kinesis-Stream ab, um Informationen über die anderen Server innerhalb des Clusters zu erhalten. Dieser Informationsaustausch ermöglicht die Synchronisierung der Arbeit.

Amazon S3-Buckets

Amazon S3-Buckets werden wie folgt verwendet:

  • Bereitstellungsdaten-Bucket: Die CDC-Rohdaten werden vor der Umwandlung in einem S3-Bucket bereitgestellt.

  • Konfigurations-Bucket: Speichert Metadaten und Konfigurationen, die vom Lakehouse-System verwendet werden.

  • Iceberg-Tabellenspeicher: Die Daten werden in Tabellen im Iceberg-Format gespeichert und optimiert.

Arbeitsablauf auf hoher Ebene

Ersteinrichtung

  1. VPC und Infrastrukturbereitstellung: Konfigurieren Sie eine VPC in Ihrem AWS-Konto zusammen mit Subnetzen, S3-Buckets, Kinesis-Streams und IAM-Rollen, indem Sie den Anweisungen in der Qlik Dokumentation folgen.

  2. Konfiguration der Netzwerkintegration: Der Mandantenadministrator erstellt eine Netzwerkintegration in Qlik Talend Cloud unter Verwendung der zuvor eingerichteten Infrastrukturdetails.

  3. Bereitstellung von Qlik-Komponenten: Qlik stellt automatisch das Datenebenen-Gateway und einen Lakehouse-Cluster innerhalb Ihrer VPC bereit.

  4. Kommunikationseinrichtung: Das Datenebenen-Gateway stellt sichere Kommunikation mit Qlik Talend Cloud her.

  5. Gateway-Bereitstellung: Stellen Sie ein Data Movement Gateway (CDC) bereit, entweder vor Ort oder in Ihrer Cloud-Umgebung, einschließlich der VPC der Datenebene.

  6. Betriebsbereit: Nach Abschluss der Einrichtung können Sie Qlik Open Lakehouse-Projekte und -Aufgaben entsprechend ihrer Zugriffsberechtigungen erstellen und verwalten.

Erstellen eines Qlik Open Lakehouse-Projekts

Die folgenden Aufgabentypen sind verfügbar:

Bereitstellungsdatenaufgabe

  1. Quellkonfiguration: Das Data Movement Gateway ist so konfiguriert, dass es Änderungen aus Quellsystemen einschließlich RDBMS, SAP, Mainframes und anderen erfasst.

  2. Datenbereitstellung: Die CDC-Aufgabe sendet fortlaufend Änderungsrohdaten an den angegebenen S3-Bereitstellungs-Bucket in Ihrem AWS-Konto.

Speicherdatenaufgabe

  1. Registrieren Sie eine Verbindung zum Iceberg-Katalog, z.B. AWS Glue Data Catalog.

  2. Definieren Sie eine Speicheraufgabe in Qlik Talend Cloud.

  3. Qlik Talend Cloud sendet Aufgabendefinitionen an das Datenebenen-Gateway.

  4. Das Datenebenen-Gateway leitet die Aufgabenanweisungen sicher an den Qlik Lakehouse-Cluster weiter.

  5. Der Cluster liest kontinuierlich Rohdaten aus einem Bereitstellungs-Bucket in S3, verarbeitet sie und schreibt die Ausgabe in Iceberg-Tabellen in S3.

  6. Der Lakehouse-Cluster skaliert automatisch je nach Arbeitslast nach oben oder unten, entsprechend den vordefinierten Präferenzen in den Lakehouse-Cluster-Einstellungen.

  7. Die Überwachungsdaten werden an Qlik Talend Cloud gesendet, und die Protokolle und Metriken werden an Qlik weitergeleitet.

Spiegeldatenaufgabe

Sie können externe Iceberg-Tabellen erstellen, um die Abfrage von Daten, die in Ihrem Data Lake gespeichert sind, in Snowflake ohne Duplizierung zu ermöglichen. Damit können Sie die Snowflake-Analyse-Engine zusätzlich zu den von Iceberg verwalteten Daten verwenden, die in Formaten wie Parquet auf S3 gespeichert sind. Indem Sie externe Tabellen referenzieren, anstatt die Daten in Snowflake zu duplizieren, reduzieren Sie die Speicherkosten, erhalten eine „Single Source of Truth“ und gewährleisten die Konsistenz zwischen Lakehouse- und Warehouse-Umgebungen.

Kommunikation zwischen Ihrer Netzwerkintegration und Qlik Talend Cloud

Die Netzwerkintegration stellt eine ausgehende gesicherte Verbindung (HTTPS) zu Qlik Talend Cloud her. Bei erfolgreicher Annahme wird die Verbindung in einen gesicherten WebSocket (WSS) umgewandelt. Ein zusätzlicher, dedizierter Kommunikationskanal (WSS) wird zwischen der Netzwerkintegration und Qlik Talend Cloud eingerichtet, um Lakehouse-spezifische Aufgabenbefehle und Steuerungen zu empfangen. In regelmäßigen Abständen stellt die Netzwerkintegration eine sichere Verbindung (HTTPS) zu Qlik Talend Cloud her, um datenbezogene Ereignisse zu empfangen und zu senden. Metriken und Protokolle werden von den Lakehouse-Clustern an Qlik gesendet.

Die folgenden Maßnahmen werden ergriffen, um die Sicherheit Ihrer Daten zu gewährleisten:

  • Alle Verbindungen von Ihrer Netzwerkintegration zu Qlik Talend Cloud sind ausgehend. Es ist kein eingehender Zugriff erforderlich.

  • Metadaten, Befehle und Steuerungsanfragen werden über mit HTTPS gesicherte Kommunikationskanäle übertragen, wodurch eine zusätzliche Verschlüsselungsebene zwischen der Netzwerkintegration und Qlik Talend Cloud geschaffen wird.

  • Alle Datenflüsse erfolgen zwischen Ressourcen, die Ihnen gehören. Die Daten werden niemals an Qlik Talend Cloud gesendet. Metadaten, wie z. B. Tabellen- und Spaltennamen, werden an Qlik Talend Cloud gesendet, um Aufgabendefinitionen zu ermöglichen.

  • Die Daten werden vor dem Senden an Qlik anonymisiert. Qlik verwendet anonymisierte Daten, um Sie proaktiv zu unterstützen, wenn die Protokolle oder Metriken ein Problem anzeigen.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!