Stabilitäts- und Leistungsverbesserungen in der Talend Cloud-Infrastruktur
Probleme und Auswirkungen
Einige Benutzer haben gelegentlich Fehler mit „Bad Gateways“ (502) und „Gateway Timeout“ (504) gemeldet, wenn sie die Talend Cloud-API verwendeten, was zu manuellen Neustarts fehlgeschlagener Tasks führte.
Dieses Problem wurde nur für sehr wenige Endpunkte gemeldet; es waren weniger als 0,01 % ihrer Anfragen betroffen.
Zugehöriges Ticket: SRESEC-3188
Zugrunde liegende Ursachen
- Ende 2023 wurden manche Endpunkte zu einer neuen API-Gateway-Lösung migriert.
- Anfang 2024 wurde ein Tool implementiert, dass aus Gründen der Kosteneffizienz und Ressourcenauslastung die Verarbeitungscluster automatisch starten und deren Größe anpassen sollte. Das führte zu häufigeren Auslagerungen und Neustarts der API-Gateway-Services.
Die Protokollierung dieser Probleme begann zwischen dem 29. Januar und dem 5. Februar 2024.
Lösungen
Die in R2024-03 freigegebenen Änderungen sind Teil der fortlaufenden Bemühungen, die Stabilität und Leistung der Talend Cloud-Infrastruktur zu verbessern. Die wichtigsten Änderungen sind:
- Horizontale automatische Serviceskalierer wurden implementiert, um hochzuskalieren, d. h., automatisch nach Bedarf weitere Instanzen zum System hinzuzufügen, um höheren Datenverkehr zu verarbeiten.
- Es wurden „Graceful Shutdown“ und PreStop-Hooks hinzugefügt, damit laufende Aufgaben auf sichere Weise abgeschlossen und Kundensitzungen beendet werden können, bevor die Services heruntergefahren werden.
- Pläne für die Verwaltung von Serviceunterbrechungen (als „Disruption Budget“ bezeichnet) und Aktualisierungen (z. B. eine fortlaufende Update-Implementierungsstrategie) wurden geprüft, um zu gewährleisten, dass während der Implementierung oder Knotenauslagerung eine Mindestanzahl an Services weiter ausgeführt wird.
- Die Kubernetes-Funktionen Pod-Antiaffinity und Taints wurden implementiert, um zu verhindern, dass mehrere Services vom gleichen API-Gateway auf dem gleichen Knoten geplant werden.
- Die Kubernetes-Einschränkungen für Topology Spread wurden konfiguriert, um zu gewährleisten, dass API-Gateway-Services gleichmäßig über verschiedene Verfügbarkeitszonen verteilt werden.
- Die Timeout-Einstellungen für Inaktivität zwischen dem Web Application Firewall (WAF) und dem API-Gateway wurden aneinander ausgerichtet und optimiert.
Die Infrastruktur wurde transparent mit diesen Änderungen aktualisiert. Es ist keine Maßnahme Ihrerseits erforderlich.