Talend Cloudインフラストラクチャーの安定性とパフォーマンスの向上
問題と影響
一部のユーザーから「Talend Cloud APIの使用時に不正なゲートウェイ(502)エラーとゲートウェイタイムアウト(504)エラーが断続的に発生し、失敗したタスクを手動で再起動することになった」という報告がありました。
この問題が報告されているエンドポイントは少なく、影響するリクエストは0.01%未満です。
関連するチケット: SRESEC-3188
根本原因
- 2023年末、一部のエンドポイントが新しいAPIゲートウェイソリューションに移行されました。
- 2024年初頭、コスト効率とリソース利用のため、コンピューティングクラスターを自動的に起動してサイズを変更するツールが実装されました。その結果、APIゲートウェイサービスの排除と再起動がより頻繁に行われるようになりました。
問題のロギングは、2024年1月29日から2024年2月5日の間に開始されたものです。
解決方法
R2024-03でリリースされた変更は、Talend Cloudインフラストラクチャーの安定性とパフォーマンスの改善を目的とした継続的取り組みの一環です。これらの変更は主に次のとおりです:
- 水平サービス自動スケーラー(Horizontal Service Autoscaler)が実装され、スケールアウトが可能になりました。これによって、必要に応じてトラフィックの増加に対応できるよう、インスタンスが自動的にシステムへ追加されます。
- 安全なシャットダウンとPreStopフックが追加されました。これによって、サービスをシャットダウンする前に進行中のタスクを安全が終了し、顧客セッションがまとめられます。
- サービスの中断(いわゆる「Disruption Budgets」)とアップデート(ローリングアップデートのデプロイメント戦略など)を管理するためのプランが見直されました。これによって、デプロイ中やノードの排除中に最小限のサービスが引き続き稼働するようになりました。
- KubernetesのPod-antiaffinity機能とtaint機能が実装されました。これによって、同じAPIゲートウェイからの複数のサービスが同じノードにスケジュールされるのを防止できます。
- APIゲートウェイのサービスがさまざまな利用可能ゾーンへ均等に分散されるよう、Kubernetesのトポロジースプレッド制約が設定されました。
- ウェブアプリケーションファイアウォール(WAF)とAPIゲートウェイ間のアイドルタイムアウト設定が、調整および最適化されました。
インフラストラクチャーはこれらの変更に伴って透過的にアップデートされています。お客様側のアクションは必要ありません。