メイン コンテンツをスキップする 補完的コンテンツへスキップ

Talend Cloudインフラストラクチャーの安定性とパフォーマンスの向上

問題と影響

一部のユーザーから「Talend Cloud APIの使用時に不正なゲートウェイ(502)エラーとゲートウェイタイムアウト(504)エラーが断続的に発生し、失敗したタスクを手動で再起動することになった」という報告がありました。

この問題が報告されているエンドポイントは少なく、影響するリクエストは0.01%未満です。

関連するチケット: SRESEC-3188

根本原因

  • 2023年末、一部のエンドポイントが新しいAPIゲートウェイソリューションに移行されました。
  • 2024年初頭、コスト効率とリソース利用のため、コンピューティングクラスターを自動的に起動してサイズを変更するツールが実装されました。その結果、APIゲートウェイサービスの排除と再起動がより頻繁に行われるようになりました。

問題のロギングは、2024年1月29日から2024年2月5日の間に開始されたものです。

解決方法

R2024-03でリリースされた変更は、Talend Cloudインフラストラクチャーの安定性とパフォーマンスの改善を目的とした継続的取り組みの一環です。これらの変更は主に次のとおりです:
  • 水平サービス自動スケーラー(Horizontal Service Autoscaler)が実装され、スケールアウトが可能になりました。これによって、必要に応じてトラフィックの増加に対応できるよう、インスタンスが自動的にシステムへ追加されます。
  • 安全なシャットダウンとPreStopフックが追加されました。これによって、サービスをシャットダウンする前に進行中のタスクを安全が終了し、顧客セッションがまとめられます。
  • サービスの中断(いわゆる「Disruption Budgets」)とアップデート(ローリングアップデートのデプロイメント戦略など)を管理するためのプランが見直されました。これによって、デプロイ中やノードの排除中に最小限のサービスが引き続き稼働するようになりました。
  • KubernetesのPod-antiaffinity機能とtaint機能が実装されました。これによって、同じAPIゲートウェイからの複数のサービスが同じノードにスケジュールされるのを防止できます。
  • APIゲートウェイのサービスがさまざまな利用可能ゾーンへ均等に分散されるよう、Kubernetesのトポロジースプレッド制約が設定されました。
  • ウェブアプリケーションファイアウォール(WAF)とAPIゲートウェイ間のアイドルタイムアウト設定が、調整および最適化されました。

インフラストラクチャーはこれらの変更に伴って透過的にアップデートされています。お客様側のアクションは必要ありません。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。