メインコンテンツまでスキップ

Webサーバからのレスポンスが500エラーになる障害

· 約2分

概要

  • 2023年1月10日(金) 8:30 - 8:40ごろに置きまして本番サイトに繋がらなくなる問題が発生しました。

現象

  • HTTPレスポンスが500が返却されました。
  • 対象:Web, APIサーバ

原因

  • データベースサーバに大きなトランザクションが発生し、空きメモリが足りなくなり応答時間が遅くなりました。
  • データベースサーバからのレスポンスが遅くなったことで、アプリケーションサーバからのDBサーバへのコネクションが足りなくなってアプリケーションサーバがリクエストを受け付けられなくなりました。
  • ロードバランサが、アプリケーションサーバの異常を検知し、ロードバランシンググループから外したことによってアクセスが行えない状態になりました。

対処

  • 経過観察
  • 現状のデータベースは、db.t3.smallインスタンスを利用してます。リソースが足りなくなることがサイド発生するような状況になりましたら、スケールアップして対処したいと思います。