Rmakeの障害(2013/4/21)に関する調査ログ
2013/4/21に発生したRmakeの障害の調査ログ
サーバー障害発生と復旧のお知らせ
http://blog.rmake.jp/akasata/4228
あかさた
@akasata
#Rmake 障害原因を調査中。CPU負荷の増大によるサーバーダウン → よくあるのはアプリケーションサーバ(passenger)のプロセス増加によるメモリ圧迫・・・ → エラーログにてアプリサーバのメモリ不足によるfork失敗を確認 → 前後にupload関係のエラー発見
2013-04-21 13:11:28
あかさた
@akasata
#Rmake アップロード中ではないかと思われるタイムアウトもしくはブラウザの読込停止関係のエラーログもいくつか。タイムアウトのせいなのかリトライをひたすら繰り返している人がいた可能性が高い。ただ、これだけなら落ちる要因にはならない
2013-04-21 13:25:12
あかさた
@akasata
#Rmake 異常にサイズの大きなファイルのアップロードとか回線が異常に細いとか別の要因もあると思われ。いくつかの要因が重なると、アプリサーバのプロセス数の増大を引き起こして最終的にはサーバのダウンにつながるということかな
2013-04-21 13:28:34