Rmakeの障害(2013/4/21)に関する調査ログ

2013/4/21に発生したRmakeの障害の調査ログ サーバー障害発生と復旧のお知らせ http://blog.rmake.jp/akasata/4228
1
あかさた @akasata

#Rmake ご迷惑をおかけし申し訳ありません。サーバーが落ちていました。復旧作業は完了しました。現在原因調査中です

2013-04-21 11:39:16
あかさた @akasata

#Rmake 障害原因を調査中。CPU負荷の増大によるサーバーダウン → よくあるのはアプリケーションサーバ(passenger)のプロセス増加によるメモリ圧迫・・・ → エラーログにてアプリサーバのメモリ不足によるfork失敗を確認 → 前後にupload関係のエラー発見

2013-04-21 13:11:28
あかさた @akasata

#Rmake アップロード中ではないかと思われるタイムアウトもしくはブラウザの読込停止関係のエラーログもいくつか。タイムアウトのせいなのかリトライをひたすら繰り返している人がいた可能性が高い。ただ、これだけなら落ちる要因にはならない

2013-04-21 13:25:12
あかさた @akasata

#Rmake 異常にサイズの大きなファイルのアップロードとか回線が異常に細いとか別の要因もあると思われ。いくつかの要因が重なると、アプリサーバのプロセス数の増大を引き起こして最終的にはサーバのダウンにつながるということかな

2013-04-21 13:28:34
あかさた @akasata

#Rmake サーバ側で受け入れるリクエストのサイズを若干厳しくすることと、逆にタイムアウトは若干長めにして様子を見てみることに

2013-04-21 13:33:21