mixiがはまったmemcached(or libevent?)の問題を調べる人たち
「mixi大規模障害について その2」のエントリーをアップしました http://alpha.mixi.co.jp/blog/?p=2153
2010-08-19 17:32:36あのエントリのは対症療法ですね。根治パッチはできているので、それの取り込まれ待ちかと RT @shigeyas: これ再発防止策じゃなくて、対症療法じゃね? RT @naoto_matsumoto あふん~? http://bit.ly/bppK2U
2010-08-19 19:11:29twitter上の日本語での議論も、開発者の人が検索して翻訳して読んでたりするわけだから「僕の遅刻もメムキャッシュディー(検索よけ)が落ちたのが原因です」みたいなジョークはノイズ
2010-08-19 21:09:16パッチアレで合ってるんだったら、投げますが。手元では落ちてないのですけど。 RT @bulkneets: 誰かmemcachedの問題の説明とパッチ、ML or IRCに投げないのかな(道端で人が倒れているけど誰が救急車呼ぶか問題)
2010-08-19 21:45:18@kzk_mover @bulkneets IRCではdormandoにevent_base_loopを抜ける事は報告してますが、もう少し詳細がわかったら連絡すると伝えてあります。
2010-08-19 21:53:56よく見たら名前載ってた。有難うございます。で、パッチはどこだ? RT @nealsato: 「mixi大規模障害について その2」のエントリーをアップしました http://bit.ly/d3epia
2010-08-20 03:12:09mixiのmemcachedの問題、徐々にリソースが枯渇していく類のものではないです。接続数上回っても通常はエラーを返すだけで終了はしない。接続数が不足してる時に、複数のスレッドから同時に実行されるとマズイ処理が「低確率で」同時に実行されて、それが原因で落ちる。
2010-08-20 12:50:50@nealsato 先ほどRedbull届きました!ありがとうごさいます! http://yfrog.com/0moj4cj
2010-08-20 14:52:23補足追記しました。 「mixi大規模障害について その2」 http://alpha.mixi.co.jp/blog/?p=2153
2010-08-20 15:45:39複数のstatic connが生成されるが それらが同じevent_baseを指してた workerが一つめのI/FをacceptOKにすると mainが動き出すが、workerは二つめのI/FをacceptOKにしようとして競合してました
2010-08-20 18:03:47do_accept_new_connsの中でI/F分ループしてて、1周目でupdate_event()した時点でmainがepoll始めます。これが問題。2周目のupdate_event()とmainのepoll_dispatch=>event_queue_insertがぶつかる
2010-08-20 19:14:12