hack34「再現用に作ったカーネルモジュールでパニックしました→そもそも自分の作ったカーネルモジュールの排他処理に問題がありました」なにこれ。
2011-02-20 13:33:50hack35 「ソース見たら排他処理で怪しいところがあって、パス1とパス2を通るプロセスが同時に動いてたらそのうち不整合が起こるんじゃね?→再現できた→新しいパッチの修正バックポートすれば治るじゃん」やっぱり既知事例
2011-02-20 13:52:01hack36 「特定のタイミングでcore dumpすると、スレッドのpendingフラグがクリアされないことがあって、スレッドがCPU占有しちゃうことがあるよ!→gitツリーからパッチを探したらあったよ!」やっぱり既知事例。
2011-02-20 16:51:23今のところダンプ解析〜再現までが全て、みたいな感じの内容。まぁ実際そうなんだよなー。再現さえすれば最終的になんとかなるからなー。
2011-02-20 16:52:35hack38 「割り込み禁止状態だったんだけど、ロックとったまま処理の延長で割り込み許可しちゃうパスを発見!→同じIRQ割り込みが来たら同じロック獲得しようとしてデッドロックするね→パッチがあったよ」やっぱり既知事例。
2011-02-20 17:51:28hack39は途中でアセンブラを読むところが完全に省略されてるな……スタックで4つ前の関数の引数をさらっと「このレジスタに入ってます」って書くなよ。
2011-02-20 18:21:41hack39 「一番最初に応答のなくなったユーザスレッドを見たら、ページフォルト処理の延長でセマフォを取得しようとしてたよ→他のユーザスレッド(同じプロセス)と競合してデッドロック→パッチあったよ」やっぱり既知事例。
2011-02-20 18:44:25IPMI watchdogってハング検出してタイムアウトでdump取ってくれるんか。ハートビートいらずやな。
2011-02-20 18:50:39hack40 「dumpからpanicのパスを確認しても原因がよくわからなかったんだけど、プロセスのutime見たら同じプロセスがユーザ空間で50秒以上動きつづけてたよアプリケーションが悪そうだね」微妙や。
2011-02-20 19:25:34hack41 「flashメモリに対するddをstraceでながめてたらwrite処理で時間がかかってることが分かったよ→writeの書き込み完了待ち時に呼ばれるsleepの初期値がでかすぎ」
2011-02-20 19:49:28hack42 「VLANでTCP通信するとCPU負荷が高くなるからoprofile解析したよ→カーネルでやらなそうなチェックサム計算に時間かかってたよ→VLANデバイスに物理デバイスの設定が引き継がれてなくて変なパス通っちゃってたよ→コミュにメールしたら治してくれたよ」
2011-02-20 20:09:49