ゲノマーと情報科学について(続き)
@dyokoyama gxp は相当使い込んだしソースも読みましたし自分でパッチ当てて使ってたぐらいなので、タスク並列処理系の中では最も欲しいモノに近いのですが、ガチで使うには(論文にはおそらくならない)実装を一杯足さないとつらい感じです。
2013-08-26 15:42:22@dyokoyama gxp が辛いのは、接続がツリーなので、どのノードが stop-failure してもワークフローが止まる点です。3年ぐらい前に確認した時点では、ツリーのトポロジを変えるとほとんど全部書き直しって感じだったと思います。
2013-08-26 15:44:33@mkasahara makeであればワークフローが止まる、ということはないように思いますが。failしたタスクの再実行は自分でやるしかない、というのはしょぼいですが。
2013-08-26 15:48:27@mkasahara もちろん、ストリーム処理系のようなことをやろうとすると荷が重いですね。基本的に途中状態は共有ディスクの上で保持しておく、というスタイルを想定してますし。
2013-08-26 15:51:23@dyokoyama 済みません。言葉足らずでした。再実行は自前、ってのが辛いということです。例えば、スパコンのqueueが8時間待ちだとしますよね。tree の中間ノードが死んだら次のリスタートは8時間後になります。不便じゃないですか?
2013-08-26 15:52:52@dyokoyama もっと言うと、ログインノードで gxp 走らせると kill されちゃうことが多いので gxp 自体を qsub するわけですが、8時間待ちだと gxp が動くまで8時間、gxp から explore するのに+8時間、とかです。
2013-08-26 15:53:55@mkasahara おっしゃる通りですね。gxpはスケジューラが外に出せるので(makeはその一例)、再実行するようなスケジューラを標準でつけてあげてもいいかな。自動増減と合わせて考えてみます。
2013-08-26 15:55:10@mkasahara スパコンのバッチの考え方とのすり合わせはもう少しどうにかしたいところですね。qsubでは1ノードjobをたくさんぶち込んで、スケジュールされたノードからすぐさまtreeにつなぐ、という戦略ではどうでしょう?とはいえ計算ノードssh許してなかったりするからなー
2013-08-26 15:59:23@dyokoyama 基本戦略はもちろんそれでOKなんですが、実際には子ノード(?)は空きノードができるたびに五月雨式に増えていくので、gxp explore を push 式と表現するなら pull 式で gxp join したいんですよね。
2013-08-26 16:01:06@dyokoyama 子供がどこに配送されているかは qstat でポーリングするしかないんですが、大規模スパコンの qstat とか普通に数分掛かるので、場所を特定しやすいマスターにつなぎに行きたいです。本当は。
2013-08-26 16:02:17@dyokoyama あと、仰るように ssh して良いスパコンは限られている、というのもあります。(幸いゲノム系のスパコンは、自分でちゃんと資源確保しているノード間の ssh なら実害ないので黙認されてる感じです。)
2013-08-26 16:03:32@mkasahara はい、やりたいことはわかります。gxpで対応することと、「クラウドでは当たり前にできることがスパコンでできないなら、クラウド行っちゃうよー」と言ってスパコンに対応してもらうことと、両方ありそうですね。
2013-08-26 16:05:35@dyokoyama あと、やっぱり減らすのが不自由なのがとても辛いところです。[EP→集計]ってパターンがゲノム解析だとものすっごく多いんですけど、EPは1000並列でも集計はせいぜい8とか16でいい。集計が gxp の leaf に来ると上流は仕事が無くても待機。
2013-08-26 16:05:41@dyokoyama できたら是非教えて下さい!でないと手元で作っている GXP みたいなソフトが完成してしまう・・・
2013-08-26 16:11:11@dyokoyama そういえばタスク並列の話を進めるなら、@mishimahryk も問題をよく知っていると思うので是非一緒に議論したい。ゲノム解析に Pwrake 拾ってくるのは結構センス良いと思っていました。
2013-08-26 16:21:14@mkasahara @mishimahryk Pwrakeもいいですね。問題意識の方向性は共有出来てる個所もあるな、と心強く感じました。
2013-08-26 16:37:25RAM 6TBのマシン使ってるけど、アドホックに数百GB~数TBのデータをいろいろいじらないといけない状況では、アルゴリズムどうこうするよりもとりあえずRAM diskで全部やっちゃった方が(実装時間込みで)圧倒的に早いので、非常にいい買い物だったと思うよ。
2013-08-26 15:32:21ちなみに最近だとRAM 2~4TBで128core程度のちゃんとサポート付いてるSMPマシンが実勢価格1000万円未満で買えるので、下手なワークステーション10台とか買うより圧倒的にお得ですよ。
2013-08-26 15:36:59