パイプラインマネジメントシステムの山

いっぱいあってどれの使い方を覚えた良いのかすらレビューがないと判断困難
6
Masahiro Kasahara @mkasahara

Bio系関係無い汎用ので言うと、GXP logos.ic.i.u-tokyo.ac.jp/gxp/ とか Pwrake slideshare.net/masa16tanaka/n… とか PFI の maf github.com/pfi/maf あたりはそれなりに便利。

2015-06-12 20:53:39
Masahiro Kasahara @mkasahara

make ベースだと、SGE/UGEなどにも付いてる qmake とか、r-make physiology.med.cornell.edu/faculty/mason/… とか、私が作って使ってる tge_make github.com/mkasa/TGEW とか

2015-06-12 20:54:55
Masahiro Kasahara @mkasahara

ClusterFlow も yet another バイオ系パイプライン ewels.github.io/clusterflow/

2015-06-12 20:56:01
Masahiro Kasahara @mkasahara

自分でももうどれを紹介したか分からなくなってきた。

2015-06-12 20:56:36
Masahiro Kasahara @mkasahara

.@sacred_fox うーん門外漢に正しく説明するのは難しいんですが、例えば遺伝子配列を検索する場合、何件ヒットするか件数によって実行時間やメモリー使用量が例えばリニアに増えるんだけどその件数を知りたいから検索しているんだ、見積もりできるくらいならジョブそのものがいらん!とか

2015-06-12 21:04:21
Masahiro Kasahara @mkasahara

.@sacred_fox 検索以外の例もいっぱいあるんですが、共通しているのは事前にはとても見積もれないパラメータ(検索のヒット件数とか)があって、そのパラメータ次第で最大 100 倍ぐらい実行時間やメモリー消費が変わることがある、というのが大きな問題です。

2015-06-12 21:06:17
Masahiro Kasahara @mkasahara

.@sacred_fox みんなジョブが落ちるのがイヤなので、90%の確率で2GB、8%の確率で4GB、2%の確率で16GB必要といったジョブは全部16GBで申請するので、メモリーが足りない(いや、空いてるんだけど) スパコンの CPU ががら空き、とか。

2015-06-12 21:07:34
Masahiro Kasahara @mkasahara

.@sacred_fox なんと!すごい。 従量課金だとこんなこともできるんですね。

2015-06-12 21:18:58
Masahiro Kasahara @mkasahara

まだ10個はあるはずだけど思い出せない。

2015-06-12 21:20:48
Masahiro Kasahara @mkasahara

5年前に一回スライド作ったらしい。

2015-06-12 21:22:14
Masahiro Kasahara @mkasahara

Triana, DAGMAN, Pegasus, ICENI, Askalon, GridFlow, MegaScript, GridAnt, PJO, Xcrypt, あたりを調べたらしい。

2015-06-12 21:23:04
Masahiro Kasahara @mkasahara

パイプラインの話だけでレビュー論文書けるような気がしてきた。

2015-06-12 21:23:51
Masahiro Kasahara @mkasahara

まぁ、こんだけソフトがあるのに更にみんな自分のを作りたがることで分かるように、パイプライン計算は "one size does't fit all" の世界なので、あんまりいいソフトないんだよね・・・。

2015-06-12 21:26:35
Masahiro Kasahara @mkasahara

.@GanitLabs haha... actually, also I am developing one, so my mini-review might go to the intro of my paper, I guess.

2015-06-12 21:27:54