バイオと情報科学の関係について

夏のプロミングシンポジウムでの「4TBのメモリで200TBのデータを処理する話」から派生した「バイオと情報科学の現状について」の議論 情報科学をきちんと学んだプログラマは貴重、情報科学のポスドクは生命情報も考えてみるといいよ!! 速いだけじゃ、ダメなんだ!! 続きはこちら http://togetter.com/li/554520
41
Masahiro Kasahara @mkasahara

@nubata いや、ぼくじゃなくて世間みんなに使わせて下さいよ!

2013-08-25 13:13:07
Masahiro Kasahara @mkasahara

テキストってなんやかんやいって周辺エコシステムが一番充実しているので、バイナリにしたらビューアーもエディタも、各言語のバインディングもsedやgrep的な何かも全部実装しなければならない時点で分が悪い。

2013-08-25 13:15:49
Masahiro Kasahara @mkasahara

@nubata せめてless, grep, jq と同等のことができて、vi, emacsで編集できてブラウザで標準で表示できるようになってからね。

2013-08-25 13:18:02
Masahiro Kasahara @mkasahara

@nubata せめてless, grep, jq と同等のことができて、vi, emacsで編集できてブラウザで標準で表示できるようになってからね。

2013-08-25 13:18:02
exthnet/tgbt @tgbt

シェルスクリプトでやってるってのは演算性能じゃなくてI/O性能の問題だからとか理由があるのかなあ……いやI/Oだとしてもシェルスクリプトとか使うのはどうなんだろうと疑問だが #spro2013

2013-08-25 11:47:12
Toshi Hikita @hikita

この分野、情報科学屋さんが少ないらしいとか何とか聞いたことがあるのですが、HPC屋さんが参入すると一気に進展しそうな気もする。 @tgbt #spro2013

2013-08-25 11:51:16
Masahiro Kasahara @mkasahara

@hikita 前からそう言われてるんですけど、こちらの問題を聞くとみんな手を引いて行きます。極論すると実は計算効率ではこまっちゃいないんで、計算効率上げても嬉しくないんですよ。

2013-08-25 14:04:17
Toshi Hikita @hikita

@mkasahara 困っているのは計算効率ではない? #spro2013

2013-08-25 14:37:28
Masahiro Kasahara @mkasahara

@hikita 一言でいうと、困っているのはプログラミング効率であって、プログラムの動作効率ではない。

2013-08-25 16:41:41
Masahiro Kasahara @mkasahara

そりゃー、C/Java で書き直せば速くなるんだけどさー、書き直す時間やデバッグに掛かる時間、そのライブラリを使う人の教育コスト、仕様変更に対応する今後のメンテナンスコストまで足し算すると全然得になってない。

2013-08-25 16:43:29
Masahiro Kasahara @mkasahara

@dmikurube @hikita あと追加で補足しておくとバイナリを全く使っていないわけじゃ無いです。異なる研究室・企業で作ったソフト間の受け渡しがほとんどテキストベースってだけで、グループ内のツールではその中で定義されたバイナリを普通持ってる。

2013-08-25 16:45:48
Toshi Hikita @hikita

@mkasahara @dmikurube こちらの理解の問題とは思うのですが、過去の経緯とかもあってテキストで検索しているみたいな話をこちらで話した人がしていたので情報処理力の高い人が???とかなっていたという状態。そら、凡人が考えることくらい実装されてるよね。

2013-08-25 16:47:51
Toshi Hikita @hikita

参考になります。これって意欲高い人の理解ってことなのか?バイオ系全体の共通認識なおか? RT @mkasahara: うーん。http://t.co/OT5uAhIPUn とかを見てもらえれば。 #spro2013

2013-08-25 16:49:58
Masahiro Kasahara @mkasahara

@hikita @dmikurube うーん。発表内容見ていないのでハズしているかもですが、僕だって書き捨てのプログラムなら Perl で 3GB のテキスト読み込んで正規表現でマッチ、とか普通にやりますよ。Cで書いたらトータルで遅くなることも多い。

2013-08-25 16:50:26
Toshi Hikita @hikita

@mkasahara マシンのコストが下がっているので、これはほんとにそうですよね。富豪プログラム万歳(動けば…)

2013-08-25 16:50:33
Toshi Hikita @hikita

@mkasahara @dmikurube データがオンメモリかSSDなら、スクリプト言語のregexでも特に問題ないというのはそうですね。複雑な処理じゃなければ、MapReduce書く方がめんどくさいよというのは私も思います。トータルスループット重要。

2013-08-25 16:53:24
Toshi Hikita @hikita

@mkasahara @dmikurube わかって、そういう選択しているならいいと思うのですが、全てテキスト検索のように聞こえたという… 説明の仕方の問題というのはあるかもしれません。

2013-08-25 16:54:43
Masahiro Kasahara @mkasahara

@hikita あくまで私の理解です。バイオ系の人(PI)たちはまた違う理解を持っていると思います。

2013-08-25 16:54:55
Masahiro Kasahara @mkasahara

@hikita @dmikurube いやー、そういう選択ではぜんぜんないんです!!!それは多分問題を見誤っている。

2013-08-25 16:55:24
Masahiro Kasahara @mkasahara

@hikita @dmikurube 一言で言うと分かっていないです、というか分かっていてもそうなってる。

2013-08-25 16:55:45
Masahiro Kasahara @mkasahara

@hikita @dmikurube もっとひどいことをいうとプログラマのコストが高すぎるんですよ。効率のよいプログラムを書けるプログラマを雇ってバイオの設定を教えるより、ゲノム専門家を素人プログラマとして使ってマシンを並べる方がトータルで安くて早い。

2013-08-25 16:57:37
Toshi Hikita @hikita

@mkasahara @dmikurube あれ何か間違ったこと書いた?数GBという前提のつもり。スループットは速度というよりは開発時間も含めた全行程の時間の意図。こういう話を別の人と数ヶ月前にしていて、その時の結論も書き捨ては速いマシンでrubyで桶だった

2013-08-25 16:57:43