バイオと情報科学の関係について
テキストってなんやかんやいって周辺エコシステムが一番充実しているので、バイナリにしたらビューアーもエディタも、各言語のバインディングもsedやgrep的な何かも全部実装しなければならない時点で分が悪い。
2013-08-25 13:15:49@nubata せめてless, grep, jq と同等のことができて、vi, emacsで編集できてブラウザで標準で表示できるようになってからね。
2013-08-25 13:18:02@nubata せめてless, grep, jq と同等のことができて、vi, emacsで編集できてブラウザで標準で表示できるようになってからね。
2013-08-25 13:18:02シェルスクリプトでやってるってのは演算性能じゃなくてI/O性能の問題だからとか理由があるのかなあ……いやI/Oだとしてもシェルスクリプトとか使うのはどうなんだろうと疑問だが #spro2013
2013-08-25 11:47:12この分野、情報科学屋さんが少ないらしいとか何とか聞いたことがあるのですが、HPC屋さんが参入すると一気に進展しそうな気もする。 @tgbt #spro2013
2013-08-25 11:51:16@hikita 前からそう言われてるんですけど、こちらの問題を聞くとみんな手を引いて行きます。極論すると実は計算効率ではこまっちゃいないんで、計算効率上げても嬉しくないんですよ。
2013-08-25 14:04:17@hikita 一言でいうと、困っているのはプログラミング効率であって、プログラムの動作効率ではない。
2013-08-25 16:41:41そりゃー、C/Java で書き直せば速くなるんだけどさー、書き直す時間やデバッグに掛かる時間、そのライブラリを使う人の教育コスト、仕様変更に対応する今後のメンテナンスコストまで足し算すると全然得になってない。
2013-08-25 16:43:29@dmikurube @hikita あと追加で補足しておくとバイナリを全く使っていないわけじゃ無いです。異なる研究室・企業で作ったソフト間の受け渡しがほとんどテキストベースってだけで、グループ内のツールではその中で定義されたバイナリを普通持ってる。
2013-08-25 16:45:48@mkasahara @dmikurube こちらの理解の問題とは思うのですが、過去の経緯とかもあってテキストで検索しているみたいな話をこちらで話した人がしていたので情報処理力の高い人が???とかなっていたという状態。そら、凡人が考えることくらい実装されてるよね。
2013-08-25 16:47:51参考になります。これって意欲高い人の理解ってことなのか?バイオ系全体の共通認識なおか? RT @mkasahara: うーん。http://t.co/OT5uAhIPUn とかを見てもらえれば。 #spro2013
2013-08-25 16:49:58@hikita @dmikurube うーん。発表内容見ていないのでハズしているかもですが、僕だって書き捨てのプログラムなら Perl で 3GB のテキスト読み込んで正規表現でマッチ、とか普通にやりますよ。Cで書いたらトータルで遅くなることも多い。
2013-08-25 16:50:26@mkasahara @dmikurube データがオンメモリかSSDなら、スクリプト言語のregexでも特に問題ないというのはそうですね。複雑な処理じゃなければ、MapReduce書く方がめんどくさいよというのは私も思います。トータルスループット重要。
2013-08-25 16:53:24@mkasahara @dmikurube わかって、そういう選択しているならいいと思うのですが、全てテキスト検索のように聞こえたという… 説明の仕方の問題というのはあるかもしれません。
2013-08-25 16:54:43@hikita @dmikurube いやー、そういう選択ではぜんぜんないんです!!!それは多分問題を見誤っている。
2013-08-25 16:55:24@hikita @dmikurube 一言で言うと分かっていないです、というか分かっていてもそうなってる。
2013-08-25 16:55:45@hikita @dmikurube もっとひどいことをいうとプログラマのコストが高すぎるんですよ。効率のよいプログラムを書けるプログラマを雇ってバイオの設定を教えるより、ゲノム専門家を素人プログラマとして使ってマシンを並べる方がトータルで安くて早い。
2013-08-25 16:57:37@mkasahara @dmikurube あれ何か間違ったこと書いた?数GBという前提のつもり。スループットは速度というよりは開発時間も含めた全行程の時間の意図。こういう話を別の人と数ヶ月前にしていて、その時の結論も書き捨ては速いマシンでrubyで桶だった
2013-08-25 16:57:43