バイオと情報科学の関係について

夏のプロミングシンポジウムでの「4TBのメモリで200TBのデータを処理する話」から派生した「バイオと情報科学の現状について」の議論 情報科学をきちんと学んだプログラマは貴重、情報科学のポスドクは生命情報も考えてみるといいよ!! 速いだけじゃ、ダメなんだ!! 続きはこちら http://togetter.com/li/554520
41
前へ 1 ・・ 3 4 次へ
Masahiro Kasahara @mkasahara

@hikita @dmikurube ゲノムの問題意識(と興味)を共有できて、C++でちゃんと速い文字列検索プログラムが書けるような人材、ポスドクでよければ数百人分は日本でもクチがあると思う。というか、そんな人が居たら明日にでもぼくが雇う。博士号は取りたいなら無くてもいい。

2013-08-25 17:02:56
Masahiro Kasahara @mkasahara

@hikita @dmikurube ちょっと煽って言うなら「ゲノムの問題を理解して処理効率の良いプログラムを書ける人を雇うコスト>>>プログラムなど書いたこと無いバイオの人に Perl で100倍遅いプログラムを書いて貰って実行するコスト」

2013-08-25 17:05:25
Toshi Hikita @hikita

@mkasahara きちんと情報処理を理解しているプログラマはほんとは高いかも? 出来る人は世界市場価格で正しく評価してるGoogleさんとかが持って行ってしまうという話を @dmikurube と昼にしていたところ。

2013-08-25 17:07:38
Toshi Hikita @hikita

@mkasahara @dmikurube 100倍遅くても、物量作戦でカバーすれば、研究に必要なレベルではなんとか処理が間に合うということですね。速い人がいないと処理が出来ずに研究にならないというわけでもない。

2013-08-25 17:10:05
Masahiro Kasahara @mkasahara

@hikita @dmikurube というか、そもそもゲノムの問題を理解してくれる人が希少なので、Google に行くようなハイレベル人材じゃぜんぜんなくていいのです。TopCoderで言えば青コーダーぐらいでいい。この業界、青コーダーならトップ2-3%ぐらいだと思う。

2013-08-25 17:10:34
Masahiro Kasahara @mkasahara

@hikita @dmikurube いやー、間に合ってないから困ってる!

2013-08-25 17:11:00
Masahiro Kasahara @mkasahara

@hikita @dmikurube 全然間に合わないけど、間に合わないから研究しない、というわけにもいかず。日本ではアルゴリズム力・プログラミング力で差が出ない研究テーマを選ぶとか、そんな感じになってる気がする。

2013-08-25 17:14:53
Masahiro Kasahara @mkasahara

@hikita まぁ、日本でもアルゴリズム力・プログラミング力を持って生物学を理解し問題設定できる人材を育てる、ということでhttp://t.co/n2SazNiuRf 学科とか新設しているし、少人数ならどちらもできる人は居るんですけどね。数がもっと欲しいですね。

2013-08-25 17:20:40
Toshi Hikita @hikita

@mkasahara @dmikurube うわー、それニッチ攻めになって将来的にまずい状況になるように感じました。アルゴリズム力の高い人をどうやって応用分野に突っ込むのか?というのは課題ですね。Googleに持っていかれるのはもったいない…

2013-08-25 17:21:18
Toshi Hikita @hikita

ISの実験とバイオの実験を両方経験するのは良いですね。ISは唯一に近い体系的な教育の学会ですし、良く練られていると感じました。凄い学科作りましたね(学生にとって見るとこのカリキュラムは鬼だ…) @mkasahara http://t.co/wyGQWorwUR

2013-08-25 17:29:01
Masahiro Kasahara @mkasahara

@hikita @dmikurube 僕はこの分野の魅力とおもしろさを情報系の人に伝え切れていないのが大きいと思うので今度広告(?)を出そうと思ってます。

2013-08-25 17:31:10
Toshi Hikita @hikita

@mkasahara @dmikurube 冬のプロシンとかで発表してください。絶対にウケると思います。 #spro2013

2013-08-25 17:32:03
Masahiro Kasahara @mkasahara

@hikita @dmikurube うーん、プロシンの発表時間で伝えきる自信はなさすぎるなぁ。テクニカルに面白そうな話を振るのはできるんだけど、本当に伝えないといけないのは思想(最適化したいこと=科学的発見の量)なので。

2013-08-25 17:33:55

ゲノムのちょっとした現実

Masahiro Kasahara @mkasahara

@hikita 氏がとぅぎゃってくれたヤツを見ると激しく突っ込みたくなるな・・・。異文化融合だとまず興味を持って貰わないと困るのでちょっと飛ばし気味に喋るのは理解できるし私もそれをよくやってるけど、あんまり事実でない話が一人歩きしてもイヤだな。

2013-08-25 19:03:16
Masahiro Kasahara @mkasahara

@tokoroten DNAの断片を着色して観察する機械(の最上位機種)は一台6千万とかするしフルで運転するとそもそも1回の運転で2週間が掛かるので、今では測定と計算・転送をオーバーラップさせていて50万ぐらいのサーバで普通に(今のところは)間に合ってる。

2013-08-25 19:09:30
Masahiro Kasahara @mkasahara

http://t.co/Rfm5bwy0WP の上から順に突っ込む。@tokoroten @kuro_m88 4TB必要なタスクもあるんですけど、8GB/coreぐらいまでででできるタスクしか持ってない研究者が9割以上だと思います。

2013-08-25 19:06:54
Masahiro Kasahara @mkasahara

.@tgbt @noexpect 3時間はちょっと盛りすぎ。全ゲノムなら前処理後処理含めて2日ぐらいが最短。(参考:http://t.co/bzQT2mOfLY) (http://t.co/Rfm5bwy0WPにツッコミ中)

2013-08-25 19:15:35
Masahiro Kasahara @mkasahara

@tgbt @noexpect あと「血液を掛けると」ってのは遺伝子数個の検査ならともかく、全ゲノムの検査については今は無理で将来はきっとできるようになるけど、とにかく今は精製したり(安くやるなら遺伝子領域の濃縮を掛けたり)アダプター配列を付加したりでそれなりに時間がかかります。

2013-08-25 19:18:53
Masahiro Kasahara @mkasahara

@tokoroten hadoop on AWS は、提唱している人はたくさん居て実際にやっている人もたくさん居るんだけれども、ストレージにお金が掛かりすぎるのでアカデミアで大量データでガチ利用しているところは知らない。

2013-08-25 19:20:31
Masahiro Kasahara @mkasahara

@tokoroten AWS 上で成功していると今のところ呼べるパターンは、比較的小口のデータを顧客から預かってクラウドで計算して結果を返している企業とか。アカデミアでは全然ダメです。

2013-08-25 19:22:58
Masahiro Kasahara @mkasahara

実際に2日でやれ、って言われたら死人が出かねないしコストが余計に掛かるので精度を落とすか2週間ちょっとぐらいは最低限ください・・・。(ってその話を聞いて私に依頼が来るわけではないのでこんなことをつぶやいても意味はないが。)

2013-08-25 19:17:13
Masahiro Kasahara @mkasahara

@tokoroten BaseSpace https://t.co/drpOM9kS3z とか DNAnexus https://t.co/7qPKzoRi3S とか、企業だとほどほどのユーザー数が居る利用例があって、小口データで上手く言っている。

2013-08-25 19:23:46
Masahiro Kasahara @mkasahara

.@hamukazu 200TB のデータは(バッチで転送するなら)宅配便が標準メソッドです。http://t.co/MORV03rJzQ 5-2-8 とか見ると HDD 送付ってなってるのが見えると思います。

2013-08-25 19:25:32
Masahiro Kasahara @mkasahara

.@tgbt 圧縮規格も実際には一杯ありますが、異なる研究室やグループで開発されたバイナリ形式にはたいてい互換性が無いので、BAM等のたかだか数個のファイル形式を除いてバイナリの利用はグループ内だけです。テキストを.gz/.bz2するぐらい。

2013-08-25 19:29:18
前へ 1 ・・ 3 4 次へ