編集可能

バイオと情報科学の関係について

夏のプロミングシンポジウムでの「4TBのメモリで200TBのデータを処理する話」から派生した「バイオと情報科学の現状について」の議論 情報科学をきちんと学んだプログラマは貴重、情報科学のポスドクは生命情報も考えてみるといいよ!! 速いだけじゃ、ダメなんだ!! 続きはこちら http://togetter.com/li/554520
科学 ビッグデータ ゲノム 次世代シーケンサー
39
最初にまとめ
Masahiro Kasahara @mkasahara
@hikita @dmikurube ちょっと煽って言うなら「ゲノムの問題を理解して処理効率の良いプログラムを書ける人を雇うコスト>>>プログラムなど書いたこと無いバイオの人に Perl で100倍遅いプログラムを書いて貰って実行するコスト」
Masahiro Kasahara @mkasahara
@hikita @dmikurube というか、そもそもゲノムの問題を理解してくれる人が希少なので、Google に行くようなハイレベル人材じゃぜんぜんなくていいのです。TopCoderで言えば青コーダーぐらいでいい。この業界、青コーダーならトップ2-3%ぐらいだと思う。
Masahiro Kasahara @mkasahara
@hikita @dmikurube 全然間に合わないけど、間に合わないから研究しない、というわけにもいかず。日本ではアルゴリズム力・プログラミング力で差が出ない研究テーマを選ぶとか、そんな感じになってる気がする。
Masahiro Kasahara @mkasahara
世界で広く使われている日本発のゲノム解析ツールってほとんどなくて、日本では件のまとめのような状況になっているけど、情報科学に強い人が本質的に要らないわけじゃない。むしろGoogleから声が掛かるぐらいの人が居るべきではあるんです。
Masahiro Kasahara @mkasahara
主にアメリカ・イギリス・中国あたりでは物理・数学・工学・情報科学からバイオに移ってきた人たちがゲノム科学に大きく貢献していて、こういった分野の人たちの流入無しには次世代シークエンサー関連のゲノム科学は絶対発展しない。
Masahiro Kasahara @mkasahara
そういう意味で、アルゴリズムに明るくプログラミングができる人(+願わくば論文書いたり発表したり、ガチ生物の人とコミュニケーションを取って共同研究できる人)の需要はものすごくあるし、インパクトのある研究を量産できると思います。
ゲノム解析の発表

スクリプト言語でテキスト検索に反応するプロシン民

くろさん @kuro_m88
ゲノム解析するにはメモリ4TBのサーバが必要なのか。 #spro2013
ところてん @tokoroten
DNAの断片を着色して画像処理して解析するのか。そりゃコンピューティングリソース使うわ。 すげー。 #spro2013
komamitsu @komamitsu_tw
次世代シーケンサーによるヒトゲノム解析。一検体辺り数GBのデータ #spro2013
exthnet @tgbt
「癌になりやすさ、アルコールへの耐性、などなど究極の個人情報が3時間くらいでわかります」 そんな状況だったのか。積極的に活用して欲しいなあ。(個人情報保護とか選別とか保険とか問題がたくさんあるんだろうけどさ) #spro2013
のえ @noexpect
「次世代シーケンサー」に血液3mlをかけると、3時間位ですべてのヒトゲノムを解読できる #spro2013
exthnet @tgbt
ゲノム解析にLinuxの一般的なコマンド処理とスクリプト言語が多用されている……それってもっと高速なネイティブプログラムに置き換えたら性能100倍になるんじゃね? #spro2013
くろさん @kuro_m88
DNA解析にもgrepとか使われてるのか #spro2013
のえ @noexpect
DNA解析は1.画像データから塩基配列の取得、2.配列を集計、3.統計解析、の3段階で行われている #spro2013
ところてん @tokoroten
AWSの上でhadoop動かしてゲノム解析、すげー。けど、データ転送量が多くて死なないかな。 AWSは1000人分のゲノムデータ(200TB)を公開している・・・  #spro2013
加藤公一(はむかず) @hamukazu
200Tのデータって転送にどのくらいかかるんだろう。ネットで転送するんじゃなくて、ハードディスクを物理的に転送するのかな? #spro2013
ところてん @tokoroten
クオリティチェックが先頭しか行わなかったのを、ランダムサンプリングでクオリティチェックすることで、使えるデータが増えて改善したということか #spro2013
のえ @noexpect
そもそも染色体をデジタルデータに起こすときに誤りがあることがあるので、クオリティチェックが必要。 ただ分布が片寄ってるので全体を見るにはモンテカルロでサンプリングして調べる。 #spro2013
Sho Shimauchi @shiumachi
なんでこのクラスタでHadoop動かさないんだろう #spro2013
加藤公一(はむかず) @hamukazu
シェルスクリプトで計算できるということはそもそもゲノムデータってテキストなのか?すごく無駄じゃないか? #spro2013
のえ @noexpect
DNA解析でシェルスクリプトで分散処理とか荒々しく感じる。 #spro2013
残りを読む(80)

コメント

sesamechang @sesamecake 2013年8月26日
バイオインフォマティクスはたしか10~15年くらい前にドバっとやる人が増えて企業もこぞって参入したけど結局下火に。インフォ系の部門は縮小。結局食えないじゃないか(憤怒)ってなった(気がする)。
sesamechang @sesamecake 2013年8月26日
生物学において「解くべきタスク」っていうのは随分限られていて少数の天才がそのタスクを解くツールを開発する、他の人はそのツールを使って仕事すりゃいいだけになっちゃうからある程度のプログラミングのできる層はこの分野に行くより他の分野に行った方がお金になるし腕を振るえるとかそういう状態じゃないかな。
ひろ@不謹慎 @hiro_h 2013年8月26日
sesamecake いや、解くべきことはいっぱいあるぞ…、解くべきタスクが定義できたらそのままツール開発すればええんやし。
ひろ@不謹慎 @hiro_h 2013年8月26日
但し、金になるかは…
ログインして広告を非表示にする
ログインして広告を非表示にする