バイオと情報科学の関係について

夏のプロミングシンポジウムでの「4TBのメモリで200TBのデータを処理する話」から派生した「バイオと情報科学の現状について」の議論 情報科学をきちんと学んだプログラマは貴重、情報科学のポスドクは生命情報も考えてみるといいよ!! 速いだけじゃ、ダメなんだ!! 続きはこちら http://togetter.com/li/554520
41

最初にまとめ

Masahiro Kasahara @mkasahara

@hikita @dmikurube ちょっと煽って言うなら「ゲノムの問題を理解して処理効率の良いプログラムを書ける人を雇うコスト>>>プログラムなど書いたこと無いバイオの人に Perl で100倍遅いプログラムを書いて貰って実行するコスト」

2013-08-25 17:05:25
Masahiro Kasahara @mkasahara

@hikita @dmikurube というか、そもそもゲノムの問題を理解してくれる人が希少なので、Google に行くようなハイレベル人材じゃぜんぜんなくていいのです。TopCoderで言えば青コーダーぐらいでいい。この業界、青コーダーならトップ2-3%ぐらいだと思う。

2013-08-25 17:10:34
Masahiro Kasahara @mkasahara

@hikita @dmikurube 全然間に合わないけど、間に合わないから研究しない、というわけにもいかず。日本ではアルゴリズム力・プログラミング力で差が出ない研究テーマを選ぶとか、そんな感じになってる気がする。

2013-08-25 17:14:53
Masahiro Kasahara @mkasahara

世界で広く使われている日本発のゲノム解析ツールってほとんどなくて、日本では件のまとめのような状況になっているけど、情報科学に強い人が本質的に要らないわけじゃない。むしろGoogleから声が掛かるぐらいの人が居るべきではあるんです。

2013-08-25 23:54:28
Masahiro Kasahara @mkasahara

主にアメリカ・イギリス・中国あたりでは物理・数学・工学・情報科学からバイオに移ってきた人たちがゲノム科学に大きく貢献していて、こういった分野の人たちの流入無しには次世代シークエンサー関連のゲノム科学は絶対発展しない。

2013-08-25 23:58:24
Masahiro Kasahara @mkasahara

そういう意味で、アルゴリズムに明るくプログラミングができる人(+願わくば論文書いたり発表したり、ガチ生物の人とコミュニケーションを取って共同研究できる人)の需要はものすごくあるし、インパクトのある研究を量産できると思います。

2013-08-26 00:01:32

ゲノム解析の発表

スクリプト言語でテキスト検索に反応するプロシン民

くろさん @kuro_m88

ゲノム解析するにはメモリ4TBのサーバが必要なのか。 #spro2013

2013-08-25 11:23:26
ところてん @tokoroten

DNAの断片を着色して画像処理して解析するのか。そりゃコンピューティングリソース使うわ。 すげー。 #spro2013

2013-08-25 11:24:18
komamitsu @komamitsu_tw

次世代シーケンサーによるヒトゲノム解析。一検体辺り数GBのデータ #spro2013

2013-08-25 11:24:37
exthnet/tgbt @tgbt

「癌になりやすさ、アルコールへの耐性、などなど究極の個人情報が3時間くらいでわかります」 そんな状況だったのか。積極的に活用して欲しいなあ。(個人情報保護とか選別とか保険とか問題がたくさんあるんだろうけどさ) #spro2013

2013-08-25 11:24:46
のえ @noexpect

「次世代シーケンサー」に血液3mlをかけると、3時間位ですべてのヒトゲノムを解読できる #spro2013

2013-08-25 11:24:49
exthnet/tgbt @tgbt

ゲノム解析にLinuxの一般的なコマンド処理とスクリプト言語が多用されている……それってもっと高速なネイティブプログラムに置き換えたら性能100倍になるんじゃね? #spro2013

2013-08-25 11:27:31
くろさん @kuro_m88

DNA解析にもgrepとか使われてるのか #spro2013

2013-08-25 11:28:21
のえ @noexpect

DNA解析は1.画像データから塩基配列の取得、2.配列を集計、3.統計解析、の3段階で行われている #spro2013

2013-08-25 11:28:27
ところてん @tokoroten

AWSの上でhadoop動かしてゲノム解析、すげー。けど、データ転送量が多くて死なないかな。 AWSは1000人分のゲノムデータ(200TB)を公開している・・・  #spro2013

2013-08-25 11:29:22
加藤公一(はむかず) @hamukazu

200Tのデータって転送にどのくらいかかるんだろう。ネットで転送するんじゃなくて、ハードディスクを物理的に転送するのかな? #spro2013

2013-08-25 11:35:21
ところてん @tokoroten

クオリティチェックが先頭しか行わなかったのを、ランダムサンプリングでクオリティチェックすることで、使えるデータが増えて改善したということか #spro2013

2013-08-25 11:35:51
のえ @noexpect

そもそも染色体をデジタルデータに起こすときに誤りがあることがあるので、クオリティチェックが必要。 ただ分布が片寄ってるので全体を見るにはモンテカルロでサンプリングして調べる。 #spro2013

2013-08-25 11:36:28
Sho Shimauchi @shiumachi

なんでこのクラスタでHadoop動かさないんだろう #spro2013

2013-08-25 11:39:20
加藤公一(はむかず) @hamukazu

シェルスクリプトで計算できるということはそもそもゲノムデータってテキストなのか?すごく無駄じゃないか? #spro2013

2013-08-25 11:40:16
のえ @noexpect

DNA解析でシェルスクリプトで分散処理とか荒々しく感じる。 #spro2013

2013-08-25 11:41:08
1 ・・ 5 次へ