バイオと情報科学の関係について

夏のプロミングシンポジウムでの「4TBのメモリで200TBのデータを処理する話」から派生した「バイオと情報科学の現状について」の議論 情報科学をきちんと学んだプログラマは貴重、情報科学のポスドクは生命情報も考えてみるといいよ!! 速いだけじゃ、ダメなんだ!! 続きはこちら http://togetter.com/li/554520
41
前へ 1 2 ・・ 5 次へ
くろさん @kuro_m88

ゲノムデータを分散処理で高速化してるみたいだけど、なんでシェルスクリプトでやってるんだろう。他のプログラミング言語使えばもっと速くできるんじゃないかな? #spro2013

2013-08-25 11:42:38
ところてん @tokoroten

こういう激しいの見ると、「俺がやってたのはスモールデータやった、すまん・・すまん・・・」ってなるなー #spro2013

2013-08-25 11:43:21
加藤公一(はむかず) @hamukazu

塩基は4種類だから2ビットで表現できるが、テキストだとすると8ビットか。開発コストを考えると4倍くらいの無駄は気にならないのかな。 #spro2013

2013-08-25 11:44:08
ところてん @tokoroten

クラウデラさん「なんで圧縮しないの? 圧縮したまま分析しないの?」 「ケースバイケース」 #spro2013

2013-08-25 11:45:48
Shohei Hido 比戸将平 @sla

「ゲノムデータが一人分数GBというのは圧縮していますか?」「これはテキストでそのまま」「圧縮できそうだが圧縮したまま解析などはしているか?」「それは場合に応じてやっている」 #spro2013

2013-08-25 11:46:33
Sho Shimauchi @shiumachi

1000人分で圧縮なしテキストで200TBとすると、圧縮すれば多分20-40TBぐらいにはなるだろうからHadoop上だと*3で100TBぐらいになるから、最近のサーバなら10台もあれば余裕でクラスタ組めそう #spro2013

2013-08-25 11:47:41
Shohei Hido 比戸将平 @sla

@shiumachi 生データの場合は、シーケンス配列の横にクォリティスコアという連続値が付いているので、そっちが効率的に圧縮できないんですね…バイオ屋さんはそれを切り落とすのは嫌がるので #spro2013

2013-08-25 11:49:13
Toshi Hikita @hikita

IOの構造と内部構造は別でもいんじゃないのかな? #spro2013

2013-08-25 11:49:52
にっくる @nicklegr

長年積み上がったツールがたくさんあるんだろうなー #spro2013

2013-08-25 11:50:18
Shohei Hido 比戸将平 @sla

「何故モンテカルロでランダムだったのか?」「シーケンスの領域ごとにクォリティが違うから、端っこだけだとだめなことを示したかった」 #spro2013

2013-08-25 11:50:29
Sho Shimauchi @shiumachi

@sla なるほど。その辺カラムナにすると効率よく圧縮して計算処理できたりしないんですかね? #spro2013

2013-08-25 11:50:34
exthnet/tgbt @tgbt

歴史的な都合、標準化の都合でテキスト処理をしているのか。……いや、それでも明らかにデータ量が減りそうなもんだし、自分たちが扱うレベルでは変換するとか、圧縮の標準化を進めるとか、できるんじゃないの……? #spro2013

2013-08-25 11:52:01
ところてん @tokoroten

なんで4TBも使ってるの? 4TBつかってパラメータ振って実験条件を最適化している。  #spro2013

2013-08-25 11:52:10
Toshi Hikita @hikita

@tgbt それはそこの領域は自由に設定できると考えるHPC屋さんの考え、異文化交流は重要だという話だと思ってます。 #spro2013

2013-08-25 11:57:04
exthnet/tgbt @tgbt

@hikita まぁHPCだったら自由に設定できるなんてことはないんですけどねorz

2013-08-25 12:06:13
Toshi Hikita @hikita

@tgbt それはどの分野でも同じということで… legacy資産って大変ねという

2013-08-25 12:14:50

生命情報やってるひとを召喚

ゲノム解析と情報処理について

Dai MIKURUBE @dmikurube

とりあえず @mkasahara さんでも呼んでくればいいんじゃないか (プロシンでバイオの話が出てきてあーだこーだ言っているので)

2013-08-25 11:52:55
Masahiro Kasahara @mkasahara

@dmikurube 一体どんな話が。。。 プロシンは行きたかったけど余裕が無かったのよねえ。

2013-08-25 12:19:30
Dai MIKURUBE @dmikurube

@mkasahara えっ ATCG って全部テキストのまま処理されてるの、とかそういう純バイオ屋さんと情報屋さんの間の深い溝を感じる Q&A ですた

2013-08-25 12:21:46
Masahiro Kasahara @mkasahara

@dmikurube あー、なんとなく雰囲気は分かった。一言でいうと情報屋さんとバイオ屋さんは最適化している目的関数が違うので、無知で馬鹿なことをやっているわけではなくて、それが最適だからそうなってる。

2013-08-25 13:06:05
Dai MIKURUBE @dmikurube

@mkasahara たぶんそうなんですよねー。なんか昔そういう話を聞いた気がしたのですが、そもそも Q&A で対話ができていない感じだったので入れず

2013-08-25 13:48:15
Masahiro Kasahara @mkasahara

塩基のACGTをテキスト保存するのは非効率で無駄だとかいう情報な人が居たら、「JSONの繁栄を止められないへっぽこ学者/エンジニアに言われてもね」としか言いようがない。

2013-08-25 13:11:25
前へ 1 2 ・・ 5 次へ