バイオと情報科学の関係について
ゲノムデータを分散処理で高速化してるみたいだけど、なんでシェルスクリプトでやってるんだろう。他のプログラミング言語使えばもっと速くできるんじゃないかな? #spro2013
2013-08-25 11:42:38塩基は4種類だから2ビットで表現できるが、テキストだとすると8ビットか。開発コストを考えると4倍くらいの無駄は気にならないのかな。 #spro2013
2013-08-25 11:44:08「ゲノムデータが一人分数GBというのは圧縮していますか?」「これはテキストでそのまま」「圧縮できそうだが圧縮したまま解析などはしているか?」「それは場合に応じてやっている」 #spro2013
2013-08-25 11:46:331000人分で圧縮なしテキストで200TBとすると、圧縮すれば多分20-40TBぐらいにはなるだろうからHadoop上だと*3で100TBぐらいになるから、最近のサーバなら10台もあれば余裕でクラスタ組めそう #spro2013
2013-08-25 11:47:41@shiumachi 生データの場合は、シーケンス配列の横にクォリティスコアという連続値が付いているので、そっちが効率的に圧縮できないんですね…バイオ屋さんはそれを切り落とすのは嫌がるので #spro2013
2013-08-25 11:49:13「何故モンテカルロでランダムだったのか?」「シーケンスの領域ごとにクォリティが違うから、端っこだけだとだめなことを示したかった」 #spro2013
2013-08-25 11:50:29@sla なるほど。その辺カラムナにすると効率よく圧縮して計算処理できたりしないんですかね? #spro2013
2013-08-25 11:50:34歴史的な都合、標準化の都合でテキスト処理をしているのか。……いや、それでも明らかにデータ量が減りそうなもんだし、自分たちが扱うレベルでは変換するとか、圧縮の標準化を進めるとか、できるんじゃないの……? #spro2013
2013-08-25 11:52:01@tgbt それはそこの領域は自由に設定できると考えるHPC屋さんの考え、異文化交流は重要だという話だと思ってます。 #spro2013
2013-08-25 11:57:04生命情報やってるひとを召喚
ゲノム解析と情報処理について
とりあえず @mkasahara さんでも呼んでくればいいんじゃないか (プロシンでバイオの話が出てきてあーだこーだ言っているので)
2013-08-25 11:52:55@mkasahara えっ ATCG って全部テキストのまま処理されてるの、とかそういう純バイオ屋さんと情報屋さんの間の深い溝を感じる Q&A ですた
2013-08-25 12:21:46@dmikurube あー、なんとなく雰囲気は分かった。一言でいうと情報屋さんとバイオ屋さんは最適化している目的関数が違うので、無知で馬鹿なことをやっているわけではなくて、それが最適だからそうなってる。
2013-08-25 13:06:05@mkasahara たぶんそうなんですよねー。なんか昔そういう話を聞いた気がしたのですが、そもそも Q&A で対話ができていない感じだったので入れず
2013-08-25 13:48:15塩基のACGTをテキスト保存するのは非効率で無駄だとかいう情報な人が居たら、「JSONの繁栄を止められないへっぽこ学者/エンジニアに言われてもね」としか言いようがない。
2013-08-25 13:11:25