ゲノマーと情報科学について(続き)

.@taroleo TL を見るに、パーソナルゲノムとか Illumina とか全ゲノムシークエンシングとかをビッグデータ的に話して、情報な人が、ACGTをテキストで使うとかどんだけ無駄、とか、シェルスクリプトで数百TBのデータ処理してるとか草不可避、みたいな流れだったくさい。
2013-08-26 13:14:16
ゲノムアセンブリの話をするなら メモリ 10TB のマシンを使ってます!ぐらいに盛って話をしたい。一応、嘘とまでは言い切れないぐらいには真実だし。
2013-08-26 13:15:57
@mkasahara テキストの方がありがたいことがほとんどですよね。Dremelをみんなが使えるなら話は別だけど、そんなツールはないし。
2013-08-26 13:16:52
@taroleo ですね。とりあえず、テキストで処理するのが(ぼくらには)合理的だからそうなってる、って理解してほしかった。
2013-08-26 13:19:25
あと、今使われている GFF とかをあの人達がみんな見たら、なんで columner でやらないの?って言われること必死
2013-08-26 13:19:55
でも残念ながらぼくらが欲しいのは(情報学的な)アイディアではなくて、実際に動作して無料もしくはせいぜい10万20万円ぐらいまでで入手可能な実装なのよね。
2013-08-26 13:22:57
columnarとか何でDB(の技術を)使わないの?と聞かれたら、使うと逆に不便になるからと答えるかな。テキスト以外の形態に変換すると、使える人口が減る、使えるツールが減る。
2013-08-26 13:24:40
いや・・・、よく考えたら300万円でも1000万円でも、本当にそれが便利ならきっとみんな買っちゃうから、並列分散データベースはやっぱり我々の用途には役立たないのだと思う。
2013-08-26 13:24:43
データ処理をサポートしてくれるシステムは並列・分散システムは欲しいけど、データをがっしりと持つだけのDBならいらないです。
2013-08-26 13:26:13
DBにすると、DBに内蔵されていない計算が著しく難しくなるし、欲しい演算の9割以上は普通のDBでは書けない。
2013-08-26 13:26:18
ゲノマーの文化をCS・ISな人に簡潔に伝えるにはどうしたらいいんだろう。どっちの文化もそれなりに分かるつもりなんだけど、後者の文化を前者に伝えるのは慣れたが逆は未だにすごく難しい。
2013-08-26 13:37:40
例えばな話だけど、遺伝子IDと遺伝子配列が2種分あって、(手法のよしあしはとりあえず置いておいて)BLASTヒットのレシプロカルベストヒットになっている遺伝子IDの組みを出力せよ、みたいなのですら分散DBでは(簡潔に)書けない。
2013-08-26 13:41:26