ゲノマーと情報科学について(続き)

なぜ情報科学的な最速プログラムはゲノマーの心をつかまないのか? 速いだけじゃ、ダメなんだ!! http://togetter.com/li/554112の続き
12
Taro L. Saito @taroleo

いったいどんな話が。。。

2013-08-26 10:34:58
Taro L. Saito @taroleo

突っ込みたい気持ちを抑えて、仕事仕事

2013-08-26 10:38:32
Masahiro Kasahara @mkasahara

@taroleo お昼休みに15分ぐらいつっこんでもバチは当たらないよ!(たぶん)

2013-08-26 13:00:18
Taro L. Saito @taroleo

@mkasahara 結局どなたの発表だったのでしょう?プロシン

2013-08-26 13:01:14
Taro L. Saito @taroleo

業績からどんなトークだったかを予測しようと試みるもよくわからず。

2013-08-26 13:11:47
Taro L. Saito @taroleo

アセンブリするから4TB必要、というわけではなさそうだ。

2013-08-26 13:14:06
Masahiro Kasahara @mkasahara

.@taroleo TL を見るに、パーソナルゲノムとか Illumina とか全ゲノムシークエンシングとかをビッグデータ的に話して、情報な人が、ACGTをテキストで使うとかどんだけ無駄、とか、シェルスクリプトで数百TBのデータ処理してるとか草不可避、みたいな流れだったくさい。

2013-08-26 13:14:16
Masahiro Kasahara @mkasahara

アセンブリはしていないっぽいですね。

2013-08-26 13:14:57
Masahiro Kasahara @mkasahara

ゲノムアセンブリの話をするなら メモリ 10TB のマシンを使ってます!ぐらいに盛って話をしたい。一応、嘘とまでは言い切れないぐらいには真実だし。

2013-08-26 13:15:57
Taro L. Saito @taroleo

@mkasahara テキストの方がありがたいことがほとんどですよね。Dremelをみんなが使えるなら話は別だけど、そんなツールはないし。

2013-08-26 13:16:52
Taro L. Saito @taroleo

テキストデータをけなす人を煽るなら、なんで君らはテキストでプログラミングしてるんだ、とかいろいろw

2013-08-26 13:19:14
Masahiro Kasahara @mkasahara

@taroleo ですね。とりあえず、テキストで処理するのが(ぼくらには)合理的だからそうなってる、って理解してほしかった。

2013-08-26 13:19:25
Masahiro Kasahara @mkasahara

あと、今使われている GFF とかをあの人達がみんな見たら、なんで columner でやらないの?って言われること必死

2013-08-26 13:19:55
Masahiro Kasahara @mkasahara

というか、言われているか。(togetter にあった)

2013-08-26 13:21:57
Masahiro Kasahara @mkasahara

でも残念ながらぼくらが欲しいのは(情報学的な)アイディアではなくて、実際に動作して無料もしくはせいぜい10万20万円ぐらいまでで入手可能な実装なのよね。

2013-08-26 13:22:57
Taro L. Saito @taroleo

columnarとか何でDB(の技術を)使わないの?と聞かれたら、使うと逆に不便になるからと答えるかな。テキスト以外の形態に変換すると、使える人口が減る、使えるツールが減る。

2013-08-26 13:24:40
Masahiro Kasahara @mkasahara

いや・・・、よく考えたら300万円でも1000万円でも、本当にそれが便利ならきっとみんな買っちゃうから、並列分散データベースはやっぱり我々の用途には役立たないのだと思う。

2013-08-26 13:24:43
Taro L. Saito @taroleo

データ処理をサポートしてくれるシステムは並列・分散システムは欲しいけど、データをがっしりと持つだけのDBならいらないです。

2013-08-26 13:26:13
Masahiro Kasahara @mkasahara

DBにすると、DBに内蔵されていない計算が著しく難しくなるし、欲しい演算の9割以上は普通のDBでは書けない。

2013-08-26 13:26:18
Masahiro Kasahara @mkasahara

GlusterFS からエラーが100万ぐらい出ていて涙が出る。

2013-08-26 13:28:00
Masahiro Kasahara @mkasahara

ゲノマーの文化をCS・ISな人に簡潔に伝えるにはどうしたらいいんだろう。どっちの文化もそれなりに分かるつもりなんだけど、後者の文化を前者に伝えるのは慣れたが逆は未だにすごく難しい。

2013-08-26 13:37:40
Masahiro Kasahara @mkasahara

例えばな話だけど、遺伝子IDと遺伝子配列が2種分あって、(手法のよしあしはとりあえず置いておいて)BLASTヒットのレシプロカルベストヒットになっている遺伝子IDの組みを出力せよ、みたいなのですら分散DBでは(簡潔に)書けない。

2013-08-26 13:41:26
1 ・・ 5 次へ