2013年8月26日

ゲノマーと情報科学について(続き)

なぜ情報科学的な最速プログラムはゲノマーの心をつかまないのか？速いだけじゃ、ダメなんだ!! http://togetter.com/li/554112の続き

科学次世代シーケンサー生命情報並列ゲノム情報科学ビッグデータ

hikita
7363
1
0
25
6

Taro L. Saito @taroleo

http://t.co/ayqy81N4TZ 盛り上がってる？

2013-08-26 10:31:50

Taro L. Saito @taroleo

いったいどんな話が。。。

2013-08-26 10:34:58

Taro L. Saito @taroleo

突っ込みたい気持ちを抑えて、仕事仕事

2013-08-26 10:38:32

Masahiro Kasahara @mkasahara

@taroleo お昼休みに１５分ぐらいつっこんでもバチは当たらないよ！（たぶん）

2013-08-26 13:00:18

Taro L. Saito @taroleo

@mkasahara 結局どなたの発表だったのでしょう？プロシン

2013-08-26 13:01:14

Taro L. Saito @taroleo

業績からどんなトークだったかを予測しようと試みるもよくわからず。

2013-08-26 13:11:47

Taro L. Saito @taroleo

アセンブリするから4TB必要、というわけではなさそうだ。

2013-08-26 13:14:06

Masahiro Kasahara @mkasahara

.@taroleo TL を見るに、パーソナルゲノムとか Illumina とか全ゲノムシークエンシングとかをビッグデータ的に話して、情報な人が、ACGTをテキストで使うとかどんだけ無駄、とか、シェルスクリプトで数百TBのデータ処理してるとか草不可避、みたいな流れだったくさい。

2013-08-26 13:14:16

Masahiro Kasahara @mkasahara

アセンブリはしていないっぽいですね。

2013-08-26 13:14:57

Masahiro Kasahara @mkasahara

ゲノムアセンブリの話をするならメモリ 10TB のマシンを使ってます！ぐらいに盛って話をしたい。一応、嘘とまでは言い切れないぐらいには真実だし。

2013-08-26 13:15:57

Taro L. Saito @taroleo

@mkasahara テキストの方がありがたいことがほとんどですよね。Dremelをみんなが使えるなら話は別だけど、そんなツールはないし。

2013-08-26 13:16:52

Taro L. Saito @taroleo

テキストデータをけなす人を煽るなら、なんで君らはテキストでプログラミングしてるんだ、とかいろいろw

2013-08-26 13:19:14

Masahiro Kasahara @mkasahara

@taroleo ですね。とりあえず、テキストで処理するのが（ぼくらには）合理的だからそうなってる、って理解してほしかった。

2013-08-26 13:19:25

Masahiro Kasahara @mkasahara

あと、今使われている GFF とかをあの人達がみんな見たら、なんで columner でやらないの？って言われること必死

2013-08-26 13:19:55

Masahiro Kasahara @mkasahara

というか、言われているか。(togetter にあった)

2013-08-26 13:21:57

Masahiro Kasahara @mkasahara

でも残念ながらぼくらが欲しいのは（情報学的な）アイディアではなくて、実際に動作して無料もしくはせいぜい１０万２０万円ぐらいまでで入手可能な実装なのよね。

2013-08-26 13:22:57

Taro L. Saito @taroleo

columnarとか何でDB（の技術を）使わないの？と聞かれたら、使うと逆に不便になるからと答えるかな。テキスト以外の形態に変換すると、使える人口が減る、使えるツールが減る。

2013-08-26 13:24:40

Masahiro Kasahara @mkasahara

いや・・・、よく考えたら３００万円でも１０００万円でも、本当にそれが便利ならきっとみんな買っちゃうから、並列分散データベースはやっぱり我々の用途には役立たないのだと思う。

2013-08-26 13:24:43

Taro L. Saito @taroleo

データ処理をサポートしてくれるシステムは並列・分散システムは欲しいけど、データをがっしりと持つだけのDBならいらないです。

2013-08-26 13:26:13

Masahiro Kasahara @mkasahara

DBにすると、DBに内蔵されていない計算が著しく難しくなるし、欲しい演算の９割以上は普通のDBでは書けない。

2013-08-26 13:26:18

Masahiro Kasahara @mkasahara

GlusterFS からエラーが１００万ぐらい出ていて涙が出る。

2013-08-26 13:28:00

Masahiro Kasahara @mkasahara

ゲノマーの文化をＣＳ・ＩＳな人に簡潔に伝えるにはどうしたらいいんだろう。どっちの文化もそれなりに分かるつもりなんだけど、後者の文化を前者に伝えるのは慣れたが逆は未だにすごく難しい。

2013-08-26 13:37:40

Masahiro Kasahara @mkasahara

例えばな話だけど、遺伝子ＩＤと遺伝子配列が２種分あって、（手法のよしあしはとりあえず置いておいて）BLASTヒットのレシプロカルベストヒットになっている遺伝子ＩＤの組みを出力せよ、みたいなのですら分散DBでは（簡潔に）書けない。

2013-08-26 13:41:26

1 2 ・・ 5 次へ

いま話題のタグ