2012年1月23日

ゲノム生物系研究室の苦労

- "CS系の卒業生が全く居ない研究室で、「やべぇ、ディスクがあと20TBしか空いてない、週末どうやって乗り切ろう。」とか「なんでオレRAIDに毎日新しいHDD刺す仕事してるんだろう。生物学者なのに。」って会話してるイメージで。(実話ですが。)"
5
厚志 @atsushi_ngs

昔から数TBのテキストデータを扱ってる人たちに聞く機会が欲しい

2012-01-23 00:06:55
Masahiro Kasahara @mkasahara

数TBのテキストデータを日常的に扱っていた人たちなんて居ないと思いますよ。NGS業界でなくてもそういうのはここ数年の話だと思います。 @atsushi_ngs

2012-01-23 11:25:00
Toshi Hikita @hikita

検索やさんのGoogleとMS,YahooあたりのWebテキストは10年前くらいにはTBオーダに達していたのでは?10年よりも昔となるとあるかな? QT @mkasahara: 数TBのテキストデータを日常的に扱っていた人たちなんて居ないと思いますよ。 @atsushi_ngs

2012-01-23 11:32:16
Masahiro Kasahara @mkasahara

やや、@hikita さんの言っている意味は分かるんですが、@atsushi_ngs さんの状況は「ある特定の分野でITが本業ではないのに世界で何千人もの人たちが突然TB単位のテキストデータを扱い初めて困っている(が専業の人に外注するお金はない)」という話なので

2012-01-23 11:35:53
Masahiro Kasahara @mkasahara

.@hikita 専用のインフラを作って運用できちゃうようなところの話はどうでもよくて、運用コストと学習コストを非常に低く抑えつつお手軽にTB単位のデータを上手く管理運用したいという贅沢な悩みなので、「そんなの居るわけ無いだろw自分で編み出して下さいw」というニュアンスでした。

2012-01-23 11:38:43
Toshi Hikita @hikita

日本でいえば、2008年あたりから急に大量のテキストデータをどうしよう系の人がHadoopに大量に入ってきたので、その人たちの試行錯誤から学ぶとかですかね? テキスト処理の内容にもよるけど、テキストなら今はそこそこノウハウもあるように思うけど… @mkasahara

2012-01-23 11:41:02
Masahiro Kasahara @mkasahara

CS系の卒業生が全く居ない研究室で、「やべぇ、ディスクがあと20TBしか空いてない、週末どうやって乗り切ろう。」とか「なんでオレRAIDに毎日新しいHDD刺す仕事してるんだろう。生物学者なのに。」って会話してるイメージで。(実話ですが。) > @hikita

2012-01-23 11:42:00
Toshi Hikita @hikita

@mkasahara うむむ… 半端ない環境ですね。その容量だとI/Fも考えないといけないし、インフラ屋雇った方が最終的には速いような… ポスドクとかで募集できないのかな?そういうのに強い人…

2012-01-23 11:44:34
Masahiro Kasahara @mkasahara

Hadoop なんて(当該業界から見たら)完全に専用インフラです。ちなみに使うプログラムは 99% 3rd-party 製なので、HDFSに載せるラッパーを書くかFUSE経由で使うしか無いですが、安定運用するにはコスト高すぎて私ですらやる気にならない。 @hikita

2012-01-23 11:45:40
Toshi Hikita @hikita

@mkasahara 処理ソフトは既に定まっていて、ストレージ(と帯域)だけの問題?だとすると問題は別ですね。HDFSのデータを他で読み書きはあまり意味ないので… テキストはある、処理方法もわかるけどどうやったらパフォーマンスという話かと思いました。

2012-01-23 11:49:26
Masahiro Kasahara @mkasahara

そんなことやりたいIT強いポスドクが居たら今すぐ私が雇いますので紹介して下さい。100人ぐらいまでなら国内・国外に紹介できると思うので何人でもどうぞって感じです。 @hikita

2012-01-23 11:49:40
Toshi Hikita @hikita

@mkasahara ストレージ→処理マシン、HDD→CPUの帯域に律側されるからかなり大変ですね。パフォーマンス出すにはどれだけ並列読み出し効かせるかが勝負なんだろうけどなぁ。 3rd-partyソフトがその辺考慮してくれているかどうか…

2012-01-23 11:52:14
Masahiro Kasahara @mkasahara

.@hikita いや、私はその処理ソフトを作る方の分野なんでHDFSも含めて自由度がありますが、既存ソフトで解析だけしたい人は既に転がっているものを組み合わせていろいろ試すわけです。

2012-01-23 11:53:00
Toshi Hikita @hikita

@mkasahara そうですね。処理内容にもよるけど、従来FSの構造で数十TBテキスト処理はむちゃくちゃつらいと思う。infinibandにしても帯域に限界あるし… ご指摘の通りに、やりたい処理をベースに高速を引き出せるアーキテクチャ考えていかないとダメでしょうね。

2012-01-23 11:55:29
Masahiro Kasahara @mkasahara

.@hikita ITな人に説明するならwebマイニングとソーシャルグラフを組み合わせた研究を想像してもらえると状況が近いです。データ収集のクローラ、グラフのアルゴリズム屋さん、マイニングアルゴリズム、可視化ソフト、それぞれ別の研究者が開発している感じ。

2012-01-23 11:55:34
Toshi Hikita @hikita

@mkasahara テキストマイニングとグラフマイニングの融合って、これからHotな分野じゃないですか!!

2012-01-23 11:56:34
Masahiro Kasahara @mkasahara

.@mkasahara んでもって、ビジネスにしか興味がない人は新しく出たソフト・アルゴリズムをひたすら組み合わせて良い結果が出たらウハウハ、というようなそんな世界。

2012-01-23 11:56:49
Masahiro Kasahara @mkasahara

.@hikita あ、いあ、たとえの話なのでテキストマイニングともグラフマイニングとも直接の関連はないです。あしからず!開発が早いので最適な組み合わせが未定なのと、データが大きいのと、最後の結果だけ欲しい人も居てその人はITに無知、というあたりを汲んで下さい。

2012-01-23 11:58:12
Masahiro Kasahara @mkasahara

あと勘違いされそうなので補足しておくと、テキストデータというのはテキスト形式のデータという意味であって文章ではないです!ソフトウェアの変化が早いので、バイナリフォーマットだとみんなパーサーを書きたがらないので結果として使える言語が限られて淘汰されてしまった感じです。

2012-01-23 12:00:25
Masahiro Kasahara @mkasahara

.@hikita 並列読み出しとか並列計算以前に、3ヶ月毎にソフト(アルゴリズム)が変わるのでパフォーマンスチューニングがされているのはほんの一握りの、比較的安定的に繰り返し使われている解析ソフトだけ。

2012-01-23 12:03:19
Masahiro Kasahara @mkasahara

.@hikita IT屋さんには信じて貰えないかもしれないですが https://t.co/tzPyKj7J この30行ぐらいの Perl スクリプトは世界で多分 10PB近いデータを処理していると思う。Hadoop とかおすすめできない。私も使いたくない。そんなことしたら死ぬ。

2012-01-23 12:08:30
Masahiro Kasahara @mkasahara

結局 IT 専業の人材がウチの業界には必要なんだとは思うんだけど、スキルのあるITな人材は、バイオインフォマティクス系の研究者やりたい人を除いて任期付きのポスドクには滅多に応募してこないから需要が供給の100倍以上になってちょっと詰んでる。

2012-01-23 12:22:34
Haruka Kataoka @hrk

すごい世界! > @mkasahara " https://t.co/0LDU4WSl この30行ぐらいの Perl スクリプトは世界で多分 10PB近いデータを処理していると思う"

2012-01-23 12:22:38
Haruka Kataoka @hrk

Cで書き直したら…と思ったけどこれだと殆どディスクI/Oだから変わんなそう。

2012-01-23 12:25:38
残りを読む(5)

コメント

Yu SUGAWARA @gusmachine 2012年1月23日
. @mkasahara さん @hrk さんのコメントを追加しました。問題がありましたらご連絡ください。
0
黒影 @blackshadow0 2012年1月28日
バイオインフォの世界は、一つ一つの処理はそう複雑ではないけれどデータが膨大すぎてお手上げ(解析のためのヒューマンリソースやらマシンリソースが足りない)になっているケースが多いというのが、受託解析やらシステム開発の請負やらで飯食っている側の印象。特にNGSのデータを扱いかねている所が多い感じ。
0