gaouさんbioinfomatics講座

gaouさんのbioinfomatics講座をとぅぎゃりました。
2
Kazuharu Arakawa @gaou_ak

ある解きたい問題がある時に、答えが十分に推測できるだけの部分的な情報のセットがあれば、答えは得られる。数学でいえば連立方程式がそれだ。ただ、科学、とくに生物学においては観測手法にも対象にもノイズや揺らぎが多く、普通は解が綺麗に一意には定まらない。

2010-09-13 11:44:00
Kazuharu Arakawa @gaou_ak

その場合、数学的には、over-determinedな系、つまり解に対し解空間を示す情報が過多な場合と、under-determinedな系、つまり情報が足りず解空間が狭められない場合に基本的には二分される。ざっくりいうと、ゲノミクスは前者、システム生物学は後者が多い印象がある。

2010-09-13 11:50:17
Kazuharu Arakawa @gaou_ak

この解空間を示す情報とは、例えば実験や測定手法、解析やデータベースなどである。当然over-determinedな系の方が一般的に言って解きやすいわけなので、ぼくらはまず自分の研究がoverかunderどちらのクラスに属する問題なのかを知らなければならない。

2010-09-13 11:58:05
Kazuharu Arakawa @gaou_ak

そして、この問題のクラスの定義から、僕はバイオインフォマティシャンというものを考えている。すなわち、overな系ではその解空間を限定する能力があり、underな系では解空間を狭める為に必要な観測手法を提案し、それが機会学習などの方法で可能であれば、それを開発できる研究者である。

2010-09-13 12:03:04
Kazuharu Arakawa @gaou_ak

一方、underな系では数学的には線形計画法などを使うが、こちらはそういう考え方をしながら、実は既存の実験・測定法の少し違った使い方で解空間を狭めることができないかを考えることが重要だと思っている。

2010-09-13 12:10:06
Kazuharu Arakawa @gaou_ak

大変わかりやすい。RT @32nm: データ可視化と新しい方法についてのプレゼン。おもしろい http://mkweb.bcgsc.ca/linnet/talks/hive-plot.pdf

2010-12-30 04:10:09
Kazuharu Arakawa @gaou_ak

グラフには軸が必要、という前提は非常に良く理解ができるし、シンプルで興味深い。ただ、hive-plotならではの弱点(要は軸数の制限)があるので、結局は毛玉ネットワーク→community抽出→コミュニティ内ネットワークをhiveで表現、みたいな多階層可視化が良いと思う。

2010-12-30 04:34:26
Kazuharu Arakawa @gaou_ak

ただ、現在のオミクス生物学が扱うような極めて多次元かつabstractionを行わない状態での可視化では、@c_zさんも言われるようなコンテキスト(軸)切り替えが容易であることを前提とした、UIを伴った可視化が必須。Genome Projectorは例えばこの立場。

2010-12-30 04:35:55
Kazuharu Arakawa @gaou_ak

hive plotは結局abstractionをしていないので大量の生に近いEntityを描画しているにも関わらず、そのEntityを知る術がない(GDならなおさら)という点で結局綺麗だけど良くわからないグラフではある。毛玉ネットワークよりはマシだけど。

2010-12-30 04:37:29
Kazuharu Arakawa @gaou_ak

僕が考えるUIを伴う可視化では、この"abstraction"ないしコンテキストを切り替えることで、abstraction後のクラスター化されたEntityは「理解」できるサイズと個数に(少なくとも次数が大きいものは)することに意義がある。それでも把握できないものはZoomで。

2010-12-30 04:39:18
Kazuharu Arakawa @gaou_ak

この時の"abstraction"は敢えてこの用語を使っていて、そうじゃなければ"クラスタリング"とでも言う。が、ここでは自動的なクラスタリングじゃなくて、biologicalなセンスに基づく、僕ら研究者の腕の見せ所、という意味。じゃないと結局「理解」できないで終わると思う。

2010-12-30 04:41:32
Kazuharu Arakawa @gaou_ak

うーん、しかし、hive plot、一番簡単にこの弱点を解決する手段として、軸を原点から出る対角軸にするのではなく、多角形の辺にする、という方法が思いつくんだが、なんでこの方法とってるんだろう?絶対に思いつく方法なのでどっかで議論されてるはずなんだけど、誰か知ってる?

2010-12-30 04:47:31
Kazuharu Arakawa @gaou_ak

多角形の辺にノードを配置してノード間を結ぶ手法の弱点は、ノード間の距離が意味を持たない&頂点付近のノード間の繋がりがわかりにくいことだが、これはhive plotでも同様なので。N=3の時は多角形の外周よりも対角軸の方が綺麗であることは確か。N=4以上、特にN=6なんかには良い。

2010-12-30 04:49:52
Kazuharu Arakawa @gaou_ak

複雑データの可視化って、要は複雑系のモデリングに近いものがあり、EntityやRelationが何であるか、それをどうモデルするか、という非常に抽象的・哲学的な話になる。こういうのは140文字で語るのは限界がある^^;

2010-12-30 05:00:23