de novo transcriptome

de novo TranscriptomeアセンブリーのSOAPdenovo-Transの論文がでてた。http://t.co/8K3AW0v9Bs 論文見る限り、Trinityと同等の精度で、劇的に高速って感じかな。Contig数が少ない傾向が悪くなさそうなので試してみるか。

2014-02-19 08:47:52

Kazuharu Arakawa @gaou_ak

結局追加解析ができてなかったSOAPdenovo-Trans続報。fpkmの計算値はただのタグカウントからの算出なので、参考にしかならない感じ。この点はambiguousなリードを考慮するRSEMを使うのが依然としてベスト。

2014-02-23 00:26:03

Kazuharu Arakawa @gaou_ak

K-merの挙動は結構想像以上。扱うデータに依存して当然変わると思うけど、最近のタグカウントというよりde novoを兼ねたRNA-Seq(100bp以上のpaired-end)の場合、大きめのK-merの影響がかなり良く作用する。

2014-02-23 00:27:58

Kazuharu Arakawa @gaou_ak

K=25とK=63でメモリ使用量も計算速度もcontig数も後者が少ないことは既に示したが、TGICLをp=65%でかけた時のisoformのまとまり方が特に劇的に改善した。

2014-02-23 00:30:57

Kazuharu Arakawa @gaou_ak

TrinityでもCufflinksでもgene数が３万とか普通行くが、tgicl後に２万を切る。もちろん、この２万弱の配列で遺伝子のほぼ全てがカバーできているし、Trinityよりも多くが全長に近い。

2014-02-23 00:31:54

Kazuharu Arakawa @gaou_ak

というわけで、現時点での僕の考えるde novo Transcriptomeのベストプラクティスは以下のの流れ。 1. 発現量がそこそこ（fpkm=50くらい）の遺伝子数個の長さを基準に最適K-mer探索 2. SOAPdenovo-Trans 3. tgicl 4. RSEM

2014-02-23 00:34:27

Kazuharu Arakawa @gaou_ak

まぁしかし、TrinityはInchworm~Butterflyの部分のアルゴリズムが真核生物のde novo transcriptomeアセンブリーには非常に適していてかつ合理的なので、K-merいじれるようになればゲノムの延長でやっているSOAP系は簡単に凌駕すると思う。

2014-02-23 00:39:12

Kazuharu Arakawa @gaou_ak

そして、Trinityのcomponent-sequenceの関係はスプライスアイソフォームを考慮する場合には圧倒的に他のアセンブラーよりも有益な情報を残す。Trinityがそういった面ではまだベストな選択肢に残ると思う。

2014-02-23 00:40:57