de novo TranscriptomeアセンブリーのSOAPdenovo-Transの論文がでてた。http://t.co/8K3AW0v9Bs 論文見る限り、Trinityと同等の精度で、劇的に高速って感じかな。Contig数が少ない傾向が悪くなさそうなので試してみるか。
2014-02-19 08:47:52結局追加解析ができてなかったSOAPdenovo-Trans続報。fpkmの計算値はただのタグカウントからの算出なので、参考にしかならない感じ。この点はambiguousなリードを考慮するRSEMを使うのが依然としてベスト。
2014-02-23 00:26:03K-merの挙動は結構想像以上。扱うデータに依存して当然変わると思うけど、最近のタグカウントというよりde novoを兼ねたRNA-Seq(100bp以上のpaired-end)の場合、大きめのK-merの影響がかなり良く作用する。
2014-02-23 00:27:58K=25とK=63でメモリ使用量も計算速度もcontig数も後者が少ないことは既に示したが、TGICLをp=65%でかけた時のisoformのまとまり方が特に劇的に改善した。
2014-02-23 00:30:57TrinityでもCufflinksでもgene数が3万とか普通行くが、tgicl後に2万を切る。もちろん、この2万弱の配列で遺伝子のほぼ全てがカバーできているし、Trinityよりも多くが全長に近い。
2014-02-23 00:31:54というわけで、現時点での僕の考えるde novo Transcriptomeのベストプラクティスは以下のの流れ。 1. 発現量がそこそこ(fpkm=50くらい)の遺伝子数個の長さを基準に最適K-mer探索 2. SOAPdenovo-Trans 3. tgicl 4. RSEM
2014-02-23 00:34:27まぁしかし、TrinityはInchworm~Butterflyの部分のアルゴリズムが真核生物のde novo transcriptomeアセンブリーには非常に適していてかつ合理的なので、K-merいじれるようになればゲノムの延長でやっているSOAP系は簡単に凌駕すると思う。
2014-02-23 00:39:12そして、Trinityのcomponent-sequenceの関係はスプライスアイソフォームを考慮する場合には圧倒的に他のアセンブラーよりも有益な情報を残す。Trinityがそういった面ではまだベストな選択肢に残ると思う。
2014-02-23 00:40:57