ハプロイドのリシークエンシングでヘテロな変異が見つかったときに考えること

@YoshiKawaharaさん,@n0rrさん,@ayaKTさん,@mkasaharaさんによる,ハプロイドのリシークエンシングでヘテロな変異が見つかる件についての議論.
1
草💦30代障がい者教授(CEO) @n0rr

外れ値とらないとヒストグラム書けないのつらぃ

2013-08-15 15:24:22
草💦30代障がい者教授(CEO) @n0rr

@YoshiKawahara 2っぽくなりました 1.645833333 1.777777778 1.590909091 1.181818182 1.708333333

2013-08-15 15:40:29
草💦30代障がい者教授(CEO) @n0rr

@YoshiKawahara 2を超えるやつがいないっているのが気になるんですけど...

2013-08-15 15:41:05
Yoshihiro Kawahara @YoshiKawahara

@n0rr うーん、確かに全部2以下ですね。何か違うバイアスがかかってるのかな。

2013-08-15 15:45:45
Masahiro Kasahara @mkasahara

@YoshiKawahara そんなん(数にもよるけど)よくあるよ!ちゃんとシングルコロニーからDNA取ってますか?取っていて更に量が <10カ所/Mbp ぐらいだとたいていは培養中に入った変異。

2013-08-15 16:01:31
Masahiro Kasahara @mkasahara

@YoshiKawahara @n0rr @ayaKT ストランドの偏ってないか見ておいた方が良いですよ。片側から主に出ていたら系統的シークエンシングエラー

2013-08-15 16:10:51
草💦30代障がい者教授(CEO) @n0rr

@YoshiKawahara そのエリアのマップ率が低いのであれば、リファレンスが間違ってる辺りはマップ率がさがる↓というのは納得できます。が、いまは1塩基で数えてるので...

2013-08-15 16:11:27
Yoshihiro Kawahara @YoshiKawahara

@mkasahara シングルコロニーからじゃないので、すでにバラついている集団を読んでいる可能性もあるんですが、アリル頻度が0.5ぐらいのが多かったので気になったんですよね。あと、自分のデータでは数百〜千bpぐらいの領域に数十個固まってあったりするので重複の可能性が高いかなと。

2013-08-15 16:12:45
草💦30代障がい者教授(CEO) @n0rr

@mkasahara @ayaKT @YoshiKawahara たまに偏ってるやついますね。系統的シークエンシングエラーってどういうことでしょうか?

2013-08-15 16:15:33
Masahiro Kasahara @mkasahara

@YoshiKawahara それ、カバー率(depth)が高くなっていなければ第一感はシークエンシングエラーの可能性高いですね。ストランドが偏っていないか、(変異している鎖の)上流に1~2塩基の繰り返し配列がないかチェックしてみてください。

2013-08-15 16:24:36
Masahiro Kasahara @mkasahara

@n0rr @ayaKT @YoshiKawahara ION torrent, 454, Illumina は宜しくない配列を読むとリードの後半でいつも決まって同じエラーが出ることです。

2013-08-15 16:25:50
草💦30代障がい者教授(CEO) @n0rr

@mkasahara @ayaKT @YoshiKawahara ありがとうございます。不得意な配列があって、片側はいつも読めない&読める側もエラーが同じところで起きる、ということでしょうか

2013-08-15 16:27:44
草💦30代障がい者教授(CEO) @n0rr

外れ値あるのを見るのにいちいち大きいの取っててつらかったけど、逆数取ればよかった

2013-08-15 16:28:10
草💦30代障がい者教授(CEO) @n0rr

逆数とったら何も見えなくなった

2013-08-15 16:29:40
草💦30代障がい者教授(CEO) @n0rr

っていうか君らいつからそんな超絶カバレッジになったの?アベレージと比べて...

2013-08-15 16:30:31
Masahiro Kasahara @mkasahara

@n0rr @ayaKT @YoshiKawahara んー、基本的には片側は正しく読める&もう片側は高確率で同じエラーになる、って感じです。どちらから読んでもいつも読めない配列はあんまり無いです。

2013-08-15 16:32:32
草💦30代障がい者教授(CEO) @n0rr

@mkasahara @ayaKT @YoshiKawahara なるほど。高確率で片側だけエラーがでるから、ヘテロな変異になるんですね

2013-08-15 16:41:13
草💦30代障がい者教授(CEO) @n0rr

@mkasahara ありがとうございます 系統的エラーを撲滅して、また見てみます!

2013-08-15 16:42:06
Yoshihiro Kawahara @YoshiKawahara

@mkasahara ざっくり見た感じはそういう領域はカバー率も山のように盛り上がっているので重複かなと。でもストランドバイアスも要チェックですね。繰り返し配列もみてます。さすが達人!!

2013-08-15 16:44:55
Masahiro Kasahara @mkasahara

@YoshiKawahara カバー率も高いなら重複でしょうね。Mapping Quality とか見て(具体的なスレッショルドはツールにも寄るんですが) 低いリードを除いてから計算すると片方に決まることも多いです。

2013-08-15 16:47:11
Masahiro Kasahara @mkasahara

ヘテロな集団を読んじゃったときには1:1になることは少ない。でもストランドspecificな系統的シークエンシングエラーは最大で丁度1:1になるので、1:1に近ければ近いほどセグメント重複やら系統的シークエンシングエラーの可能性が高い。

2013-08-15 16:48:48
Yoshihiro Kawahara @YoshiKawahara

@mkasahara SHRiMP2でミスマッチやIndelをかなり許してマップしていたせいで、重複領域由来のリードを重ねて貼り付けてしまっていたようです。BWAでの結果を見るとそういったヘテロの山が綺麗に無くなっていました。ツールやパラメータも気をつけないとですね。

2013-08-15 16:51:22
Yoshihiro Kawahara @YoshiKawahara

リファレンスに貼り付けて、重複領域は切り分けて、アンマップリードをアセンブルして、とかやるんだったら最初っからdenovoアセンブルしたほうが楽な気がしてきた。数十Mのゲノムだし。すでに4000 scaffolds、N50 30kbにまでなったデータはあるのだし。

2013-08-15 16:59:36