【バイオインフォマティクス勉強会】Ion Torrent入門

【バイオインフォマティクス勉強会】Ion Torrent入門での @Yh_Taguchi さんのツイートをまとめました。
1
田口善弘 @Yh_Taguchi

質問:挿入、欠落があるとRNASeqではコンセンサスではだめでは? 答え:発現が少なくて数本しか出ないとエラーは補償できない。

2011-08-26 16:51:52
田口善弘 @Yh_Taguchi

ここからアメリエフの山口さんの説明。データ解析パイプライン概要。多型検出まで。fastQC, bwa, samtools,picard,annoverなどを使用。

2011-08-26 16:53:55
田口善弘 @Yh_Taguchi

fastQCの結果を表示。8回分を合体した。トータル100Mbを8回で読んだ。5ー128bp。100を超えるとQVが10を下回る。

2011-08-26 16:55:31
田口善弘 @Yh_Taguchi

トリムしてもSNPの検出には無関係。

2011-08-26 16:56:35
田口善弘 @Yh_Taguchi

duplicate readerはほぼ無い。

2011-08-26 16:57:01
田口善弘 @Yh_Taguchi

アライメント&マッピングはbwa。マルチヒットは5回まで許す。重複リードの除去(Pikard)。大腸菌なので個々のプロセスが数十秒で終了する。SNP検出はsamtools。mpileupコマンド使用・

2011-08-26 16:59:01
田口善弘 @Yh_Taguchi

何回も検出されないSNPは捨てる(フィルタリング)。

2011-08-26 17:00:32
田口善弘 @Yh_Taguchi

フィルターしてもSNPは6600箇所もある。株が違うのでは。

2011-08-26 17:01:02
田口善弘 @Yh_Taguchi

この後アノテーションをする。エクソン領域かどうかなど。

2011-08-26 17:01:35
田口善弘 @Yh_Taguchi

SNPのデータ解析はアメリエフは強い。遺伝統計解析まで。

2011-08-26 17:02:46
【非公式】ひろ@猫もふ欠乏症 @hiro_h

@Yh_Taguchi 後ほど、CNVとSNPの検出の関係を聞いていただくことは出来ますか…

2011-08-26 17:03:07
田口善弘 @Yh_Taguchi

Chip-Seq. macsというソフトを使用。(多分、これ→ http://t.co/M5a6qSY

2011-08-26 17:03:45
田口善弘 @Yh_Taguchi

RNASeq : fastQCで。次がtophat (420分かかる)これが業界標準。samtools cufflinks 

2011-08-26 17:04:57
田口善弘 @Yh_Taguchi

GO解析からPathway解析までする。

2011-08-26 17:05:28
田口善弘 @Yh_Taguchi

@hiro_h ええと何を訊けばいいですか?

2011-08-26 17:06:26
田口善弘 @Yh_Taguchi

@hiro_h いまその説明をしてます。

2011-08-26 17:06:44
田口善弘 @Yh_Taguchi

GWASの説明。日本人と中国人はhapmapの分布が違った。

2011-08-26 17:08:15
田口善弘 @Yh_Taguchi

PCA:集団の構造化解析、クラスターに分かれる。それを系統樹を描く、ブートストラップまで。

2011-08-26 17:09:09
【非公式】ひろ@猫もふ欠乏症 @hiro_h

@Yh_Taguchi コピー数が変わっていて、その中の一部のコピーにのみSNPがあると、検出しにくいと聞いたことがあります。そこをアメリエフさんはどうしているのかなぁと。

2011-08-26 17:09:31
田口善弘 @Yh_Taguchi

Exome解析。50カバレージ。IGC で可視化

2011-08-26 17:10:01
田口善弘 @Yh_Taguchi

Chip-seq,De Novoアッセンブルの例。後者は答えが解かっている場合で検証。

2011-08-26 17:11:21
田口善弘 @Yh_Taguchi

60万円でNGS解析用のサーバを売っています。オプションをつけると100万円です。

2011-08-26 17:16:08
田口善弘 @Yh_Taguchi

前の6コアより新しい4コアの方が2割速いです。メモリー的にはヒューマンゲノムならOKです。

2011-08-26 17:17:13