一人ISMB読み会2018のまとめ

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

ISMB読み会今回は参加できないので、一人ISMB読み会を開催します。

2018-07-07 16:36:41

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

進化、遺伝、RNA二次構造、タンパク質構造系はそれほど明るくないので割愛、目についたのだけ

2018-07-07 16:37:16

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

個人的には複数の実験技術、ドメインのデータをうまく組み合わせて、お互いの強みを生かしたり、シグナルが弱いデータの解析を、シグナルの強いデータでサポートしたり、データを組み合わせることで、初めて繋がる情報を解析しているような、"ヘテロ感"がある解析推しです

2018-07-07 16:37:35

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

1. 一細胞系 : これまでのオミックス解析は、複数の細胞の平均的な"バルク"レベルの計測だったが、最近は技術が発展して、一細胞レベルで、生体分子が測れるようになった。それにより、これまで見えなかったものが高解像度で見れるが、バルクよりノイジーなので、インフォで何とかしたい、という流れ。

2018-07-07 16:39:32

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

1.1 Strand-seq enables reliable separation of long reads by chromosome via expectation maximization academic.oup.com/bioinformatics… ロングリードだが、エラーが多いPacBioデータは、そのままアセンブルしようとすると、キメラコンティグが多く発生してしまう。

2018-07-07 16:40:54

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

事前に、このリードがどの染色体から読まれたのかわかれば、計算量的にも精度的にも嬉しい。ここでは、ストランド情報を持った一細胞Strand-seqのリードの情報を利用して、事前にPacBioリードをクラスタリングすることを考える。Strand-SeqリードをPacBioリード上にマッピングし、

2018-07-07 16:41:51

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

Strand-Seqでのライブラリ（細胞）ごとのストランド状態の推定（Eステップ）と、PacBioリードがどのクラスターに属するのかの確率計算（Mステップ）を収束するまで交互に計算（cufflinksとかRNA-Seqの定量化の話と多分理屈は同じ）。面白かった点 : 異なる実験技術の強みを組み合わせている

2018-07-07 16:42:10

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

1.2 LONGO: an R package for interactive gene length dependent analysis for neuronal identity 神経細胞では長い遺伝子が発現される傾向があるらしく、その特徴をスコア化して、神経細胞の分化成熟度合いを見た academic.oup.com/bioinformatics… 面白かった点 : 特定の細胞型の特徴をうまく使ってる

2018-07-07 16:43:04

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

1.3 Scalable preprocessing for sparse scRNA-seq data exploiting prior knowledge academic.oup.com/bioinformatics… 一細胞RNA-SeqデータをNMFで次元圧縮する際に、細胞や遺伝子に関する情報も取り込んで計算。

2018-07-07 16:43:40

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

面白かった点 : 事前知識をうまく使っている。この業界で最大級の130万マウス脳細胞データでも頑張れば計算できるらしい（10時間くらい）。教師あり次元圧縮なので、教師なしよりも当然細胞型の分離能が良い。

2018-07-07 16:44:04

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

1.4 Unsupervised embedding of single-cell Hi-C data academic.oup.com/bioinformatics… 一細胞Hi-Cのコンタクト行列を確率値化、JSDで細胞間の距離を計算、MDSで次元圧縮。面白かった点 : 細胞周期で次元圧縮の図が輪っかになる、Hi-Cも何かしら特徴が出るらしい

2018-07-07 16:45:07

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

1.5 Random forest based similarity learning for single cell RNA sequencing data academic.oup.com/bioinformatics… ランダムフォレストで、細胞間類似度を50個生成して平均化、あとはこの類似度でいかようにも（次元圧縮、クラスタリング、...）面白かった点 : 従来手法のSIMLRに勝ってる

2018-07-07 16:45:36

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

1.6 Haplotype phasing in single-cell DNA-sequencing data academic.oup.com/bioinformatics… 一細胞DNA-Seqリードをハプロタイプレベルに分ける（フェージング）。

2018-07-07 16:46:24

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

面白かった点 : 一細胞の話全般そうだが、一個の細胞の中の分子の計測は、検出限界に近いところで、計測できるかどうかが確率的になってしまい、ゲノムの話だと、アリル丸ごと欠損値になるallelic dropoutが起きる。このモデルはそこらへんも考えているらしい。

2018-07-07 16:46:42

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

2. HIN・行列分解・テンソル分解系 : バイオは、色々な種類の知識・データが散在している。それをどのように繋ぎ合わせて解析するか、という流れ。google.co.jp/url?sa=t&rct=j…

2018-07-07 16:49:16

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

2.1 Modeling polypharmacy side effects with graph convolutional networks academic.oup.com/bioinformatics… ドラッグ-ドラッグ間の相互作用予測に、ドラッグ-タンパク質、タンパク質-タンパク質の類似度情報も活用。アルゴリズムはオートエンコーダーベース、テンソル分解ベースの従来手法に精度で勝った

2018-07-07 16:50:04

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

2.2 Gene prioritization using Bayesian matrix factorization with genomic and phenotypic side information academic.oup.com/bioinformatics… 遺伝子-形質間の関係性を調べるのに、遺伝子-遺伝子類似度、形質-形質類似度も取り込んだ、行列分解法を提案。面白かった点 : 実装がJulia!

2018-07-07 16:50:25

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

2.3 Classifying tumors by supervised network propagation academic.oup.com/bioinformatics… がん種-遺伝子（変異があったか{0,1}）の行列に対して、Random Walk with Restart (RWR、またはNetwork Propagation)で、遺伝子間の類似度も組み込む（同じパスウェイに属していたとか）。

2018-07-07 16:50:51

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

この論文ではさらにSupervisedなRWRとして、がん種ラベルも使う。面白かった点 : ラベルであれ、使えるものはどんどん使う感じが

2018-07-07 16:50:59

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

3. MKL系 : モチベーションは、HINと同じ。カーネルを幾つも作って最後にマージ。

2018-07-07 16:53:52

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

3.1 mGPfusion: predicting protein stability changes with Gaussian process kernel learning and data fusion academic.oup.com/bioinformatics… アミノ酸の配列に変異が入った時に、タンパク質の安定性（ギブスの自由エネルギー）がどう変化するかを予測したい。

2018-07-07 16:54:16

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

PDBの三次元構造と、アミノ酸置換行列（BLOSUM62とか）を組み合わせて、変異間の類似度行列を計算。アミノ酸置換行列は複数種類存在するから、複数種類の類似度行列をMKLとして扱う。面白かった点 : 一次と三次の情報を一緒に使っているところ

2018-07-07 16:54:28

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

3.2 Discriminating early- and late-stage cancers using multiple kernel learning on gene sets academic.oup.com/bioinformatics… がんの進行度合い予想を、遺伝子発現プロファイルで予測する問題で、遺伝子セットレベルでの類似度（カーネル）を複数定義して、

2018-07-07 16:54:53

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

MKLの枠組みで統合。Group Lassoなので、あまり予測に役に立たない遺伝子セットの重みは0になる

2018-07-07 16:55:04

もじゃもじゃのほう (Koki Tsuyuzaki) @antiplastics

3.3 SIMPLE: Sparse Interaction Model over Peaks of moLEcules for fast, academic.oup.com/bioinformatics… interpretable metabolite identification from tandem mass spectra 日本人著者の論文。質量分析器のピーク情報から、化合物の構造（フィンガープリント）を推定する回帰モデル。

2018-07-07 16:55:29

いま話題のタグ