「がん関連遺伝子のインシリコ配列飽和変異誘発」Nature論文のまとめ

がん遺伝子パネル検査などでの変異のがん発症への意義のために機械学習を用いた論文の紹介記事です。
4
  • まずは元論文の著者による紹介ツイート。Natureの論文全体が出ているとは知らなかった。
Nuria Lopez-Bigas @nlbigas

Very glad to share the latest paper from the lab published today "In silico saturation mutagenesis of cancer genes". By @fmuinos, @fran_mj88, @oriol_pich and Abel Gonzalez-Perez. rdcu.be/cqsM1 pic.twitter.com/eA3jmvwJbh

2021-07-29 01:53:08
拡大
拡大
拡大
拡大
Nuria Lopez-Bigas @nlbigas

If you want to learn about BoostDM and In Silico Saturation Mutagenesis of Cancer Genes in less than 2 minutes, you can also watch this video youtube.com/watch?v=1Nq_rm…

2021-07-29 01:53:09
拡大

読む前のツイート+boostDMのサイトの紹介

Jun Yasuda @jyasuda1

先の2つのRTの元論文はこれ。わが国でも10万がんゲノムの解析をするといっているけれど、こうした大規模がんゲノム変異データをインシリコでの進化生物学的な手法を応用してVUSの意義づけがなされることを期待。 nature.com/articles/s4158…

2021-08-21 16:48:56
Jun Yasuda @jyasuda1

こちら、検索できるようになっていたのとデータもDLできるようになっている。ただ、1個試してみたけどウェブサイトでは答えは出にくいみたいね。 intogen.org/boostdm/search

2021-08-31 17:31:55
Jun Yasuda @jyasuda1

ウエブで調べられるのは表に出ている80個くらいの遺伝子のみのようだ。2,3個試してみたが、実感とよく合っている感じ。ウエブレベルでも役に立つと思った。

2021-08-31 17:38:49
Jun Yasuda @jyasuda1

現在、明後日の抄読会に向けて鋭意読んでます。東北大腫瘍内科の石岡先生達のTP 53関係の論文が複数引用されてます。機械学習の部分はかなりブラックボックスとなっていますが、出てくる結果の意義づけはわかりやすいのが特徴。抄読会が終わったら短めの連ツイで紹介します。

2021-08-31 17:49:57

論文のあらましと注目点

Jun Yasuda @jyasuda1

さて、予告の通り、以下の論文をさらっと紹介します。読解しきれたか、というと自信はありません。 nature.com/articles/s4158…

2021-09-02 15:10:09
Jun Yasuda @jyasuda1

大規模ながん変異データベース(COSMICなど)のデータは「自然による実験」ととらえ、機械学習によってその意義を推定する研究。185のがん関連遺伝子について組織特異的な機械学習モデルを構築し、ドライバー変異と非ドライバー変異との鑑別を試みた。

2021-09-02 15:12:15
Jun Yasuda @jyasuda1

過去の変異網羅的機能解析(KRASやTP53:東北大の石岡先生の研究も)と比較し、よりよく実際にがんで発生している変異を予想できた。これらの結果は「解釈可能」でいわゆるブラックボックスではない(=現時点で生物学的な理解が可能)、というのが抄録のまとめ。

2021-09-02 15:14:00

内容の定量的な評価やHBOC, Lynch関連遺伝子群が対象でないことを紹介

Jun Yasuda @jyasuda1

機械学習ということだが、2万8000例、66種類のがんの遺伝子変異情報についてAlexandrovらのMutational SignatureやgnomADのpLIのように、トリプレット単位で変異を積算、同じ割合でランダムに入れた対照を1遺伝子について50個作って、学習セットとしている。

2021-09-02 15:16:28
Jun Yasuda @jyasuda1

こうした計算から2080個のドライバー遺伝子候補から、変異の頻度が予測値より1.85倍多い遺伝子に絞り、さらに一遺伝子について30個以上の変異が観察されたものに絞るなどして282遺伝子についてモデル構築を試みた。結果として185遺伝子について構築できたようだ。

2021-09-02 15:19:09
Jun Yasuda @jyasuda1

つまりは最初から「らしい」遺伝子に注目し、現実にあってそうなモデルが構築できたのは当初候補の10%以下ということになる。それらのモデルについては先の網羅的な変異解析よりも現実の遺伝子変異にあっていた、ということのようだ。

2021-09-02 15:20:39
Jun Yasuda @jyasuda1

例えばBRCA1についてはsupplementary methodsの奥の方に1パラグラフで記載があるが、そもそも変異の数が30に届いていないので解析できていない、ということのようだ。先のツイートでこのboostDMがGUIで検索可能と書いているが、その遺伝子リストにはHBOCやLynchの遺伝子はほとんど載っていない。

2021-09-02 15:25:13
Jun Yasuda @jyasuda1

モデルの構築にはgradient boostingという技術を使っているが、こちらについては無知なのでコメントは控えます。各遺伝子変異については同義変異、非同義変異、停止発生などのアノテーションに加えてPfamによるドメインの位置やたんぱく質立体構造での位置関係、NMDなど、18種類の項目で分類。

2021-09-02 15:27:54
Jun Yasuda @jyasuda1

この18種類の情報が各変異について得られることをもって「ブラックボックスではない」と書いているようだ。確かにがん遺伝子エキスパートパネルで議論していてもドメイン構造との関係や、類似変異の蓄積度、修飾残基にあたるのか、などの情報があると便利なことは事実。

2021-09-02 15:29:55

実データでの検証について

Jun Yasuda @jyasuda1

モデル構築後に282遺伝子から185遺伝子に絞り込むときには2つの論文(これらは観測されている変異についての機能解析)の結果との参照でよりよく一致しているものが選択されている。このスクリーニングで生き残った遺伝子のうち、飽和変異導入解析データがあるもの(KRASやTP53など)と比較した。

2021-09-02 15:32:10
Jun Yasuda @jyasuda1

比較する際に合わせてFATHMM, Polyphen2, CADDとも比較している。これを見るとCHASMplusやVEST4が今回の提案手法に近く、CADDなどはそれほどでもない。石岡先生のデータはかなり良いほうに見える。

2021-09-02 15:34:29

まとめと感想

Jun Yasuda @jyasuda1

提案手法は学習データががんの変異そのものであり、その分がんの変異の予測に特化したアプローチというのは大事な点だと思う。CADDなどはどちらかというと遺伝病のほうが向いているのかもしれない。

2021-09-02 15:36:19
Jun Yasuda @jyasuda1

最近ClinVarも癌のドライバー変異を含めてPathogenicとしている。Clinvarのがん遺伝子、がん抑制遺伝子とも比較しており、陽性的中率は結構高い(98~99%)。しかし感度(=recall)は7割を切っていたりする。ClinVarも間違いがあったりするので、この辺は感度が低いのかは議論が残る。

2021-09-02 15:39:13