- まずは元論文の著者による紹介ツイート。Natureの論文全体が出ているとは知らなかった。
Very glad to share the latest paper from the lab published today "In silico saturation mutagenesis of cancer genes". By @fmuinos, @fran_mj88, @oriol_pich and Abel Gonzalez-Perez. rdcu.be/cqsM1 pic.twitter.com/eA3jmvwJbh
2021-07-29 01:53:08If you want to learn about BoostDM and In Silico Saturation Mutagenesis of Cancer Genes in less than 2 minutes, you can also watch this video youtube.com/watch?v=1Nq_rm…
2021-07-29 01:53:09読む前のツイート+boostDMのサイトの紹介
先の2つのRTの元論文はこれ。わが国でも10万がんゲノムの解析をするといっているけれど、こうした大規模がんゲノム変異データをインシリコでの進化生物学的な手法を応用してVUSの意義づけがなされることを期待。 nature.com/articles/s4158…
2021-08-21 16:48:56こちら、検索できるようになっていたのとデータもDLできるようになっている。ただ、1個試してみたけどウェブサイトでは答えは出にくいみたいね。 intogen.org/boostdm/search
2021-08-31 17:31:55ウエブで調べられるのは表に出ている80個くらいの遺伝子のみのようだ。2,3個試してみたが、実感とよく合っている感じ。ウエブレベルでも役に立つと思った。
2021-08-31 17:38:49現在、明後日の抄読会に向けて鋭意読んでます。東北大腫瘍内科の石岡先生達のTP 53関係の論文が複数引用されてます。機械学習の部分はかなりブラックボックスとなっていますが、出てくる結果の意義づけはわかりやすいのが特徴。抄読会が終わったら短めの連ツイで紹介します。
2021-08-31 17:49:57論文のあらましと注目点
さて、予告の通り、以下の論文をさらっと紹介します。読解しきれたか、というと自信はありません。 nature.com/articles/s4158…
2021-09-02 15:10:09大規模ながん変異データベース(COSMICなど)のデータは「自然による実験」ととらえ、機械学習によってその意義を推定する研究。185のがん関連遺伝子について組織特異的な機械学習モデルを構築し、ドライバー変異と非ドライバー変異との鑑別を試みた。
2021-09-02 15:12:15過去の変異網羅的機能解析(KRASやTP53:東北大の石岡先生の研究も)と比較し、よりよく実際にがんで発生している変異を予想できた。これらの結果は「解釈可能」でいわゆるブラックボックスではない(=現時点で生物学的な理解が可能)、というのが抄録のまとめ。
2021-09-02 15:14:00内容の定量的な評価やHBOC, Lynch関連遺伝子群が対象でないことを紹介
機械学習ということだが、2万8000例、66種類のがんの遺伝子変異情報についてAlexandrovらのMutational SignatureやgnomADのpLIのように、トリプレット単位で変異を積算、同じ割合でランダムに入れた対照を1遺伝子について50個作って、学習セットとしている。
2021-09-02 15:16:28こうした計算から2080個のドライバー遺伝子候補から、変異の頻度が予測値より1.85倍多い遺伝子に絞り、さらに一遺伝子について30個以上の変異が観察されたものに絞るなどして282遺伝子についてモデル構築を試みた。結果として185遺伝子について構築できたようだ。
2021-09-02 15:19:09つまりは最初から「らしい」遺伝子に注目し、現実にあってそうなモデルが構築できたのは当初候補の10%以下ということになる。それらのモデルについては先の網羅的な変異解析よりも現実の遺伝子変異にあっていた、ということのようだ。
2021-09-02 15:20:39例えばBRCA1についてはsupplementary methodsの奥の方に1パラグラフで記載があるが、そもそも変異の数が30に届いていないので解析できていない、ということのようだ。先のツイートでこのboostDMがGUIで検索可能と書いているが、その遺伝子リストにはHBOCやLynchの遺伝子はほとんど載っていない。
2021-09-02 15:25:13モデルの構築にはgradient boostingという技術を使っているが、こちらについては無知なのでコメントは控えます。各遺伝子変異については同義変異、非同義変異、停止発生などのアノテーションに加えてPfamによるドメインの位置やたんぱく質立体構造での位置関係、NMDなど、18種類の項目で分類。
2021-09-02 15:27:54この18種類の情報が各変異について得られることをもって「ブラックボックスではない」と書いているようだ。確かにがん遺伝子エキスパートパネルで議論していてもドメイン構造との関係や、類似変異の蓄積度、修飾残基にあたるのか、などの情報があると便利なことは事実。
2021-09-02 15:29:55実データでの検証について
モデル構築後に282遺伝子から185遺伝子に絞り込むときには2つの論文(これらは観測されている変異についての機能解析)の結果との参照でよりよく一致しているものが選択されている。このスクリーニングで生き残った遺伝子のうち、飽和変異導入解析データがあるもの(KRASやTP53など)と比較した。
2021-09-02 15:32:10比較する際に合わせてFATHMM, Polyphen2, CADDとも比較している。これを見るとCHASMplusやVEST4が今回の提案手法に近く、CADDなどはそれほどでもない。石岡先生のデータはかなり良いほうに見える。
2021-09-02 15:34:29まとめと感想
提案手法は学習データががんの変異そのものであり、その分がんの変異の予測に特化したアプローチというのは大事な点だと思う。CADDなどはどちらかというと遺伝病のほうが向いているのかもしれない。
2021-09-02 15:36:19最近ClinVarも癌のドライバー変異を含めてPathogenicとしている。Clinvarのがん遺伝子、がん抑制遺伝子とも比較しており、陽性的中率は結構高い(98~99%)。しかし感度(=recall)は7割を切っていたりする。ClinVarも間違いがあったりするので、この辺は感度が低いのかは議論が残る。
2021-09-02 15:39:13