DeepMindによるヒトタンパク質変異インパクト予測AlphaMissenseに付いての論文紹介記事。

タンパク質構造予測で研究業界を席巻したAlphaFold2の流れで、疾患に関連する可能性のある変異を予測したAlphaMissenseの論文の半可通による紹介記事
3
Jun Yasuda @jyasuda1

GCK遺伝子は糖の分解に関与する遺伝子でT65Iは活性中心に近く、活性が高すぎて低血糖になるのでClinVarではPathogenicなのですが、AMではlikely benignよりらしい(図3FG)。がん遺伝子の構成的活性化は見つからない可能性あり、ということでしょうか(14/n)。

2023-10-31 11:41:36

生存に必須の遺伝子予測:集団ゲノム学との比較

Jun Yasuda @jyasuda1

AMの機能を更に深掘りするためにいわゆる必須遺伝子の予測に踏み込んでいきます。この業界では最近gnomADなどがpLOFみたいな指標(機能消失変異の観察数からの類推)が利用されていますが、そもそもある程度の長さがないと使えんだろ、という指摘をしています(図4a)(15/n)。

2023-10-31 11:44:08
Jun Yasuda @jyasuda1

筆者らによれば20%くらいの遺伝子は短すぎてそうした推定が困難としています。この、短い遺伝子と長い遺伝子でLOEUFやmean phyloPと比較すると長い方では同程度の精度ですが、短いほうだと集団ゲノムデータの推定よりAMのほうが良いとしています(図4b)。(16/n)

2023-10-31 11:46:34

公開情報とその様相、UKバイオバンクとの比較

Jun Yasuda @jyasuda1

最後にこれらのデータを公開してまっせという図を出しています。「32%が病的」という謳い文句には裏があって、その大半が「一般集団で観察されていない」変異のようです(図5b)。言い換えると病的だから出てこないものもあるように思いますし、だけに、それなりの精度ではないかと(17/n)

2023-10-31 11:50:14
Jun Yasuda @jyasuda1

ダメ押しでUK biobankの「形質と関連のある変異」について、AMのスコアで3分割してみると、良性→曖昧→病的の順で形質と関連がある変異の同定率が上がってきています(図5C)。そもそも形質と関連がある変異の多くがおそらくintergenicなproxy多型だとすれば、良い結果では(18/n)。

2023-10-31 11:53:39

解説記事のコメント

Jun Yasuda @jyasuda1

と、AMの凄さを見てきましたが、解説記事のコメントはそれなりに手厳しい面があります。解説記事はこちらね(19/n)。science.org/doi/full/10.11…

2023-10-31 11:55:37
Jun Yasuda @jyasuda1

解説記事の指摘1:AMの限界の一つは予想するためのモデルの中の構造的な部分で、大部分のタンパク質が複合体を形成したり、condensateを構成したりすることについて考慮できていないことだとあります。これは全くそうですが、進化学的な弱いラベリングはある程度効いてそうにも思います(20/n)

2023-10-31 11:57:46
Jun Yasuda @jyasuda1

解説記事の指摘2:新規の機能予測ソフトが出てきたときの大きな問題点はその機能の評価方法である。技術を構築した人間による自己評価はえてして信用ならない。というのはほとんどすべての変異機能予測技術はテストした他の技術より良いと報告している。確かにこの論文も該当します(21/n)

2023-10-31 11:59:09
Jun Yasuda @jyasuda1

解説記事の指摘3:機能予測ソフトは変異の意義の解釈や(さらなる研究の)優先順位を決めるのには有用だが、臨床的な確たる定義には使えない。臨床では様々なエビデンスを組み合わせる必要がある。こちらもしごくごもっともですが、研究を前に進めるかの勇気をくれるところに意義があるかと(22/n)。

2023-10-31 12:00:52

個人的な感想

Jun Yasuda @jyasuda1

以下、私個人の感想ですが、1)ヒトによるキュレーションをできるだけ排したデータを活用した深層学習で、アミノ酸配列の「文脈」を考慮に入れた点がこれまでの「進化学的機能予測」よりも新しい気がします。(23/n)

2023-10-31 12:02:19
Jun Yasuda @jyasuda1

2)ClinVarとの一致率を90%の線で引いているがやや低く、臨床にそのまま使えるわけではないのも事実かと。後でデータを見ようと思いますが、日本人のMAFを学習ラベルに使うと少し変わりそうに思います。(24/n)

2023-10-31 12:03:35
Jun Yasuda @jyasuda1

3)既にデータが公開されており、明日からでも臨床の現場で参考値として参照することができそうでしたが、ゲノム情報からの参照では漏れがありそうに思われます(検証不十分なのでこちらについては後日状況を確認後に書いてみます)。いずれにせよ、大変な労作で今後活用したいですね(25/n終)

2023-10-31 12:06:00

実データ(ゲノム情報からの確認)についてのポスト

Jun Yasuda @jyasuda1

Google アカウントがいるかもですが、AlphaMissenseで検索すると判定結果をDLできるサイトに辿り着きます。hg38 なのと、形式がややvcfと異なるため加工は必要ですが、すべて一アミノ酸置換の判定が参照できそうです。

2023-10-22 07:32:17
Jun Yasuda @jyasuda1

これ、私の勘違いでした。Alphamissense_hg19.tsv.gzをDLすべきで、これをちょっと変形すれば大丈夫でした。お詫びして訂正します。罪滅ぼしに、後ほど54KJPNとこれを対応させて報告します(すぐではないですが)。

2023-11-01 09:26:11
Jun Yasuda @jyasuda1

なお、誤解を招くポストは削除しました。

2023-11-01 09:27:08
Jun Yasuda @jyasuda1

54KJPNとgnomAD exomeとAlphaMissenseの散布図。赤枠がAMでいうところのlikely pathogenics。gnomADの方が点の総数が3.6倍程度多いことを考えると、学習データの偏りがfalse positiveにつながっていそうなことが分かる。日本人でAMの結果を評価する場合にはMAFによって別途のフィルタリングが必要。 pic.twitter.com/yvSlrcs1a4

2023-11-02 14:39:11
拡大