DeepMindによるヒトタンパク質変異インパクト予測AlphaMissenseに付いての論文紹介記事。

タンパク質構造予測で研究業界を席巻したAlphaFold2の流れで、疾患に関連する可能性のある変異を予測したAlphaMissenseの論文の半可通による紹介記事
3
Jun Yasuda @jyasuda1

今週のScience誌の表紙を飾った、ヒトのすべてのタンパク質多型のインパクトを推定したAlphaMisssenseについての論文。驚くことに32%の多型が病的か病的な可能性があるらしい。ClinVarとは90%一致。明日からのエキスパートパネルで問題になりそうな論文。 science.org/doi/10.1126/sc…

2023-09-24 08:46:35
Jun Yasuda @jyasuda1

この論文、研究所の抄読会用に読みました。来週くらいか、余裕があったら連ポストで紹介します。

2023-10-21 20:20:06

まずは前置き:論文の流れに沿って、ポストの時系列は多少変えています

Jun Yasuda @jyasuda1

さて、AlphaMissense論文、よんでみた感想を手短に書いてみます。まず全体として学習セットについてはClinVarなどヒトの手垢の付いたものは使っておらず、こちらはモデルの検証にのみ使っている点は大事かなと思いました(1/n)。

2023-10-31 11:06:34
Jun Yasuda @jyasuda1

AlphaMissense(以下AM)で採用したのは3つのデータ。ひとつは人間による分類によらない、弱いラベリング=ヒトや他の霊長類で高頻度に観察されたものを“良性”、病的な変異は“ヒト集団で観察されていない、というもの。人間によるbiasは入りにくいが、間違いも多くなる(2/n)。

2023-10-31 11:08:44
Jun Yasuda @jyasuda1

もう一つはアミノ酸配列でのアミノ酸の分布のパターンの特徴ごとに、アミノ酸の変異のばらつきを教師なしで学習(病的変異は参照配列と変異配列のlog最尤値をもって評価)。タンパク質の高次構造は考慮されない。こちら自然言語処理に近いのかな?(3/n)。

2023-10-31 11:09:52
Jun Yasuda @jyasuda1

そして多分これまでの機能予測モデルより進んでいそうな点は、AlphaFoldのように、タンパク質の構造との関連からアミノ酸変異の意義を探る手法で、AlphaFoldではヒトゲノムの多様性が十分でないため機能が発揮できていないらしい。(4/n)

2023-10-31 11:11:36
Jun Yasuda @jyasuda1

ちょっと驚いたのは(というか無知をさらけ出すようですが)、”AlphaFoldは一塩基置換による構造変化を的確に予想できない”って書いてあったんですよ。そうなんだー。そういえばこんな記事も出ていたような。(5/n) twitter.com/jyasuda1/statu…

2023-10-31 11:14:18
Jun Yasuda @jyasuda1

Alphafoldなどのタンパク質構造予測データがそのまま創薬(具体的には高親和性を示す小分子の探索)に使えるほどの高精度ではないという複数の研究者の意見を紹介しつつ、昨今の動向を解説したNatureの記事。そもそも結構計算機資源を必要とする解析らしい。 nature.com/articles/d4158…

2023-10-05 19:09:54
Jun Yasuda @jyasuda1

ちょっと読み始めたのですが、こんなことが書いてありました。Notably, AlphaMissense does not predict the structural changes of the mutated amino acid sequences but instead predicts pathogenicity as scalar values. つまり、あくまでタンパク質配列の文脈などからインパクトのみを類推。

2023-09-24 18:28:36
Jun Yasuda @jyasuda1

Alphafoldなどのタンパク質構造予測データがそのまま創薬(具体的には高親和性を示す小分子の探索)に使えるほどの高精度ではないという複数の研究者の意見を紹介しつつ、昨今の動向を解説したNatureの記事。そもそも結構計算機資源を必要とする解析らしい。 nature.com/articles/d4158…

2023-10-05 19:09:54

実際に学習に使ったデータセットについて

Jun Yasuda @jyasuda1

計算上、重要なデータセットとなったのがよく分からなかったのですが、元のアミノ酸配列から類縁の似たようなアミノ酸配列をデータベースより収集して並べた(アライメントした)Multiple Sequence Alignment: MSAというものらしい。(6/n)

2023-10-31 11:16:38
Jun Yasuda @jyasuda1

このMSAについてはこちらのサイトで勉強しましたがよくわかんなかったです。学習の効率にウインドウサイズが効いて来そうだけどどうやって調節したのかなど説明能力は私にはないです。多型があるところはマスク、というのは意味がわかるような(7/n)。 qiita.com/chanfuku18/ite…

2023-10-31 11:19:18
Jun Yasuda @jyasuda1

図1Bに、霊長類で1/1000, ヒトで1/5000のアレル頻度の変異には良性と重みづけされていると記載があります。このMAFの設定はかなりリアルな感じで、普通MAF = 1%を多型としてますが、それよりもずっと「らしい」イメージです。また霊長類のデータも500頭位あるということのようですね。(8/n)

2023-10-31 11:22:49

ClinVarなど、臨床データベースとの比較

Jun Yasuda @jyasuda1

Supplementary 等に記載があるのですが、AMでは多型を3段階に分けていて、likely benign, ambiguous, likely pathogenicです。これはスコアでバッサリ決めているのでわかりやすい。ClinVarとの比較では良性と病的が揃っている(=よく解析されている)遺伝子に厳選しています(図2)(9/n)。

2023-10-31 11:25:47
Jun Yasuda @jyasuda1

ただ、検証データが臨床に近づくほど精度は落ちてきます。ClinVarと直接では94%一致ですが、癌でのドライバー変異になると90%程度、いわゆる未診断疾患プロジェクトで同定された病的変異になると8割程度になります。(10/n)

2023-10-31 11:28:33
Jun Yasuda @jyasuda1

がんのドライバー変異について。 We also evaluated our model on classifying cancer hotspots, where AlphaMissense achieves an auROC of 0.907 compared with 0.885 for the next-best model, VARITY (P = 0.001, bootstrap) (9) (fig. S2D).

2023-09-26 17:29:48

アミノ酸変異のインパクトやタンパク質構造との関係について

Jun Yasuda @jyasuda1

さらにintrinsic disordered regionになるとこちらも8割程度まで一致率が落ちるようです(Supplementary Fig. 2C)。面白くて参考になりそうなのはSupplementary Figure 4G。全アミノ酸の全変化について病的なものとそうでないものをheatmapで出しています(11/n)。

2023-10-31 11:31:38
Jun Yasuda @jyasuda1

こんなことも。いわゆるdisordered domainでの予測精度は低くなるらしい。Alphafoldの構造予測精度も低そうですが、どうなのかな。 However, we note reduced performance on variants from residues predicted to be disordered (fig. S2C).

2023-09-24 18:42:40
Jun Yasuda @jyasuda1

例えばトリプトファンやチロシン、フェニルアラニンや分枝鎖アミノ酸(I, L, V)は変化すると病的なものが多い。一方、プロリン、セリン、スレオニンは変異があっても平気なものが多そうです。自分たちで病的な変異体を設計するときに便利そうですね。(12/n)

2023-10-31 11:33:06
Jun Yasuda @jyasuda1

二次構造単位で見ても、膜貫通ドメインでの変異は意外に影響が小さいなどあるようです(図2F)。このあと、いわゆるmultiplex Assay of Variant EffectのデータセットとしてProteinGymなどと比較し、他の予測アルゴリズムとの成績評価をしています(図3)(12/n)。

2023-10-31 11:37:05
Jun Yasuda @jyasuda1

さらにタンパク質機能ドメイン単位での予測についても網羅的解析の結果とパターンが良く似ていると自画自賛状態です(図3DEなど)。面白いのは機能が上昇するような変異は病的な場合に必ずしも予測できないケースが有るとか(13/n)。

2023-10-31 11:39:32