DeepMindによるヒトタンパク質変異インパクト予測AlphaMissenseに付いての論文紹介記事。
今週のScience誌の表紙を飾った、ヒトのすべてのタンパク質多型のインパクトを推定したAlphaMisssenseについての論文。驚くことに32%の多型が病的か病的な可能性があるらしい。ClinVarとは90%一致。明日からのエキスパートパネルで問題になりそうな論文。 science.org/doi/10.1126/sc…
2023-09-24 08:46:35まずは前置き:論文の流れに沿って、ポストの時系列は多少変えています
さて、AlphaMissense論文、よんでみた感想を手短に書いてみます。まず全体として学習セットについてはClinVarなどヒトの手垢の付いたものは使っておらず、こちらはモデルの検証にのみ使っている点は大事かなと思いました(1/n)。
2023-10-31 11:06:34AlphaMissense(以下AM)で採用したのは3つのデータ。ひとつは人間による分類によらない、弱いラベリング=ヒトや他の霊長類で高頻度に観察されたものを“良性”、病的な変異は“ヒト集団で観察されていない、というもの。人間によるbiasは入りにくいが、間違いも多くなる(2/n)。
2023-10-31 11:08:44もう一つはアミノ酸配列でのアミノ酸の分布のパターンの特徴ごとに、アミノ酸の変異のばらつきを教師なしで学習(病的変異は参照配列と変異配列のlog最尤値をもって評価)。タンパク質の高次構造は考慮されない。こちら自然言語処理に近いのかな?(3/n)。
2023-10-31 11:09:52そして多分これまでの機能予測モデルより進んでいそうな点は、AlphaFoldのように、タンパク質の構造との関連からアミノ酸変異の意義を探る手法で、AlphaFoldではヒトゲノムの多様性が十分でないため機能が発揮できていないらしい。(4/n)
2023-10-31 11:11:36ちょっと驚いたのは(というか無知をさらけ出すようですが)、”AlphaFoldは一塩基置換による構造変化を的確に予想できない”って書いてあったんですよ。そうなんだー。そういえばこんな記事も出ていたような。(5/n) twitter.com/jyasuda1/statu…
2023-10-31 11:14:18Alphafoldなどのタンパク質構造予測データがそのまま創薬(具体的には高親和性を示す小分子の探索)に使えるほどの高精度ではないという複数の研究者の意見を紹介しつつ、昨今の動向を解説したNatureの記事。そもそも結構計算機資源を必要とする解析らしい。 nature.com/articles/d4158…
2023-10-05 19:09:54ちょっと読み始めたのですが、こんなことが書いてありました。Notably, AlphaMissense does not predict the structural changes of the mutated amino acid sequences but instead predicts pathogenicity as scalar values. つまり、あくまでタンパク質配列の文脈などからインパクトのみを類推。
2023-09-24 18:28:36Alphafoldなどのタンパク質構造予測データがそのまま創薬(具体的には高親和性を示す小分子の探索)に使えるほどの高精度ではないという複数の研究者の意見を紹介しつつ、昨今の動向を解説したNatureの記事。そもそも結構計算機資源を必要とする解析らしい。 nature.com/articles/d4158…
2023-10-05 19:09:54実際に学習に使ったデータセットについて
計算上、重要なデータセットとなったのがよく分からなかったのですが、元のアミノ酸配列から類縁の似たようなアミノ酸配列をデータベースより収集して並べた(アライメントした)Multiple Sequence Alignment: MSAというものらしい。(6/n)
2023-10-31 11:16:38このMSAについてはこちらのサイトで勉強しましたがよくわかんなかったです。学習の効率にウインドウサイズが効いて来そうだけどどうやって調節したのかなど説明能力は私にはないです。多型があるところはマスク、というのは意味がわかるような(7/n)。 qiita.com/chanfuku18/ite…
2023-10-31 11:19:18図1Bに、霊長類で1/1000, ヒトで1/5000のアレル頻度の変異には良性と重みづけされていると記載があります。このMAFの設定はかなりリアルな感じで、普通MAF = 1%を多型としてますが、それよりもずっと「らしい」イメージです。また霊長類のデータも500頭位あるということのようですね。(8/n)
2023-10-31 11:22:49ClinVarなど、臨床データベースとの比較
Supplementary 等に記載があるのですが、AMでは多型を3段階に分けていて、likely benign, ambiguous, likely pathogenicです。これはスコアでバッサリ決めているのでわかりやすい。ClinVarとの比較では良性と病的が揃っている(=よく解析されている)遺伝子に厳選しています(図2)(9/n)。
2023-10-31 11:25:47ただ、検証データが臨床に近づくほど精度は落ちてきます。ClinVarと直接では94%一致ですが、癌でのドライバー変異になると90%程度、いわゆる未診断疾患プロジェクトで同定された病的変異になると8割程度になります。(10/n)
2023-10-31 11:28:33がんのドライバー変異について。 We also evaluated our model on classifying cancer hotspots, where AlphaMissense achieves an auROC of 0.907 compared with 0.885 for the next-best model, VARITY (P = 0.001, bootstrap) (9) (fig. S2D).
2023-09-26 17:29:48アミノ酸変異のインパクトやタンパク質構造との関係について
さらにintrinsic disordered regionになるとこちらも8割程度まで一致率が落ちるようです(Supplementary Fig. 2C)。面白くて参考になりそうなのはSupplementary Figure 4G。全アミノ酸の全変化について病的なものとそうでないものをheatmapで出しています(11/n)。
2023-10-31 11:31:38こんなことも。いわゆるdisordered domainでの予測精度は低くなるらしい。Alphafoldの構造予測精度も低そうですが、どうなのかな。 However, we note reduced performance on variants from residues predicted to be disordered (fig. S2C).
2023-09-24 18:42:40例えばトリプトファンやチロシン、フェニルアラニンや分枝鎖アミノ酸(I, L, V)は変化すると病的なものが多い。一方、プロリン、セリン、スレオニンは変異があっても平気なものが多そうです。自分たちで病的な変異体を設計するときに便利そうですね。(12/n)
2023-10-31 11:33:06二次構造単位で見ても、膜貫通ドメインでの変異は意外に影響が小さいなどあるようです(図2F)。このあと、いわゆるmultiplex Assay of Variant EffectのデータセットとしてProteinGymなどと比較し、他の予測アルゴリズムとの成績評価をしています(図3)(12/n)。
2023-10-31 11:37:05さらにタンパク質機能ドメイン単位での予測についても網羅的解析の結果とパターンが良く似ていると自画自賛状態です(図3DEなど)。面白いのは機能が上昇するような変異は病的な場合に必ずしも予測できないケースが有るとか(13/n)。
2023-10-31 11:39:32