更新 2023年11月2日作成 2023年10月31日

DeepMindによるヒトタンパク質変異インパクト予測AlphaMissenseに付いての論文紹介記事。

タンパク質構造予測で研究業界を席巻したAlphaFold2の流れで、疾患に関連する可能性のある変異を予測したAlphaMissenseの論文の半可通による紹介記事

学問 AlphaMissense テクノロジータンパク質変異新型コロナウイルス

jyasuda1
2013
2
14
0
19

3

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

今週のScience誌の表紙を飾った、ヒトのすべてのタンパク質多型のインパクトを推定したAlphaMisssenseについての論文。驚くことに32％の多型が病的か病的な可能性があるらしい。ClinVarとは９０％一致。明日からのエキスパートパネルで問題になりそうな論文。 science.org/doi/10.1126/sc…

2023-09-24 08:46:35

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

こちら、解説記事。science.org/doi/full/10.11…

2023-09-24 08:47:22

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

この論文、研究所の抄読会用に読みました。来週くらいか、余裕があったら連ポストで紹介します。

2023-10-21 20:20:06

まずは前置き：論文の流れに沿って、ポストの時系列は多少変えています

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

さて、AlphaMissense論文、よんでみた感想を手短に書いてみます。まず全体として学習セットについてはClinVarなどヒトの手垢の付いたものは使っておらず、こちらはモデルの検証にのみ使っている点は大事かなと思いました（1/n）。

2023-10-31 11:06:34

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

AlphaMissense（以下AM）で採用したのは３つのデータ。ひとつは人間による分類によらない、弱いラベリング＝ヒトや他の霊長類で高頻度に観察されたものを“良性”、病的な変異は“ヒト集団で観察されていない、というもの。人間によるbiasは入りにくいが、間違いも多くなる（２/n）。

2023-10-31 11:08:44

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

もう一つはアミノ酸配列でのアミノ酸の分布のパターンの特徴ごとに、アミノ酸の変異のばらつきを教師なしで学習（病的変異は参照配列と変異配列のlog最尤値をもって評価）。タンパク質の高次構造は考慮されない。こちら自然言語処理に近いのかな？（3/n）。

2023-10-31 11:09:52

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

そして多分これまでの機能予測モデルより進んでいそうな点は、AlphaFoldのように、タンパク質の構造との関連からアミノ酸変異の意義を探る手法で、AlphaFoldではヒトゲノムの多様性が十分でないため機能が発揮できていないらしい。（4/n）

2023-10-31 11:11:36

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

ちょっと驚いたのは（というか無知をさらけ出すようですが）、”AlphaFoldは一塩基置換による構造変化を的確に予想できない”って書いてあったんですよ。そうなんだー。そういえばこんな記事も出ていたような。（5/n） twitter.com/jyasuda1/statu…

2023-10-31 11:14:18

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

Alphafoldなどのタンパク質構造予測データがそのまま創薬（具体的には高親和性を示す小分子の探索）に使えるほどの高精度ではないという複数の研究者の意見を紹介しつつ、昨今の動向を解説したNatureの記事。そもそも結構計算機資源を必要とする解析らしい。 nature.com/articles/d4158…

2023-10-05 19:09:54

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

ちょっと読み始めたのですが、こんなことが書いてありました。Notably, AlphaMissense does not predict the structural changes of the mutated amino acid sequences but instead predicts pathogenicity as scalar values. つまり、あくまでタンパク質配列の文脈などからインパクトのみを類推。

2023-09-24 18:28:36

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

Alphafoldなどのタンパク質構造予測データがそのまま創薬（具体的には高親和性を示す小分子の探索）に使えるほどの高精度ではないという複数の研究者の意見を紹介しつつ、昨今の動向を解説したNatureの記事。そもそも結構計算機資源を必要とする解析らしい。 nature.com/articles/d4158…

2023-10-05 19:09:54

実際に学習に使ったデータセットについて

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

計算上、重要なデータセットとなったのがよく分からなかったのですが、元のアミノ酸配列から類縁の似たようなアミノ酸配列をデータベースより収集して並べた（アライメントした）Multiple Sequence Alignment: MSAというものらしい。（6/n）

2023-10-31 11:16:38

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

このMSAについてはこちらのサイトで勉強しましたがよくわかんなかったです。学習の効率にウインドウサイズが効いて来そうだけどどうやって調節したのかなど説明能力は私にはないです。多型があるところはマスク、というのは意味がわかるような（7/n）。 qiita.com/chanfuku18/ite…

2023-10-31 11:19:18

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

図１Bに、霊長類で1/1000, ヒトで1/5000のアレル頻度の変異には良性と重みづけされていると記載があります。このMAFの設定はかなりリアルな感じで、普通MAF = 1%を多型としてますが、それよりもずっと「らしい」イメージです。また霊長類のデータも５００頭位あるということのようですね。（8/n）

2023-10-31 11:22:49

ClinVarなど、臨床データベースとの比較

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

Supplementary 等に記載があるのですが、AMでは多型を３段階に分けていて、likely benign, ambiguous, likely pathogenicです。これはスコアでバッサリ決めているのでわかりやすい。ClinVarとの比較では良性と病的が揃っている（＝よく解析されている）遺伝子に厳選しています（図２）（9/n）。

2023-10-31 11:25:47

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

ただ、検証データが臨床に近づくほど精度は落ちてきます。ClinVarと直接では９４％一致ですが、癌でのドライバー変異になると９０％程度、いわゆる未診断疾患プロジェクトで同定された病的変異になると８割程度になります。（10/n）

2023-10-31 11:28:33

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

がんのドライバー変異について。 We also evaluated our model on classifying cancer hotspots, where AlphaMissense achieves an auROC of 0.907 compared with 0.885 for the next-best model, VARITY (P = 0.001, bootstrap) (9) (fig. S2D).

2023-09-26 17:29:48

アミノ酸変異のインパクトやタンパク質構造との関係について

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

さらにintrinsic disordered regionになるとこちらも８割程度まで一致率が落ちるようです（Supplementary Fig. 2C)。面白くて参考になりそうなのはSupplementary Figure 4G。全アミノ酸の全変化について病的なものとそうでないものをheatmapで出しています（11/n）。

2023-10-31 11:31:38

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

こんなことも。いわゆるdisordered domainでの予測精度は低くなるらしい。Alphafoldの構造予測精度も低そうですが、どうなのかな。 However, we note reduced performance on variants from residues predicted to be disordered (fig. S2C).

2023-09-24 18:42:40

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

例えばトリプトファンやチロシン、フェニルアラニンや分枝鎖アミノ酸（I, L, V）は変化すると病的なものが多い。一方、プロリン、セリン、スレオニンは変異があっても平気なものが多そうです。自分たちで病的な変異体を設計するときに便利そうですね。（12/n）

2023-10-31 11:33:06

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

二次構造単位で見ても、膜貫通ドメインでの変異は意外に影響が小さいなどあるようです（図２F）。このあと、いわゆるmultiplex Assay of Variant EffectのデータセットとしてProteinGymなどと比較し、他の予測アルゴリズムとの成績評価をしています（図３）（12/n）。

2023-10-31 11:37:05

Ｊｕｎ　Ｙａｓｕｄａ @jyasuda1

さらにタンパク質機能ドメイン単位での予測についても網羅的解析の結果とパターンが良く似ていると自画自賛状態です（図３DEなど）。面白いのは機能が上昇するような変異は病的な場合に必ずしも予測できないケースが有るとか（13/n）。

2023-10-31 11:39:32

1 2 次へ

いま話題のタグ

言語2181 フランス909 台湾1286 インターネット老人会392 食文化841 モールス信号28 ネットスラング122 刀剣乱舞2625 宝石の国107 ちいかわ403 ロシア2636 ガンダム2032 メイドインアビス150 ドラゴンボール436 映画15604