身長が正規分布に従う理由をNatureの論文から考えてみた。

成人の身長は正規分布に従うことが知られている。 いやそもそも正規分布って何よ?という人にも理解できるよう、身近な例から説明していく。 そしてなぜ成人の身長が正規分布に従うかの考察を、統計学と分子生物学の両方から迫っていく。 考察のカギになるのは2022年10月に出たばかりの「身長に関連した遺伝子多型は12111個もあった」というNatureの論文。 続きを読む
22
もりふじ @疫学トーク @morifuji_eki

面白そう! 身長が正規分布に従うのは、 身長が、 独立同分布とみなせる多数のSNPの和の表現系と近似的に考えれば、 中心極限定理により導かれるというわけですね。 はい、呪文唱え終わりましたので、今夜連続ツイートしていきます。 twitter.com/yuji_ikegaya/s…

2022-10-13 14:11:46
池谷裕二 @yuji_ikegaya

【身長の遺伝子】身長の遺伝率は約50%と高めです。この原因となる遺伝子を探したところ、一つの遺伝子に帰結せず、むしろ12,111個もの遺伝子変異に散ちらばっていたそうです。結論は「ゲノムの大部分が身長に関与している」とのこと。今朝の『ネイチャー』誌より→ nature.com/articles/s4158…

2022-10-13 12:16:21
もりふじ @疫学トーク @morifuji_eki

問題。 カタンというボードゲームでは各プレイヤーがサイコロを2つ振る。 出た目の和の数字が書かれた土地から資源が出る。 どの数字の土地を選ぶとより多くの資源を獲得できるか? ただし7という数字の土地はない。

2022-10-13 20:39:07
もりふじ @疫学トーク @morifuji_eki

答えは6と8だ。 それぞれ5/36の確率で出る。 ということでカタンプレイヤーは当然6とか8の土地を選ぼうとするわけだ。 31investment.com/probability-di…

2022-10-13 20:42:45
もりふじ @疫学トーク @morifuji_eki

ではここで、 サイコロを10000個振ったときの出た目の和で カタンをやることを考えよう。 プレイヤーはどの数字が書かれた土地を選ぶだろうか。

2022-10-13 20:44:40
もりふじ @疫学トーク @morifuji_eki

どの土地を選んでも確率は極小だから、 プレイヤーは資源を獲得する前に寿命を迎えて死んでしまう。 これが、 #カタンをする哲学者の問題 だ。 ja.m.wikipedia.org/wiki/%E9%A3%9F…

2022-10-13 20:48:21
もりふじ @疫学トーク @morifuji_eki

というのは冗談で、10000個のサイコロを振ったら、最も出やすいのは35000であろう。 和の期待値は期待値の和、という話で説明できるので、分からない方は読んでみて。 manabitimes.jp/math/698

2022-10-13 20:50:16
もりふじ @疫学トーク @morifuji_eki

さて、ここでサイコロを10000個振った和の確率の分布をみてみよう。 もともとサイコロ1個だと、どの目も等しい確率で出ていたのに、 サイコロ2個の和となると、山型の分布になった。 10000個をすると、山の形が綺麗な釣り鐘型になる。 この形が、 #正規分布 だ。

2022-10-13 20:56:05
もりふじ @疫学トーク @morifuji_eki

この正規分布、 実は多数のサイコロの和だけで現れる分布ではなく、 色々な確率的な自然現象の分布が従う分布であることが知られている。 何故かみんなこの形に従ってしまう。 それを可視化したのが #ゴルトンボード 。ぜひ見てみて。感激するから。あれが正規分布よ。 youtu.be/WFhV2Ub_txw

2022-10-13 21:01:16
拡大
もりふじ @疫学トーク @morifuji_eki

ゴルトンボードのゴルトンは、進化論を提唱したダーウィンのいとこで、ダーウィンの進化論を統計学で支えた。 種の大きさの平均値を地域ごとに出して、そこに差があるかどうかで、進化なのかどうか説明しよう、という感じだった(曖昧 ちなダーウィンはあんまり統計には興味なかったらしい。

2022-10-13 21:05:31
もりふじ @疫学トーク @morifuji_eki

ゴルトンボード、やってることはサイコロ10000個とほぼ同じ。 左右のどちらに落ちるか、が1/2の確率のなかで、 何回右に落ちたか、を可視化したものだ。 つまり0と1からなるサイコロの和、 と本質的に等しい。 だからゴルトンボードも正規分布を描くのだ。

2022-10-13 21:11:04
もりふじ @疫学トーク @morifuji_eki

ここで面白い話があって、 実は、 成人の身長も、正規分布に従う、と言われているのだ。 ai-trend.jp/basic-study/no…

2022-10-13 21:14:47
もりふじ @疫学トーク @morifuji_eki

上の記事によると、身長が正規分布に従う理由はありません、とある。 正しい科学的態度だ、と感心させられた。 だが私は本日ある論文の存在を知り、身長が正規分布に従うそれっぽい理由を考えることに成功した。 今月Natureに出たばかりの身長と遺伝子多型の論文である。 nature.com/articles/s4158…

2022-10-13 21:20:03
もりふじ @疫学トーク @morifuji_eki

この論文によると、 ヒトの身長に有意な関連がみられた一塩基多型(DNAの1箇所のみの個体差)は、 なんと12111個もあることが分かったらしい! これを聞いてもりふじはピンときた。 サイコロを12111回振って出た目の和が身長になりますよ、と同じように考えられるのでは?と。

2022-10-13 21:26:11
もりふじ @疫学トーク @morifuji_eki

そうすると賢い読者の興味関心は、 一塩基多型って何?となるはず。 ありがとう。説明します。 まず一塩基多型はSNP(single nucleotide polymorphism)というので今後はSNPと呼ばせて。 あとこれエスエヌピーって読まずに、 スニップ、って読むから。 分かってる人アピールにもなるのでオススメ。

2022-10-13 21:32:45
もりふじ @疫学トーク @morifuji_eki

SNPについて学ぶ前に、ヒトゲノムってのがどういうものなのか概要をつかんだほうがいい。 ヒトゲノムは30億個の、4種類の文字の羅列からなる。 文字のことを塩基と呼ぶ。 塩基は、酸塩基の塩基、つまりアルカリ性という意味ではある。ただDNAは酸だったりしてややこしいので今は飲み込んどく。

2022-10-13 21:42:24
もりふじ @疫学トーク @morifuji_eki

4つの塩基はそれぞれA T C Gという略称を持つ。 なのでヒトゲノムは、大方このATCGの4文字だけで書かれた30億のデータ、と考えられる。 いかにもこのデータこそが個性なんだ、と思いがちだが冷静にさせたいのでひとつ事実を投下する。 読者の皆さんともりふじのゲノムの差はせいぜい0.1%しかない。

2022-10-13 21:50:58
もりふじ @疫学トーク @morifuji_eki

でも30億の0.1%だから、300万箇所ぐらいは違っている。 この300万個ぐらいの場所では、ある人はAである人はG、みたいなことになっている。 こういう箇所のことをSNPというのだ。

2022-10-13 21:54:22
もりふじ @疫学トーク @morifuji_eki

あ、ここで言い忘れてた重要な事実が。 この30億のゲノムを、我々は基本的には2つ持ってるよ、という事実。 それぞれ親から引き継がれたものだ。 ということでSNPは基本的に親から引き継がれる。ただ親も2つのゲノムを持ってるので、そのどちらが選ばれるかはランダム。

2022-10-13 22:05:30
もりふじ @疫学トーク @morifuji_eki

で、先ほどの論文に戻ると、12111箇所のSNPが身長に関連していたということなわけだ。 つまり、我々は生まれた時に、 身長ガチャというものを12111回やってるのだ。 正確には親がすでにやったガチャの結果を半分ずつぐらい引き継いでるのだが。

2022-10-13 22:09:10
もりふじ @疫学トーク @morifuji_eki

我々はゴルトンボードの中の1粒の球だ。 左右に弾くパーツは身長に関連したSNPだ。 その結果、身長が決まっているのだ。 だから我々の身長は正規分布に従うのだ。

2022-10-13 22:14:22
もりふじ @疫学トーク @morifuji_eki

ゴルトンボードと違って親の影響があるじゃないか。 そうですね、では皆さんは、ゴルトンボードの、落ちる直前の高さの行ぐらいにいる人たちですよ、と考えてみる。 そうすると、親の影響ですでに身長の運命はある程度決まってるけど、という値になるから。

2022-10-13 22:19:19
もりふじ @疫学トーク @morifuji_eki

という感じです、いつも連続ツイートにお付き合いいただきありがとうございました。 こっからは補足など書いていきます。

2022-10-13 22:20:33
もりふじ @疫学トーク @morifuji_eki

まず、昔の日本人は小さかった、というのはどう説明するのだ、という話。 これは、我々の身長は遺伝と環境の両方からなるのだ、ということだ。 今回の論文では540万人の身長データを用いたというが、分析の際には年齢や栄養状態などの因子で揃えなければならない。

2022-10-13 22:24:28
もりふじ @疫学トーク @morifuji_eki

そうしないとみんな大好き #交絡 が発生してしまう。 例えば、ある地域でよくみられるSNPが身長関連かと思ったら、実際にはその地域は栄養が満足に得られない状況であった、などだ。 交絡はほんといつだって出てくるからね。

2022-10-13 22:27:15
もりふじ @疫学トーク @morifuji_eki

あとは、身長が高いほどモテると考えたらどうか、という話もありそうだ。 選択圧が働いている、などという。こういう場合は分布は歪むはずだが、 実際には男性にのみ見られる傾向な気もするから?今のところ大丈夫なのかも知れぬ(ここは曖昧

2022-10-13 22:30:40