「最尤推定量とMAP推定量はどちらが普遍的な概念か」

ベイズ統計たん @Bayesian_tan

ベイジアンの皆さんごきげんよう。とある所で話題になっていたので、「最尤推定量とMAP推定量はどちらが普遍的な概念か」という話をしてみようかと思います。

2015-10-25 07:14:37

ベイズ統計たん @Bayesian_tan

用語のおさらいです。 p(x |θ) というのを確率密度関数、θを未知のパラメータとします。 p(x|θ)にしたがう観測X = {x1, x2, …, xn}が得られた場合、そこからθを推定せよ、という問題を考えるとします。

2015-10-25 07:14:59

ベイズ統計たん @Bayesian_tan

最尤推定量（以下、MLE）とは、尤度 p(X | θ) = Πp(xi | θ)を最大化するθです。一方、MAP推定量（以下、MAP）とは、事前分布π(θ)を用意して、事後分布の密度関数 p(θ | X) ∝ p(X|θ)π(θ)を最大化するθのこととします。

2015-10-25 07:15:52

ベイズ統計たん @Bayesian_tan

さて、MAPにおいて一様分布、つまりπ(θ)=1とすれば、MLEと同じθを与えます。こういう意味では、MAPはMLEを含んでいるように見えるので、MAPの方が普遍的な概念に見えます。

2015-10-25 07:16:11

ベイズ統計たん @Bayesian_tan

でも、ちょっと待ってください。

2015-10-25 07:16:30

ベイズ統計たん @Bayesian_tan

統計的な推定の性質は、何によって決まるべきでしょうか。与えられた「材料」は次のとおりです。 (1) 観測Xと、それがしたがう未知の確率分布p (2) 確率分布の候補集合。ここでは、パラメータθで添字がついた密度の集合 {p(x|θ)} とします (3) 候補集合上の事前分布π

2015-10-25 07:16:54

ベイズ統計たん @Bayesian_tan

(3)で、「パラメータ上の」ではなく「候補集合上の」と書いたのには少しわけがあります。

2015-10-25 07:17:18

ベイズ統計たん @Bayesian_tan

わたしたちが本当に推定したいのは確率分布pですから、パラメータθというよりは、「分布 p(x|θ) の集合」の方に確率測度が定まっていると考えることにします。そうすると、事前分布の密度関数は「パラメータの変換」に影響されることになります。

2015-10-25 07:18:22

ベイズ統計たん @Bayesian_tan

次のような例を考えてください。 Xはコイン投げの観測として、x1, x2などは1か0の数字（表と裏）であるとします。表が出る確率を推定します。つまり、ベルヌーイ分布 p(x|θ) = x^θ (1-x)^(1-θ) のパラメータθを当てることを考えます。

2015-10-25 07:18:48

ベイズ統計たん @Bayesian_tan

MLEは、ちょっと計算してみると（表が出た回数）/（投げた回数）、つまり (Σx_i)/n になります。

2015-10-25 07:19:16

ベイズ統計たん @Bayesian_tan

事前分布として一様分布、つまりπ(θ) = 1を考えてみましょう。定義から、MAP推定量はMLEと同じで、(Σx_i)/nとなります。仮にMAP1としましょう。

2015-10-25 07:19:37

ベイズ統計たん @Bayesian_tan

ちょっとわかる人向きに脱線しますが、π(θ) = 1はBeta(1,1)なので共役事前分布ではありますが、Jeffreys事前分布ではありません。 Jeffreys事前分布はBeta(0.5, 0.5)です。

2015-10-25 07:19:55

ベイズ統計たん @Bayesian_tan

さて、突然ですが、θ = u^2というパラメータ変換を考えてみましょう。意味をこじつけるならば、あるコインで1が出る確率が、コインに含まれるある金属の含有量uの2乗に比例するということがわかっていたとします。このとき、コインの表の回数を、含有比率の言葉で説明したい。

2015-10-25 07:20:32

ベイズ統計たん @Bayesian_tan

さきほどと同じ事前分布πを使うことにします。変数変換を考えると、uの世界で同じ分布を表す密度関数は π(u) = π(θ(u))θ’(u) = 2u です。

2015-10-25 07:20:55

ベイズ統計たん @Bayesian_tan

少し雑な図ですが、こういうことです。 θ = u^2という変数変換があるとすると、θの世界で密度が定数だった分布は、uの世界では密度2uを持ちます。 pic.twitter.com/sPmFuGdDrA

2015-10-25 07:21:20

拡大

ベイズ統計たん @Bayesian_tan

このとき、uの世界での事後分布は p(X|u)π(u) = p(X|θ(u)) 2u に比例します。もとのθの世界での表現と比べてみてください。分布としては確かに同じものですが、スケール変換を補正するために2uがかかっています。 pic.twitter.com/xl9mgRclUi

2015-10-25 07:22:05

拡大

ベイズ統計たん @Bayesian_tan

MAPを計算してみると、u = ((Σxi + 0.5) / (n+0.5))^(1/2) となります。これをMAP2としましょう。しかしu^2 = θという関係でしたから、これはMAP1と同じベルヌーイ分布を指定していません！ pic.twitter.com/5ef6nOMW98

2015-10-25 07:22:51

拡大

ベイズ統計たん @Bayesian_tan

どうしてこのようなことが起きてしまうのかというと、「尤度関数」と「事前分布の密度関数」は、パラメータの取り替えに関してそれぞれ異なる変換を受けてしまうことに起因します。

2015-10-25 07:23:31

ベイズ統計たん @Bayesian_tan

パラメータのとり方というのは、統計の問題で「与えられた材料」の一部ではなく、計算上の恣意的なものであることが多いです。よって、統計的な推定の結果がこれに依存してしまうのは好ましくない、とも考えられます。

2015-10-25 07:24:11

ベイズ統計たん @Bayesian_tan

というわけで、MLEとMAPで普遍的なのはどちらか、という疑問に対しては、「パラメータのとり方に依らないMLEの方が普遍的」という答え方をしておくことにします。

2015-10-25 07:24:40

ベイズ統計たん @Bayesian_tan

補足：観測数nが無限大になるとき、事後分布は確率1で真の値をとる、デルタ関数のような分布に収束することが知られています。 1点に尖ってしまうと、どのようなパラメータを取っても形が同じです。漸近的な性質を考えると、パラメータのとり方の違いというのが吸収されて無くなるわけです。

2015-10-25 07:25:46

ベイズ統計たん @Bayesian_tan

以上、連ツイでした。

2015-10-25 07:26:03

計量ちゃん❄️準備中 @Keiryo_tan

（あ、ベイズ統計たん @Bayesian_tan 連続ツイートしてたんだ、、）

2015-10-28 07:31:52

計量ちゃん❄️準備中 @Keiryo_tan

（そろそろ私も何かしないと）

2015-10-28 07:41:19

計量ちゃん❄️準備中 @Keiryo_tan

ベイズ統計たん @Bayesian_tan の「最尤推定量とMAP推定量はどちらが普遍的な概念か」を読んだ感想を書いてみるよ。

2015-10-29 12:48:14

いま話題のタグ