- masashinakata
- 12097
- 37
- 8
- 17
ベイジアンの皆さんごきげんよう。とある所で話題になっていたので、「最尤推定量とMAP推定量はどちらが普遍的な概念か」という話をしてみようかと思います。
2015-10-25 07:14:37用語のおさらいです。 p(x |θ) というのを確率密度関数、θを未知のパラメータとします。 p(x|θ)にしたがう観測X = {x1, x2, …, xn}が得られた場合、そこからθを推定せよ、という問題を考えるとします。
2015-10-25 07:14:59最尤推定量(以下、MLE)とは、尤度 p(X | θ) = Πp(xi | θ)を最大化するθです。 一方、MAP推定量(以下、MAP)とは、事前分布π(θ)を用意して、事後分布の密度関数 p(θ | X) ∝ p(X|θ)π(θ)を最大化するθのこととします。
2015-10-25 07:15:52さて、MAPにおいて一様分布、つまりπ(θ)=1とすれば、MLEと同じθを与えます。 こういう意味では、MAPはMLEを含んでいるように見えるので、MAPの方が普遍的な概念に見えます。
2015-10-25 07:16:11統計的な推定の性質は、何によって決まるべきでしょうか。 与えられた「材料」は次のとおりです。 (1) 観測Xと、それがしたがう未知の確率分布p (2) 確率分布の候補集合。ここでは、パラメータθで添字がついた密度の集合 {p(x|θ)} とします (3) 候補集合上の事前分布π
2015-10-25 07:16:54わたしたちが本当に推定したいのは確率分布pですから、パラメータθというよりは、「分布 p(x|θ) の集合」の方に確率測度が定まっていると考えることにします。 そうすると、事前分布の密度関数は「パラメータの変換」に影響されることになります。
2015-10-25 07:18:22次のような例を考えてください。 Xはコイン投げの観測として、x1, x2などは1か0の数字(表と裏)であるとします。 表が出る確率を推定します。つまり、ベルヌーイ分布 p(x|θ) = x^θ (1-x)^(1-θ) のパラメータθを当てることを考えます。
2015-10-25 07:18:48事前分布として一様分布、つまりπ(θ) = 1を考えてみましょう。 定義から、MAP推定量はMLEと同じで、(Σx_i)/nとなります。仮にMAP1としましょう。
2015-10-25 07:19:37ちょっとわかる人向きに脱線しますが、π(θ) = 1はBeta(1,1)なので共役事前分布ではありますが、Jeffreys事前分布ではありません。 Jeffreys事前分布はBeta(0.5, 0.5)です。
2015-10-25 07:19:55さて、突然ですが、θ = u^2というパラメータ変換を考えてみましょう。 意味をこじつけるならば、あるコインで1が出る確率が、コインに含まれるある金属の含有量uの2乗に比例するということがわかっていたとします。 このとき、コインの表の回数を、含有比率の言葉で説明したい。
2015-10-25 07:20:32さきほどと同じ事前分布πを使うことにします。 変数変換を考えると、uの世界で同じ分布を表す密度関数は π(u) = π(θ(u))θ’(u) = 2u です。
2015-10-25 07:20:55少し雑な図ですが、こういうことです。 θ = u^2という変数変換があるとすると、θの世界で密度が定数だった分布は、uの世界では密度2uを持ちます。 pic.twitter.com/sPmFuGdDrA
2015-10-25 07:21:20このとき、uの世界での事後分布は p(X|u)π(u) = p(X|θ(u)) 2u に比例します。 もとのθの世界での表現と比べてみてください。 分布としては確かに同じものですが、スケール変換を補正するために2uがかかっています。 pic.twitter.com/xl9mgRclUi
2015-10-25 07:22:05MAPを計算してみると、u = ((Σxi + 0.5) / (n+0.5))^(1/2) となります。これをMAP2としましょう。 しかしu^2 = θという関係でしたから、これはMAP1と同じベルヌーイ分布を指定していません! pic.twitter.com/5ef6nOMW98
2015-10-25 07:22:51どうしてこのようなことが起きてしまうのかというと、「尤度関数」と「事前分布の密度関数」は、パラメータの取り替えに関してそれぞれ異なる変換を受けてしまうことに起因します。
2015-10-25 07:23:31パラメータのとり方というのは、統計の問題で「与えられた材料」の一部ではなく、計算上の恣意的なものであることが多いです。 よって、統計的な推定の結果がこれに依存してしまうのは好ましくない、とも考えられます。
2015-10-25 07:24:11というわけで、MLEとMAPで普遍的なのはどちらか、という疑問に対しては、 「パラメータのとり方に依らないMLEの方が普遍的」 という答え方をしておくことにします。
2015-10-25 07:24:40補足: 観測数nが無限大になるとき、事後分布は確率1で真の値をとる、デルタ関数のような分布に収束することが知られています。 1点に尖ってしまうと、どのようなパラメータを取っても形が同じです。漸近的な性質を考えると、パラメータのとり方の違いというのが吸収されて無くなるわけです。
2015-10-25 07:25:46ベイズ統計たん @Bayesian_tan の「最尤推定量とMAP推定量はどちらが普遍的な概念か」を読んだ感想を書いてみるよ。
2015-10-29 12:48:14