「最尤推定量とMAP推定量はどちらが普遍的な概念か」

9
計量ちゃん❄️準備中 @Keiryo_tan

いつもとだいぶ話の毛色が違うけど、測定の標準化に関係しなくもない話題ということで…。

2015-10-29 12:48:50
計量ちゃん❄️準備中 @Keiryo_tan

ベイズ推測以前の事柄として、分布のモード(最頻値)はパラメータのとり方に依存してるんだよね。

2015-10-29 12:54:35
計量ちゃん❄️準備中 @Keiryo_tan

たとえばXが一様分布(0 < x < 1)のときに、「Y = √X」や「Z = −log(1 − X)」を考えると、それぞれの確率密度関数は、 f_X(x) = 1 f_Y(y) = 2y f_Z(z) = e^−z

2015-10-29 12:56:48
計量ちゃん❄️準備中 @Keiryo_tan

Xのモードは定義域全体、Yは「y = 1 (x = 1に対応)」、Zは「z = 0 (x = 0に対応)」。(ちなみにZは指数分布) X、Y、Zのモードに対応するxの値が同じにならない。

2015-10-29 13:02:02
計量ちゃん❄️準備中 @Keiryo_tan

メジアンや分位数は変数変換に対して安定だから、信頼区間やベイズ信用区間がよく使われる理由の一つかも。

2015-10-29 13:05:15
計量ちゃん❄️準備中 @Keiryo_tan

ベイズ統計たんが言ってるのは「MAP推定量がパラメータのとり方に依存する」で、「ベイズ推測がパラメータのとり方に依存する」じゃないよね…?

2015-10-29 13:08:00
計量ちゃん❄️準備中 @Keiryo_tan

事前分布と事後分布に同じスケール補正がかかるから、事後分布は「実質的に」パラメータのとり方に依存しないはず。

2015-10-29 13:09:46
計量ちゃん❄️準備中 @Keiryo_tan

MAP推定量の話は、事後分布の要約の問題という気がする。 ありきたりになっちゃうけど、事後分布そのものをベイズ推測の結果と考えればいいかな。

2015-10-29 13:10:57
計量ちゃん❄️準備中 @Keiryo_tan

ああ時間が…。最尤推定量との比較については夕方頃にまた。

2015-10-29 13:14:33
計量ちゃん❄️準備中 @Keiryo_tan

…書きたいことがほとんど残ってなかった。

2015-10-29 19:40:55
ベイズ統計たん @Bayesian_tan

.@keiryo_tan だいたいその通りで、例えば事後分布による平均とかは、私が言っている意味ではパラメータに依りませんね。

2015-10-30 05:44:58
ベイズ統計たん @Bayesian_tan

「最尤推定量とMAP推定量はどちらが普遍的な概念か」 - Togetterまとめ togetter.com/li/891596 まとめられていました。ありがとうございます。

2015-10-30 05:45:26
ベイズ統計たん @Bayesian_tan

.@keiryo_tan さんも仰っているとおり、「パラメータ変換してモードをとって逆変換で引き戻す」という操作が変換依存です。知りたいのが「パラメータのθ値」ではなく「パラメータでθ指定されるXの確率分布」であるという立場を取る限りMAP推定はこの問題をはらみます。

2015-10-30 05:50:24
ベイズ統計たん @Bayesian_tan

わざわざ難しく言ってしまえば、統計多様体の言葉で問題を書いたときに、MAPは局所座標のとり方に依り、多様体の内在的な言葉で書けません。

2015-10-30 05:52:02
ベイズ統計たん @Bayesian_tan

ちなみに、「Jeffreys事前分布がパラメータ不変」という話のパラメータ不変とはちょっと意味合いが異なります。そちらは単に多様体の内在的な言葉で密度が指定できるかできないかという話で、Jeffreysを使ったとしてもやっぱりMAP推定はパラメータに依ります。

2015-10-30 05:54:02
Mr. ベイエリア @csstudyabroad

自分が最尤法嫌いなのはもっと単純な理由で、そもそも条件が異なる二つの量 P(D|u_1) と P(D|u_2) を比べるというセンスがよく分からないから。

2015-10-30 09:32:12
Mr. ベイエリア @csstudyabroad

@Bayesian_tan 2uって事後分布の変数変換(というかそもそも測度の変数変換からきてると思うのですが)からも出てくるので、キャンセルするんじゃないですかね?

2015-10-30 09:54:05
ベイズ統計たん @Bayesian_tan

@csstudyabroad 確かに事後分布そのものは、事前分布と尤度だけできまり、しかるべき変数変換に従います。ただ、事後分布の「モード」という概念はパラメータのとり方の違いを吸収してくれません。

2015-10-30 10:11:31
Mr. ベイエリア @csstudyabroad

@Bayesian_tan いや、そういう話ではなくて、P(theta(u)|x) 2u = P(x|theta(u)) P(theta(u)) 2uが正しいP(theta(u)|x)を与える式なので、これを元にモードを計算すれば、変数変換しても値は変わらないという話です。

2015-10-30 10:51:21
ベイズ統計たん @Bayesian_tan

@csstudyabroad それは、最初にどの基底測度を取ったかに依存しないでしょうか。モードとはあくまで、何かの基底測度を固定したときの密度のargmaxなので、仰る定義なら確かに最初に選んだMAP推定量は復元しますが、事前分布とデータの組だけから自然に決まるものではないかと

2015-10-30 11:33:12
Mr. ベイエリア @csstudyabroad

@Bayesian_tan すいません、自分が間違ってました。事前分布と尤度関係なく、p(x)dx = p(y)dy = p(y)(dy/dx)dxなのでヤコビアンの分、極値はズレますね。おっしゃる通り、xとyの長さの定義が違うので、モードもズレるということですね。

2015-10-30 11:48:14
ベイズ統計たん @Bayesian_tan

@csstudyabroad はい、そんな感じだと認識しています。(もっとも、実用上はデータ数大でMAPも望ましい挙動をするので、あくまで数学的なあ一側面ではありますが…)

2015-10-30 12:17:39
Mr. ベイエリア @csstudyabroad

@Bayesian_tan 計量を真面目に扱ってないのが問題なんだと思います。不変測度を使えばMAP推定(というか密度関数)も変数変換に対して不変に定義できるはずなので。事前分布を与える空間の計量を仮定する必要はありますが、これは最尤法も暗にユークリッドを仮定しているはずですね。

2015-10-30 13:19:02
Mr. ベイエリア @csstudyabroad

@sho_yokoi 自分の意図したこととは違いますが、統計というのは累積分布関数(というかP(a < X < b))ありきで、それに対する漸近定理によって統計の有用性が保証されていて、確率密度は累積分布関数に対する積分方程式を解という見方なんだと思います。

2015-10-30 14:18:15