「最尤推定量とMAP推定量はどちらが普遍的な概念か」

9
ベイズ統計たん @Bayesian_tan

こちら、ちょっと即答できないくらい難しく、かつ大変興味深い問題を含んでいると感じましたので、少し考えてみました。

2015-10-30 14:31:22
ベイズ統計たん @Bayesian_tan

どういう問題かというと、「観測Xの世界の標準的なスケールと基底測度を固定することなく統計学の問題を健全に解くことができるか」ということです。情報幾何の知識を前提とします。

2015-10-30 14:32:31
ベイズ統計たん @Bayesian_tan

(1) 観測Xの世界の基底測度 (P_0としましょう) を固定すると、最尤推定量は一意であり、パラメータの世界での局所座標のとり方、計量によりません。なぜなら、尤度関数は統計多様体上の関数であり、多様体の点という幾何学的な対象を指定するとぴたりと値が定まる(ご確認ください)

2015-10-30 14:34:22
ベイズ統計たん @Bayesian_tan

(2) ところが、尤度関数というのはP_0に対する密度です。ということは、もしP_0を取り替えるという議論があるならば、これに依存してしまうことになります。

2015-10-30 14:35:21
ベイズ統計たん @Bayesian_tan

(3) P_0を固定する理由を考えてみましたが、そういう議論を見たことがないので少し自信がない。しかし2つ思いつきました。Xが観測であるという意味上の理由と、テクニカルな理由です

2015-10-30 14:36:41
ベイズ統計たん @Bayesian_tan

(4) まず意味上の理由ですが、離散観測(サイコロ、コイン)、なら、1の目が出る確率などを知りたいので、P_0は数え上げ測度が自然、実数値観測ならLebesgue測度が自然、など、解釈上の理由があるかと思います。

2015-10-30 14:38:00
ベイズ統計たん @Bayesian_tan

(5) テクニカルな理由です。われわれは真の分布Pを知りたいですが、それを表現する手段が要る。それは、通常はP_0に対する密度(をパラメトライズしたもの)になると思います。また、統計的手法の良さを議論する場合、そ

2015-10-30 14:39:18
ベイズ統計たん @Bayesian_tan

(6) 情報理論の言葉がつかえると嬉しい。エントロピー、フィッシャー情報量などです。特に、エントロピー (KLダイバージェンス) は真の分布にどれくらいの速さで収束するかという基準になり、所与のものとして問題設定の方に含まれていてほしい。

2015-10-30 14:40:58
ベイズ統計たん @Bayesian_tan

(7) また、パラメータの世界に標準的な計量、測度を与えるとしたら、Fisher計量とJeffreys事前分布な気がします。これは、前述の理由によりP_0を固定しないと定義できません。

2015-10-30 14:41:47
ベイズ統計たん @Bayesian_tan

(8) というわけで、観測の世界の標準的なスケールと基底測度を統計学から取り払うことは、現状難しいように思えます。あるいは、そこを外すことで新しい統計ができるのかもしれません。(終)

2015-10-30 14:42:57
ベイズ統計たん @Bayesian_tan

基底測度がなくても観測を生成している確率分布というのはれっきとして存在するわけでなので、極論をいうと要らない。そこを取り替える議論を開拓するならば、統計学で圏論とかが活躍するのかもしれない #妄言

2015-10-30 14:52:33
ベイズ統計たん @Bayesian_tan

統計学と圏論みたいな数学との相性の悪さは、それが本質的に「収束の速さ」みたいな恣意的な尺度を含んでいるからのようにも思えます。

2015-10-30 14:53:43
ベイズ統計たん @Bayesian_tan

ちなみに、「観測を生成している確率分布はれっきとして存在する」などと発言すると(今私がしましたが)、確率の解釈論の人が眉をひそめます。注意しましょう

2015-10-30 14:55:33