黒木玄氏によるベイズ統計の解説

よほど専門的な説明なので、大学レベルの数理統計に通暁してないと解らないかも(爆
5
黒木玄 Gen Kuroki @genkuroki

#数楽 ベイズ統計の解説の仕方について考えてみた。事前分布も不可欠な「モデル」の構成要素とする解説の仕方。 ベイズ統計では、現実世界における未知の確率分布(場合によっては永久に未知のまま)によるサンプルX_1,X2,…の生成の仕方を次の「モデル」で推定しようとする。続く

2016-10-29 00:26:56
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。パラメーターw付きのxの確率分布p(x|w)とwの確率分布φ(w)を選択。「モデル」の世界でサンプルは次のように生成されると考える。まずパラメーターwが分布φ(w)にしたがってランダムに生成され、wで決まるxの分布p(x|w)の独立試行でサンプルが生成される。続く

2016-10-29 00:32:51
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。パラメーターwがない場合またはφ(w)がデルタ分布のとき「モデル」世界では分布p(x)に従ってランダムで独立にサンプルX_1,X_2,…が生成されると考えることになる。上の設定はこの場合を含んでいる。(cf.ネイマン・ピアソンの補題はベイズ検定の特殊ケース)続く

2016-10-29 00:39:45
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。以上の「モデル」世界の設定は、X_1,…,X_nの分布の確率密度函数がZ(x_1,…,x_n)=∫dw φ(w)p(x_1|w)…p(x_n|w)になると言っても同じ。このZが「モデル」世界の基本。もちろんZが現実世界の未知の分布をうまく近似している保証はない。続く

2016-10-29 00:44:02
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。よくある解説では事前分布φ(w)は主観的確信の度合いを表すだの、事前情報がない場合には一様分布などを取るだの、様々な怪しげな話をしていることが多い。そういうのは全部やめて、「モデル」世界が現実の近似になっている保証はないと正直に説明した方がよいと思う。続く

2016-10-29 00:49:05
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。さらに、確率密度函数Zで記述される「モデル」世界が現実の近似にさえならないことについて、φ(w)の取り方がまずい可能性よりも、確率モデルp(x|w)の選び方が的を外している可能性を強調した方がよいと思う。事前分布の必要性の是非に関する議論は全部いらない。続く

2016-10-29 00:54:45
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。すでに述べたように、ある特定のw=θに対応するxの分布p(x|θ)が現実世界の未知の分布のよい推定になっていると期待する立場はφ(w)がデルタ分布の場合として上の枠組みに含まれる。どちらにせよp(x|w)の取り方がまずいとその期待は裏切られることになるのだが。続く

2016-10-29 00:59:18
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。ベイズ統計の枠組みの肝は、「モデル」世界におけるX1,…,X_nと現実世界から得たサンプルX_1,…,X_nが一致している場合に「モデル」世界の事象を制限することによって、「モデル」世界を現実世界に近付けようとすることである。条件付き確率分布を考えることになる。続く

2016-10-29 01:05:40
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。そのように事象を制限するとき、「モデル」世界におけるX_{n+1}の条件付き確率分布の密度函数はP_n(x)=Z(X_1,…,X_n,x)/Z(X_1,…,Z_n)になる。このP_n(x)がサンプルから得た予測分布です。続く

2016-10-29 01:10:38
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。ベイズ統計では、現実世界から得たサンプルのサイズが大きくなると、「モデル」世界の設定の範囲内(それが限界)で予測分布は現実世界の未知の分布に近付くことを期待するわけです。実際にそうなるかは数学の難しい問題で答えは概ね肯定的です。続く

2016-10-29 01:13:48
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。ただし、予測分布は「モデル」世界内部の対象なので、現実世界の未知の分布に近付くと言っても、「モデル」世界が定めた限界の範囲内で近付くだけであり、「モデル」世界の設定が的を外しているならば実際には全然近付かないかもしれない。続く

2016-10-29 01:17:26
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。設定した「モデル」世界の範囲内で予測分布が未知の分布に近付くことは、渡辺澄夫著『ベイズ統計の理論と方法』に書いてあります。この本は数学または統計力学になれていれば読みやすいです。読みにくいと思う人は多いと思いますが、ベイズ統計の原理になる定理が書いてあります。続く

2016-10-29 01:21:46
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。非常に残念なことに「階層ベイズには渡辺澄夫さんの漸近論の定理を適用できない」というような初歩的な誤解に基いて渡辺さんの仕事をdisる人もいるようなので注意した方がよいでしょう。まあこの世の中色々残念なことが多く、そこはある程度我慢が必要なところでしょう。続く

2016-10-29 01:25:52
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。元の話に戻る。以上の説明の仕方は、現実世界のサンプルから作った予測分布は表に登場させましたが、パラメーターの事後分布は裏に隠すという構成になっています。「モデル」世界において、ベイズの定理は使わずに、条件付き確率分布で予測分布を定義する方針。続く

2016-10-29 01:32:13
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。「モデル」世界でベイズの定理を使うときには、「モデル」の仮想世界で定理を使っているだけなので、それによって予測分布が現実世界の未知の分布に近付くことは示せないことを強調するべきだと思う。ベイズの定理はベイズ統計の原理的基礎ではない。続く

2016-10-29 01:36:04
黒木玄 Gen Kuroki @genkuroki

#数楽 「モデル」世界におけるX_1,…,X_nが現実世界から得たサンプルに一致する場合に事象を制限した条件付き確率分布を考えることは、φ(w)をφ(w|X_1,…,X_n)=φ(w)p(X_1|w)…p(X_n|w)/Z(X_1,…,X_n)に置き換えることと同値。続く

2016-10-29 01:40:33
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。その同値性はほとんどトートロジー。φ(w|X_1,…,X_n)=φ(w)p(X_1|w)…p(X_n|w)/Z(X_1,…,X_n)はパラメーターwの事後分布と呼ばれています。再度強調→事後分布によって「モデル」世界が現実世界に近付くかどうかは数学的に難しい問題。

2016-10-29 01:42:54
黒木玄 Gen Kuroki @genkuroki

#数楽 解説は次を満たしているべきだと思う。(1)歴史的経緯で流行してしまった怪しげな説明を排除する。(2)数学的に明瞭にできていることについては(たとえ証明には触れないとしても)きちんと触れておく。 ベイズ統計の解説では(2)が難し過ぎるせいで、(1)が実現できていない。

2016-10-29 01:47:32
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。大数の法則と中心極限定理の簡単な応用のケースでは、一つ前のツイートの条件(1),(2)の双方が満たされた解説が標準的になっているので、その方針をもっと徹底すればよいと思います。ベイズ統計については渡辺澄夫さんの著書があるので相当にやりやすくなっていると思う。

2016-10-29 01:51:23
黒木玄 Gen Kuroki @genkuroki

#数楽 まとめ。 モデル世界の設定:X_1,…,X_nの確率密度函数はZ(x_1,…,x_n)=∫dw φ(w)p(x_1|w)…p(x_n|w). X_1,…,X_nが現実世界のサンプルと一致している場合に事象を制限した場合のX_{n+1},…,X_{n+m}の〜続く

2016-10-29 02:04:48
黒木玄 Gen Kuroki @genkuroki

#数楽 続き〜条件付き確率分布の密度函数はZ(x_{x+1},…,x_{n+m}|X_1,…,X_n)=Z(X_1,…,X_n,x_{x+1},…,x_{n+m})/Z(X_1,…,X_n)になります。全部分配函数Zで書ける。Zは周辺尤度函数とも呼ばれる。

2016-10-29 02:09:38
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。渡辺澄夫著『ベイズ統計の理論と方法』 watanabe-www.math.dis.titech.ac.jp/users/swatanab… では分配函数の定義で統計力学の場合と同様に逆温度βを導入しています。統計力学の素養があれば非常に読みやすいと思います。形式的にはβ→∞(絶対温度0)が最尤法に対応しています。

2016-10-29 02:18:08
黒木玄 Gen Kuroki @genkuroki

#数楽 続き。逆温度の導入の仕方はZ_n=∫dw φ(w) p(x_1|w)^β…p(x_n|w)^β.H_n=-Σ_{k=1}^n log p(x_k|w)-(1/β)log φ(w)とおくとZ_n=∫dw exp(-βH_n).β→∞でH_nは-対数尤度函数に一致。

2016-10-29 07:42:40