KL情報量の自然な導出

黒木玄先生の2020/05/06のツイートからまとめました.
2
黒木玄 Gen Kuroki @genkuroki

#統計 確率が絡む場合の「予測誤差」について 「予測誤差」を定義したい。 仮に明日は確実に晴れると仮定しよう。 確率pで晴れの目が出るルーレットを回して、晴れの目が出たら「晴れ」と予報し、そうでなかったら「晴れない」と予報することにする。 その予報が当たる確率はpになる。 続く

2020-05-06 17:21:51
黒木玄 Gen Kuroki @genkuroki

#統計 続き この場合に「予測誤差」を定義するとすれば、予報が当たる確率pが1に近いほど「予測誤差」は0に近付き、p=0のとき「予測誤差」=∞となるように定義するのが自然だろう。1つの選択肢は 予測誤差 = - log p と定義すること。 明日確実に晴れる場合は、このようにそう難しくない。続く

2020-05-06 17:21:58
黒木玄 Gen Kuroki @genkuroki

#統計 明日確実に晴れるのではなく、明日晴れる確率の真の値がqである場合に、以上の話を一般化したい。 一般化のために、明日確実に晴れる場合の 予測誤差 = -log p という定義についてもう少し考えてみよう。続く

2020-05-06 17:40:25
黒木玄 Gen Kuroki @genkuroki

#統計 毎日確実に晴れるとき、晴れの目が確率pで出るルーレットで予報を出し続けても、運良く「晴れ」の目が出続ければボロが出ずに済む。 n回続けてボロが出ない確率は pⁿ = exp(-n(-log p)) = exp(-n(予測誤差)). この式は 予測誤差 = ボロが出ずに済む確率の減少の速さ を意味する。続く

2020-05-06 17:40:34
黒木玄 Gen Kuroki @genkuroki

#統計 ルーレットを回す行為は現実の晴れ・晴れないを確率的にシミュレートしていると考えられる。 予測誤差 = -log p という定義は、その確率的シミュレーションがボロを出さずに済む確率の減少の速さ、すなわち、ボロの出る速さを「予測誤差」と定義することと同じであることがわかった。続く

2020-05-06 17:40:35
黒木玄 Gen Kuroki @genkuroki

#統計 続き 準備が整ったので、明日晴れる確率の真の値がqだと仮定しよう。 このとき、晴れの目が出る確率がpのルーレットを回して予報を出すときの「予測誤差」をどのように定義するべきだろうか? 続く

2020-05-06 17:40:35
黒木玄 Gen Kuroki @genkuroki

#統計 続き 確実に晴れる状況と違って、問題が相当にややこしくなっている。 しかし、上の方の考え方にもとづけば、同じ状況で同じ予報を繰り返したときに、ボロが出る速さを適切に定式化して、それを「予測誤差」と定義すれば良さそうである。 続く

2020-05-06 17:44:13
黒木玄 Gen Kuroki @genkuroki

#統計 以上の状況で毎日同じルーレットを回して予報を出し続けると、大数の法則より、実際に晴れる日の割合はqに収束し、予報が「晴れ」になる日の割合はpに近付く。続く

2020-05-06 17:48:25
黒木玄 Gen Kuroki @genkuroki

#統計 もはや予報が当たるという話ではなくなっているが、p≠qならば、大数の法則から繰り返す回数nを巨大にすれば、ルーレットによる晴れ・晴れないという減少のシミュレーションが、現実とはずれていることはいつかは確率的にバレてしまうことになる。続き

2020-05-06 17:50:07
黒木玄 Gen Kuroki @genkuroki

#統計 予報が当たるかどうかに注目せずに、大数の法則によってルーレットによるシミュレーションの出目の分布が現実の真の確率分布からずれる速さを計算できれば、「予測誤差」を適切に定義できそうである。 予測ではなく、シミュレーションの誤差と言う方がもしかしたら分かり易いかもしれない。続く

2020-05-06 17:54:03
黒木玄 Gen Kuroki @genkuroki

#統計 確率pで「晴れ」の目が出るルーレットをn回回したときに、k回「晴れ」の目が出る確率は、二項分布の確率 n!/(k!(n-k)!) pᵏ(1-p)ⁿ⁻ᵏ になる。このとき「晴れ」の目の割合は k/n である。k/n が q に近いという仮定 k/n = q + o(1) のもとで、~続く

2020-05-06 18:05:45
黒木玄 Gen Kuroki @genkuroki

#統計 続き~、上の二項分布の確率のn→∞での様子を見ると、スターリングの公式を使って、 (上の二項分布の確率) = exp(-n(q log(q/p) + (1-q)log((1-q)/(1-p)) + o(1))) となることを示せます。これは、 ボロが出る速さ ≈ q log(q/p) + (1-q)log((1-q)/(1-p)) を意味します。続く

2020-05-06 18:05:51
黒木玄 Gen Kuroki @genkuroki

#統計 ボロが出る速さ ≈ q log(q/p) + (1-q)log((1-q)/(1-p)) の右辺は、確実に晴れるq=1の場合の 予測誤差 = ボロが出る速さ = -log p のq≠1への一般化になっています。だから、q≠1の場合には 予測誤差 = q log(q/p) + (1-q)log((1-q)/(1-p)) と定義するのが自然でしょう!続く

2020-05-06 18:08:56
黒木玄 Gen Kuroki @genkuroki

#統計 以上の計算で出て来た q log(q/p) + (1-q)log((1-q)/(1-p)) はよくKullback-Leibler情報量と呼ばれています。そして、二項分布の確率の漸近挙動の主要部分がKL情報量で表されるという結果は本質的にSanovの定理と呼ばれる定理そのものです。

2020-05-06 18:11:11
黒木玄 Gen Kuroki @genkuroki

#統計 多くの解説では非常に残念なことに、Kullback-Leibler情報量の定義が天下り的に与えられており、おそらくほとんどの人にとって意味不明の解説になっていると思われます。 しかし、以上のように二項分布の確率の漸近挙動を見ればKL情報量の特別な場合が自然に出て来てしまうのです。続く

2020-05-06 18:13:47
黒木玄 Gen Kuroki @genkuroki

#統計 しかも、KL情報量は「確率的なシミュレーションのボロが出る速さ」を求めるという意味と価値が明瞭なモチベーションにもとづく計算をすれば出て来てしまう。 KL情報量の理解には天下り的な定義は必要ありません。 自然に出て来るものという理解の仕方が正しい。続く

2020-05-06 18:16:14
黒木玄 Gen Kuroki @genkuroki

#統計 以上の話題に関する詳しい計算は、私的ノート genkuroki.github.io/documents/2016… Kullback-Leibler 情報量と Sanov の定理 に書いておきました。二項分布を多項分布に一般化して書いてあります。

2020-05-06 18:18:16