2020年5月13日

KL情報量の自然な導出

黒木玄先生の2020/05/06のツイートからまとめました．

KL情報量統計統計学予測誤差確率シミュレーション二項分布

dif_engine
857
0
0
0

2

黒木玄 Gen Kuroki @genkuroki

#統計確率が絡む場合の「予測誤差」について「予測誤差」を定義したい。仮に明日は確実に晴れると仮定しよう。確率pで晴れの目が出るルーレットを回して、晴れの目が出たら「晴れ」と予報し、そうでなかったら「晴れない」と予報することにする。その予報が当たる確率はpになる。続く

2020-05-06 17:21:51

黒木玄 Gen Kuroki @genkuroki

#統計続きこの場合に「予測誤差」を定義するとすれば、予報が当たる確率pが1に近いほど「予測誤差」は0に近付き、p=0のとき「予測誤差」=∞となるように定義するのが自然だろう。1つの選択肢は予測誤差 = - log p と定義すること。明日確実に晴れる場合は、このようにそう難しくない。続く

2020-05-06 17:21:58

黒木玄 Gen Kuroki @genkuroki

#統計明日確実に晴れるのではなく、明日晴れる確率の真の値がqである場合に、以上の話を一般化したい。一般化のために、明日確実に晴れる場合の予測誤差 = -log p という定義についてもう少し考えてみよう。続く

2020-05-06 17:40:25

黒木玄 Gen Kuroki @genkuroki

#統計毎日確実に晴れるとき、晴れの目が確率pで出るルーレットで予報を出し続けても、運良く「晴れ」の目が出続ければボロが出ずに済む。 n回続けてボロが出ない確率は pⁿ = exp(-n(-log p)) = exp(-n(予測誤差)). この式は予測誤差 = ボロが出ずに済む確率の減少の速さを意味する。続く

2020-05-06 17:40:34

黒木玄 Gen Kuroki @genkuroki

#統計ルーレットを回す行為は現実の晴れ・晴れないを確率的にシミュレートしていると考えられる。予測誤差 = -log p という定義は、その確率的シミュレーションがボロを出さずに済む確率の減少の速さ、すなわち、ボロの出る速さを「予測誤差」と定義することと同じであることがわかった。続く

2020-05-06 17:40:35

黒木玄 Gen Kuroki @genkuroki

#統計続き準備が整ったので、明日晴れる確率の真の値がqだと仮定しよう。このとき、晴れの目が出る確率がpのルーレットを回して予報を出すときの「予測誤差」をどのように定義するべきだろうか？続く

2020-05-06 17:40:35

黒木玄 Gen Kuroki @genkuroki

#統計続き確実に晴れる状況と違って、問題が相当にややこしくなっている。しかし、上の方の考え方にもとづけば、同じ状況で同じ予報を繰り返したときに、ボロが出る速さを適切に定式化して、それを「予測誤差」と定義すれば良さそうである。続く

2020-05-06 17:44:13

黒木玄 Gen Kuroki @genkuroki

#統計以上の状況で毎日同じルーレットを回して予報を出し続けると、大数の法則より、実際に晴れる日の割合はqに収束し、予報が「晴れ」になる日の割合はpに近付く。続く

2020-05-06 17:48:25

黒木玄 Gen Kuroki @genkuroki

#統計もはや予報が当たるという話ではなくなっているが、p≠qならば、大数の法則から繰り返す回数nを巨大にすれば、ルーレットによる晴れ・晴れないという減少のシミュレーションが、現実とはずれていることはいつかは確率的にバレてしまうことになる。続き

2020-05-06 17:50:07

黒木玄 Gen Kuroki @genkuroki

#統計予報が当たるかどうかに注目せずに、大数の法則によってルーレットによるシミュレーションの出目の分布が現実の真の確率分布からずれる速さを計算できれば、「予測誤差」を適切に定義できそうである。予測ではなく、シミュレーションの誤差と言う方がもしかしたら分かり易いかもしれない。続く

2020-05-06 17:54:03

黒木玄 Gen Kuroki @genkuroki

#統計確率pで「晴れ」の目が出るルーレットをn回回したときに、k回「晴れ」の目が出る確率は、二項分布の確率 n!/(k!(n-k)!) pᵏ(1-p)ⁿ⁻ᵏ になる。このとき「晴れ」の目の割合は k/n である。k/n が q に近いという仮定 k/n = q + o(1) のもとで、～続く

2020-05-06 18:05:45

黒木玄 Gen Kuroki @genkuroki

#統計続き～、上の二項分布の確率のn→∞での様子を見ると、スターリングの公式を使って、 (上の二項分布の確率) = exp(-n(q log(q/p) + (1-q)log((1-q)/(1-p)) + o(1))) となることを示せます。これは、ボロが出る速さ ≈ q log(q/p) + (1-q)log((1-q)/(1-p)) を意味します。続く

2020-05-06 18:05:51

黒木玄 Gen Kuroki @genkuroki

#統計ボロが出る速さ ≈ q log(q/p) + (1-q)log((1-q)/(1-p)) の右辺は、確実に晴れるq=1の場合の予測誤差 = ボロが出る速さ = -log p のq≠1への一般化になっています。だから、q≠1の場合には予測誤差 = q log(q/p) + (1-q)log((1-q)/(1-p)) と定義するのが自然でしょう！続く

2020-05-06 18:08:56

黒木玄 Gen Kuroki @genkuroki

#統計以上の計算で出て来た q log(q/p) + (1-q)log((1-q)/(1-p)) はよくKullback-Leibler情報量と呼ばれています。そして、二項分布の確率の漸近挙動の主要部分がKL情報量で表されるという結果は本質的にSanovの定理と呼ばれる定理そのものです。

2020-05-06 18:11:11

黒木玄 Gen Kuroki @genkuroki

#統計多くの解説では非常に残念なことに、Kullback-Leibler情報量の定義が天下り的に与えられており、おそらくほとんどの人にとって意味不明の解説になっていると思われます。しかし、以上のように二項分布の確率の漸近挙動を見ればKL情報量の特別な場合が自然に出て来てしまうのです。続く

2020-05-06 18:13:47

黒木玄 Gen Kuroki @genkuroki

#統計しかも、KL情報量は「確率的なシミュレーションのボロが出る速さ」を求めるという意味と価値が明瞭なモチベーションにもとづく計算をすれば出て来てしまう。 KL情報量の理解には天下り的な定義は必要ありません。自然に出て来るものという理解の仕方が正しい。続く

2020-05-06 18:16:14

黒木玄 Gen Kuroki @genkuroki

#統計以上の話題に関する詳しい計算は、私的ノート genkuroki.github.io/documents/2016… Kullback-Leibler 情報量と Sanov の定理に書いておきました。二項分布を多項分布に一般化して書いてあります。

2020-05-06 18:18:16

いま話題のタグ

SCP財団45 会社1110 ルックバック36 冷凍食品87 光る君へ59 軍事6791 リュウジのバズレシピ4 台湾1283 パソコン2119 火垂るの墓37 雁琳9 ザ!鉄腕!DASH!!526 男女431 英語2597 追放されたチート付与魔術師は気ままなセカンドライフを謳歌する。12