なぜn-1で割るのか？不偏分散の謎を解く

松田裕之@Nishika @mhiro216

不偏分散でN-1で割る理由がどうもしっくりこなくて、いつも参照している心理統計の本になんて書いてあるのか見てみたら「N-1で割るのは不自然なので以降は使いません」と書いてあった。

2022-06-07 08:56:47

松田裕之@Nishika @mhiro216

一応、「分布を記述する指標としてはN個の項の和をN-1で割るのは不自然」という文脈ではあった。

2022-06-07 08:57:40

高橋将宜 Masayoshi Takahashi @M123Takahashi

不偏分散のn－1は以下のように理解できます．日本人全体から無作為に1人を抽出したとき，その人（Aさん）の身長が175.1cmとします．このとき，標本平均は175.1cmです．Aさんの身長が175.1で標本平均も175.1なので，標本平均からのばらつきはゼロですから，記述統計としては標本分散はゼロです．(1/3) twitter.com/mhiro216/statu…

2022-06-07 11:19:04

高橋将宜 Masayoshi Takahashi @M123Takahashi

一方，この標本分散ゼロを使って母分散を推定するということは，母分散がゼロと推定するということです．しかし，すべての日本人が全員175.1cmであるとは到底考えられません．つまり，標本サイズ1の標本には，母分散を推定する情報がないということです．無作為に2人目のBさんを抽出すれば，(2/3)

2022-06-07 11:19:04

高橋将宜 Masayoshi Takahashi @M123Takahashi

Bさんの身長が175.1cmである確率は極めてゼロに近く，AさんとBさんの2人の身長には標本においてばらつきが見られることになります．ここで初めて，標本分散はゼロでない値になります．標本から母分散を推定するためにはn－1人の情報を使っています．ゆえに，不偏分散では，分母をn－1とします．(3/3)

2022-06-07 11:19:05

Kaicharo @tairyukoooo

コレ。私は自由度という言葉がしっくりきた。標本平均がわからない状態では標本がn個ないと平均も分散も求められない。でも標本平均がわかっている状態では標本n個のうちn-1個がわかっていればn番目の標本の値は自動的に分かる。だから分散を求めるのに値の自由度が1つ少なくてn-1としないといけない。 twitter.com/m123takahashi/…

2022-06-07 12:54:40

TAKAHASHI, Akihiko @inarimae

ここがわからない。統計量で自然に「自由度」ってつかうけど、パラメータの自由度はわかるとして、なんで自由度で割るのか、というあたりが説明ではいつも飛ばされる気がしている。>RT なおややこしい統計量だと、自由度は推定で求めるとか、整数でない自由度とかも出てくる。

2022-06-08 00:24:17

Kame. Y @kame_matsuri

@inarimae 単に不偏推定量にならないからではないでしょうか。

2022-06-08 12:51:44

TAKAHASHI, Akihiko @inarimae

あとこの手の話って、nが小さい場合にこだわり過ぎな気もしてて、例えばt検定とか実用的意味あるのかしらんと思うこともしばしば（暴論）。だから、nで割っても構わない、と書く気持ちも判らないでもなく。

2022-06-08 00:32:42

ジツーニ・バ・カダーナ @old_keynesian

うむ、母分散を推定するという観点からすると、nよりn-1で割った方が出てきた値が母分散に近くなるので、標本データではn-1で割るのだ、というように説明することにしている。 twitter.com/m123takahashi/…

2022-06-07 11:46:34

高橋将宜 Masayoshi Takahashi @M123Takahashi

@tahataha105 はい，そのとおりなのですが，「nよりn-1で割った方が出てきた値が母分散に近くなるのはなぜですか？」という問いに対する直感的な説明という意図でした．

2022-06-07 11:53:15

P. @ec1025_p

@M123Takahashi 「標本から母分散を推定するためにはn-1人の情報を使っています」のところなのですが、今回のケースではAさんとBさんの情報を使っており、2人の情報を使っていると考えられるので、n人にはならないのですか？

2022-06-07 12:38:44

高橋将宜 Masayoshi Takahashi @M123Takahashi

@ec1025_p n=1で不偏分散が計算できないことから，1人目には母分散を推定する情報がありません．2人目の情報が追加されて初めて母分散を推定できましたが，このときも，1人目には母分散を推定する情報がないわけですから，2-1=1人分の情報を使っていると考えます．1人目の情報は使っていないということですね．

2022-06-07 13:25:02

高橋将宜 Masayoshi Takahashi @M123Takahashi

@ec1025_p 少しややこしくなりますが，1人のとき0人分と考えたので，2人のとき1人分，3人のとき2人分と考えて，n人のときn-1人分と言い換えてもよいかと思います．

2022-06-07 13:29:40

P. @ec1025_p

@M123Takahashi となると、途中にある標本分散=母集団の分散(=0)となる状況があり得ないという考え方が全てかと思います。しかし、母集団の構成要素が全て等しい場合はこの状況はあり得てしまうわけですが、統計学では暗にこの場合は否定しているという理解で良いのでしょうか。

2022-06-07 13:45:30

高橋将宜 Masayoshi Takahashi @M123Takahashi

@ec1025_p 母分散がゼロのとき標本分散がゼロになることは問題ないわけですが、標本サイズ1のときは、母分散がゼロでも非ゼロでも、標本分散がゼロになることが問題です。ゆえに、母分散に関わらず、標本サイズ1のときは常に母分散をゼロと推定してしまうことになります。

2022-06-07 13:52:20

P. @ec1025_p

@M123Takahashi ありがとうございます。完全に腑に落ちました。とても丁寧な解説で助かりました。

2022-06-07 13:54:00

Yuto Nishimura @yuto_v2_nissy

正直この説明って結果ありきすぎて説得力ない n-1になる理由なんてそうしたらバイアス無くなるからが一番しっくり来ると思うけどダメなん？そんなに式以外で納得したい？

2022-06-07 13:25:48

高橋将宜 Masayoshi Takahashi @M123Takahashi

学生を教える経験を経れば，考えが変わるでしょう．学生から，「なぜn-1で割るのですか？」と聞かれたとき，「バイアスがなくなるから」と証明して見せても，その説明自体は正しいですが，「なぜか？」を理解させる答えにはなりません．自分がわかることと，他人に理解させることは同じではないですね twitter.com/nissy_v2_inu/s…

2022-06-07 13:41:07

Yuto Nishimura @yuto_v2_nissy

自分が論点ずらしてたな　自分の考えは、理由の説明にお気持ちでやるのは気持ち悪い、なぜ？と聞かれたら式が先で、解釈をするとあのようにできるのは納得それを理由として紹介してたから違和感あったんや

2022-06-07 13:58:20

株はむすたー @Kabutrecon

これ感覚的にわかる的な説明どれもしっくりこなくて、結局期待値とったらそうなりましたってやつが一番理解しやすかった。。 twitter.com/mhiro216/statu…

2022-06-07 13:44:39

pop-ketle(KEN) @ken7272popqjim

これ自分の感覚的には 1. 母集団からサンプリングしてきたデータは母集団の平均に近いところに分布しがち 2. この場合、分散をnで割ると母分散より小さくなりがちよって、nが小さい時は分母をn-1にするといい感じに調整できる、かつ、nが十分大きい時は-1の影響が小さいから無視できる。みたいな認識 twitter.com/mhiro216/statu…

2022-06-07 14:04:12

Kentaro Sakamaki @kent_sak

例えば、母平均を170とか決め打てばn=1でも推定できるような。知らんけど。 twitter.com/M123Takahashi/…

2022-06-07 14:22:03

高橋将宜 Masayoshi Takahashi @M123Takahashi

標本データしかなくても，母平均=170が既知なら，不偏分散の分母はnです．n=1でも，母分散を不偏推定できます．先ほどのAさんの場合，175.1cmなので26.01が母分散の推定値です．通常，母平均を標本平均で1回推定するから自由度が1つ失われてn-1ですが，この場合，母平均を推定しないので分母はnです． twitter.com/kent_sak/statu…

2022-06-07 15:11:48

高橋将宜 Masayoshi Takahashi @M123Takahashi

ただ，母集団データは利用できないのに母平均だけはわかっているという状況は，普通は存在しないと思います．

2022-06-07 15:15:42

いま話題のタグ