なぜn-1で割るのか? 不偏分散の謎を解く

分散の不偏推定量は, データの標本平均からの偏差の2乗和を,nではなくn-1で割って求める …直感に反するこの定義の謎を統計学者@M123Takahashi准教授が解説する
9
ushio dazai @ushiodazai

答えの分散がわかってる母集団の分布から標本を沢山とって分散を沢山とって、その分散の平均=母集団の分散の推定値を求めていくと、nじゃなくてn-1で割ったほうに近くなるから、じゃダメかな?(統計の専門家ではないのでスゴイ素っ頓狂なこと言ってたらスミマセン) twitter.com/M123Takahashi/…

2022-06-07 15:25:26
高橋将宜 Masayoshi Takahashi @M123Takahashi

不偏分散のn-1は以下のように理解できます.日本人全体から無作為に1人を抽出したとき,その人(Aさん)の身長が175.1cmとします.このとき,標本平均は175.1cmです.Aさんの身長が175.1で標本平均も175.1なので,標本平均からのばらつきはゼロですから,記述統計としては標本分散はゼロです.(1/3) twitter.com/mhiro216/statu…

2022-06-07 11:19:04
高橋将宜 Masayoshi Takahashi @M123Takahashi

@ushiodazai ダメではありません.そのとおりです.コンピュータなどでシミュレーションができる環境であれば,母平均と母分散が既知の分布から標本をたくさん抽出して,nとn-1のどちらで割った標本分散が母分散に近くなるか,試してみるというのは,教育的にも意義があると思います.

2022-06-07 15:29:16
ushio dazai @ushiodazai

@M123Takahashi わざわざメンションありがとうございます! こちらのページにRでの簡単なシミュレーションがありました。 rpubs.com/azu/stats_with… N(50, 10^2) から標本分散と不偏分散を求めて比較しています。

2022-06-07 16:11:43
am @dd_am11

母集団の平均を使って分散を計算したいところ標本平均を使うと差分が平均して小さくなる分の補正、みたいな理解だったけどloocvのノリで残りの平均を使うとして考えても同じになるかな? ちょっと面白い。 twitter.com/mhiro216/statu…

2022-06-07 16:55:29
松田裕之@Nishika @mhiro216

不偏分散でN-1で割る理由がどうもしっくりこなくて、いつも参照している心理統計の本になんて書いてあるのか見てみたら 「N-1で割るのは不自然なので以降は使いません」 と書いてあった。

2022-06-07 08:56:47
ykyo @YKYOYKYO

これ、Nー1で割った方が期待値が真値になるんだよね twitter.com/mhiro216/statu…

2022-06-07 17:27:47
バーチャルデータサイエンティスト アイシア=ソリッド @AIcia_Solid

@mhiro216 もしご興味ありましたらぜひご視聴ください!😍🎉 (やや数学よりの説明ですが、、、!) YouTube → youtu.be/x4q4Uaihws4

2022-06-07 17:31:15
拡大
うおざ @p1scesCom

PRML 輪読の担当範囲でやったんですが,分散の最尤推定量の期待値をとったら母分散より小さくなるからそれを修正するためでしたね twitter.com/mhiro216/statu… pic.twitter.com/jPjAFhcAuc

2022-06-07 17:33:15
拡大
Я @hiroki_yanai

@mhiro216 ちょうど今さっき使ってたホットな話題だ))母集団への推定が関係してるぽかったかな...よく理解できなかったです)またしても@AIcia_Solid さんの動画があったのか、これは[後で見る]しとこう/

2022-06-07 17:44:31
⌬夏目愛佳⌬(なっちゃん) @Natume_12

分野によって違ったりするんだよね…… 不偏分散とか言わないでN-1で割る「分散」しか出てこない教科書も。 不偏分散か標本分散か、NでわるかN-1でわるか、ではなく、 「不偏性」と「一致性」というキーワード(の対比)から理解するのがよいと(個人的には)思います twitter.com/mhiro216/statu…

2022-06-07 18:45:46
教えるのが下手な先生@サイコミ・リスコミ勉強中 @poli_econ

植木算か! twitter.com/m123takahashi/…

2022-06-07 19:18:14
高橋将宜 Masayoshi Takahashi @M123Takahashi

Bさんの身長が175.1cmである確率は極めてゼロに近く,AさんとBさんの2人の身長には標本においてばらつきが見られることになります.ここで初めて,標本分散はゼロでない値になります.標本から母分散を推定するためにはn-1人の情報を使っています.ゆえに,不偏分散では,分母をn-1とします.(3/3)

2022-06-07 11:19:05
こころ @otsukihikaru

これって定性的に理解できるんかなあ 分散に不偏性を持たせることを要請したらN-1じゃないとダメだよねっていうのを数式で見せられるとああなるほどなあってなるけど、「N-1で割る」という感覚的にしっくりこさせるのって難しいよなあ twitter.com/mhiro216/statu…

2022-06-07 19:57:56
Tarotan @BluesNoNo

(1/3) 不偏分散において(たぶん4次モーメントが有限であれば?)母集団分布がなんであれ不偏性が保てるという性質は,特に魅力的ではないように思います.数理的には,母集団分布が正規分布であるとき,および,ノンパラメトリックな分布であるときの両方で,

2022-06-07 20:13:32
Tarotan @BluesNoNo

(2/3) 不偏分散はUMVUEとなることの方が魅力的だと思います. そうは言うものの,①それ以外の状況では,不偏分散はUMVUEではない,②UMVUEじゃなくても普及している推定量は沢山ある(不偏分散の平方根,標本相関係数 etc),③UMVUEはあくまで不偏性という制限されたなかでの最良推定量でしかない,

2022-06-07 20:13:32
Tarotan @BluesNoNo

(3/3) ④母集団分布が正規分布のときは現実にはないし,また,まったく母集団分布の情報が全く何もない場合も少ないだろう,など,いろいろと問題はありそう. 「単なる慣習です」ではいけないのでしょうけれども,どう正当化していいのかよく分からないです….

2022-06-07 20:13:32
球磨川禊 @tarpppppp

確か合理性統計学?の面倒くささは、確実にゼロでないと、標本の数を増やして、確率濃度のバラツキを増やすことが重要な場合もあるとか、応用だっけ?基礎だっけ?忘れた。 twitter.com/M123Takahashi/…

2022-06-07 20:22:47
TJO @TJO_datasci

不偏分散の分母がn-1である理由、こういうことですよね bellcurve.jp/statistics/cou…

2022-06-07 21:19:46
くるますき @ika_shochan

@mhiro216 納得する理由あったけど忘れた…

2022-06-07 21:35:16
れおあれ @mar_eup

自由度の問題じゃないの?平均値が分かってれば、n-1個で十分把握できるから自由度がn-1になる。 twitter.com/mhiro216/statu…

2022-06-07 21:41:35
わんおぺ @oneopeadoauo_mt

多分元のツイ主は標本平均と比較して不偏分散の式が直感的に分かりにくいから件のツイートをしたんだと推察されるけど、正直不偏性を満たすものを導出してみた結果たまたまn-1で割る形式になっただけなんだよなあ

2022-06-07 21:50:06
清水 団 Dan Shimizu @dannchu

不偏分散についてもう一度まとめてみました。自分で読み返してもちょっと大変なので,一度公開して意見を待ちます。 pic.twitter.com/Lh91HelGl3

2022-06-07 22:03:20
拡大
拡大
拡大
拡大
清水 団 Dan Shimizu @dannchu

他の方の説明を見ていると、一度近似が入っているので、自分のはやっぱり違うのかな。もう少し考えてみます。

2022-06-08 21:57:41
松田裕之@Nishika @mhiro216

いろんな方に説明をいただけて大変勉強になる。。。 ちゃんと読むと、記述統計の指標としては不偏分散より分散の方が良い(直感的で分かりやすいから)ということのよう。

2022-06-07 22:09:34
Urapon @urapon_1

本の内容は「Nが大きければ、あまり気にしなくて良い」くらいのニュアンスなのでは…? (不偏推定量の話はさておくとして)定性的に理解するなら、Math.random( )を100回くらい実行しても0.0とか1.0ビタビタの数値は出てこなく、観測値のばらつきは少し小さくなるから…という説明になるのだろうか。 twitter.com/mhiro216/statu…

2022-06-07 23:41:52
LUNE MER @MyleneGalois

@mhiro216 他の方が既に説明されてるかも知れませんが、母集団から抽出されるサンプルがランダムであることから、不変分散は母集団から得られる確率変数なのであって、その(確率変数としての)期待値がちょうど母集団の分散σに一致するようにするためには、NではなくN-1で割る必要があります。(数学的観点での要請

2022-06-08 00:36:35
AzaleaClive @AzaleaClive

不偏分散の期待値が元の分布の分散と一致するように計算した結果なので、不自然というか、そうなるものなのではないの…… 具体的にn個の確率変数が独立に適当な正規分布に従うとして計算してみれば、n-1で割るとその期待値が真の分散になることが分かる なお、私は何も見ずに計算できない模様。 twitter.com/mhiro216/statu…

2022-06-08 00:50:27