黒木玄氏による、中心極限定理の意味について

15
黒木玄 Gen Kuroki @genkuroki

#統計 これは非常に良い質問! 中心極限定理:適当な条件を満たす母集団分布のサイズnの標本の標本平均の分布はnを十分大きくすると正規分布で近似される の意味を大雑把に説明します。これの意味は以下の通り。続く twitter.com/math_ring8128/…

2023-09-03 01:08:01
サクラ @math_ring8128

統計の勉強していると「nが十分大きいとき正規分布に従うので・・・」という文言がたくさん出てきますが、「十分大きい」の定義はなんなんでしょうか?🤔 先ほど問題を解いていたら64人の標本が出てきて「64人は十分大きいのか?」と感じました。 まぁ、十分大きいと考えなければ問題とけないのですが

2023-09-02 20:37:36
黒木玄 Gen Kuroki @genkuroki

#統計 適当な基準による正規分布による近似の誤差の上限ε>0が任意に与えられているとき、母集団分布とεに依存して決まるあるNが存在して、標本サイズnをN以上にすると標本平均の分布の正規分布による近似の誤差がε以下になる。 続く

2023-09-03 01:08:03
黒木玄 Gen Kuroki @genkuroki

#統計 サイズnの標本の標本平均の分布の正規分布による近似の誤差の大きさは、母集団分布に依存します。 母集団分布によっては、小さなn(例えば10程度)でも実用的に十分な近似になることもあるし、実践的には無理なほど非常に大きなnが必要になる場合もあります。 続く

2023-09-03 01:08:04
黒木玄 Gen Kuroki @genkuroki

#統計 実践的な状況では、データを取得する現実の母集団分布は未知なので、純粋に論理的な可能性としては、実践的には予算の都合などにせいで無理なほどnを大きくしないと正規分布による実用的な近似が不可能であることもあり得ます。 続く

2023-09-03 01:08:05
黒木玄 Gen Kuroki @genkuroki

#統計 しかし、データを取得する現実の母集団分布の様子が事前に全く分からないということも稀でしょう。 過去の類似の調査結果から、母集団分布がどの程度左右非対称かとか、どの程度外れ値を含むか(裾が太いか)が予想できる場合が結構あるはずです。 続く

2023-09-03 01:08:08
黒木玄 Gen Kuroki @genkuroki

#統計 標本平均の分布の正規分布近似の誤差は、母集団分布がほぼ左右対称で裾が太くなければ小さなn (例えば10~20程度)で十分に小さくなりやすいです(例:一様分布)。 しかし、左右非対称で裾が太い母集団分布では大きめのnが要求されるようになります(例:対数正規分布)。 続く

2023-09-03 01:08:09
黒木玄 Gen Kuroki @genkuroki

#統計 このように、中心極限定理による実用的な正規分布近似で必要な標本サイズnの大きさは、母集団分布に強く依存し、必要なnの見積もりには未知の母集団分布の形に関する予測が必要になります。 母集団分布の形を無視して「nが100以上ならば大丈夫」のように言うのは誤りになります。続く

2023-09-03 01:08:10
黒木玄 Gen Kuroki @genkuroki

#統計 中心極限定理による実用的な正規分布近似で必要な標本サイズnの大きさの見積りには、 * どのような母集団分布ならばどれだけnを大きくすれば実用的な正規分布近似ができるかに関する数学的知識 と * 未知の母集団分布の形を予測するために必要な分野固有の知識 の両方が必要になります。

2023-09-03 01:08:12
黒木玄 Gen Kuroki @genkuroki

#統計 だから、まずは、各種の確率分布(特に自分が扱う未知の母集団分布に近そうな分布)について、中心極限定理による正規分布近似の様子を計算してみて、誤差の程度がどういう感じになるかを多数見てみるというような勉強が必要になると思います。 本当はこういうことも入門書に書く必要がある。

2023-09-03 01:08:13
黒木玄 Gen Kuroki @genkuroki

#統計 私のツイログを検索すれば、各種の確率分布と標本サイズnごとに中心極限定理の様子を視覚化したものが多数見つかるはずです。 #Julia言語 のソースコードもたいての場合に公開されており、それを見れば自分でも色々実験できるようになるはずです。

2023-09-03 01:11:04
黒木玄 Gen Kuroki @genkuroki

#統計 このスレッドに書いた中心極限定理の話は * 母平均や母平均の差に関する仮説検定や区間推定 の基礎になります(具体的にはt検定達の話)。 よくある誤解は ❌正規母集団でなければt検定は使えない。 この誤解を広めているのは大学の先生達だったりする。

2023-09-03 01:26:39
黒木玄 Gen Kuroki @genkuroki

#統計 添付画像は kunitomo-lab.sakura.ne.jp/2021-3-3Open(S… Diez他著『データ分析のための統計学入門』2019 より。【データから観察されるものを超えて】の部分は非常に重要なので、もう少し詳しく説明したいところ。 例えば、外れ値の有無を観察されたデータだけで判断するのは危険です。続く pic.twitter.com/TOFxDLebHT

2023-09-03 08:10:01
拡大
黒木玄 Gen Kuroki @genkuroki

#統計 kunitomo-lab.sakura.ne.jp/2021-3-3Open(S… Diez他著『データ分析のための統計学入門』原著2019 の【データから観察されるものを超えて】以降を読んで理解できなかった読者は、外れ値の有無を観察データだけから判断してしまう危険性があります。続く pic.twitter.com/phXPO4VrDP

2023-09-03 08:14:23
拡大
黒木玄 Gen Kuroki @genkuroki

#統計 標本平均の分布の中心極限定理による近似で重要なのは、データの数値に外れ値が含まれているか否かが重要なのではなく、未知の母集団分布に外れ値が含まれているか否か(裾が太いか否か)です。続く

2023-09-03 08:17:24
黒木玄 Gen Kuroki @genkuroki

#統計 例えば50分の1程度の割合でしか母集団分布に含まれていない外れ値がサイズn=50の標本に1つも含まれていない確率は1/e=0.36⋯程度もあります。 標本サイズnが50より小さいなら、標本に母集団分布には含まれている外れ値が1つも含まれていない確率はさらに大きくなります。続く

2023-09-03 08:21:08
黒木玄 Gen Kuroki @genkuroki

#統計 母集団分布に小さな割合でしか含まれていない外れ値はサイズnが数十程度の観察データとしての標本には1つも含まれていない可能性を疑う必要がある。 だから、観察データ外の知識を使って、未知の母集団分布が外れ値を含むか否かについて考える必要があります。続く

2023-09-03 08:24:10
黒木玄 Gen Kuroki @genkuroki

#統計 他にも、本当にやりたいことは母集団Aからの無作為抽出による統計分析なのに、実際に可能なのは母集団Aの一部分に過ぎない集団A'からの無作為抽出(に近い抽出)だけだったりする場合もあり、その場合にはAではなく、A'に関する統計分析になっていることに十分な注意を払う必要がある。

2023-09-03 08:27:53
黒木玄 Gen Kuroki @genkuroki

#統計 母平均や母平均の差に関する仮説検定や区間推定のような初歩的な道具を使う場合であっても、データ外の事柄が本質的に重要になり、 * 中心極限定理による正規分布近似の様子に関する数学的知識 と * 未知の母集団分布の形の大雑把な予測のために必要な知識 の両方が必要になります。 twitter.com/genkuroki/stat… pic.twitter.com/FKfxZewHcj

2023-09-03 08:33:39
拡大
黒木玄 Gen Kuroki @genkuroki

#統計 「未知の母集団分布の形の大雑把な予測」は * 未知の母集団分布はどの程度左右対称か * 未知の母集団分布はどの程度外れ値を含むか のような母歪度や母尖度に関わる事柄に関する予測のこと。 中心極限定理による標本平均の分布の正規分布近似の精度は母歪度や母尖度でおおよそ決まります。

2023-09-03 08:38:44
黒木玄 Gen Kuroki @genkuroki

#統計 あと、このスレッドの話題の範疇を超える話になってしまいますが、t検定のような既存の道具を使うよりも、未知の母集団分布の形の予測に使える知識をフルに使って自分で統計モデリングを行った方が得な場合は多いように思われます。 「自分で統計モデルを設計しても良い」という事実は重要。

2023-09-03 08:53:45