「統計」について

3
前へ 1 ・・ 14 15
黒木玄 Gen Kuroki @genkuroki

#統計 *【ベイズ推定は主観確率を用いて行われている】 や * ベイズ統計は【主観確率に基づく統計分析】である が少しでも正しい可能性があると思っていなければ、質問自体が無かったと思います。 どのように正しい可能性があると思ったかについて教えて下さい。 twitter.com/ohsaworks/stat…

2019-08-24 08:31:18
ʇɥƃıluooɯ ǝıʇɐs 𖥶 Re-seT @tsatie

@genkuroki 確かに此の手の僕のような誤解を減らすには「賭け事やら予想」という話にしておくのが良いのか。あとは平行宇宙か(笑。ふーむ。この話の前に普通のサイコロで「1の目が出る」に賭けたときに賭けに勝つ確率は1/6なわけだがそれを「「一の目が出る」という予測が当たる確率」と表現すると何が嬉しいのか

2019-08-24 09:50:58
ʇɥƃıluooɯ ǝıʇɐs 𖥶 Re-seT @tsatie

@genkuroki Twitterの良いところは文字数制限なわけで当然無駄な言葉は省こうとするのだけど数学は特に難しい。お互い分かってる事や基本的だと認識している筈だと思うてる言葉はどんどん使うからだ。でもそこが難しい。特にこの統計の話は個々のことばの説明がどうしても長くなりただそこに疑問があるからだろう

2019-08-24 09:53:14
黒木玄 Gen Kuroki @genkuroki

#統計 どう分かっていないかをもっと具体的に説明。 統計学の入門的解説では「母分散が既知の場合の平均の信頼区間の求め方」の説明がよく書いてあります。 しかし、母分散が既知なのに、母平均は未知であり、データから平均の信頼区間を求めたいケースで自然なものはあるのでしょうか?

2019-08-24 11:35:56
黒木玄 Gen Kuroki @genkuroki

#統計 例えば、全国の小学1年生の平均身長(単位cm)と標準偏差は 平成 平均 標準偏差 10年 122.5 5.14 20年 122.5 5.18 30年 122.5 5.15 と非常に安定しており、未知の今年の分散が既知の去年の分散に等しいと仮定して、小サンプルから平均身長の信頼区間を求めることは~続く

2019-08-24 11:35:58
黒木玄 Gen Kuroki @genkuroki

#統計 続き~十分に合理的でしょう。しかし、分散が去年と同じと仮定するくらいなら、平均身長も去年と同じと仮定して問題ないように思えるのです。 というわけで、私は「母分散が既知の場合の平均の信頼区間」の価値を理解していません。 以上が、私が分からなくなる典型的パターンです。

2019-08-24 11:35:59
黒木玄 Gen Kuroki @genkuroki

#統計 私なりに考えた自然かもしれない設定:過去のデータから、毎年の母集団分布は正規分布から少しずれているかもしれないが、そのずれは大きくなく、母分散はある値σ₀²以下と仮定して問題ないこともわかっているとする。このとき、〇〇年前と今年の平均を小サンプルで比較するために~続く

2019-08-24 11:57:51
黒木玄 Gen Kuroki @genkuroki

#統計 続き~、母分散が仮に可能そうな最大の値σ₀²であると仮定して信頼区間を求めてみた。 この設定であれば「母平均は未知だが、母分散は既知」と私には不自然に感じられる仮定をせずに済みます。 信頼区間を求めるために使う分散の値σ₀²は母分散(真の分散)ではなく、数学的モデル内での分散。

2019-08-24 11:57:53
黒木玄 Gen Kuroki @genkuroki

#統計 母集団分布の様子が十分に分かっていないからこそ統計分析をするわけです。 だから、母集団の真の分散が既知であるとする仮定は余りにも都合が良すぎると思う。 せいぜい「母分散の値は~の範囲におさまっているはずだ」程度のことしか言えない状況を想定する方が自然だと思う。

2019-08-24 12:01:21
黒木玄 Gen Kuroki @genkuroki

#統計 時系列解析は「母集団からの無作為抽出の統計学」は違います。 【「小学校6年生男子の身長」とか、何年か測って、数年たったら母分散は過去の値から求めたものを使う】というのは私が実データを眺めて不自然だと思った設定。教科書にはその例が書いてありますが。 twitter.com/cojjyman/statu…

2019-08-24 12:46:22
黒木玄 Gen Kuroki @genkuroki

#統計 小寺平治著『ゼロから学ぶ統計解析』2002年のp.112には添付画像のように書いてある。この設定も私には不自然に感じられる。 教科書にはこういうことが書いてあるのですが、色々納得できない例だと思います。 サンプルサイズが900もあるのに、標準偏差は過去の資料の値を使っちゃうの? pic.twitter.com/84Hd8E3Rfo

2019-08-24 12:56:48
拡大
黒木玄 Gen Kuroki @genkuroki

#統計 95%信頼区間は、適当にもっともらしい数学的モデルM(θ)を設定して、「データによってM(θ)が有意水準5%でrejectされないθの範囲」として求めれば良いだけのことなので、定義に戻れば計算もできるし、意味も明瞭です。 問題は教科書に解説用に載っている例に色々納得できない場合が多いこと。

2019-08-24 13:01:35
黒木玄 Gen Kuroki @genkuroki

#統計 まあ、「どんぶり勘定を手抜きの方法で行うために過去の資料から分かる標準偏差の数値を使う」のようにはっきり書いてあれば納得できるような気もするのですが、現実の平均身長の推移を見ると非常に安定しており、手抜きをするなら資料から分かる平均身長の値も使っちゃダメなのかとも思います。

2019-08-24 13:08:45
黒木玄 Gen Kuroki @genkuroki

#統計 「そのような状況はあまりない」のように書いてあるだけだと、どうしてその「あまりない状況」について「練習」しなければいけないのか分からなくなるので、まだ説明が足りないと思う。 私個人は「その場合については練習しなくてもよい」と思っています。続く twitter.com/abiko_ushi/sta…

2019-08-24 13:33:32
阿部2 @cocotan_2

@genkuroki 大村平の本は「そのような状況はあまりない」とはっきり書いてあったような記憶があります。「そのような状況はあまりない」とはっきり言った上で、練習のために「母分散が既知の場合の平均の信頼区間の求め方」の説明をするのであれば問題ないと思うのですがいかがでしょうか。

2019-08-24 13:27:02
黒木玄 Gen Kuroki @genkuroki

#統計 母集団分布が正規分布から程遠くなければ(←これの確認が必須であることも教科書に書いておくべき)、正規分布モデルのもとで標本平均と不偏分散とt分布を使って求めた信頼区間はそこそこ信頼できるものになります。続く

2019-08-24 13:37:57
黒木玄 Gen Kuroki @genkuroki

#統計 その場合の説明への繋ぎのために、「母分散既知」という非現実的な場合について扱うのであれば、少しは納得できます。 そういうモチベーションで「母分散既知」と仮定された場合を扱うのであればはっきりそう書いてくれないと困る。

2019-08-24 13:39:57
黒木玄 Gen Kuroki @genkuroki

#統計 すでに他のスレッドに詳しく書きましたが、「母集団分布が正規分布である」という仮定も到底納得できるものではないです。 統計分析に使うデータ以外の情報を使うことによって「このタイプの測定では誤差が正規分布することがよくわかっている」と言えるような特殊な場合以外は要注意。

2019-08-24 13:43:22
黒木玄 Gen Kuroki @genkuroki

#統計 実際の分析では、分析で使う数学的設定が現実をどこまで近似できているかが大問題になります。 無作為抽出の仮定は真っ先に疑いたくなる。 正規分布の仮定は現実には普通成立していないでしょう。 などなど 目的に使える程度の精度が出れば十分なのですが、それはどのように保証されるのか?

2019-08-24 13:47:01
前へ 1 ・・ 14 15