8万人にひとりから統計を考え直す〜「どうせゆとりやし」とか「数III取ってないし」とか言わずに・・・
- glasscatfish
- 18302
- 0
- 24
- 7
一昨日の甲状腺ガンの話に関して、確率の計算をグラフにしてみました。【ある一定の羅患率を仮定した場合に「8万人に1人見つかる確率」がどれくらいあるのか?】 (計算ミス、見落としなどがあればご指摘を) http://t.co/hIpnb4O3
2012-09-13 08:38:25左上は、羅患率(対10万人比)=0.1、つまり、100万人に1人の時。0人見つかる確率は92.3%だが、1人見つかる確率も7.4%はある。ちなみに、2人見つかる確率は0.3%。他の5つのグラフは、羅患率を少しずつ増やしていった場合。0人の確率が減り、1人や2人の確率が増えていく。
2012-09-13 08:41:016つ目のグラフ、つまり、羅患率(対10万人比)=10、つまり、1万人に1人の場合になると、確率分布はほぼ正規分布(ガウス分布)になることが分かる。
2012-09-13 08:42:10もう一つ、別の計算もしてみました。この方のグラフ(https://t.co/UVK1ifsG )の問題点は、点推計だけを示し、信頼区間がないこと。点推計をしたら、信頼区間もしくは標準誤差を示さなくてはダメ。では、95%の信頼区間はどれくらいの幅になるのか?
2012-09-13 08:43:28信頼区間を求めるために、このグラフを作った。これは、羅患率(対10万人比)を0から10に徐々に動かしていったとき(X軸)に、80000万人中1人に症状が見つかる確率(Y軸)がどのように変化するか、を示したもの。 http://t.co/6uKJXrZZ
2012-09-13 08:44:42ここは80000万人ではなく80000人のタイポと思われます
まず、羅患率がゼロの時は確率もゼロだが、羅患率が0.066を超えた時点で、確率は既に5%を上回るようになる。そして、羅患率=1.26のところでピーク(36.8%)を迎え、その後、緩やかに減少を続ける。確率が5%を下回るのは羅患率が5.6を超えたとき。
2012-09-13 08:45:25罹患率:10万人あたりの罹患数
羅患率が大きくなると、なぜ確率が減少するのか? それは、ここに示しているのが「8万人中1人に見つかる確率」であるから。つまり、羅患率が大きくなると、2人とか3人に症状が見つかる確率のほうが大きくなっていく。
2012-09-13 08:47:08羅患率が10になると、8万人中1人の確率はほぼゼロ。これは一つ前のグラフの右下(6つ目)のグラフとも辻褄があう。つまり、この場合は、8万人中7人とか8人に症状が見つかる確率が最も大きくなる。
2012-09-13 08:48:02結局、このグラフ( https://t.co/UVK1ifsG )の95%信頼区間は、0.066から5.6と非常に幅広いことが分かる。つまり、真の羅患率は95%の確率でこの区間に存在することになる。とんでもなく大きな信頼区間だということが分かる。これでは、判断のしようがない。
2012-09-13 08:49:52以上です。。。(二項分布は私自身は普段あまり使う機会がないので、計算間違いや勘違いがなければ良いが・・・。私が普段使っているのは、正規分布が主です。)
2012-09-13 08:51:27このまとめで、たまたま目にしました。→ http://t.co/H0LSXOsx こうやって、点だけ打てばいかに飛びぬけてるかが分かるけど、実際、信頼区間を求めると、大きな誤差がありうることが分かります。 @tenten22
2012-09-13 09:06:23先ほどの2つのグラフで示したかったのは、仮に平常時に「100万人に1人」であっても、8万人に1人含まれる確率は7%余りあるし、平常時が「20万人に1人」であれば、その確率はさらに増す、という統計の揺らぎでした。グラフに示すと、結構興味深いでしょ。
2012-09-13 09:13:37問:8万人調べて1人見つかった。確率の95%信頼区間は? 答:千万人に3人〜10万人に7人 Rコード:binom.test(1,80000)
2012-09-13 10:52:540.03~7、ということは、私のグラフで言うとY軸を5%ではなく2.5%で切ったときの2つの交点と一致するようです。95%信頼区間の両側が2.5%ずつになるので、そういうことなのかも。 @glasscatfish
2012-09-14 09:22:25@yoshisatose はあ〜。まとめ見ましたら、確率について皆さんいろいろ誤解してるんだな…と。(私も全然弱いんですけどね^^;)
2012-09-13 09:15:46今後も続けられる検査では、もしかしたら、発症がさらに見つかるかもしれませんが、平常時の羅患率によっては、確率の誤差内であるかもしれない、ということは常に念頭に置いていたほうが良いと思います。無論、現時点では影響がないとも断言できません。
2012-09-13 09:17:32@yoshisatose 100万人に1人ということは、100万人を8万人のグループに分けるとそのどれか1グループに1人いるから8万÷100万=8%という説明が難しい話が不得意な人には分かりやすいかも。
2012-09-13 09:20:59概算では、大体それで良いですよね。(おそらく、その概算が成り立つのは、確率が非常に小さいときであり、確率が大きくなるにつれて誤差が大きくなると思いますよ) @birdtaka
2012-09-13 09:23:29@yoshisatose 今までの統計での罹患率は、症状があって病院に行って判明した数でしょうから、全員を検査する今回の方が甲状腺癌を多く見つけられると思います。確率についてもそうですが、その辺の説明が不足しているかと。
2012-09-13 09:29:00