更新 2012年10月20日作成 2012年9月13日

８万人にひとりから統計を考え直す〜「どうせゆとりやし」とか「数III取ってないし」とか言わずに・・・

@yoshisatose さんが、福島県での甲状腺癌検診に関連して統計的な考え方について解説してくださいました。（追記：佐藤さんは２０１２年１０月の学位審査を経て、ヨーテボリ大学から経済学博士号を授与される運びとなりました。おめでとうございます。）放射線に対する恐怖の９８％は統計に対する無理解で出来ています。（当社調べ・統計的に有意かどうかは不明）

震災原発統計

glasscatfish
18302
87
0
24
7

179

Yoshihiro Sato @yoshisatose

一昨日の甲状腺ガンの話に関して、確率の計算をグラフにしてみました。【ある一定の羅患率を仮定した場合に「8万人に1人見つかる確率」がどれくらいあるのか？】（計算ミス、見落としなどがあればご指摘を） http://t.co/hIpnb4O3

2012-09-13 08:38:25

拡大

Yoshihiro Sato @yoshisatose

左上は、羅患率（対10万人比）＝0.1、つまり、100万人に1人の時。0人見つかる確率は92.3%だが、1人見つかる確率も7.4%はある。ちなみに、2人見つかる確率は0.3%。他の5つのグラフは、羅患率を少しずつ増やしていった場合。0人の確率が減り、1人や2人の確率が増えていく。

2012-09-13 08:41:01

Yoshihiro Sato @yoshisatose

6つ目のグラフ、つまり、羅患率（対10万人比）＝10、つまり、1万人に1人の場合になると、確率分布はほぼ正規分布（ガウス分布）になることが分かる。

2012-09-13 08:42:10

Yoshihiro Sato @yoshisatose

もう一つ、別の計算もしてみました。この方のグラフ（https://t.co/UVK1ifsG ）の問題点は、点推計だけを示し、信頼区間がないこと。点推計をしたら、信頼区間もしくは標準誤差を示さなくてはダメ。では、95%の信頼区間はどれくらいの幅になるのか？

2012-09-13 08:43:28

リンク t.co Twitter / study2007: 地域がん登録全国推計によるがん罹患データ（1975年 ... Verbind meteen met wat belangrijk voor je is. Volg je vrienden, experts, favoriete beroemdheden en belangrijk nieuws.

Yoshihiro Sato @yoshisatose

信頼区間を求めるために、このグラフを作った。これは、羅患率（対10万人比）を0から10に徐々に動かしていったとき（X軸）に、80000万人中1人に症状が見つかる確率（Y軸）がどのように変化するか、を示したもの。 http://t.co/6uKJXrZZ

2012-09-13 08:44:42

拡大

ここは80000万人ではなく80000人のタイポと思われます

Yoshihiro Sato @yoshisatose

まず、羅患率がゼロの時は確率もゼロだが、羅患率が0.066を超えた時点で、確率は既に5%を上回るようになる。そして、羅患率＝1.26のところでピーク（36.8%）を迎え、その後、緩やかに減少を続ける。確率が5%を下回るのは羅患率が5.6を超えたとき。

2012-09-13 08:45:25

罹患率：１０万人あたりの罹患数

Yoshihiro Sato @yoshisatose

羅患率が大きくなると、なぜ確率が減少するのか？それは、ここに示しているのが「8万人中1人に見つかる確率」であるから。つまり、羅患率が大きくなると、2人とか3人に症状が見つかる確率のほうが大きくなっていく。

2012-09-13 08:47:08

Yoshihiro Sato @yoshisatose

羅患率が10になると、8万人中1人の確率はほぼゼロ。これは一つ前のグラフの右下（6つ目）のグラフとも辻褄があう。つまり、この場合は、8万人中7人とか8人に症状が見つかる確率が最も大きくなる。

2012-09-13 08:48:02

Yoshihiro Sato @yoshisatose

結局、このグラフ（ https://t.co/UVK1ifsG ）の95%信頼区間は、0.066から5.6と非常に幅広いことが分かる。つまり、真の羅患率は95%の確率でこの区間に存在することになる。とんでもなく大きな信頼区間だということが分かる。これでは、判断のしようがない。

2012-09-13 08:49:52

Yoshihiro Sato @yoshisatose

以上です。。。（二項分布は私自身は普段あまり使う機会がないので、計算間違いや勘違いがなければ良いが・・・。私が普段使っているのは、正規分布が主です。）

2012-09-13 08:51:27

tenten@🐸🩻💉✨ @tenten2r

@yoshisatose いつの間にか変なグラフが出てたんですねえ。わかりやすい解説ありがとうございます。

2012-09-13 09:04:00

Yoshihiro Sato @yoshisatose

このまとめで、たまたま目にしました。→ http://t.co/H0LSXOsx こうやって、点だけ打てばいかに飛びぬけてるかが分かるけど、実際、信頼区間を求めると、大きな誤差がありうることが分かります。 @tenten22

2012-09-13 09:06:23

まとめ

福島県民調査「子供の甲状腺癌と診断（約8万件から1件）」2012年9月11日　メモ情報を集めました。 23437 pv 556 21 users 8

Yoshihiro Sato @yoshisatose

先ほどの2つのグラフで示したかったのは、仮に平常時に「100万人に1人」であっても、8万人に1人含まれる確率は7%余りあるし、平常時が「20万人に1人」であれば、その確率はさらに増す、という統計の揺らぎでした。グラフに示すと、結構興味深いでしょ。

2012-09-13 09:13:37

Haruhiko Okumura @h_okumura

問：8万人調べて1人見つかった。確率の95%信頼区間は？答：千万人に3人〜10万人に7人 Rコード：binom.test(1,80000)

2012-09-13 10:52:54

Yoshihiro Sato @yoshisatose

0.03～7、ということは、私のグラフで言うとY軸を5％ではなく2.5％で切ったときの2つの交点と一致するようです。95％信頼区間の両側が2.5％ずつになるので、そういうことなのかも。 @glasscatfish

2012-09-14 09:22:25

tenten@🐸🩻💉✨ @tenten2r

@yoshisatose はあ〜。まとめ見ましたら、確率について皆さんいろいろ誤解してるんだな…と。（私も全然弱いんですけどね^^;）

2012-09-13 09:15:46

Yoshihiro Sato @yoshisatose

今後も続けられる検査では、もしかしたら、発症がさらに見つかるかもしれませんが、平常時の羅患率によっては、確率の誤差内であるかもしれない、ということは常に念頭に置いていたほうが良いと思います。無論、現時点では影響がないとも断言できません。

2012-09-13 09:17:32

birdtaka @birdtaka

@yoshisatose 100万人に1人ということは、100万人を8万人のグループに分けるとそのどれか1グループに1人いるから8万÷100万＝8%という説明が難しい話が不得意な人には分かりやすいかも。

2012-09-13 09:20:59

Yoshihiro Sato @yoshisatose

概算では、大体それで良いですよね。（おそらく、その概算が成り立つのは、確率が非常に小さいときであり、確率が大きくなるにつれて誤差が大きくなると思いますよ） @birdtaka

2012-09-13 09:23:29

birdtaka @birdtaka

@yoshisatose そうですね。

2012-09-13 09:31:08

mizu @m_enviro

@yoshisatose 今までの統計での罹患率は、症状があって病院に行って判明した数でしょうから、全員を検査する今回の方が甲状腺癌を多く見つけられると思います。確率についてもそうですが、その辺の説明が不足しているかと。

2012-09-13 09:29:00

1 2 次へ

いま話題のタグ