パトリさんと統計の話

まとめました。
1
yoka72 @yoka72

twitter.com/NPPNO/status/6… 地域が2つしか無ければそういう考え方で良いのかもしれないけど、実際には複数地域があるからというのが昨日の話だったわけで。

2015-07-02 08:37:56
NPPNO @NPPNO

@iPatrioticmom 以上、雑な議論で数字を出しました。1万人中の5と30なら外れすぎで、2つの数値がもっと近くても、めったにないことだとわかります。これでは話にならないと考える方もいると思いますが他のデータが揃わない今はこの程度でも仕方ないと思います。お騒がせしました。

2015-07-02 04:33:44
yoka72 @yoka72

例えば、地域が10あったとすると、組合せの数は10×9÷2で45。5%しか起きない事象がこれらの組み合わせの中で最低一回は起きる確率は、1-(0.95^45)で約9割。

2015-07-02 08:42:43
yoka72 @yoka72

二群間の検定で有意差がある事と、複数群の中で有意差がある組み合わせがあるというのでは、意味合いにこれほど違いがある。

2015-07-02 08:43:22
iPatrioticmom @iPatrioticmom

んじゃ、@TOM2305_さんの主張通り、市町村区切りで、相馬市と二本松市の57倍の差が生じる確率の組みわせが起きる確率を計算してみてよ。 twitter.com/yoka72/status/…

2015-07-02 09:58:48
iPatrioticmom @iPatrioticmom

あれ、でも相馬市と本宮市も57倍か。まず全市町村間の確率計算しなきゃならないんじゃない?ほとんど計算不能ですよね。 twitter.com/yoka72/status/…

2015-07-02 10:06:47
yoka72 @yoka72

@iPatrioticmom たぶん、大変だと思います。群がたくさんある時に、差があるように見えてしまう組み合わせが出てくる確率がそこそこある事を理解するのが大事なんじゃないですかね。サンプルサイズを揃えれば計算出来るかもしれませんが。

2015-07-02 10:09:27
yoka72 @yoka72

@iPatrioticmom 10000人に4人程度発生する事象が5000人で0人発生する確率13.5%。3人以上発生する確率は32.3%(5000人中3人は10万人中60人)。群が複数あればそんなに珍しくはないように思いますね。(事象はポアソン分布に従い発生するとして計算)

2015-07-02 10:29:44
iPatrioticmom @iPatrioticmom

@yoka72  そうなの? とりあえず教えてもらったサイトで計算してみます

2015-07-02 10:35:59
yoka72 @yoka72

@iPatrioticmom そのサイトで計算しても数値は一致しますね。

2015-07-02 10:43:11
yoka72 @yoka72

@iPatrioticmom keisan.casio.jp/exec/system/11… ちょっと違いました。同じサイト内ですが、僕が使ったのはこちらのページ。平均値は0.04%程度だから5000人規模なら2人。それが0になったり、3以上になったりする確率を見てみると良いんじゃないかと。

2015-07-02 10:45:33
iPatrioticmom @iPatrioticmom

@yoka72  なるほど。まずデータアップデートしますね。

2015-07-02 10:53:53
iPatrioticmom @iPatrioticmom

でも、gomel oblastと grodno obrastの発症率の差には有意差あるわけでしょ。ベラルーシのその他地域には無数のobrastの組み合わせがあるので、その程度の有意差が発生する確率は珍しくないというのは意味なくない? twitter.com/yoka72/status/…

2015-07-02 11:33:29
yoka72 @yoka72

@iPatrioticmom 例えば、事前に甲状腺線量の高い方から10000名、低い方から10000名と決めて検定するなら意味はあると思いますけど、バラバラにある群の中から、こことここで○倍とかっていうのはあまり意味がないと思います。サンプルサイズと平均値、群の数にもよりますが。

2015-07-02 11:36:22
yoka72 @yoka72

@iPatrioticmom twitter.com/yoka72/status/… これ、無作為に選んだ2群であれば、50倍以上の極端な差が付く確率は、0.135×0.323=0.0436で、めったにないと言えるのですよ。

2015-07-02 11:39:41
yoka72 @yoka72

@iPatrioticmom それが、群の数が複数ある事によって、加速度的に発生確率が上がる、というわけです。twitter.com/yoka72/status/…

2015-07-02 11:40:38
yoka72 @yoka72

ntrand.com/jp/poisson-dis… このサイトの数字を使って、keisan.casio.jp/exec/system/11… の確認をしてみる。8時間26通=1時間3.25通。平均値 λ に3.25を入力。残り1時間でメールが来ない確率は、パーセント点 x に0を入れると、

2015-07-02 11:46:33
yoka72 @yoka72

下側累積確率 Pが0.0387・・・でサイトの0.039と一致。7通以下のメールが来る確率は、パーセント点 xを 7に変えた時の下側累積確率 Pになり、0.9817・・・で0.982に一致。

2015-07-02 11:50:29
iPatrioticmom @iPatrioticmom

3/15にプルームが来た地域と来ていない地域での比較にも意味あるんじゃないの。 twitter.com/iPatrioticmom/… twitter.com/yoka72/status/…

2015-07-02 11:51:20
iPatrioticmom @iPatrioticmom

SPMろ紙分析データ env.go.jp/air/rmcm/misc/…  相馬局と二本松局 相馬局は3/20夜までプルームが来ていないと思われる。 pic.twitter.com/lZAGUeCrro

2015-07-02 11:49:57
iPatrioticmom @iPatrioticmom

疫学調査は、無作為ではなくて関心地域について比較するもんじゃないの? チェルノなら土壌濃度や推定線量に差があるgomelとgrodno。 twitter.com/yoka72/status/…

2015-07-02 11:52:51
yoka72 @yoka72

@iPatrioticmom 事前に決めるってのが大事なので、結構新地町と相馬市をくっつけちゃった行為は致命的なのだと思います。発見率の数字を見ないで、プルームの通り道と自治体のピックアップをして検定していれば意味はあったと思うのですが、

2015-07-02 11:54:05
yoka72 @yoka72

@iPatrioticmom 現実に恣意が入っていても、入っていないと言い張ることも出来るのが難しい所です。

2015-07-02 11:56:04
yoka72 @yoka72

@iPatrioticmom だから、線量だけ見て選ぶとか、プルームの通り道だけ見て選ぶとか、が大事なのではないですか?無作為というのは語弊があったかもしれませんね。関心のポイント以外は無作為である事が重要という事です。

2015-07-02 11:57:43
iPatrioticmom @iPatrioticmom

んなバカなw 今から相馬と二本松を比べればいいじゃない。 twitter.com/yoka72/status/…

2015-07-02 11:57:53
yoka72 @yoka72

@iPatrioticmom それだと、差がある所を選んだから、という話になっちゃうわけですよ。しかも、どっちかというと相馬の方が下に外れている感じですし。まぁ、差がある理由を考えるという事自体は悪い事ではないと思いますけど、明確に地域差があるような事は言えないでしょうね。

2015-07-02 12:01:48
iPatrioticmom @iPatrioticmom

は? gomelとgrodnoもminskも発症率が違うから選んだんでしょうが twitter.com/yoka72/status/…

2015-07-02 12:04:22