LNT仮説?検定に関わる諸問題
- ytkhamaoka
- 6122
- 0
- 1
- 13
ついでに、「100mSvがLSSの限界という理由」 http://t.co/DalaeqFw 地頭のよい @jun_makino さんはサンプル数の見積もりをゼロから導出された。凡人は、先ほどの http://t.co/3pxfmksZ 2集団における割合の差の検定を使う
2013-02-15 12:05:00@ytkhamaoka これは2集団で測定した割合の有意差を検定する公式だが、測定前のサンプル数の見積もりにも使える。単純にn1=n2=nとして、nについて解いてやる。 一般にガンで30%が亡くなり、 1Svあびると1.5倍になるとすれば100mSvだと1.05倍の31.5%。
2013-02-15 12:13:0395%の確率でこれを検出したければz=1.96。代入すればnが求まる(p1=0.3とすることに注意)。これだと単に0と100mGyの2点だけの測定。これで線形を主張するのは無理。せめて間の50mGyでも測定したい。→p1=0.3,p2=0.3075とするだけ。
2013-02-15 12:21:22nについて解いた式をみるとわかるように、p1-p2を半分にするには4倍のサンプルが必要になる。LNTをこのような方法で検定しようとすればいくらサンプルがあっても足りない。
2013-02-15 12:28:242群平均p(1-p)の分だけ違いがでるが、この議論は高線量でも同様。1Svと1.1Svの間に有意差があるかをみるには、p1=30*1.5=45%、p2これの1.05倍とする。2群平均p(1-p)はp=1/2で最大になるので、こちらの方がより多くのサンプルが必要になる。
2013-02-15 12:36:26余談)一昔前の「トリビアの泉」で「全国の老人が嘘だと思っていることわざNo1」を調べるには何人に調査すればいいか?を青学の美添先生に質問に行くと、まあ2000サンプル調べればokといっておられたのはこのような計算に基づく(2集団の差ではなく1集団の割合の95%信頼区間の公式だが)
2013-02-15 12:59:26さらに余談で、あの番組では、サンプル数については、統計学的に検討した公式を用いたのでまあよいが、実際にはどこかの街頭で2000人にインタビューしていたような記憶がある。 →ランダムサンプリングの前提を満たしていない。
2013-02-15 13:02:51さらに1位は300人のことわざAで、2位は250人のことわざBなので「全国の老人が嘘だと思っていることわざNo1」はAであるのような発表。→これも300/2000と280/2000の割合の差を検定すべき。 といった授業の話も学生が若返ったせいでなかなか通じない。。
2013-02-15 13:07:38実際には年齢、性別など様々な要因が作用するので、このような2集団での分析は、乱暴。ついでにこの検定では、線量が連続量であるという情報も使っていない。ということで(LSSなどのデータ分析で)実際に使われることが多いのが(ポアソン)回帰分析。
2013-02-15 13:10:59しかし被爆量は連続量で少なくとも足し算引き算ができるので、直線の傾きを云々する「回帰分析」が適用可能。例えばLNTだと、死亡(率)=a+b*被爆量のように定式化。調査対象者層ごとのこれらのデータを用いてa、bを推定する。参考) http://t.co/XlIbokgs
2013-02-15 13:27:17b>0ならば被爆量が多くなると(線形に)死亡率も増加。b<0ならばその逆。b=0ならば関係ないということになる。推定されるb^も統計量なので、これが0という仮説を検定する必要がある。
2013-02-15 13:27:44そのための検定統計量など、下記資料の下の方参照。 http://t.co/Qe6Hq7o3 t=の式。サンプル数が多ければ、これの絶対値が1.96よりも大きければ95%の確率で推定されたb=0という仮説を棄却できる。 詳しくは統計学の勉強を。
2013-02-15 13:32:04tが大きいほど、bが0でない確率が高くなるということ。tの式とその上の式をみると、tは√Σ(xi-x)^2に比例する。xは私達の例では線量の平均値。xiが個々の線量。大雑把に考えると、サンプル数が多いほど、xも散らばっているほどこの値は大きくなる。
2013-02-15 13:39:21なので、LSS13などでしているような、100mSv以下のサンプルを取り出して推定する、ということは、サンプル数の減少、線量の分散の減少をもたらす。なので、全サンプルを用いて推定すべき。 実際にはポアソン回帰なのでVar (b^)は複雑になるが、Σ部分は共通。
2013-02-15 13:41:59その他、性別、被曝時年齢、被爆地なども導入して、それらの影響も考慮できる。線量について非線形が好きならばx^2とか、1/(1+exp(-x))とか、x<100mSvのときは0で、x>=100mSvのときにb*xといったいろんな定式化をして比較できる。
2013-02-15 13:47:07ついでに、LSSなどの分析では個人レベルでのデータがあるにも係わらず、年齢は5才区切り、線量も10mSv毎とかにわざわざ集計。例 1,2,3,4,5,6→~3が3名(平均2)、~6が3名(同5)。 その中で何人亡くなられたかというポアソン回帰を適用。
2013-02-15 13:54:03これも先ほどのΣの式を小さくしてしまう。なので、個人レベルのデータを匿名化して公開してもらいたいところ。 集計してしまうのは、計算機環境が貧弱で、ややこしい推定ができなかったころの名残だろう。
2013-02-15 13:58:18カウントデータの回帰分析 2nd edがそのうち出るらしい) Regression Analysis of Count Data, 2nd Edition, Cambridge University Press. http://t.co/sPCpa9aZ ベイズの章追加
2013-01-10 20:22:15参考) 被爆者データ13報について、私が再分析した例 http://t.co/JMvB0v5Z
2013-02-15 13:59:49有料記事で無料公開の前半部分しかみていないが、統計、疫学の考え方(その背景)を知るにはよいのでは。本にもなっているよう。 統計学が最強の学問である|西内啓|cakes(ケイクス) https://t.co/fBrey2bc
2013-02-11 09:04:36