なんちゃってで語る確率と統計と有意差のはなし

専門家ではない果物がぶつぶつと独り言でつぶやいた「統計的に有意」とは、というお話。専門でないゆえに不正確な内容を含む可能性あり。ここおかしいぞ!というご指摘歓迎です。
25
枇杷 @loquat_priest

TLをみていてすごくもやもやもやしたんだけど、統計の専門家でも何でもないのでもやもやしたまま。よろしくないので吐き出しておく。

2014-10-05 22:52:24
枇杷 @loquat_priest

あるものを観測して得られたデータ同士を比べると、(特殊な場合を除き)何らかの差が出ます。その差が、偶然のせいで観測したもの自体には違いがないのか、偶然じゃなくて観測したもの自体が違うのかを確かめようとするのが有意性の検定。

2014-10-05 22:58:21
枇杷 @loquat_priest

誰かから渡された2つのサイコロを3回ずつ振って、片方は1-1-1、片方は6-6-6と出たとき、果たしてこのサイコロには細工がしてあるのかどうか、ということです。

2014-10-05 23:00:03
枇杷 @loquat_priest

直感的にも、3回程度振ったくらいじゃ、偶然でそんな目の出方をすることがあるかもな、くらいには思えます。でも、例えば10回ずつ振って、片方は全部1、もう片方は全部6が出たら、こりゃおかしいお前このサイコロなんかあるだろ、って誰でも思いますよね。

2014-10-05 23:02:25
枇杷 @loquat_priest

統計学では、「2つのサイコロに違いがない」と仮定したとき、片方が10回とも1、もう片方が10回とも6になるような確率はどのくらいか、というのを計算で求めます。その確率があまりにも小さければ、これは偶然じゃない、「サイコロに違いがない」とした仮定に無理があるんだろう、と推論します。

2014-10-05 23:07:39
枇杷 @loquat_priest

統計学を使っても、サイコロを割って中身を調べられるわけじゃないので、本当の真相は分からない。あくまで、「観測された結果から、どの程度サイコロがインチキくさいか」ということが、確率として推定できるだけです。ただ、3回振るより10回、10回より100回振った方が、推定しやすくなる。

2014-10-05 23:12:43
枇杷 @loquat_priest

さっきの例だと、片方は1ばかりが、もう片方は6ばかりが出やすくしてあるらしく、そういう極端なインチキは、ちょっと振る回数を増やしてやれば、計算上も「インチキでない確率」があっという間に小さくなって、すぐにバレます。このことを「大きな差は小さなサンプルサイズで検出できる」という。

2014-10-05 23:16:41
枇杷 @loquat_priest

でも、サイコロの片方は微妙に1-3が、もう片方は微妙に4-6が出やすくしてある程度だと、100回くらいは振らないと分からないかもしれない。いや、1万回くらい振らないとインチキだとは見抜けないほど、小さなイカサマかもしれない。「小さな差は大きなサンプルサイズでないと検出できない」。

2014-10-05 23:20:53
枇杷 @loquat_priest

ここで問題。すごろくで遊ぶために、ボール紙を切り貼りして2つのサイコロを手作りしたとします。同じ人が同じように作ったとして、さて、いついかなる時も2つのサイコロは全く同じように作れるでしょうか? 当然ながら答えは否。ほんの少しだけ形のちがうサイコロができあがりますね。

2014-10-05 23:24:11
枇杷 @loquat_priest

統計学というのは非常に強力なので、この手作りの2つのサイコロを何百万回も振ると、その形の違いに応じて、「目の出やすさに違いがある」という結果を出します。出してくれないと、困ります。だって、2つのサイコロは同じじゃないんですから。

2014-10-05 23:27:02
枇杷 @loquat_priest

この世界に「違いのまったくない完全に同一の2つのもの」というのがない以上、統計学的を使えば、「サンプルサイズを十分に大きくすると、いかなる小さな差も検出できる」ということになるのです。手作りじゃなく市販されてる機械作りのサイコロも、何億回も振れば違いが見えるでしょう。

2014-10-05 23:31:17
枇杷 @loquat_priest

「統計学的に検出できる差がある=差が有意である」ということと、その差が実際に私たちの生活にとって意味のある差かどうかには、直接の関係はありません。手作りのサイコロだって、よほど下手くそに作らない限り、すごろくで遊ぶには十分ですよね。

2014-10-05 23:36:03
枇杷 @loquat_priest

こういった事情を何の説明もなしに、「AとBを比べた結果、有意な差がみられた」と表現してしまうと、誤解のもとになります。また繰り返しますが、その表現からだけでは、その差が私たちにとって考慮に値する差なのかどうか、読み取ることはできません。

2014-10-05 23:43:43
枇杷 @loquat_priest

なので、臨床研究などでは、研究を始める前から「臨床的に意味のある差はこれくらいで、それを検出できる程度の人数で試験をしよう」と決めておいたりします。それで統計的に有意な差が認められなければ、自分たちが意味があると考えていたほどの差がみられなかった、と解釈しようということ。

2014-10-05 23:49:30
枇杷 @loquat_priest

実際に患者さんの協力を得て試験をやって、サンプルサイズが小さくて差が出せませんでした、ではあんまりなので、ある程度小さな差でも検出できるように試験を組むこともあります。そういった場合も含めて、検出できた「差」がどれくらいの大きさのものなのか、有意性とは別に示すやり方があります。

2014-10-05 23:54:33
枇杷 @loquat_priest

ひとつのやり方は、ハザードの比。ある治療を受けると、受けなかった場合より合併症のリスクが0.7倍とか、ある生活習慣をほっとくと、やめた場合より病気のリスクが2.4倍とか、そういう表し方をします。数字が大きいほど差が大きく、比較的分かりやすいやり方です。

2014-10-05 23:57:59
枇杷 @loquat_priest

もうひとつ、NNT(number needed to treat)というやり方。14人治療するごとに1人を救える治療と、236人治療ごとに1人とか、そういう比べ方をします。これは、新しい治療のインパクト、特に費用対効果を考えるときによく使われるやり方です。

2014-10-06 00:01:36
枇杷 @loquat_priest

まとめ。「統計学的に有意な差」とは、偶然による間違いじゃないらしい差だ、というだけで、その差の持つ意味は、何のどういう差に対して私たちがどうしようと考えているかによって決まってくるものです。それらは前もって決めておくべきもので、後付けでいじるのはよくありません。

2014-10-06 00:08:00