10周年のSPコンテンツ!

統計解析の目的:知見の一般化?それとも、傾向の確認?その場合の再現性って何?

心理学等の統計学的検定について、その実質的な意味をめぐる議論です。 具体的には以下の点が議論されています。 ■ランダムサンプリングをしていないデータを検定したとき、その「統計的有意」は何を意味するのか? 続きを読む
心理 統計学 ynabe39 心理学 統計 渡邊芳之
19
渡邊芳之 @ynabe39
有意水準を設定するのではなくp値を直接示せと言われるようになった頃から統計的検定は仮説のテストではなく「効果量を示す手続き」として使われるようになっていたのだと思う。
渡邊芳之 @ynabe39
統計の歴史を見るとこの「傾向の大きさそのものを示す」という志向と「仮説をテストする」という志向は常にせめぎあって繰り返し主流の座を奪い合っている。
渡邊芳之 @ynabe39
母集団から標本がランダムサンプリングされているなら,ある標本で統計的に有意になった結果は母集団の傾向を正しく反映している確率が高いから,同じ母集団からランダムサンプリングされた別の標本においても同じ傾向が見出される(つまり再現性がある)ことが期待される。
渡邊芳之 @ynabe39
ある標本で統計的に有意になった傾向が同じ母集団から得られた別の標本で再現しない場合,その理由の一つは「2つの標本が母集団からランダムサンプリングされていないこと」だと思う。
渡邊芳之 @ynabe39
「心理学の研究は統計的検定を使うけど,標本がランダムサンプリングされていないじゃないの」というのはそれこそ何十年も前から繰り返し指摘されてきたけれども,その結果が「再現性」という学問の根本を揺るがす問題によって明るみに出たのは不幸なことだと思う。
渡邊芳之 @ynabe39
元の研究がランダムサンプリングされていないだけでなく,追試もランダムサンプリングされていないのだから,それぞれが母集団の中から違った方向に偏って抽出された標本であれば,結果は再現しにくいだろう。
渡邊芳之 @ynabe39
統計的検定を使うなら元の研究も追試もランダムサンプリングしてから再現性を検討しようよ,という正論も言えるが,そんなことは実質的に不可能なので,ランダムサンプリングを前提にしない方法を使うようにしようよ,傾向の大きさそのものを見ようよ,となるのは自然である。
渡邊芳之 @ynabe39
しかしそもそも推測統計学がなんで生まれたかというと「少数例をとって傾向がいくら大きかったからといってそれが一般化できるわけじゃないよね〜」という気づきからなんだよね。
渡邊芳之 @ynabe39
推測統計学が生みだした大きな問題というのは2つあって,ひとつは「小さな差でも統計的に有意であれば一般化されるようになった」ということ。フィッシャーが考えたのは多分「大きくても一般化できない傾向を特定する」ことであって「小さくても一般化できる傾向を見つける」ことではなかったと思う。
渡邊芳之 @ynabe39
推測統計学のもうひとつの問題は「実際にはほとんど誰もランダムサンプリングなどしていない」ということで,これは別に心理学や教育学,医学などよくそれで批判される分野に限ったことではなくて,推測統計学の本家本元である農学分野の研究でもランダム性などほとんど保証されないように見える。
渡邊芳之 @ynabe39
私は今回心理学の研究について行われたような「再現性のチェック」が推測統計学を多用する生命科学,人間科学の他の分野でも行われたら,その結果は心理学と同じように悲惨なことになるだろうと予想する。
渡邊芳之 @ynabe39
な〜んてことやもっとたくさんの問題が社会心理学会のシンポジウムでは議論されるのだと思うけど私は行けないのですw。
渡邊芳之 @ynabe39
なので統計的検定などの推測統計学を使うのをやめて効果量など「傾向の大きさそのもの」で議論しようというのは,まあある意味先祖返りではあるけれども妥当な方向性だろうと思います。
渡邊芳之 @ynabe39
実際ベイズなんか18世紀の人なんだから先祖返りでかまわないんだろうと思います。
渡邊芳之 @ynabe39
【著名な心理学者の鍵RT】 現実ランダムサンプリングは,社会情勢的にもどんどんやりにくくなっているし,そもそも費用的にも難しいからね。傾向を見る方向にいかないなら,社会学みたいに公的なサンプリングデータの二次分析に行くしかないだろうね。
渡邊芳之 @ynabe39
尾見たちが「統計的検定の記述的用法」と呼んだように,かなり前からかなり多くの研究で統計的検定は「母集団に一般化できる」という仮説検定ではなく「1%で有意になるほど大きな差が出た」という「傾向の大きさ」の指標として用いられていたとも言える。
渡邊芳之 @ynabe39
そうなると逆説的な言い方になるが「統計的検定で有意になったからといって母集団に一般化できるわけではない,したがって母集団からの別の標本では再現されないことが十分にあり得る」ということになる。
渡邊芳之 @ynabe39
再現性の問題を考えるときにはそもそも同じ母集団から得られた複数の標本で見られる傾向が一致しないということが「どういうことか」ということをちゃんと考えないといけない。
渡邊芳之 @ynabe39
「心理学の研究成果が再現しない」という論文を読みながら「これって追試のほうもあてにならないんじゃね?」と思った人はけっこういると思うんだよね。
渡邊芳之 @ynabe39
このまえのパソ心大会で若い先生から「データを取るのが大変になっているから学会でデータをとって会員で共有したらどうか」という意見があったのを思い出した。学会が支援する研究グループで科研費とってそうしたらいい。
oʞɐsɐ ɐɹnıɯ @asarin
@ynabe39 @kaihiraishi 社心大会2012シンポで震災データ絡みでその提案をしたのですが、華麗にスルーされました(°_°)
Hiraishi Kai @kaihiraishi
@asarin @ynabe39 ですかー。でもそれから三年だし、そろそろ時季では!?
渡邊芳之 @ynabe39
@kaihiraishi @asarin 会員の中ですでにある程度実績を積んで科研費が当たりやすいような人を中心に研究グループを公募か何かで作って、それで大規模データをとって共有できないかとか考えています。
oʞɐsɐ ɐɹnıɯ @asarin
@ynabe39 @kaihiraishi 当たりやすいは大事ですね。なお私は大変関心ありますしやるなら是非乗りたいですが、今回代表はむり〜。
Hiraishi Kai @kaihiraishi
@asarin @ynabe39 興味はあるがパソ心会員でありません。
残りを読む(4)

コメント

山元 太朗 @tarogeorge 2015年9月4日
震災データで科研費とるなら、政治学、経済学の重鎮を並べて学際という取り方もありそう。
Ishida Brain Dam'd @tbs_i 2015年9月5日
わかって言ってるとは思うけど、p値では効果の大きさは判定できない。最近はp値の他に効果量も併記するようになっているので、議論の方向は間違ってないけど。
МИНАТО Күнио @3710920 2015年9月5日
社会学でもランダムサンプリングによる全国データ以外を使うことがあるので、心理学だけの問題じゃないのよね。
Kawai_Yusuke @fiddler_K 2015年9月18日
「「傾向の大きさそのものを示す」という志向と「仮説をテストする」という志向」
ログインして広告を非表示にする
ログインして広告を非表示にする