「血液型と性格の無関連性」についての心理学的な解説まとめ(後半) -効果量と妥当性-

みんなにもっと心理学に馴染んでもらえるように,話題になっている「性格と血液型の無関係性」について考えながら,心理学の方法論について連続ツイートしたものをまとめたよ。統計学における第一種の過誤と第二種の過誤について解説した前半に引き続き,物議をかもしたFacebook実験を例に上げて効果量について解説したのち,縄田 (2014) の主張とその問題点を指摘したよ。 グレーで書かれている部分は脱線や補足なので読み飛ばしても大丈夫だよ! 前半:http://togetter.com/li/695159
36
きそしんくん@おかげさまで9年目 @kisopsy_kun

…さて,そろそろ「血液型と性格の無関連性」についての連続ツイートを始めようかな。

2014-07-20 20:01:26
きそしんくん@おかげさまで9年目 @kisopsy_kun

昨日は予備知識として,心理学で用いられる「有意性検定」という統計手法の限界について説明したよ。詳しくはTogetterにまとめたのでURLを参考にしてね。今日は,昨日の話の要点を簡単にまとめてから,もう少し具体的な話に入っていくよ。togetter.com/li/695159

2014-07-20 20:04:01
きそしんくん@おかげさまで9年目 @kisopsy_kun

では,「血液型と性格の無関連性」について,心理学の方法論を通して説明するよ。元の縄田先生の論文「血液型と性格の無関連性――日本と米国の大規模社会調査を用いた実証的論拠――」は,こちらからpdfで読めるよ。twitter.com/jssp_pr/status…

2014-07-20 20:04:49
日本社会心理学会広報委員会 @jssp_pr

【研究紹介新聞記事】先ほどの「血液型と性格は無関係」論文(縄田, 2014)はこちらからPDFをダウンロードしていただけます→jstage.jst.go.jp/article/jjpsy/…

2014-07-19 15:56:29
きそしんくん@おかげさまで9年目 @kisopsy_kun

まずは昨日の話の結論を要約するね。(1) 有意性検定では,「差がない」ということを積極的に示すことはできない。…これは,サンプルサイズを大きくするなどして検出力を上げれば,有意差が認められる可能性が常にあるから。「第二種の過誤」と言ったね。

2014-07-20 20:05:39
きそしんくん@おかげさまで9年目 @kisopsy_kun

(2) 有意性検定で「差がある」ということが示せたとしても,本当のところは差なんて無い,という可能性がある。たまたま起こりにくいことが起こっただけで,という偶然の結果である可能性だね。これを「第一種の過誤」と言った。

2014-07-20 20:11:01
きそしんくん@おかげさまで9年目 @kisopsy_kun

この二点,すなわち「第一種の過誤」「第二種の過誤」について,昨日は男女の平均身長を例に紹介したよ。それに加えて,三つ目の武器である効果量 (effect size) について説明しておこう。

2014-07-20 20:13:13
きそしんくん@おかげさまで9年目 @kisopsy_kun

例えば,「男女間での平均視力の差」について有意性検定をしても有意差が認められないから,どんどんサンプルサイズを増やしていった。100人ではダメだったから1000人にした。1000人でもダメだったから…と増やしていき,100万人にまで増やしたら,ようやく有意差が認められた,とする。

2014-07-20 20:15:54
きそしんくん@おかげさまで9年目 @kisopsy_kun

(これはあくまでも例なので,本当に男女間で平均視力に差があるのかどうかは知らないけど,身長と比べたら,直観的には差がなさそうに感じられるね。加齢による視力の変化とかにはなんとなく差がありそうな気もするので,20代の日本人,ぐらいで考えよう。差が無さそうならどんな例でも良かった。)

2014-07-20 20:19:27
きそしんくん@おかげさまで9年目 @kisopsy_kun

(どうやって視力を測定したか,とか,ジェンダー論的に男女という二分法はどうなの,とか,そういうことはあまり気にしないことにします。)

2014-07-20 20:19:45
きそしんくん@おかげさまで9年目 @kisopsy_kun

さて,このとき,「男女間では視力に違いがある」と結論づけて良いか?例えば,平均値で見たときに女性のほうが男性よりも0.000000001だけ視力が高かったから,女性は男性よりも視力が良いのだ,ということを,有意性検定の結果から主張できるのか?

2014-07-20 20:20:15
きそしんくん@おかげさまで9年目 @kisopsy_kun

(視力の単位に関しては,テキトーに補ってください。ここでは0.000000001という値を「直観的にとても小さい差」という意味で使っています。単位によっては大きい値かもしれませんが,あくまでもここでは直観的に分かりやすいことを目指すので,本質的でない細かい部分には目を瞑ります。)

2014-07-20 20:23:04
きそしんくん@おかげさまで9年目 @kisopsy_kun

まず最初に考えられるのは,昨日の復習だけど,「第一種の過誤に陥っている」とういう可能性だね。有意水準 (確率がこれよりも低ければ偶然だろう,とみなす基準) を5%としたのであれば,「偶然5%を引いてしまったために,本来は差が無いのに有意であると判断された」という可能性だ。

2014-07-20 20:23:27
きそしんくん@おかげさまで9年目 @kisopsy_kun

そこでもう一つ,別の見方をしてみよう。「確かに有意差があることが分かった。だが,0.000000001という差に果たしてどんな意味があるのか?この差は大きいといえるのか?」と。

2014-07-20 20:26:23
きそしんくん@おかげさまで9年目 @kisopsy_kun

一般に,サンプルサイズを増やせばp値は小さくなりやすい。つまり,p値はサンプルサイズに依存した指標といえる。したがって,p値をいくら調べても「差の大きさ」を純粋に評価することはできない。そこで「差の大きさ」を評価する別の指標が必要になる。これが効果量(effect size)だ。

2014-07-20 20:32:37
きそしんくん@おかげさまで9年目 @kisopsy_kun

0.000000001という平均視力の差の値を直接指標として使えばいいんじゃないの?って思う人もいるかもしれないけど,この値はあくまでも測定値に基づいた差であって,測定単位に依存するから客観的な指標にはならない。長さの例が分かりやすいかも。

2014-07-20 20:34:40
きそしんくん@おかげさまで9年目 @kisopsy_kun

例えば,1kmと1000000mmは同じ長さだから,「1kmは小さくて,1000000mmは大きい」と判断してはまずいでしょ?そこで,測定単位に左右されない客観的な指標として効果量が必要になるんだ。効果量にもd,η,偏η二乗など種類があるけど,ここではあまり気にしなくていいよ。

2014-07-20 20:36:20
きそしんくん@おかげさまで9年目 @kisopsy_kun

効果量は,サンプルサイズにも測定単位にも依存しない「差の大きさ」 (より一般には「効果の大きさ」) の指標だから,この値で大きさを評価しよう。視力の例で,dという効果量の指標が0.001だったとしよう。このdについての慣例的な基準は次の通りだ。

2014-07-20 20:37:51
きそしんくん@おかげさまで9年目 @kisopsy_kun

mizumot.com/method/mizumot…によると,d = 0.2(効果量小),d = 0.5(効果量中),d = 0.8(効果量大)という基準がよく使われている。この基準で考えると,今回の d = 0.001という値は,効果量小の0.2を大きく下回っている。

2014-07-20 20:41:45
きそしんくん@おかげさまで9年目 @kisopsy_kun

…ということは,「男女間で視力の平均値に差がある」と言えたとしても,その差はごくごく僅かなもので,ほとんど無視しても良さそうなレベルの差に過ぎない,と判断して良さそうだ。これが,効果量の考え方だよ。

2014-07-20 20:43:25
きそしんくん@おかげさまで9年目 @kisopsy_kun

(僅かな差であれ本当にその差は存在するのか?と思う人もいるかもしれないけど,それには色々な原因が考えられる。例えば,統計学では多くの場合,データが正規分布と呼ばれる分布に従っていることを仮定するんだけど,実際にはぴったり正規分布に従っているケースはほとんどないだろう。)

2014-07-20 20:46:18
きそしんくん@おかげさまで9年目 @kisopsy_kun

(他にもたくさんの仮定に基づいて統計的検定は行われるので,そういった仮定がデータと一致しないときには検定の結果に歪みが生じる可能性がある。ごくごく僅かな差は,そういった歪みの結果として生じたものなのかもしれないし,本当に差があるのかもしれない。それは何ともいえない。)

2014-07-20 20:46:31
きそしんくん@おかげさまで9年目 @kisopsy_kun

効果量についての例として,以前倫理的な問題で話題になった,フェイスブックのニュースフィールドを操作した研究の論文を読んでみよう。pdfはこちら。pnas.org/content/early/…

2014-07-20 20:46:49

※これ以降「ニュースフィールド」と連呼していますが「ニュースフィード (News Feed)」の間違いです。訂正します。

きそしんくん@おかげさまで9年目 @kisopsy_kun

この論文では2ページ目で「ニュースフィールドを操作してポジティブな単語を減らされた人は,減らされなかった人に比べて,ネガティブな単語を使う割合が0.04%増えた」という結果が報告されている。検定結果は「t = 2.71, p = 0.007, d = 0.001」だった。

2014-07-20 20:47:48
きそしんくん@おかげさまで9年目 @kisopsy_kun

p = 0.007」すなわち「p値は0.7%」という結果から,とりあえず5%という慣例的な有意水準は下回っていることが分かるので,「有意差」は認められたと言えるだろう。ところが,その後に書いてある効果量の指標であるdは,0.001と,d = 0.2(効果量小)よりかなり小さい。

2014-07-20 20:50:32
1 ・・ 5 次へ