2014年7月3日

FB実験についてのまとめ

FB実験について、よくある倫理的側面からではなく、統計的側面からの@tbs_i氏の指摘をまとめました。

心理有意性検定 fb実験統計法効果量

OHASHITomoki
983
0
0
0

2

Ishida the Brain Damaged @tbs_i

時間があったので噂のFB実験の論文読んでみた。論文はこれ（PDF）。 pnas.org/content/early/…

2014-07-02 20:42:25

Ishida the Brain Damaged @tbs_i

実験内容は、投稿から自動で感情的な単語が入っているものを抽出し、それをもとに感情的にポジティブ/ネガティブな単語が入っている投稿を、ユーザによって「優先的に」ニュースフィードに表示させ、そのユーザの投稿に含まれる同様の感情的な単語の出現頻度を測定するというもの。

2014-07-02 20:42:51

Ishida the Brain Damaged @tbs_i

期間は1週間、約70万ユーザを対象。得られたデータは300万以上の投稿、1.2億個以上の単語で、そのうち400万単語がポジティブなもの、180万単語がネガティブなものだったという、まさしくビッグデータ。

2014-07-02 20:43:12

Ishida the Brain Damaged @tbs_i

結果としては、ニュースフィード内容に従って実験対象の投稿にはポジティブ/ ネガティブな単語が増えた/減った。つまりニュースフィードの感情的内容が投稿に影響したという結論。これは報道通り。

2014-07-02 20:43:49

Ishida the Brain Damaged @tbs_i

ただその増え具合はせいぜい0.1%程度。そんなの誤差レベルじゃないかと思うかもしれないが、データ数が大きくて誤差も低く抑えられるので、統計的には誤差レベルとは言い難い。専門用語を使うと、検定結果は軒並み1%以下の水準で有意。

2014-07-02 20:44:07

Ishida the Brain Damaged @tbs_i

有意な結果が得られたので論文化して公表されているわけだが、実際問題として、「誤差の範囲ではない」と「お話になるレベルの効果」はまた別で、有意性検定は前者についてはわかるが後者については何も語らない。その辺は効果量という指標で見て行く。

2014-07-02 20:44:44

Ishida the Brain Damaged @tbs_i

最近の論文ではこの効果量についても記載するようになっており、この論文も例外ではない。見てみると、コーエンのdがせいぜい0.02程度。これは0～1をとり、手法にもよるが大体0.2くらいで「低い」といわれるもの。0.02ではかなり効果量は低いと言わざるを得ない。

2014-07-02 20:45:19

Ishida the Brain Damaged @tbs_i

つまり「お話になるレベルの効果」ではない。論文は「効果は小さいけど、FBの膨大な投稿数から見たらそれでも実数としては大きな影響だよ」ってな主張で結ばれている。そう言っときながら、後の釈明文では「効果としては極小だったし影響ないよ」とか言い逃れしているのがアレではあるが。

2014-07-02 20:45:55

Ishida the Brain Damaged @tbs_i

倫理的な問題については巷間言われている通りだが、俺が思い起こすのはサブリミナル実験の話。効果の有無とは別に、「感情を操作される」という発想自体に恐怖感を感じるもので、結果感情的な反応で禁止されてしまった。

2014-07-02 20:46:28

Ishida the Brain Damaged @tbs_i

今回も効果の多寡では全くないのだが、その辺全く論文筆者たちは気づいていないように見える。

2014-07-02 20:46:41

Ishida the Brain Damaged @tbs_i

ちなみにサブリミナル効果については、巷間疑似科学批判本には「効果はない」と書かれているものもあるが、心理学実験では効果は認められている。ただし効果量は、他の要因と比べて特に大きい訳ではない。

2014-07-02 20:47:55

Ishida the Brain Damaged @tbs_i

他には、ビッグデータの研究作法についても考えさられるものがある。一つは統計学の利用法。統計学は、「データは大量には取れない」→「データが少ないと誤差が大きい」→「得られた結果が誤差の範囲内か評価する方法がほしい」という動機で発展してきた。「有意性検定」という手法である。

2014-07-02 20:48:31

Ishida the Brain Damaged @tbs_i

また科学の様々な分野で、科学的な検討に値するかどうかの基準として、この「有意性検定」という基準を使ってきた。有体に言うと、「有意な結果（＝誤差の範囲ではない）を得られたら論文として認める」ということである。

2014-07-02 20:49:15

Ishida the Brain Damaged @tbs_i

ところが昨今のビッグデータでは、この有意性検定のそもそもの前提である「データは大量には取れない」という部分が覆っているため、この手法をそのまま使うとそぐわなくなってしまうことが多い。

2014-07-02 20:50:56

Ishida the Brain Damaged @tbs_i

今回の論文もその事例の一つである。ビッグデータであるため、誤差が極端に小さく、ちょっとした効果量でも有意となってしまう。そのためこれまでは認められなかったような些細な効果であっても、論文として認められてしまうことになっている。

2014-07-02 20:51:22

Ishida the Brain Damaged @tbs_i

効果量が小さいと再現性に問題があることが多いので、そのような現象まで論文として発表されると、信頼性に欠ける論文が氾濫することになってしまう。その辺は追試などによって淘汰されると思われるが、その分の手間は増えてしまう。

2014-07-02 20:51:38

Ishida the Brain Damaged @tbs_i

もう一つの問題は、その追試について。端的に言うと「そもそもこれの追試FBでしかできなくね？」というもの。この規模のSNSなんてそうそうないので、同等の実験をできるところはそう多くない。

2014-07-02 20:52:49

Ishida the Brain Damaged @tbs_i

物理学では、実験装置があまりに巨大で世界に一台しかなく、そこでしか実験できないので他では追試が不可能という分野があるが、同様のことがビッグデータでは発生しうる。データがあまりにビッグすぎて、それを収集できる組織は世界に一つしかないという事態だ。

2014-07-02 20:53:24

Ishida the Brain Damaged @tbs_i

フェヒナー先生、心理学はこんなに物理学に近づきましたよ！！（心理学者にしかわからない小ネタ）

2014-07-02 20:54:04

Ishida the Brain Damaged @tbs_i

少ないデータでの追試というのはありうるが、そうするとデータサイズが極端に異なるため有意性検定という基準では全く比較できず、効果量などをベースとしたメタアナリシス的な比較になってくるだろう。

2014-07-02 20:54:17

Ishida the Brain Damaged @tbs_i

いずれにせよ、有意性検定という手法を使える余地はかなり小さくなってくる。おそらく論文の評価基準というレベルで変わっていかないと、ビッグデータを使った研究を評価することができなくなってくるのではないだろうか。

2014-07-02 20:54:49

いま話題のタグ

お金675 名探偵コナン496 声優4008 鉄道2649 水曜日のダウンタウン123 草津62 遭難82 クリエイター480 すがやみつる33 ワールドトリガー866 タヌキ108 Twitter8229 AI2255 ゴジラ-1.029 コスメ285