FB実験についてのまとめ
- OHASHITomoki
- 983
- 0
- 0
- 0
時間があったので噂のFB実験の論文読んでみた。論文はこれ(PDF)。 pnas.org/content/early/…
2014-07-02 20:42:25実験内容は、投稿から自動で感情的な単語が入っているものを抽出し、それをも とに感情的にポジティブ/ネガティブな単語が入っている投稿を、ユーザによっ て「優先的に」ニュースフィードに表示させ、そのユーザの投稿に含まれる同様 の感情的な単語の出現頻度を測定するというもの。
2014-07-02 20:42:51期間は1週間、約70万ユーザを対象。得られたデータは300万以上の投稿、1.2億 個以上の単語で、そのうち400万単語がポジティブなもの、180万単語がネガティ ブなものだったという、まさしくビッグデータ。
2014-07-02 20:43:12結果としては、ニュースフィード内容に従って実験対象の投稿にはポジティブ/ ネガティブな単語が増えた/減った。つまりニュースフィードの感情的内容が投 稿に影響したという結論。これは報道通り。
2014-07-02 20:43:49ただその増え具合はせいぜい0.1%程度。そんなの誤差レベルじゃないかと思うか もしれないが、データ数が大きくて誤差も低く抑えられるので、統計的には誤差 レベルとは言い難い。専門用語を使うと、検定結果は軒並み1%以下の水準で有意。
2014-07-02 20:44:07有意な結果が得られたので論文化して公表されているわけだが、実際問題とし て、「誤差の範囲ではない」と「お話になるレベルの効果」はまた別で、有意性 検定は前者についてはわかるが後者については何も語らない。その辺は効果量と いう指標で見て行く。
2014-07-02 20:44:44最近の論文ではこの効果量についても記載するようになっており、この論文も例 外ではない。見てみると、コーエンのdがせいぜい0.02程度。これは0~1をと り、手法にもよるが大体0.2くらいで「低い」といわれるもの。0.02ではかなり 効果量は低いと言わざるを得ない。
2014-07-02 20:45:19つまり「お話になるレベルの効果」ではない。論文は「効果は小さいけど、FBの 膨大な投稿数から見たらそれでも実数としては大きな影響だよ」ってな主張で結 ばれている。そう言っときながら、後の釈明文では「効果としては極小だったし 影響ないよ」とか言い逃れしているのがアレではあるが。
2014-07-02 20:45:55倫理的な問題については巷間言われている通りだが、俺が思い起こすのはサブリ ミナル実験の話。効果の有無とは別に、「感情を操作される」という発想自体に 恐怖感を感じるもので、結果感情的な反応で禁止されてしまった。
2014-07-02 20:46:28ちなみにサブリミナル効果については、巷間疑似科学批判本には「効果はない」 と書かれているものもあるが、心理学実験では効果は認められている。ただし効 果量は、他の要因と比べて特に大きい訳ではない。
2014-07-02 20:47:55他には、ビッグデータの研究作法についても考えさられるものがある。一つは統計 学の利用法。統計学は、「データは大量には取れない」→「データが少ないと誤 差が大きい」→「得られた結果が誤差の範囲内か評価する方法がほしい」という 動機で発展してきた。「有意性検定」という手法である。
2014-07-02 20:48:31また科学の様々な分野で、科学的な検討に値するかどうかの基準として、この 「有意性検定」という基準を使ってきた。有体に言うと、「有意な結果(=誤差 の範囲ではない)を得られたら論文として認める」ということである。
2014-07-02 20:49:15ところが昨今のビッグデータでは、この有意性検定のそもそもの前提である「データは大量には取れない」という部分が覆っているため、この手法をそのまま使うとそぐわなくなってしまうことが多い。
2014-07-02 20:50:56今回の論文もその事例の一つである。ビッグデータであるため、誤差が極端に小さく、ちょっとした効果量でも有意となってしまう。そのためこれまでは認められなかったような些細な効果であっても、論文として認められてしまうことになっている。
2014-07-02 20:51:22効果量が小さいと再現性に問題があることが多いので、そのような現象まで論文として発表されると、信頼性に欠ける論文が氾濫することになってしまう。その辺は追試などによって淘汰されると思われるが、その分の手間は増えてしまう。
2014-07-02 20:51:38もう一つの問題は、その追試について。端的に言うと「そもそもこれの追試FBでしかできなくね?」というもの。この規模のSNSなんてそうそうないので、同等の実験をできるところはそう多くない。
2014-07-02 20:52:49物理学では、実験装置があまりに巨大で世界に一台しかなく、そこでしか実験できないので他では追試が不可能という分野があるが、同様のことがビッグデータでは発生しうる。データがあまりにビッグすぎて、それを収集できる組織は世界に一つしかないという事態だ。
2014-07-02 20:53:24少ないデータでの追試というのはありうるが、そうするとデータサイズが極端に異なるため有意性検定という基準では全く比較できず、効果量などをベースとしたメタアナリシス的な比較になってくるだろう。
2014-07-02 20:54:17いずれにせよ、有意性検定という手法を使える余地はかなり小さくなってくる。おそらく論文の評価基準というレベルで変わっていかないと、ビッグデータを使った研究を評価することができなくなってくるのではないだろうか。
2014-07-02 20:54:49