2014年7月23日

渡邊芳之先生ynabe39の「ふつうビッグデータの分析は「ビッグデータから解明したこと」を，そのデータには直接含まれない人の行動の理解や予測に用いようとすると思う。」

どういうサンプルが「およそランダムサンプリングとみなせるか」というのはどういうデータを取るかによって大きく変わる。 by 渡邊芳之

渡邊芳之 ynabe39 ビッグデータ

MAROCKs
2370
0
2
2

4

渡邊芳之 @ynabe39

千の風になって。

北海道帯広市 · twilog.org/ynabe39

渡邊芳之（わたなべよしゆき、1962年4月22日 - ）は日本の心理学者。帯広畜産大学人間科学研究部門（人文社会・体育学分野）教授。博士（心理学・東京国際大学）。佐藤達哉、尾見康博との共同研究を中心に心理学論、心理学史、人格心理学や血液型性格分類の批判的検討などの分野に論文・著作を持つ。趣味はレコード蒐集。
http://ja.wikipedia.org/wiki/渡邊芳之

渡邊　芳之　-帯広畜産大学-
http://www.obihiro.ac.jp/ichiran/watanabe_yoshiyuki.html

　

渡邊芳之 @ynabe39

繰り返し数のことを「標本の大きさ」っていうかなあ，まあいうか。

2014-07-23 10:16:42

oʞɐsɐ ɐɹnıɯ @asarin

データの価値をよくわからないひとにデータを売る商いをさせていると長じてひどいことになると思う．一般論です．

2014-07-23 10:36:48

渡邊芳之 @ynabe39

ネット検索でなんでもわかるといっても「機械関係の雑誌を読むのが好きだ」がMMPIのどの尺度の項目なのか，みたいなことは検索ではなかなかわからない。

2014-07-23 10:37:06

渡邊芳之 @ynabe39

「社会調査を代行する会社」の有償モニタ—から得られたデータで統計的検定するのはどうかと思うよ。ランダムサンプリングされてないじゃん。

2014-07-23 10:38:46

渡邊芳之 @ynabe39

ランダムサンプリングが保証できなくても大数の法則で真の値に近いことが期待できる，というのが「ビッグデータ」のうまみなんだろうな。

2014-07-23 10:39:34

小谷敏 @binbin1956

@ynabe39 ランダムサンプリングをしたところでいまの調査の回答率は２，３割でしょう。「答えてくれる奇特な人」の意見しか集まらないのだからサンプルの代表性には非常に強い疑問をもちます

2014-07-23 10:40:19

渡邊芳之 @ynabe39

その点でも「調査会社に委託して集めた120人のデータ，対象はその会社に登録した有償モニタ—」というようなのはどうにもならないと思うんだよね。たぶん人数がそのまま料金に跳ね返るのだろうけど。

2014-07-23 10:41:13

渡邊芳之 @ynabe39

@binbin1956 その傾向は調査会社データではますます強まります。

2014-07-23 10:42:00

渡邊芳之 @ynabe39

そういう意味では「調査とは全く関係のない文脈の影響によってたまたまある大学の教室に集まった学生全員に強制的に回答させる」という「心理学調査の王道データ」には多くの場合でほどほどの妥当性があった。

2014-07-23 10:44:00

渡邊芳之 @ynabe39

「ABOFANへの手紙」でもさんざん書いたけど，どういうサンプルが「およそランダムサンプリングとみなせるか」というのはどういうデータを取るかによって大きく変わる。

2014-07-23 10:45:27

渡邊芳之 @ynabe39

帯広の六花亭に集まっているお客さんに「好きな食べ物」を調査したら，それはランダムサンプリングとは考えにくい。好きな食べ物であれば動物園のお客さんに調査したほうがランダムサンプリングに近づく。

2014-07-23 10:47:15

渡邊芳之 @ynabe39

受験勉強のやり方について旧帝国大学の学生だけに調査したら，それはランダムサンプリングとは考えにくい，受験勉強のやり方であればAKBのコンサートに集まる大学生に調査したほうがランダムサンプリングに近づく。

2014-07-23 10:49:31

渡邊芳之 @ynabe39

心理学の調査データにおける「ランダム性」の仮定というのはだいたいその程度のもので，対象者の持っている属性が調査内容に明らかな偏りを生じさせると考えられない場合にはだいたいランダムと考えて分析を行う。

2014-07-23 10:50:24

渡邊芳之 @ynabe39

ほんとに悉皆調査になっているものなどほとんどないと思いますよ。（続く） “@nmilog: @ynabe39 ビッグデータといった場合はサンプリングではなく悉皆データと捉える考えかたのほうが近いのではないか？”

2014-07-23 10:51:37

渡邊芳之 @ynabe39

「ビッグデータ」が悉皆調査かどうかというのはビッグデータ側にとってはどうでもいい（というか悉皆調査と考えてしまうとまずいことが起きる）のであまり問われないが，心理学者的にはときどき考える。

2014-07-23 10:52:43

渡邊芳之 @ynabe39

まずビッグデータが「母集団の全員についてのデータを得ている」という意味で悉皆調査といえるかというと，多くのビッグデータは非常に大きいだけで全員を捉えていないほうが多いと思う。母集団は１億人でデータは500万人分みたいのが多いのではないか。

2014-07-23 10:54:24

渡邊芳之 @ynabe39

もうひとつ，ビッグデータを悉皆調査と考えることにメリットがあるか。悉皆調査では「どんな小さい傾向もすべて有意」になるが，そのかわりその傾向を「データの外側」の事象の理解に用いることはできなくなる。外側は「別の母集団」なんだから。

2014-07-23 10:56:05

渡邊芳之 @ynabe39

ふつうビッグデータの分析は「ビッグデータから解明したこと」を，そのデータには直接含まれない人の行動の理解や予測に用いようとすると思う。だったらビッグデータもサンプルと考えておいたほうがよい。

2014-07-23 10:57:33

渡邊芳之 @ynabe39

そうするとビッグデータの妥当性を支える最大の基盤は大数の法則なんだろうなあという考えに至る。

2014-07-23 10:58:07

渡邊芳之 @ynabe39

こんなこと書いてる場合じゃない掃除しないと。

2014-07-23 10:59:29

渡邊芳之 @ynabe39

ビッグデータの場合そのデータ収集に「かかるかどうか」を決める個人差変数と調査しようとする変数とに相互作用がないことはやはり大事だと思う。

2014-07-23 11:01:47

渡邊芳之 @ynabe39

アップルストアのユーザーのビッグデータがいくらあっても日本人がWindowsとMacのどちらを好むかを正しく知ることはできないだろう，みたいなこと。

2014-07-23 11:04:34

渡邊芳之 @ynabe39

@kitune_chan 少なくとも，どのこの大学に合格するかと受験勉強時間の相関よりAKBのコンサートに行くかどうかと勉強時間の相関のほうがかなり小さいだろうとは言えます。

2014-07-23 11:07:31

いま話題のタグ

ロシア2636 マナリス15 超算数45 バニーガーデン5 退職205 ダイエット917 メイドインアビス150 読書1330 話題14897 台湾1283 リュウジ70 DAIGO151 フランス909 食文化841 海外旅行1384