食べログの点数を検証した結果、不思議な偏りが存在した

40
えん @u874072e

@deji_shin @srmfsan リプライありがとうございます。 自動化の力を借りて収集しました。

2019-10-08 15:53:40
カ-キ @kazu7kent

@u874072e @deji_shin @srmfsan 初めまして! 凄く面白いデータですね。 もしよろしければ集計方法教えていただけませんか?

2019-10-08 16:12:20
えん @u874072e

@kazu7kent @deji_shin @srmfsan リプライありがとうございます。 ざっくりとした集計方法はブログにまとめております。 clean-copy-of-onenote.hatenablog.com/entry/tabelog3…

2019-10-08 16:22:23
リンク クイックノート 食べログ3.8問題を検証 - クイックノート 先日、twitter上で食べログの星の数について、 ある問題が話題になりました。 食べログの闇として話題になったその問題とは、 「評価3.8以上は年会費を払わなければ3.6に下げられる」 というものです。 食べログは飲食店についての口コミを集めるサイトで、 その評価は実際のユーザーによって形成されるものとして広く認知されています。 専門的なグルメリポーターでもなく、 一般の人々の素直な感想を集めることで、 その飲食店のリアルな価値が知れると期待して、 利用しているユーザーも多いでしょう。 それだけに、 「 1306 users 1645
仏男子でじしん @deji_shin

@u874072e @kazu7kent @srmfsan ありがとうございます。 『3.8以上の評点を3.6に意図的に下げられていた』とすれば、3.6のお店が一番(味や接客で)優良店、という説が浮上するわけですね。

2019-10-08 16:28:16
nabe@人柱🦆𝕏 @Etekichi7

@u874072e 3.8が商材って事ですね 食べログ営業も3.8超えたら信用が〜とかトークしてる 承認商材商法ってまぁモンドセレクション含めこんな感じ

2019-10-08 16:39:36
suattya(すあっちゃ) @suattya

@u874072e 面白いデータですね。 データ数を増やしていけばガウス分布に近づくんですかね

2019-10-08 17:18:30
Inetgate Writer @Inetgate

@usukutilife @u874072e 一般的な統計処理において、標本数が30を超える場合には正規分布を仮定できますが、えん さんが調べた結果だと全然正規分布になってないので、食べログの数値操作疑惑、真っ黒じゃねーかと。

2019-10-08 17:35:13
suattya(すあっちゃ) @suattya

@Inetgate @u874072e 標本数30以上というのは知りませんでした。 話題の3.6付近だけじゃなくて、全体的に歪んでるのでかなりアヤシイですねw

2019-10-08 17:58:25
Inetgate Writer @Inetgate

@usukutilife @u874072e 割と統計学の入門書なんかには標本数の話は書かれていたりします。 分野によりますが、標本数をあまり増やせない実験の統計処理をする場合には、正規分布を仮定できないので、t検定とか使ったりします。

2019-10-08 18:15:31
いつものこと @mekktu61

@u874072e 3.6のお店は美味しいとこ多そう

2019-10-08 18:02:34
ショウちゃん(アカウント変えました。) @ascii53686f

@u874072e @paseri_001 これはなんとも言いがたいが悪くはないから3 とよかったが完璧なわけではないので4 という付け方をする日本人の特徴がデータになってる....

2019-10-08 19:24:43
カナタ/LABO @svkanata

@u874072e 自動化収集を定期的に行えれば「食べログ3.6が優良店」という前提が憎き食べログ運営に覆されてもまた最適な指数が出せそう。

2019-10-08 20:13:37
Inetgate Writer @Inetgate

@usukutilife @u874072e 手元に昔自炊したマグロウヒル大学演習シリーズの統計(1975)があったので、確認したところ、この本の「第一章 標本理論」に n>=30 の場合には標本分布はほぼ正規分布と見なせる旨の記述がありました。

2019-10-08 20:18:41
Trunk @c0nsaru

@u874072e 最近、プログラミング勉強し始めたのですが、こちらはパイソンでのスクレイピングか何かでデータを取られたのでしょうか、、?

2019-10-08 21:27:27
K4CS @satooshy

@u874072e 会員料?払わないと3.6になった、と誰かが呟いていた気がする

2019-10-08 21:40:22
uiu @uiu______

@u874072e 興味深いです。手元でクロールしているデータで再現できないので、教えてほしいんですが、 「評価数が一定数以上」というのは、たとえば口コミ数が10件以上としきい値を決めてるという理解で正しいでしょうか? あと、1200店舗というのはどこかのページからたどって収集した感じでしょうか

2019-10-08 22:06:14
nomoney @nomoney_____

@u874072e @TJO_datasci これユーザーがつけた点数の偏りと、店の点数の偏りをQQプロットとかで見ないと意味ないかと。ユーザー評価が特定の点数に偏るのは不思議じゃなくて、そこそこ美味しければだいたい感覚的に3.5付近に落ち着いた評価になることは想像できる。見るならユーザーの採点分布と実際の店舗の点数分布の差。

2019-10-08 18:55:06
nomoney @nomoney_____

@u874072e @TJO_datasci あと食べログは公式に、口コミ評価は単純平均ではなくて、ユーザーの食通度に応じて重み付けしているので、QQプロットでも結果は歪むはず。数学的なモデルによって採点が決まっているはずなので。

2019-10-08 18:56:20
LIA @lia_hawaii

なんか似てると思ったら ネズミの陰謀だわこれ 食べログ3.8問題 pic.twitter.com/EEFWhJ3IVk

2019-10-08 22:33:51
拡大
拡大
ねここねこ @neco080

食べログ3.8問題を検証 評価3.8以上は年会費を払わなければ3.6に下げられる シンデレラ城は評価3.6か pic.twitter.com/TyGU5jfglQ

2019-10-08 22:44:22
拡大
拡大
₹ꩢ @VTTYT125RR_R

食べログ3.8問題 これは…何でしょう… pic.twitter.com/JoQcJIEOg0

2019-10-08 22:22:54
拡大
嘉ヶ嶋 朱羽 @syuu_kagasima

食べログ3.8問題?もっと問題なのは掲載拒否しても勝手に掲載するわ、書き込みが嘘か誠か調査もしないで削除拒否、いったい何様のつもりなんだ。 価格comは値段の参考の価値しかない。 食べログは嘘99%だと思ってるので屑でしかない。 ハッキリ言って世の中のグルメ評価では食べログは最低だな。

2019-10-08 22:27:37

食べログ

Kakaku.com, Inc.