モバマス・コンプガチャシミュレータで見る統計基礎

あおこめ(@blue_comment)氏の、モバマスを教材にした統計の話のまとめ。
4
あおこめ @blue_comment

あれ、これかーずさん本当に運無かったんじゃね・・・・・・

2012-02-11 20:16:20
あおこめ @blue_comment

度数分布作ってみた。平均すると31500コイン。最安だと4500、最高だと135000。 #imas_cg #コンプガチャシミュレーター http://t.co/c4ZIK0DK http://t.co/yNvCauBW

2012-02-11 21:02:11
あおこめ @blue_comment

ああいうの見ると無性に作りたくなってくるのよね。悪い癖。

2012-02-11 21:02:34
あおこめ @blue_comment

15%を12%にしたらどうなるか気になってるので良かったらご協力を。こっちなら100回回してもタダですし。

2012-02-11 22:23:58
あおこめ @blue_comment

TLからデータを拾うと48人、シミュレーター付属の統計だと総シミュ人数は63人

2012-02-12 00:19:12
あおこめ @blue_comment

現在51組。60行ったら分布貼ろうかな

2012-02-12 00:22:31
あおこめ @blue_comment

ちなみにこの度数分布、完全に手動です。データ分析すら使ってない。

2012-02-12 00:49:55
あおこめ @blue_comment

確率変更後の度数分布を作ってみた。ピークが結構右にずれた感。平均がそんなに変わらなかったのは超課金の方が少なかったためかと。 #imas_cg #コンプガチャシミュレーター http://t.co/V15jP4rJ

2012-02-12 00:47:39
拡大
あおこめ @blue_comment

試行が3ケタ届くと結構見えてくるね。21000あたりがピークとなりそう

2012-02-12 10:24:05
あおこめ @blue_comment

そうそう。これで思い出したけど、統計って「まとめる統計」と「予測する統計」の2種類があるのよね。この区別が出来ない人は多い。

2012-02-12 10:36:39
あおこめ @blue_comment

例えば昨日から今日に掛けてやってる統計だけど、これは結果のまとめとしての統計。自分が前からやってる創想話の統計もこれね。山のようにデータがあって、それだけだと数が多すぎて何なのか分からないって時の物。やってる事が近いのは「~白書」みたいな年次報告の類。

2012-02-12 10:39:13
あおこめ @blue_comment

じゃあ「予測する統計」ってのは何かっていうと、こうやって出たデータが理論上はどういう分布にあるのか、とか少ないデータからさっき見たいな山のある分布を予測するとかする物。理系の人がする統計ってのはこっち。実は測定機械の誤差とかもこっち。

2012-02-12 10:41:51
あおこめ @blue_comment

理系の人が統計使う場面って、結果の数は無限大(次に同じ事しても同じ事になる)だからね。それを何個かピックアップして「本当の値」を予測するのが理系の実験に使われる統計。

2012-02-12 10:44:50
あおこめ @blue_comment

せっかく例があるんだから実際にやってみよう。さっきのモバマスシミュレーター、実は途中で確率が変更になってて。自分は改定前と後のデータを10個くらい持ってる。じゃあ、確率が変わったら実際に結果は変わったのか?これを予測するのがさっきで言う後者の「予測する統計」

2012-02-12 10:55:03
あおこめ @blue_comment

細かーい計算は省くけど、統計を出すと12%版だと平均26700、15%版だと18833になる。パッと見差が出てそうだけど、これだけだと情報不十分。偶然低い方に寄っただけかもしれないし、超課金となった場合が平均を吊りあげたのかもしれない。

2012-02-12 10:58:47
あおこめ @blue_comment

で、じゃあお手上げで、さっきみたいに数時間待ってデータが揃うまで待つしかないのか?そもそもシミュは現在も続いてる訳だから数字は一定しない。GiGiさんがサービス終了させるまで真相は闇の中か……。なんて事をやってたら日が暮れてしまう訳で。

2012-02-12 11:03:05
あおこめ @blue_comment

昔の統計のお偉いさんは、その部分を標準偏差・標準誤差・信頼区間という考え方を持ってきて上手く解決したんだな。

2012-02-12 11:04:21
あおこめ @blue_comment

標準偏差は偏差値で使われるからお馴染みと思うけど、データのバラつき具合。標準誤差はそれを抜き出して予測する時に応用するためにちょっと式を調整した物。

2012-02-12 11:06:38
あおこめ @blue_comment

信頼区間ってのがクセ物なので実際にデータを出してから。

2012-02-12 11:06:53
あおこめ @blue_comment

実際にエクセルにぶち込んで出した物がこちら。色々と大事な数字がたくさんあるけど、今回見るのは一番下。 http://t.co/79EvpIKk

2012-02-12 11:10:20
拡大
あおこめ @blue_comment

やべ。あんまり良いデータじゃないなこれ。

2012-02-12 11:16:03
あおこめ @blue_comment

実験で実際に出たら叩きつけたくなるようなデータだけど、結果は結果だからちかたない。続行。

2012-02-12 11:16:50
あおこめ @blue_comment

信頼区間というのは「本当の平均値は~の確率で実験で出た平均値±この範囲にあるよ。残りはマグレ」という物。例えばこれだと、15%版の本当の平均値は95%の確率で18833±5192だよということ。

2012-02-12 11:17:46
あおこめ @blue_comment

で、これだけだと15%/12%の差が見えてこないという事で、それの差を出す物が存在する。これが理系教養でお馴染みt検定という物。

2012-02-12 11:19:30