- suzumeninja
- 9988
- 189
- 0
- 6
チンツイ統計、実は単語ごとに統計すると、結構ズレが生じるのではないかという疑惑があります。特定のワードを使う人は日常的にチンツイをしており、別の特定のワードを使う人は非日常的にチンツイをしているという可能性です。 #チンツイ統計
2016-05-21 08:37:03各単語(および複数種類の単語が混在しているもの)ごとのCTを数えると、このようになりました。圧倒的に多いのはちんぽですが、注目するべきはちんちんのCTの分布です(詳細は次で)。 #チンツイ統計 pic.twitter.com/JkvpY0yf7A
2016-05-21 10:37:37単語ごとの曜日毎のCTPD/平均CTPDを、全体のCTPD/平均CTPDと比較したものがこちらです。1以上であれば、平均よりもその曜日のCTが多いということになります。全体とちんちんの分布が近いです。 #チンツイ統計 pic.twitter.com/SerZ2bCS1Q
2016-05-21 10:43:47曜日毎のCTPD/平均CTPDの最大値と最小値の差分を見てみましょう。この値が大きいほど、曜日ごとのCTのブレが大きいということになります。 #チンツイ統計 pic.twitter.com/Mrr0T5OUKR
2016-05-21 10:49:34チンポは日常的にCTがあり、逆にツンキはCTのブレが大きいということがわかります。ぺにすは標本が1しかないので、信頼性のないデータとなり、考察から除外されます。 #チンツイ統計
2016-05-21 10:50:13チンツイ統計行為、まさにこのTLのすべてを表現する行為だ #日常的にチンツイをする #真摯で正確な統計と考察 #それらが渾然一体となる
2016-05-21 10:52:58標本数が十分なのかについてですが、スタージェスの公式(rplus.wb-nahce.info/statsemi_basic…)により、標本数3880では12階級までは区分けできるとなっているので、曜日毎と2時間毎の集計では十分な標本であるといえます。 #チンツイ統計
2016-05-21 10:56:28ただし、曜日と2時間毎で分布を調査する場合、各曜日ごとに12階級の区分けとなるため、必要な標本数は2048×7で14336となります。なので、曜日と2時間毎で分布については、標本不十分で信頼性の低いデータとなっています。 #チンツイ統計
2016-05-21 11:00:0220週間で3880の標本が集まったので、2年分を遡れは十分な標本数が得られると考えられますが、手作業以外のなにかしらのツールを用意する必要があるため、今後の課題となります。 #チンツイ統計
2016-05-21 11:01:47