「5回勝負して4回勝つ人」と「100回勝負して60回勝つ人」、強いのはどっち??

同じデータの比較なのに、統計手法によって三者三様の結論になる現象を考えましょう。
11
Kaggleで勝つデータ分析の技術

門脇 大輔,阪田 隆司,保坂 桂佑,平松 雄司

統計手法によって、三者三様の結論が出る

Jack @sakata_ryuji

データ分析に関する見聞を広めるために開設。 Kaggle Competitions Grandmaster (2019/06) 著書: Kaggleで勝つデータ分析の技術 (2019/10) AtCoder水色 (2022/12)

kaggle.com/rsakata

Jack @sakata_ryuji

「5回勝負して4回勝つ人」と「100回勝負して60回勝つ人」の話、個人的にはすごく示唆に富んでいると思っていて、ざっと観測した感じでも、 ①事前分布を一様分布としてベイズ推定すると前者のほうが明らかに右側に寄っているので、前者が優秀 (続)

2022-06-20 20:50:36
Jack @sakata_ryuji

勝率5割としてカイ二乗検定で適合度の検定を行うと後者だけが有意水準5%で有意となるので、後者が優秀 ③フィッシャーの正確確率検定で有意差が出ないので、どちらが優秀かは言えない という一見矛盾する3つの主張が存在する。 (続)

2022-06-20 20:50:36
Jack @sakata_ryuji

どの主張にも一定の合理性があるし、そもそも前提や見ているものが微妙に違うので、見方によってはどれも正しいと言えるのだと(少なくとも自分の理解では)思う。 (続)

2022-06-20 20:50:37
Jack @sakata_ryuji

結局のところ、分析の結果得られた主張というのは、どのようにしてその結果が得られたかというプロセスとセットで捉えないと意味が無く、その裏返しとして、分析のディテール抜きに結論だけが独り歩きすることがいかに危ういかということを、再確認した気がする。

2022-06-20 20:50:37

厳密に考えると

店主 @tlaus_kennstedt

@sakata_ryuji > ①事前分布を一様分布としてベイズ推定すると前者のほうが明らかに右側に寄っているので、前者が優秀 ベイジアンbeta-binomialだと有意差なし、じゃないですかね?(違う仮定だったらすみません) pic.twitter.com/cTw1mseof2

2022-06-20 22:05:30
拡大
Jack @sakata_ryuji

@tomoking19937 コメントありがとうございます。①の主張では有意かどうかまでは踏み込んでおらず、分布の形状から定性的に前者が優秀だ、という文脈でした。もちろん、②と比較する前提なら条件を合わせるべきと思いますが、そこの差異も含めて、導かれる結論に差が生じうる、という主旨とご理解いただければ…。

2022-06-20 22:33:27
ホライゾン @crypto_bigbang

@sakata_ryuji カイ二乗検定を使うためには、"成功する回数"が正規分布に近似(中心極限定理より)できなくてはなりませんが、これは5回×50%=2.5だと成立しているとは言えません(目安として5以上が必要な模様)。②はあまりreliableではなさそうです。

2022-06-20 22:48:20
Jack @sakata_ryuji

@crypto_bigbang 全くご指摘の通りで、ツイートした後に気付きました。ここは二項検定を用いるべきですね。 カイ二乗検定の場合、p値はそれぞれ0.180, 0.046だったのに対し、二項検定だとそれぞれ0.375, 0.057となりました。傾向としては同じですが、5%水準だと厳密には後者も有意ではなくなってしまいますね。

2022-06-20 23:01:58

馬だとこう

HrSt @HrysSt

@sakata_ryuji 馬券なら1回の勝負の濃淡が違うので トータル軍資金1万円的中時のオッズ 2倍時 4/5 軍資金 5分割 1回 2千円 配当 2千円x4回的中x2倍 = 1万6千円 利益 1万6千円 - 1万円 = 6千円 60/100 配当 1百円x60回的中x2倍 = 1万2千円 利益 1万2千円 - 1万円 = 2千円

2022-06-21 10:07:48