統計的仮説検定(NHST)や停止規則についてあれこれ

話が長いのでまとめました。話が続いたら追加します。
3
Ken McAlinn @kenmcalinn

「は」じゃなくて「なら」って言うべきでしたね。立場的には「使える状況」はなくて「使っても問題が小さい状況」か「問題が大きい状況」しかないので使わないほうがいいとは思いますが(元々ASAの声明もこれに近い立場だったけど政治的にあぁなったという点も)。 twitter.com/AkiraOkumura/s…

2022-02-04 11:24:30
OKUMURA, Akira(奥村 曉) @AkiraOkumura

「使わないほうがいい」と「使ってはならない」は違う意味です。また使える状況と使わないほうがいい状況は区別しなくてはいけません。 twitter.com/kenmcalinn/sta…

2022-02-04 11:19:16
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn 「正方形に内接する円を考え、乱数を使って正方形内に (x, y) の組を一様に生成させる。このとき、円の内側に入った点の個数から円周率を概算するプログラムを作成せよ。知られている円周率の値からずれがないか確率の観点から検証し、バグがないか調べよ」例えばこれでも使えないですか?

2022-02-04 11:33:51
Ken McAlinn @kenmcalinn

@AkiraOkumura その場合だと帰無仮説が円周率と合ってる、なのでそれを棄却してバグがあるかはわかってもバグがないかは検証できないです。ただ本質的に言えばp値は尤度原理に反するので使ってはだめという立場です。

2022-02-04 11:39:09
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn こちらの書き方が悪かったですね。「課題の提出前に明らかなバグがないかを検証せよ」だったら良いですよね。

2022-02-04 11:45:29
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn 「明らか」という言葉も少し曖昧ですが。

2022-02-04 11:47:47
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn 「バグがないか調べよ」を「バグが 1 つも混入していないことを証明せよ」という意味で使う人はほとんどいないと思います。

2022-02-04 11:48:49
Ken McAlinn @kenmcalinn

@AkiraOkumura なにをもってして「良い」のかによるんですが、任意にサンプルサイズを増やせるから問題が小さいのであって尤度原理に反する以上は統計推論としては問題があると思いますけどね。この問題も本当に知りたいのはこのプログラムにバグがあるかじゃなくて正確に円周率を計算できるかだと思うので。

2022-02-04 11:56:35
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn いえ、プログラミング初心者の課題なので、知りたいのは明らかに計算間違いがないかを知りたいということです。円周率 3.598742 ± 0.000005 という結果を検証するのに単純な二項分布の確率の概念は役に立ちます。まだサンプルサイズが非常に大きい素粒子実験などでも同様です。

2022-02-04 12:03:14
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn 一番最初の tw は、うちの大学のある講義なんですが、χ2 検定と p 値を教えた後に、講義の最後にどんでん返しで「でも p 値は使ってはいけない」のように教える意味の分からない話で。(使える状況が限定されるという解説もなしに、です)

2022-02-04 12:05:36
Ken McAlinn @kenmcalinn

@AkiraOkumura 素粒子実験とかではかなり高い(低い?)有意水準で検定をするのは知ってますし、それによって問題が少ないのはわかるんですが、p値(ないしはNHST全般)の本質的問題は回避できてないのでやはり問題はあると思います。まぁ実際どういう意図で教えたかはわからないですが、使える状況を限定しても

2022-02-04 12:10:36
Ken McAlinn @kenmcalinn

@AkiraOkumura 勝手にどんどん使ってしまうのが人なので気持ちはわかります(なので自分の授業では検定は教えないです)。

2022-02-04 12:11:48
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn 素粒子実験では p 値をもって何かを主張するというより、帰無仮説(ある素粒子が存在しないなど)では説明のできない信号の超過(通常は 5 σ 以上)になるまでデータを溜めて発表するという使い方です。もちろん帰無仮説のモデリング自体がおかしいとか、理論も複数あるとか実験装置の系統誤差がある

2022-02-04 12:16:33
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn とか、そういうのを皆が理解した上での基準です。

2022-02-04 12:16:56
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn 興味で伺いたいのですが、例えば先ほどの円周率の場合だと、どのように講義されますか?母数は定数であり二項分布に従うというのも明らかな場合にです。

2022-02-04 12:18:52
Ken McAlinn @kenmcalinn

@AkiraOkumura でもそれって「実務上このくらいの水準だったら問題ない」って話で、それと「そもそもp値は問題がある」は両立すると思うんですよね。もちろん実務上問題ない(分野だ)からちゃんと教えてほしいってのもわかります。

2022-02-04 12:49:14
Ken McAlinn @kenmcalinn

@AkiraOkumura どのように授業を教えていいって言われたら二項分布のpの事後分布を求めてπの周辺尤度を求めますね。そしてその尤度とπ±誤差の尤度比を求めます。これなら追加でシミュレーションしたりしてもp値のような問題は起きないです。

2022-02-04 12:53:18
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn ありがとうございます。この事例で考えられる「p 値のような問題」と仰るものは何があるでしょうか。

2022-02-04 13:08:53
Ken McAlinn @kenmcalinn

@AkiraOkumura いわゆる停止規則問題ですね。サンプルを集めてp値を計算して、その上でまたサンプルを集めると有意水準がかわってしまいます。例えば最初のデータでp値が0.05で、有意じゃないからデータを集めたら0.04になったとしても有意水準が下がってるので有意でなかったりします。

2022-02-04 13:24:05
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn 今の事例で「有意じゃないから」と乱数をさらに振る必要性が分かりません。有意な結果が出るまで乱数を振り続けてバグ出しをせよという指示ではありません。(それをやると正しい計算でも計算機の精度の問題に行き着きます)

2022-02-04 14:20:00
Ken McAlinn @kenmcalinn

@AkiraOkumura でもある程度サンプリングして結果を見てからサンプルサイズを増やしたり辞めたりすることはできますよね?もちろん最初からサンプルサイズを決めてそれを破らなければ停止規則の問題はないです。ただベイズなら尤度原理に即してるのでそもそも停止規則の問題は起きないです。

2022-02-04 14:29:04
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn この例でそれの何が問題なのでしょうか。他の事例も含めた一般論では、ベイズだろうがなんだろうが、ほしい結果が出るまで続ける、止める、は意図的に結果をある程度制御できるので問題ですよ。でもこの例では何も問題になりません。

2022-02-04 23:37:11
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn 「「使える状況」はなくて「使っても問題が小さい状況」か「問題が大きい状況」しかない」とのことなので、私の挙げた例で具体的に何が問題なのかご指摘ください。

2022-02-04 23:39:05
Ken McAlinn @kenmcalinn

@AkiraOkumura いやベイズに停止規則の問題はないです。p値ではあります。ご存じないようでしたらやはり正しく使うのは難しいんじゃないでしょうか。 あと何度か尤度原理に反するから問題だと言ってるんですが。p値は例がどうこう以前に本質的に問題があるんです。

2022-02-04 23:54:39
OKUMURA, Akira(奥村 曉) @AkiraOkumura

@kenmcalinn この例で尤度原理に反すると何が問題なのでしょうか。説明できないのならもう結構ですが。

2022-02-05 00:14:40
1 ・・ 5 次へ