Bioinfomaticsのpublic domainのdataに対する性能改善手法の論文はほとんど研究不正?
- uncorrelated
- 5808
- 26
- 14
- 17
file-drawer effect
「ポジティブなデータだけを抜き出して論文を書いてはいけない」って言うのに、ポジティブな結果の論文しか良いジャーナルに採択されないのは納得できません! pic.twitter.com/EVEVFnQNRH
2024-02-24 06:33:30データにポジティブもネガティヴもないんだってことに気づいてからがほんとの研究かな、マジレスするとね。 x.com/spine_surgeon_…
2024-02-24 19:37:23良い研究っていうのはデータに応じて自分の考えを修正しながら仮説を捨てて真実を見抜いていく作業なのでそれを繰り返すと結果として全てが「ポジティブ」になっていくものであり,いわゆる「良いジャーナルに採択」される論文はそういう良い研究であることが多いのでは,というのが我ツイの真意です。 x.com/gin_bio/status…
2024-02-26 14:13:48over-fitting problem
この考え方(仮説はデータに合わせて適宜修正する)には賛同するんだけど、これを同じデータで行うと誤謬だからどう教えるかってのはかなり難しいと思う。データで仮説が支持されなくて、でもこういう仮説ならいけるんじゃない?って同じデータで発表するのは研究不正。 x.com/LuckyStrike198…
2024-02-27 04:06:26これを厳密に適用するといわゆるパブリックドメインのデータを対象にして「既存手法より性能が向上しました」とやっているバイオインフォマティクスの論文は全部研究不正ということに成るのだろうか? というか同じデータの再解析が全部研究不正なら手法の性能の向上ってどう検証するのだろう? x.com/kenmcalinn/sta…
2024-02-27 10:43:11これはなんでだめか理解してないと違い(というか下の例でどうすれば不正にならないか)がわからないと思う。しかし今日は授業で疲れてるから説明はムリポ。 x.com/Yh_Taguchi/sta…
2024-02-27 11:07:30@kenmcalinn 不正にならないためには毎回違うデータを使えばいいんですけど現実には無理なので。
2024-02-27 11:09:38@Yh_Taguchi そういうときのプロトコルがあればいいと思いますよ。解析する前に分析手順やチューニングをプリレジストレーションしたり。機械学習だとオープンアクセスのデータでの高性能が一般化できないことは問題になってきてますね。
2024-02-27 11:13:24@kenmcalinn それはバイオインフォマティクスの分野では実現不可能だと思います。そもそも手法の開発があるデータに対して試行錯誤で最適解を求めることで開発されています。事前にどのような試行錯誤をするかを登録することはできません。Aを試してその結果を見て改善してA’を考える、とかやるのですから。
2024-02-27 11:25:09@kenmcalinn それでは 分野 自体を否定することになりますが それでもそれを視聴されるということですか?
2024-02-27 11:32:46@Yh_Taguchi ディスカウントするのと否定するのは全然違うんですが、例えばある分野で有意になるまでデータを集めることが横行してたらその分野発の結果は話半分で聞くようになりませんか?
2024-02-27 11:34:42@kenmcalinn それでは具体的にどれくらいディスカウントすべきなのか定量的な記述をお示し下さい。それなしにただディスカウントするしかない、と書けば分野の否定ト同じです。
2024-02-27 11:43:54@Yh_Taguchi それはどのくらいデータの二度漬けになってるか次第ですね。そしてディスカウントをするのと分野の否定は同じじゃないです。間違えてる推論が横行してても結果が正しい可能性はあるので。
2024-02-27 11:47:23@kenmcalinn それでは元ポストの研究不正 という部分は削除していただけますか?かなり ニュアンスが違うように思います 僕は 分野が否定されてるように感じました
2024-02-27 11:49:54@kenmcalinn 不正といったらそれは分野の否定です。不正だと明言しながら分野の否定ではないという理屈はありえません。そこは逃げないで立場をはっきりさせるべきだと思います。
2024-02-27 12:00:49いや分野ごとにできることできないことがあるのはわかるんだが、間違えた推論である以上、結論に対してリスクがあるわけで、そのリスクを認識してディスクローズしてるのとそもそもリスクを認識してないのは全然違うと思うんだが。
2024-02-27 12:01:36@kenmcalinn まじめに話してますか?本気でソレを聞いてるんならバカバカしいからもうやめます。
2024-02-27 12:05:37@Yh_Taguchi いや自分は全くそこの理屈のつながりが見えないので。心理学だってQRPが横行して再現性が問題になってますけど、それを指摘や批判することは心理学の否定にはなってないですよ。
2024-02-27 12:07:14@kenmcalinn 心理学は心の研究なんだから、手法の批判は分野の否定に繋がらないのは当たり前です。バイオインフォマティクスは手法を開発するのが目的何だから手法を否定されたら分野の否定でしょう。比較が間違ってます。
2024-02-27 12:10:54