Bioinfomaticsのpublic domainのdataに対する性能改善手法の論文はほとんど研究不正?

交差検証をしっかりして、n種類ためしてこの手法だけ既存手法を上回る精度になりました、すべて提案であって性能改善は検証されていないなどと正直に論文に書けばよいのでは無いかと思わなくもなく。
2
Ken McAlinn @kenmcalinn

@Yh_Taguchi 手法の評価方法が間違えてるという話なんですけど。

2024-02-27 12:12:37
Ken McAlinn @kenmcalinn

あと統計推論の間違いを指摘しても「どうすれば正しくできますか」とか「一緒に分野を変えましょう」とはならないの、謎。下手したら分野を変えるいい論文書くチャンスじゃん。

2024-02-27 12:13:51
Ken McAlinn @kenmcalinn

@Yh_Taguchi もっと具体的にどういう慣行かわからないとなんとも言えないですが、ないのなら結論が間違えてるリスクを認識しないといけないと思いますよ。

2024-02-27 12:17:56
田口善弘@発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 結論が間違得ているリスクは認識しています。結論が間違っているリスクがあることをあなたは研究不正と呼んでいるのですか?

2024-02-27 12:19:41
Ken McAlinn @kenmcalinn

@Yh_Taguchi 研究不正を行えばリスクはあがるという指摘ですよ。

2024-02-27 12:21:49
田口善弘@発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 研究不正をしている研究はリスクが上がるんじゃ無くて全否定されるんですよ。何かを研究不正だと呼ぶのはそれ位責任重大な発言です。

2024-02-27 12:29:04
Ken McAlinn @kenmcalinn

@Yh_Taguchi 全否定されるタイプの不正もありますが、そうでもない不正もあるので後件肯定になってると思います。

2024-02-27 12:31:40
田口善弘@発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 研究不正があったら、研究は全否定だと思いますが。一部に不正があったけとこの部分はオーケーとか無いと思います。

2024-02-27 12:34:51
Ken McAlinn @kenmcalinn

@Yh_Taguchi そういうタイプの不正はありますが(データ捏造とか)、そうではないタイプの不正もありますよね。例えばHARKingも不正ですが、探索的研究としては認められます。

2024-02-27 12:43:46
田口善弘@発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 言葉の使い方が間違っていると思います そういうものは 研究不正 と呼ばれないと思いますが

2024-02-27 12:47:21
Ken McAlinn @kenmcalinn

@Yh_Taguchi HARKingは研究不正じゃないと思ってるんですか?

2024-02-27 12:49:00
ざるご博士 @zalgo3

@kenmcalinn @Yh_Taguchi 文部科学省が研究不正を定義しているので、例えばこれに則って話すと良いのではないでしょうか? mext.go.jp/b_menu/shingi/…

2024-02-27 13:36:24
uncorrelated @uncorrelated

bioinfomaticsでも過剰適合しないようにcross-validationをかけるなりして工夫されていますよね? — しかし限界はあるので、同じデータ生成プロセスからの新たなデータで検証するまでは、本当に性能向上したと言い切るのは避けた方がよいかもです。 x.com/Yh_Taguchi/sta…

2024-02-27 12:10:26
田口善弘@発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

これを厳密に適用するといわゆるパブリックドメインのデータを対象にして「既存手法より性能が向上しました」とやっているバイオインフォマティクスの論文は全部研究不正ということに成るのだろうか? というか同じデータの再解析が全部研究不正なら手法の性能の向上ってどう検証するのだろう? x.com/kenmcalinn/sta…

2024-02-27 10:43:11
uncorrelated @uncorrelated

@Yh_Taguchi 過剰適合していないか注意を払っていないとすると、新たなデータセットと向き合わないといけない応用時に大惨事になる(可能性が小さくない)ので、分野全体で考え直した方がよいかもしれません。

2024-02-27 12:27:29
uncorrelated @uncorrelated

@Yh_Taguchi 個々の研究者は研究リソースの問題で、cross-validationをかけたり、limitationを書いたりするぐらいしか方法が無い場合が多いとは思います。

2024-02-27 13:52:14
Kengo Sato @stkng

これofこれ。データの性質をろくに考えずにrandom splitでcross-validationしてSOTA出ましたと主張する論文が稀によくあって問題になってます。散々指摘されているのに懲りずにやってきますので、もはや不正と言われても仕方ないかと。 x.com/uncorrelated/s…

2024-02-27 17:34:30
Tomo @T45356

@Yh_Taguchi いわゆる数値性能の向上とは別観点じゃないですかね

2024-02-27 14:12:01
田口善弘@発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@T45356 別ではないと思います。これがリアルデータではなく、人工データなら、アンサンブル平均をとるとか、別の生成データでやるとか普通にやるので。リアルデータなので止むなく使い回しているだてだと思います。

2024-02-27 15:21:06
torusengoku💙💛 @torusengoku

これはちょっと意味がわからない。不正だけど認められる? x.com/kenmcalinn/sta…

2024-02-28 11:03:07
Ken McAlinn @kenmcalinn

HARKingは探索的研究を仮説検証型研究として発表するから不正である、けどその結果自体は探索的研究として意味があるから研究が全否定されるわけではない。 x.com/torusengoku/st…

2024-02-28 11:13:06
Ken McAlinn @kenmcalinn

あとは有意にならなかったからデータを追加で集めるのは不正だけど、ちゃんと補正すれば問題ないから研究が全否定されるわけではないと思う。

2024-02-28 11:19:25
Ken McAlinn @kenmcalinn

統計推論の間違いや不正は手順の問題だから手順を直せば問題ない。データ捏造とかはデータ自体の問題だから全否定になる。

2024-02-28 11:21:34