Bioinfomaticsのpublic domainのdataに対する性能改善手法の論文はほとんど研究不正？ (2ページ目)

Ken McAlinn @kenmcalinn

@Yh_Taguchi 手法の評価方法が間違えてるという話なんですけど。

2024-02-27 12:12:37

Ken McAlinn @kenmcalinn

あと統計推論の間違いを指摘しても「どうすれば正しくできますか」とか「一緒に分野を変えましょう」とはならないの、謎。下手したら分野を変えるいい論文書くチャンスじゃん。

2024-02-27 12:13:51

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn どう直せるか見込みはあるのでしょうか？ないのだと思いますが。分野の性質上。

2024-02-27 12:14:39

Ken McAlinn @kenmcalinn

@Yh_Taguchi もっと具体的にどういう慣行かわからないとなんとも言えないですが、ないのなら結論が間違えてるリスクを認識しないといけないと思いますよ。

2024-02-27 12:17:56

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 結論が間違得ているリスクは認識しています。結論が間違っているリスクがあることをあなたは研究不正と呼んでいるのですか？

2024-02-27 12:19:41

Ken McAlinn @kenmcalinn

@Yh_Taguchi 研究不正を行えばリスクはあがるという指摘ですよ。

2024-02-27 12:21:49

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 研究不正をしている研究はリスクが上がるんじゃ無くて全否定されるんですよ。何かを研究不正だと呼ぶのはそれ位責任重大な発言です。

2024-02-27 12:29:04

Ken McAlinn @kenmcalinn

@Yh_Taguchi 全否定されるタイプの不正もありますが、そうでもない不正もあるので後件肯定になってると思います。

2024-02-27 12:31:40

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 研究不正があったら、研究は全否定だと思いますが。一部に不正があったけとこの部分はオーケーとか無いと思います。

2024-02-27 12:34:51

Ken McAlinn @kenmcalinn

@Yh_Taguchi そういうタイプの不正はありますが(データ捏造とか)、そうではないタイプの不正もありますよね。例えばHARKingも不正ですが、探索的研究としては認められます。

2024-02-27 12:43:46

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 言葉の使い方が間違っていると思いますそういうものは研究不正と呼ばれないと思いますが

2024-02-27 12:47:21

Ken McAlinn @kenmcalinn

@Yh_Taguchi HARKingは研究不正じゃないと思ってるんですか？

2024-02-27 12:49:00

ざるご博士 @zalgo3

@kenmcalinn @Yh_Taguchi 文部科学省が研究不正を定義しているので、例えばこれに則って話すと良いのではないでしょうか？ mext.go.jp/b_menu/shingi/…

2024-02-27 13:36:24

uncorrelated @uncorrelated

bioinfomaticsでも過剰適合しないようにcross-validationをかけるなりして工夫されていますよね？ — しかし限界はあるので、同じデータ生成プロセスからの新たなデータで検証するまでは、本当に性能向上したと言い切るのは避けた方がよいかもです。 x.com/Yh_Taguchi/sta…

2024-02-27 12:10:26

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

これを厳密に適用するといわゆるパブリックドメインのデータを対象にして「既存手法より性能が向上しました」とやっているバイオインフォマティクスの論文は全部研究不正ということに成るのだろうか？というか同じデータの再解析が全部研究不正なら手法の性能の向上ってどう検証するのだろう？ x.com/kenmcalinn/sta…

2024-02-27 10:43:11

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@uncorrelated それを厳密に運用すると殆どのバイオインフォマティクスの研究はNGだと思います。

2024-02-27 12:12:46

uncorrelated @uncorrelated

@Yh_Taguchi 過剰適合していないか注意を払っていないとすると、新たなデータセットと向き合わないといけない応用時に大惨事になる（可能性が小さくない）ので、分野全体で考え直した方がよいかもしれません。

2024-02-27 12:27:29

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@uncorrelated 注意は払ってますが、他に方法がないからやっているんだと思います

2024-02-27 12:30:04

uncorrelated @uncorrelated

@Yh_Taguchi 個々の研究者は研究リソースの問題で、cross-validationをかけたり、limitationを書いたりするぐらいしか方法が無い場合が多いとは思います。