Bioinfomaticsのpublic domainのdataに対する性能改善手法の論文はほとんど研究不正？

ゆとり脊椎外科医 @spine_surgeon_

「ポジティブなデータだけを抜き出して論文を書いてはいけない」って言うのに、ポジティブな結果の論文しか良いジャーナルに採択されないのは納得できません！ pic.twitter.com/EVEVFnQNRH

2024-02-24 06:33:30

拡大

🌻Ryohei Thomas Nakano (Hokudai)🌻 @LuckyStrike1984

データにポジティブもネガティヴもないんだってことに気づいてからがほんとの研究かな、マジレスするとね。 x.com/spine_surgeon_…

2024-02-24 19:37:23

すいと @gin_bio

でもそれじゃアクセプトはされないっていうのが元ツイの真意では？ x.com/LuckyStrike198…

2024-02-26 14:00:47

🌻Ryohei Thomas Nakano (Hokudai)🌻 @LuckyStrike1984

良い研究っていうのはデータに応じて自分の考えを修正しながら仮説を捨てて真実を見抜いていく作業なのでそれを繰り返すと結果として全てが「ポジティブ」になっていくものであり，いわゆる「良いジャーナルに採択」される論文はそういう良い研究であることが多いのでは，というのが我ツイの真意です。 x.com/gin_bio/status…

2024-02-26 14:13:48

Ken McAlinn @kenmcalinn

この考え方(仮説はデータに合わせて適宜修正する)には賛同するんだけど、これを同じデータで行うと誤謬だからどう教えるかってのはかなり難しいと思う。データで仮説が支持されなくて、でもこういう仮説ならいけるんじゃない？って同じデータで発表するのは研究不正。 x.com/LuckyStrike198…

2024-02-27 04:06:26

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

これを厳密に適用するといわゆるパブリックドメインのデータを対象にして「既存手法より性能が向上しました」とやっているバイオインフォマティクスの論文は全部研究不正ということに成るのだろうか？というか同じデータの再解析が全部研究不正なら手法の性能の向上ってどう検証するのだろう？ x.com/kenmcalinn/sta…

2024-02-27 10:43:11

Ken McAlinn @kenmcalinn

これはなんでだめか理解してないと違い(というか下の例でどうすれば不正にならないか)がわからないと思う。しかし今日は授業で疲れてるから説明はムリポ。 x.com/Yh_Taguchi/sta…

2024-02-27 11:07:30

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 不正にならないためには毎回違うデータを使えばいいんですけど現実には無理なので。

2024-02-27 11:09:38

Ken McAlinn @kenmcalinn

@Yh_Taguchi そういうときのプロトコルがあればいいと思いますよ。解析する前に分析手順やチューニングをプリレジストレーションしたり。機械学習だとオープンアクセスのデータでの高性能が一般化できないことは問題になってきてますね。

2024-02-27 11:13:24

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn それはバイオインフォマティクスの分野では実現不可能だと思います。そもそも手法の開発があるデータに対して試行錯誤で最適解を求めることで開発されています。事前にどのような試行錯誤をするかを登録することはできません。Aを試してその結果を見て改善してA’を考える、とかやるのですから。

2024-02-27 11:25:09

Ken McAlinn @kenmcalinn

@Yh_Taguchi とはいえ駄目なものは駄目ですから、結果をディスカウントして受け取るしかないですね。

2024-02-27 11:31:30

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn それでは分野自体を否定することになりますがそれでもそれを視聴されるということですか？

2024-02-27 11:32:46

Ken McAlinn @kenmcalinn

@Yh_Taguchi ディスカウントするのと否定するのは全然違うんですが、例えばある分野で有意になるまでデータを集めることが横行してたらその分野発の結果は話半分で聞くようになりませんか？

2024-02-27 11:34:42

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn それでは具体的にどれくらいディスカウントすべきなのか定量的な記述をお示し下さい。それなしにただディスカウントするしかない、と書けば分野の否定ト同じです。

2024-02-27 11:43:54

Ken McAlinn @kenmcalinn

@Yh_Taguchi それはどのくらいデータの二度漬けになってるか次第ですね。そしてディスカウントをするのと分野の否定は同じじゃないです。間違えてる推論が横行してても結果が正しい可能性はあるので。

2024-02-27 11:47:23

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn それでは元ポストの研究不正という部分は削除していただけますか？かなりニュアンスが違うように思います僕は分野が否定されてるように感じました

2024-02-27 11:49:54

Ken McAlinn @kenmcalinn

@Yh_Taguchi いや不正は不正なので。

2024-02-27 11:56:27

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 不正といったらそれは分野の否定です。不正だと明言しながら分野の否定ではないという理屈はありえません。そこは逃げないで立場をはっきりさせるべきだと思います。

2024-02-27 12:00:49

Ken McAlinn @kenmcalinn

いや分野ごとにできることできないことがあるのはわかるんだが、間違えた推論である以上、結論に対してリスクがあるわけで、そのリスクを認識してディスクローズしてるのとそもそもリスクを認識してないのは全然違うと思うんだが。

2024-02-27 12:01:36

Ken McAlinn @kenmcalinn

@Yh_Taguchi 「不正といったらそれは分野の否定です」これを示していただけますか、できれば三段論法で。

2024-02-27 12:03:37

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn まじめに話してますか？本気でソレを聞いてるんならバカバカしいからもうやめます。

2024-02-27 12:05:37

Ken McAlinn @kenmcalinn

@Yh_Taguchi いや自分は全くそこの理屈のつながりが見えないので。心理学だってQRPが横行して再現性が問題になってますけど、それを指摘や批判することは心理学の否定にはなってないですよ。

2024-02-27 12:07:14

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@kenmcalinn 心理学は心の研究なんだから、手法の批判は分野の否定に繋がらないのは当たり前です。バイオインフォマティクスは手法を開発するのが目的何だから手法を否定されたら分野の否定でしょう。比較が間違ってます。

2024-02-27 12:10:54

Bioinfomaticsのpublic domainのdataに対する性能改善手法の論文はほとんど研究不正？

file-drawer effect

over-fitting problem

いま話題のタグ