"オッカムの剃刀"は深層学習を剃り落とせるか-科学と理解と数理の話-

モデルのパラメータ数について、TLでみかけた話をまとめました。
40
R. Maruyama @rmaruy

@Daichi__Konno 第一線の研究者の皆さまのお話、とてもわくわくしました。一科学ファンとして、あのような濃密な議論を配信していただけるととても有り難いです。 こちらこそ、お願いいたします!

2020-06-18 22:09:13

数理的な面の理解も必要

Yuki Kamitani @ykamit

@rmaruy @Daichi__Konno 議論の前提になっているのかもしれませんが、「同じだけデータを説明できるならシンプルなモデルの方が良い」というのは、科学哲学を持ち出さなくても、数理的な議論ができます。定番はMacKayの本のこのチャプター inference.org.uk/mackay/itprnn/… pic.twitter.com/FJPTYdhi6d

2020-06-18 22:44:39
拡大
baibai @ibaibabaibai

@ykamit @rmaruy @Daichi__Konno これはいわゆるベイズ因子の説明かと思いますが,この種の議論(BIC, MDL, 仮説の確率, なども解釈はともかく数理的には同種の話)には以前から問題点が指摘されています.たとえば,Gelman他のBDA3や「ベイズ統計と統計物理」に言及があります.

2020-06-19 12:07:09
baibai @ibaibabaibai

@ykamit @rmaruy @Daichi__Konno ではAICやWAICなら良いのかというと,普通の統計モデルについてはそう思いますがDNNについてはよくわかりません.若手の研究者でDNNは全く違うのではないかという人もいます.自分は必ずしもそうは思いませんが,数億もパラメータがあって汎化性能が出る理由はまだ完全にはわかっていないのでは.

2020-06-19 12:12:26
baibai @ibaibabaibai

@ykamit @rmaruy @Daichi__Konno もうひとつ,予測と因果推論との関係,より一般には共変量シフト下での予測という問題もあります.より一般的な状況での汎化性能を要求することで,得られる「法則」がどう変わっていくのか,といった問題は,これからもっと研究すべきことのように思います.

2020-06-19 12:15:27
R. Maruyama @rmaruy

@ibaibabaibai @ykamit @Daichi__Konno 私の粗い理解では、 ・ベイズ的オッカムの剃刀≒モデル選択では多パラメタにペナルティが与えられる ・しかし、深層学習ではなぜか汎化性能(?)がよい(cf. 今泉先生スライドのp.27あたりの話)ism.ac.jp/openhouse/2019… という順番で議論が進んでいるという現状把握でした。

2020-06-19 12:13:22
baibai @ibaibabaibai

@rmaruy @ykamit @Daichi__Konno その2つだけでなくて「ベイズ的オッカムの剃刀」とAICやWAIC,CVのようなタイプの汎化性能の評価の違いについては,数理的な面も含めてきちんと押さえておく必要があると思います.

2020-06-19 12:18:29