2月4日 第44回 コンピュータビジョン勉強会@関東 まとめ
- ballforest
- 1905
- 5
- 0
- 0
「これからの強化学習」自分の手元にもあります。(まだ読んだのは冒頭数ページまで) #cvsaisentan twitter.com/takmin/status/…
2018-02-04 10:15:25@kantocv #cvsaisentan 報酬の予測、美味しい果実がなる、みたいな正の報酬以外にも、肥料がかかる、雑草取りの手間がかかるなど、負の報酬も加味する。 そして将来の予想なので、不確実な部分がある
2018-02-04 10:16:56@kantocv #cvsaisentan 強化学習では、あらかじめ正解を与えられない場合がある。それで試行錯誤で正解を求めるアプローチになる。 エージェントが行動を取り、外界から観測される状態sと、観測される報酬rがフィードバックされる
2018-02-04 10:19:06@kantocv #cvsaisentan 強化学習で解ける問題として、「部分観測問題」(Partially Observable MDP)を含めれば、意思決定問題をたいてい記述できる。 環境を知らなくても、学習すれば良い
2018-02-04 10:23:51@kantocv #cvsaisentan バンディット問題。どのスロットマシーンを引くか、という問題。報酬はスロットマシーンのあたり、はずれ
2018-02-04 10:29:18公開されている資料がある場合は、こちらのアカウントでお知らせします。#cvsaisentan twitter.com/KanSAKAMOTO/st…
2018-02-04 10:30:31@kantocv #cvsaisentan 人生の探索も似ている。子供の頃は好奇心旺盛でいろんなことを試すが、そのうち自分の経験に基づいて行動するようになる。
2018-02-04 10:30:57@kantocv #cvsaisentan ガリガリ君コーンポタージュ味のことかあああぁぁぁぁぁぁぁぁぁぁ!!!!!
2018-02-04 10:31:46そう思えば子どもの理不尽な行動も我慢でき、、、る? #cvsaisentan twitter.com/tomoaki_teshim…
2018-02-04 10:32:16人間はオペランド条件付けという方針で学習しているという研究が行動主義心理学から発見されています。これをモチーフに開発したのが強化学習です。豆知識。 #cvsaisentan
2018-02-04 10:33:01@kantocv #cvsaisentan 価値ベースのアルゴリズム(DQN、Double DQN、Dueling Networks)など。もう一方は方策ベースのアルゴリズム
2018-02-04 10:33:55@kantocv #cvsaisentan 強化学習はお手本が無い分、一般に学習に時間がかかる。
2018-02-04 10:34:55@kantocv #cvsaisentan 探索、学習に時間がかかるし、それでいて、汎化性能があるかどうかは別問題。
2018-02-04 10:35:59@kantocv #cvsaisentan 「動画は学習とは無関係です」
2018-02-04 10:37:32@kantocv #cvsaisentan 最初は累積報酬が0で、70 millions回は常に0。昔はここで諦めちゃってただろうに、今は計算機のパワーが高くなっただけあって、力技でもっと探索する。
2018-02-04 10:39:04@kantocv #cvsaisentan 結果がばらつく。表示されてるグラフはゲームごとの結果。結構ばらついている
2018-02-04 10:43:02q学習は収束を保証しているけど、実際やってみると、ほとんど強化学習は収束しない。あくまで理論的に保証されているだけ。 #cvsaisentan
2018-02-04 10:43:18