2月4日 第44回 コンピュータビジョン勉強会@関東 まとめ
- ballforest
- 1910
- 5
- 0
- 0
@kantocv #cvsaisentan 応用は、時間の都合で割愛。ぜひ話してもらいたかった。
2018-02-04 11:45:33@kantocv #cvsaisentan まだまだ現実問題への適用の難しさがある。シミュレーションでは何度も繰り返せるが、実機ではシミュレーションとの差が出たりする。なのでロボットへの応用はまだまだ難しいのかな。
2018-02-04 11:46:59@kantocv #cvsaisentan 環境を知らなくても学習すれば良いのが強化学習の良いところ。 悪い点としては、膨大な試行錯誤の経験が必要になる。また、汎化性能がない。(汎化性能のあたりはホットな研究分野)
2018-02-04 11:48:11強化学習でとける問題はたくさんあり、部分観測問題を含めればだいたいとける。強化学習には時間がかかり、7000万回試行錯誤しても報酬は0のこともある。結果にもばらつきがあり、A3Cの論文でもモデルの初期化で大きくばらつきが出ている。 #cvsaisentan
2018-02-04 11:49:07(最適)ベルマン方程式が満たされるようにベルマンオペレータで関数を更新していけばだんだん最適関数に近づく。=>動的計画法。強化学習ではこれを近似的にやる。Q学習では収束が保証されているがDQNでは保証されているわけではない。 #cvsaisentan
2018-02-04 11:49:12DQNはそのため頻繁に更新しすぎると学習が不安定になり、Neural Fitted Qでは教師あり学習的な損失関数に変更することで安定化させている。また、直近だけだと学習がうまくいかないので直近100万フレームセットのサンプルを再利用するとよい。(Replay memory) #cvsaisentan
2018-02-04 11:49:20Double DQNではパラメーターを交互に入れ替えて学習させて、たまたまよかった問題を解決している(ネットワークを2種類用意している)。Dueling Networksはネットワーク構造の方をいじっている。#cvsaisentan
2018-02-04 11:49:26Prioritized Experience Replayではimportance samplingを、Multi step Learningではもうちょっと先まで見る。長期的な分布の報酬を考慮するのはDistributional RL。手法の比較論文ではこれらはDQNよりも抜くと影響が大きい。 #cvsaisentan
2018-02-04 11:49:33本日の発表資料です Learning to Learn from Noisy Web Videosの紹介 slideshare.net/secret/viWVOis… #cvsaisentan
2018-02-04 12:50:06ボチボチ再開しますから、ダンジョンに戻られてない方はお早めにお戻りください。 #cvsaisentan
2018-02-04 12:59:29再開します。@takmin さんの発表です。資料はこちら、slideshare.net/takmin/curiosi… #cvsaisentan
2018-02-04 13:10:13takminさんの発表で Curiosity-driven Exploration by Self-supervised Prediction (ICML 2017) 強化学習に好奇心を埋め込むことで効率よく環境の探索を行う研究 #cvsaisentan
2018-02-04 13:14:46強化学習の問題では、報酬が稀にしか得られない状態が多々ある。内部的報酬を定義して、外部からの報酬が無くとも学習が進むようにしたい。 #cvsaisentan
2018-02-04 13:19:27予想できない状態に出会ったときに(内部的に)大きな報酬を得る。状態とエージェントの行動に関連のある特徴を学習するところがポイント。 #cvsaisentan
2018-02-04 13:24:05#cvsaisentan / “起業家の勉強会にて『エンジニアは自身の趣味で開発請け負って金を稼げるので会社として払う給与は低くて良い』と主張する人が現れた - Togetter” htn.to/kRrRYo
2018-02-04 13:25:25