2018年2月4日

2月4日　第44回　コンピュータビジョン勉強会＠関東　まとめ

今回のコンピュータビジョン勉強会＠関東では、DQN以降ビジョンの研究でもあちこちで見かけるようになった強化学習や逆強化学習縛りの論文読み会を実施したいと思います。強化学習に絡んだ論文であれば、特に発表された年や学会/論文誌問いません。ビジョンに絡めば尚可ですが、そこの縛りはありません。尚、今回は午前中にPFN前田新一先生による招待講演を予定しております。奮ってご参加ください。続きを読む

科学

ballforest
1910
5
0
0

前へ 1 ・・ 3 4 5 ・・ 11 次へ

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

@kantocv #cvsaisentan 応用は、時間の都合で割愛。ぜひ話してもらいたかった。

2018-02-04 11:45:33

ymats @ymats_

何を状態にするか、何を報酬にするか、という問題設定が大事 #cvsaisentan

2018-02-04 11:45:43

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

@kantocv #cvsaisentan まだまだ現実問題への適用の難しさがある。シミュレーションでは何度も繰り返せるが、実機ではシミュレーションとの差が出たりする。なのでロボットへの応用はまだまだ難しいのかな。

2018-02-04 11:46:59

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

@kantocv #cvsaisentan 環境を知らなくても学習すれば良いのが強化学習の良いところ。悪い点としては、膨大な試行錯誤の経験が必要になる。また、汎化性能がない。（汎化性能のあたりはホットな研究分野）

2018-02-04 11:48:11

H. NOMATA @hiromichinomata

強化学習でとける問題はたくさんあり、部分観測問題を含めればだいたいとける。強化学習には時間がかかり、7000万回試行錯誤しても報酬は0のこともある。結果にもばらつきがあり、A3Cの論文でもモデルの初期化で大きくばらつきが出ている。 #cvsaisentan

2018-02-04 11:49:07

H. NOMATA @hiromichinomata

(最適)ベルマン方程式が満たされるようにベルマンオペレータで関数を更新していけばだんだん最適関数に近づく。=>動的計画法。強化学習ではこれを近似的にやる。Q学習では収束が保証されているがDQNでは保証されているわけではない。 #cvsaisentan

2018-02-04 11:49:12

H. NOMATA @hiromichinomata

DQNはそのため頻繁に更新しすぎると学習が不安定になり、Neural Fitted Qでは教師あり学習的な損失関数に変更することで安定化させている。また、直近だけだと学習がうまくいかないので直近100万フレームセットのサンプルを再利用するとよい。(Replay memory) #cvsaisentan

2018-02-04 11:49:20

H. NOMATA @hiromichinomata

Double DQNではパラメーターを交互に入れ替えて学習させて、たまたまよかった問題を解決している(ネットワークを２種類用意している)。Dueling Networksはネットワーク構造の方をいじっている。#cvsaisentan

2018-02-04 11:49:26

H. NOMATA @hiromichinomata

Prioritized Experience Replayではimportance samplingを、Multi step Learningではもうちょっと先まで見る。長期的な分布の報酬を考慮するのはDistributional RL。手法の比較論文ではこれらはDQNよりも抜くと影響が大きい。 #cvsaisentan

2018-02-04 11:49:33