2月4日 第44回 コンピュータビジョン勉強会@関東 まとめ
- ballforest
- 1909
- 5
- 0
- 0
モデルの初期化が違うと出てくるモデルが大きくことなってしまうこともある.最終的に収束するという保証もない,探索・活用のスケジューリング(ハイパラ)が重要? #cvsaisentan
2018-02-04 10:43:41@kantocv 学習に時間がかかる。かならず収束するとは限らない。初期パラメータで学習結果のばらつきが大きい。 #cvsaisentan
2018-02-04 10:43:55@kantocv #cvsaisentan 汎化の問題:あるゲームで好成績を取ったからと言って、そのパラメータを別のゲームに適用してうまく行くとは限らない。ゲームごとに探索する必要がある。
2018-02-04 10:44:27強化学習は教師信号を必要としないが、相当数の探索・利用を繰り返す。汎化も難しくゲーム毎に学習させる。 #cvsaisentan
2018-02-04 10:46:35@kantocv #cvsaisentan ベルマン方程式。価値観数に成り立つ再帰的な関係式。確かに価値観数は再帰的に書き表せる。
2018-02-04 10:47:14@kantocv #cvsaisentan 最適なすべての状態すべてを更新するのが、動的計画法。有望な状態を展開し、末端の状態の価値関数をシミュレーションで推定するのがモンテカルロ木探索、サンプリングした状態で平均的に成り立つように更新するのがQ学習。
2018-02-04 10:53:06@kantocv #cvsaisentan 関数の近似が入ると収束の保証は困難。
2018-02-04 10:55:30@kantocv #cvsaisentan 状態遷移は価値関数に関係なく経験再生で使いまわせる。(方策によらずに状態の情報を使いまわせる)
2018-02-04 11:03:53@kantocv 経験再生自体は、状態と行動に依存し環境ごとに固定のため、その時のパラメータには依存しない #cvsaisentan
2018-02-04 11:04:04@kantocv #cvsaisentan 理想:AIが仕事して、研究者はゲームをして過ごす。 現実:一生懸命研究者が仕事して、AI様にゲームをしてもらう。
2018-02-04 11:06:37強化学習研究者のお言葉 AIに仕事させて自分はゲームしようと思ったのに、 俺たちが仕事をしてAI様がゲームしてる #cvsaisentan
2018-02-04 11:07:37@kantocv #cvsaisentan Prioritized experience replay と、 Multi-step learning、Distributional RL は特に重要そう。
2018-02-04 11:21:03@kantocv #cvsaisentan 方策ベースは、目的関数を微分して勾配を求める。しかし、目的関数がそもそも未知なのに、どうやって勾配をもとめるのか?
2018-02-04 11:26:03@kantocv #cvsaisentan 評価関数が未知でも、確率的にサンプルが得られれば勾配は計算可能。
2018-02-04 11:26:55rainbowということは、もしやdeep purpleとかもあるのか?(実際にありそうな名前だ) #cvsaisentan
2018-02-04 11:27:03@kantocv #cvsaisentan みんな大好きATARIゲーム。
2018-02-04 11:35:10@kantocv #cvsaisentan このヘンテコな歩き方してる動画見たことある。
2018-02-04 11:41:33