TensorFlow 勉強会 (4) #dltfb
Googleの公開したDeepLearningライブラリTensorFlowの勉強会の第4弾です。
http://connpass.com/event/30845/
さるてし🤝
@sarutando
「良い」とは何か、逆強化学習でエキスパートの行動を元に状態の良さを推定する。良さを定量的に定義してエキスパートに似た行動を生成できる。 #dltfb
2016-06-22 20:51:47
やぬすさん / TAKAGI Kensuke
@janus_wel
これ強化学習 -> 誤差修正を繰り返すわけだから割りと計算量バカにならないのでは #dltfb
2016-06-22 21:12:50
さるてし🤝
@sarutando
DQNの仕組み、(今の状態、その時の操作、点数、新しい状態)の4つのデータを元に次のアクションを定義する関数を推定する。トータルMAXにするQ関数の存在を仮定して、Qが満たすべき関係式をパラメーターを操作しQ関数を近似的に求める。 #dltfb
2016-06-22 21:28:52
さるてし🤝
@sarutando
DQNはデータ収集が難しい、完全なランダムよりも途中経過で得られたQ関数とランダムを適当な割合で混ぜてさらにデータを収集する。 #とのこと なんかバンディットアルゴリズムっぽいな。 #dltfb
2016-06-22 21:32:09
大和田 健一
@ohwada
倒立振子でDQNにおけるモデルの複雑さと学習内容の関係をちらっと確かめてみた系の話 enakai00.hatenablog.com/entry/2016/05/… #dltfb
2016-06-22 21:34:03
さるてし🤝
@sarutando
DQNを囲碁に適用した場合(AlphaGo)、勝敗しかポイントがないので value network という優劣の数値化を行いつつ熟練者同士で競わせ洗練させる + Q関数を盤面ごとに演算している。 #dltfb
2016-06-22 21:38:59