TensorFlow 勉強会 (4) #dltfb

ゴム手袋でいけるのか… #dltfb

2016-06-22 20:07:13

E. Nakai @enakai00

ロボットアームの制御にもTensorFlow使うと面白そうですね！#dltfb

2016-06-22 20:08:15

すぎゃーん💯 @sugyan

🍺🍕タイム。あと唐揚げ！🐔 #dltfb

2016-06-22 20:13:21

唐揚げアームかわいい #dltfb

2016-06-22 20:23:19

千葉工大未ロボ上田研 @uedalaboratory

唐揚げの判別、当研究室も手伝いました。唐揚げを食べて。 #dltfb

2016-06-22 20:31:56

江戸川基地局（再稼働中） @nhiro78

#dltfb 二指で確実に掴むのはなかなかむずかしそうですな

2016-06-22 20:34:47

TensorFlow で逆強化学習ブレインパッド / 太田満久 #dltfb

2016-06-22 20:45:40

たけ @ww24

逆教科学習 #dltfb

2016-06-22 20:46:39

「良い」とは何か、逆強化学習でエキスパートの行動を元に状態の良さを推定する。良さを定量的に定義してエキスパートに似た行動を生成できる。 #dltfb

2016-06-22 20:51:47

強化学習は報酬を元に戦略を推定するが、逆強化学習は戦略を元に報酬を推定する #dltfb

2016-06-22 20:54:32

これ強化学習 -> 誤差修正を繰り返すわけだから割りと計算量バカにならないのでは #dltfb

2016-06-22 21:12:50

江戸川基地局（再稼働中） @nhiro78

#dltfb DQN とは

2016-06-22 21:15:22

TensorFlow で DQN（Deep Q-Network）中井悦司 #dltfb

2016-06-22 21:15:35

倒立振子で学ぶ DQN (Deep Q Network) qiita.com/ashitani/items… #dltfb

2016-06-22 21:15:49

ITエンジニアのための機械学習理論入門 amazon.co.jp/dp/4774176982/ #dltfb

2016-06-22 21:17:16

TensorFlowで学ぶDQN slideshare.net/enakai/tensorf… #dltfb

2016-06-22 21:22:16

t-zochi @rgbten084

トータルで勝ってる(難聴 #dltfb

2016-06-22 21:22:16

すぎゃーん💯 @sugyan

.@enakai00 さんの説明、ほんと丁寧で分かりやすく話してくださるのでめっちゃ理解できてる気分になれる #dltfb

2016-06-22 21:24:47

このままだと局所最適に陥る危険はあるやな #dltfb

2016-06-22 21:27:33

DQNの仕組み、（今の状態、その時の操作、点数、新しい状態）の４つのデータを元に次のアクションを定義する関数を推定する。トータルMAXにするQ関数の存在を仮定して、Qが満たすべき関係式をパラメーターを操作しQ関数を近似的に求める。 #dltfb

2016-06-22 21:28:52

あー、すげえ！理想の関数仮定して、それを NN で近似するのか！ #dltfb

2016-06-22 21:30:51

DQNはデータ収集が難しい、完全なランダムよりも途中経過で得られたQ関数とランダムを適当な割合で混ぜてさらにデータを収集する。 #とのことなんかバンディットアルゴリズムっぽいな。 #dltfb

2016-06-22 21:32:09

すぎゃーん💯 @sugyan

Deep Q-Networkも何か試してみたいな〜とは思っているけど今のところネタが思い浮かばないでいる #dltfb

2016-06-22 21:32:19

倒立振子でDQNにおけるモデルの複雑さと学習内容の関係をちらっと確かめてみた系の話 enakai00.hatenablog.com/entry/2016/05/… #dltfb

2016-06-22 21:34:03