モデルフリーとモデルベースの違い

自分の勉強用にまとめておきました。 モデルフリー学習とモデルベース学習というのは数理的・工学的に考案された学習モデルですが、動物や人間の学習を理解するうえでも用いられています。 自分の理解が間違っていたり、不足していた部分をKazuSamejima先生に補足・訂正していただきました。 この場を借りてお礼をしておきます。
7
HA @AmHdt

@KazuSamejima この点は同意です.「モデルベースでは,過去の経験に基づいて内部にモデルをつくる.そのモデルを使って行動の帰結をシミュレートする.そこからどの行動を選ぶべきかを決定する」という理解で間違いないでしょうか?

2012-06-01 11:24:48
ごんごん @gongonKS

@AmiHide (スナップショットの時間が固まった)経験に基づく予測か、それとも(時間発展のある系の)推論だったり系列経験に基づく予測か、という問題のように私は考えます。予測に時間の要因を入れるかどうか。

2012-06-01 01:13:11
ごんごん @gongonKS

@KazuSamejima @AmiHide 二日酔いのアタマで考え直すと、TD誤差でモデルフリー学習すると、時間発展を含んだ予測に基づく価値関数になります。そういう意味で時間が入るかどうかが問題といった昨日の発言は間違いなので訂正

2012-06-01 06:43:24
ごんごん @gongonKS

@AmiHide @ichipoohmt さっき言ったようにTDで学習すれば結果の予測はできるようになります。

2012-06-01 07:09:53
HA @AmHdt

@KazuSamejima 「モデルフリーでは,これまでの経験に基づいて時間発展を含んだ予測をする.ただし,その予測は価値という単一の尺度に置き換えられている.その価値と実際に得られた帰結の価値とを照らしあわせて価値を更新している」という理解は合っているでしょうか?

2012-06-01 11:31:07
HA @AmHdt

@KazuSamejima 返答ありがとうございます.となると,モデルフリーとモデルベースの違いってなんなんでしょう? @ichipoohmt

2012-06-01 11:09:13
ごんごん @gongonKS

@AmiHide @ichipoohmt 強化学習の文脈で「価値」というと、報酬の期待値をとるときに、未来に得られる報酬の予測を含んでいいます。もちろん、現時点で未来はわからないですから、「過去から環境が変わらないとしたら」という前提で予測することになります。(1、つづく)

2012-06-01 11:57:45
ごんごん @gongonKS

@AmiHide @ichipoohmt TD誤差を求めるときに使っている価値Vは、t時刻に得られる報酬をr(t)として、未来に得られる報酬の総和V(t) = r(t) + r(t+1) + r(t+2) + …です。(2、つづく)

2012-06-01 11:58:53
ごんごん @gongonKS

@AmiHide @ichipoohmt もちろんr(t+1), r(t+2)など未来に得られる報酬を現在は知ることができない。そこで、未来にいくであろう状態sに依存して報酬が得られるのならsの関数として予測することになります。(3、続く)

2012-06-01 11:59:45
ごんごん @gongonKS

@AmiHide @ichipoohmt 価値関数V(s(t)) = r(s(t)) + r(s(t+1)) + …を報酬r(t)から直接学習するのがモデルフリー強化学習、未来の状態sを状態遷移モデルなどによって独立に予測し、間接的にVを求めるのがモデルベースです。(おわり)

2012-06-01 12:02:36
HA @AmHdt

なるほど.未来の状態を独立したモデルで予測しているというところが違いなのですね.だから,モデルベースとモデルフリーは並列しうる RT @KazuSamejima 未来の状態sを状態遷移モデルなどによって独立に予測し、間接的にVを求めるのがモデルベースです @ichipoohmt

2012-06-01 12:07:32
HA @AmHdt

@KazuSamejima @ichipoohmt この「状態遷移モデルなどを使って未来の状態sを予測する」というところがmental simulationに相当するわけですね.

2012-06-01 12:09:50
ごんごん @gongonKS

@AmiHide @ichipoohmt はい、モデルベースでは、sがどのように遷移するのかに関するモデルは、別途過去の履歴から学習しますが、さらに状態s→報酬rの状態報酬関数も必要になります。で、V(s(t))の右辺の足し算をシミュレーションで求める。

2012-06-01 12:13:08
ごんごん @gongonKS

@AmiHide @ichipoohmt devaluationのようにs→rのみが変化し、sの状態変化が不変であるときには、間接的にV(s)をもとめるモデルベースの方が早く適応できます。TDではr(s)を経験してVを更新しないといけないモデルフリーは遅い. 

2012-06-01 12:13:26
ごんごん @gongonKS

言葉を数式で定義しておくと、気が楽だ。

2012-06-01 12:52:48
HA @AmHdt

@KazuSamejima @ichipoohmt モデルフリーでもモデルベースでも価値を形成し,予測も行うという点では変わらないわけですね.この点を間違って理解していました.ありがとうございます.

2012-06-01 12:12:13
HA @AmHdt

@KazuSamejima @ichipoohmt モデルベースだと,別の状態で学んだことを使って,これまでの状態での行動を変えることができるから臨機応変というか柔軟に行動を切り替えられるわけですね.

2012-06-01 12:25:23
HA @AmHdt

@KazuSamejima @ichipoohmt 学習の初期ではモデルベース,学習の後期ではモデルフリーという考え方はどうなんでしょう?学習が進んでくると,habitual responseのような自動化された行動が起こりやすくなるみたいな.

2012-06-01 12:30:53
ごんごん @gongonKS

@AmiHide @ichipoohmt そのモデルは Daw & Dayan 2005 http://t.co/8RGFVkQv ただし学習の時期で分けているのではなくて、出力のuncertainty を使って使い分けるというモデル

2012-06-01 12:35:01
HA @AmHdt

@KazuSamejima @ichipoohmt 了解です.たしかに学習の時期で分けるのは単純すぎますね.論文を読むうえでかなり理解の助けになりました.一連の質問に答えていただいてありがとうございます.

2012-06-01 12:43:53