- kasajimajima
- 45879
- 84
- 11
- 1
人生最適化が上手くいかない原因、ゲーム木探索で説明できてしまって困る。 pic.twitter.com/v07PCsup2a twitter.com/ValGrowth/stat…
2023-02-12 16:50:58はてなブログに投稿しました #はてなブログ この木なんの木? モンテカルロ木と最良優先MiniMax木の"間"に存在する名もなき木々 - ヴァルの開発記 valgrowth.hatenablog.com/entry/2023/02/…
2023-02-11 10:40:38※元ブログ↓
はてなブログに投稿しました #はてなブログ この木なんの木? モンテカルロ木と最良優先MiniMax木の"間"に存在する名もなき木々 - ヴァルの開発記 valgrowth.hatenablog.com/entry/2023/02/…
2023-02-11 10:40:38直接的な報酬だけによる評価関数だとこうなっちゃうので、よくある"ライフハック"とかは「好奇心」とか「細かいstepで刻んでご褒美を用意」とかで、評価関数を適正化していっているんだよな。 うん、全部わかってるんだけどね。しないだよね。
2023-02-12 17:02:23つまりこういうこと
貪欲法はすぐに局所解にハマるから、たまには悪い方に進むようにしないといかんという話 焼きなまし法とか、強化学習だとε-greedy法的な
2023-02-13 08:48:33「自分の爆弾で爆死する可能性が実際あり、それ自体は割と無視できないのも事実だから、爆弾を置かないことを現状の最適解と認識してしまって、一生爆弾を置かずに緩やかに負けるしかないボンバーマン」とかいう、悲しい表現。早々に退場してミソボンやってる奴の方が100倍楽しそう。
2023-02-13 14:42:51逆張りが機能したり、逆境をチャンスと思い火中の栗うを拾う人が(ある意味で)かえって効率良く報酬を手に入れていくのはこういうことかしらね? 普通にむずいから理解しきれていない気がするわ。 twitter.com/tsukammo/statu…
2023-02-14 03:14:58