人生がうまくいかない原因、「ゲーム木探索」でうまく説明できてしまって困る「俺の人生かな？」「つらみがある」

ツカモ @tsukammo

人生最適化が上手くいかない原因、ゲーム木探索で説明できてしまって困る。 pic.twitter.com/v07PCsup2a twitter.com/ValGrowth/stat…

2023-02-12 16:50:58

ヴァル @ValGrowth

はてなブログに投稿しました #はてなブログこの木なんの木？　モンテカルロ木と最良優先MiniMax木の"間"に存在する名もなき木々 - ヴァルの開発記 valgrowth.hatenablog.com/entry/2023/02/…

2023-02-11 10:40:38

拡大

リンク Wikipedia ゲーム木ゲーム木（ゲームき、英: game tree）は、組合せゲーム理論において、ゲームの盤面を有向グラフのノードで、手をエッジで表したものである。完全ゲーム木とは、ゲームの最初から指せる全ての手を含んだゲーム木である。なお、組合せゲーム理論ではない通常のゲーム理論の「ゲームの木」については展開型ゲームを参照。右図は、三目並べのゲーム木の最初の2レベル（あるいは2手）までを示したものである。ここでは、盤面を回転させたり反転させて同じになるものは等価としているため、最初の1手は3種類（中心、角、角と角の間）しか 17 users 8

ヴァル @ValGrowth

はてなブログに投稿しました #はてなブログこの木なんの木？　モンテカルロ木と最良優先MiniMax木の"間"に存在する名もなき木々 - ヴァルの開発記 valgrowth.hatenablog.com/entry/2023/02/…

2023-02-11 10:40:38

リンクヴァルの開発記この木なんの木？モンテカルロ木と最良優先MiniMax木の"間"に存在する名もなき木々 - ヴァルの開発記概要この記事ではまだ名前が無いと思われるゲーム探索木をいくつか紹介します。この記事では具体的な実装は示さず、概念の紹介にとどめます。この記事を読むために必要な知識は以下です。・モンテカルロ木探索＋UCB1 ・MiniMax探索・ボンバーマンの基本的なルール名のある木々名もなき木々を紹介する前に、まずは名のある木々を紹介します。 MCTS モンテカルロ木探索。簡単に言えば、評価関数を使わず、ランダム試行を繰り返して勝率の平均が高い手を調べる手法です。有名な木なので、検索するとたくさん解説がヒッ 116 users

ヴァル @ValGrowth

CodinGameランキング日本1位/AtCoder A水/H橙

valgrowth.hatenablog.com

ツカモ @tsukammo

直接的な報酬だけによる評価関数だとこうなっちゃうので、よくある"ライフハック"とかは「好奇心」とか「細かいstepで刻んでご褒美を用意」とかで、評価関数を適正化していっているんだよな。うん、全部わかってるんだけどね。しないだよね。

2023-02-12 17:02:23

ツカモ @tsukammo

ターン毎に1本増え、100本集まると岩になります。上下左右の更地に増殖します。

tsukammo.hatenablog.com

ぺんぎん @penguin_UEC

評価関数のマイナスをでかくしちゃうと何も行動できなくなるバグか

2023-02-12 18:13:45

リンク Wikipedia 評価関数評価関数（ひょうかかんすう、英: evaluation function）とは、コンピュータにゲームをプレーさせるソフトウェアを開発する際に使われるプログラミング技術のひとつで、ゲームの局面の状態を静的に評価し数値に変換する関数のこと。評価関数を用いるプログラムは、局面の良し悪しを数値化し、それをもとにして着手を決定する。将棋やチェスでは駒の損得、リバーシでは打つことができる場所の多さ、囲碁では陣地の大きさで評価関数を作る。しかし、現実のゲームでは、単純なアルゴリズムでは測れない要素が複雑に関係し合うた 11 users

がる @garukasi2

面倒だと思うことはあえてやるべき

2023-02-13 12:33:53

he@日米中株投資 @hehehe0222

リスクを取れということですね twitter.com/tsukammo/statu…

2023-02-13 08:46:56

かずっち @kazucchi4465

貪欲法はすぐに局所解にハマるから、たまには悪い方に進むようにしないといかんという話焼きなまし法とか、強化学習だとε-greedy法的な

2023-02-13 08:48:33

リンク Wikipedia 焼きなまし法焼きなまし法（やきなましほう、英: Simulated Annealing、SAと略記、疑似アニーリング法、擬似焼きなまし法、シミュレーティド・アニーリングともいう）は、大域的最適化問題への汎用の乱択アルゴリズムである。広大な探索空間内の与えられた関数の大域的最適解に対して、よい近似を与える。 S. Kirkpatrick、C. D. Gelatt、M. P. Vecchiらが1983年に考案し、1985年に V. Cerny が再発見した。その名称は、金属工学における焼きなましから来ている。焼きなまし 64 users 2

リンク zero to one ε-greedy方策 ε-greedy方策強化学習において、エージェントは最終的な報酬が最大となるように行動しますが、ε-greedy方策は強化学習の手法の一つであり、確率εでランダムな行動をとり、(1-ε)の確率でその時知っている情報の中で最も最適な行動を選択するというものです。クイズ