人生がうまくいかない原因、「ゲーム木探索」でうまく説明できてしまって困る「俺の人生かな?」「つらみがある」

身につまされます
241
ツカモ @tsukammo

人生最適化が上手くいかない原因、ゲーム木探索で説明できてしまって困る。 pic.twitter.com/v07PCsup2a twitter.com/ValGrowth/stat…

2023-02-12 16:50:58
ヴァル @ValGrowth

はてなブログに投稿しました #はてなブログ この木なんの木? モンテカルロ木と最良優先MiniMax木の"間"に存在する名もなき木々 - ヴァルの開発記 valgrowth.hatenablog.com/entry/2023/02/…

2023-02-11 10:40:38
拡大
リンク Wikipedia ゲーム木 ゲーム木(ゲームき、英: game tree)は、組合せゲーム理論において、ゲームの盤面を有向グラフのノードで、手をエッジで表したものである。完全ゲーム木とは、ゲームの最初から指せる全ての手を含んだゲーム木である。なお、組合せゲーム理論ではない通常のゲーム理論の「ゲームの木」については展開型ゲームを参照。 右図は、三目並べのゲーム木の最初の2レベル(あるいは2手)までを示したものである。ここでは、盤面を回転させたり反転させて同じになるものは等価としているため、最初の1手は3種類(中心、角、角と角の間)しか 17 users 8

※元ブログ↓

ヴァル @ValGrowth

はてなブログに投稿しました #はてなブログ この木なんの木? モンテカルロ木と最良優先MiniMax木の"間"に存在する名もなき木々 - ヴァルの開発記 valgrowth.hatenablog.com/entry/2023/02/…

2023-02-11 10:40:38
リンク ヴァルの開発記 この木なんの木? モンテカルロ木と最良優先MiniMax木の"間"に存在する名もなき木々 - ヴァルの開発記 概要 この記事ではまだ名前が無いと思われるゲーム探索木をいくつか紹介します。この記事では具体的な実装は示さず、概念の紹介にとどめます。 この記事を読むために必要な知識は以下です。 ・モンテカルロ木探索+UCB1 ・MiniMax探索 ・ボンバーマンの基本的なルール 名のある木々 名もなき木々を紹介する前に、まずは名のある木々を紹介します。 MCTS モンテカルロ木探索。簡単に言えば、評価関数を使わず、ランダム試行を繰り返して勝率の平均が高い手を調べる手法です。 有名な木なので、検索するとたくさん解説がヒッ 116 users
ヴァル @ValGrowth

CodinGameランキング日本1位/AtCoder A水/H橙

valgrowth.hatenablog.com

ツカモ @tsukammo

直接的な報酬だけによる評価関数だとこうなっちゃうので、よくある"ライフハック"とかは「好奇心」とか「細かいstepで刻んでご褒美を用意」とかで、評価関数を適正化していっているんだよな。 うん、全部わかってるんだけどね。しないだよね。

2023-02-12 17:02:23
ツカモ @tsukammo

ターン毎に1本増え、100本集まると岩になります。上下左右の更地に増殖します。

tsukammo.hatenablog.com

つまりこういうこと

ぺんぎん @penguin_UEC

評価関数のマイナスをでかくしちゃうと何も行動できなくなるバグか

2023-02-12 18:13:45
リンク Wikipedia 評価関数 評価関数(ひょうかかんすう、英: evaluation function)とは、コンピュータにゲームをプレーさせるソフトウェアを開発する際に使われるプログラミング技術のひとつで、ゲームの局面の状態を静的に評価し数値に変換する関数のこと。 評価関数を用いるプログラムは、局面の良し悪しを数値化し、それをもとにして着手を決定する。将棋やチェスでは駒の損得、リバーシでは打つことができる場所の多さ、囲碁では陣地の大きさで評価関数を作る。しかし、現実のゲームでは、単純なアルゴリズムでは測れない要素が複雑に関係し合うた 11 users
がる @garukasi2

面倒だと思うことはあえてやるべき

2023-02-13 12:33:53
かずっち @kazucchi4465

貪欲法はすぐに局所解にハマるから、たまには悪い方に進むようにしないといかんという話 焼きなまし法とか、強化学習だとε-greedy法的な

2023-02-13 08:48:33
リンク Wikipedia 焼きなまし法 焼きなまし法(やきなましほう、英: Simulated Annealing、SAと略記、疑似アニーリング法、擬似焼きなまし法、シミュレーティド・アニーリングともいう)は、大域的最適化問題への汎用の乱択アルゴリズムである。広大な探索空間内の与えられた関数の大域的最適解に対して、よい近似を与える。 S. Kirkpatrick、C. D. Gelatt、M. P. Vecchiらが1983年に考案し、1985年に V. Cerny が再発見した。 その名称は、金属工学における焼きなましから来ている。焼きなまし 64 users 2
リンク zero to one ε-greedy方策 ε-greedy方策 強化学習において、エージェントは最終的な報酬が最大となるように行動しますが、ε-greedy方策は強化学習の手法の一つであり、確率εでランダムな行動をとり、(1-ε)の確率でその時知っている情報の中で最も最適な行動を選択するというものです。 クイズ
NJRecalls @NJRecalls

コスパがどうこう言ってその場から動かないとそのまま年を取って01ぬやつ

2023-02-13 14:39:05
半霊の人/キャノン @hanrei_7

「自分の爆弾で爆死する可能性が実際あり、それ自体は割と無視できないのも事実だから、爆弾を置かないことを現状の最適解と認識してしまって、一生爆弾を置かずに緩やかに負けるしかないボンバーマン」とかいう、悲しい表現。早々に退場してミソボンやってる奴の方が100倍楽しそう。

2023-02-13 14:42:51
草キリンばぶ🦒🍼@Superpotato極度芋投(しなさい)🍟 @NaruWeb3

逆張りが機能したり、逆境をチャンスと思い火中の栗うを拾う人が(ある意味で)かえって効率良く報酬を手に入れていくのはこういうことかしらね? 普通にむずいから理解しきれていない気がするわ。 twitter.com/tsukammo/statu…

2023-02-14 03:14:58
Shikiro. @shikirogateway

人生の評価関数を最大化しよう

2023-02-14 12:29:52

みんなの反応

あうとろ(7章済) @0utr0r0

ワロタ……ワロタ……😇💀

2023-02-13 12:22:04