囚人のジレンマの新しい戦略 ― 解説改
- Hanpen_nepnaH
- 7334
- 0
- 1
- 0
業務連絡は以上です。 "Iterated Prisoner's Dilemma contains strategies that dominate any evolutionary opponent" の話ー
2012-12-16 21:12:08あ、論文へのリンクを今回も張っておきましょう。 http://t.co/5xbO4RJW です(PDF)。著者は William H. Press と Freeman J. Dyson です
2012-12-16 22:00:48先日にここに書いた分については、ゆん様( @yui_hanpen )のまとめがあります http://t.co/iEG20v3m が、いろいろ反省して、ちょっとこれのことは忘れてもう一度書きますー
2012-12-16 21:19:13まず、論文の流れについて。 (1) 囚人のジレンマ Prisoner's Dilemma の設定の確認、その繰り返し Iterated Prisoner's Dilemma の確認、最近1回のみの記憶で次回の行動を決定するという仮定
2012-12-16 21:22:38(4) ZD 戦略を利用して相手の利得期待値を決定できること (5) ZD戦略では自分の利得期待値を決定できないこと (6) ZD戦略を用いて相手より大きな利得が得られること
2012-12-16 21:28:59(1) について。プレイヤーをXとYとします。個々のゲームにおいてどちらも選択肢はc (cooperation) かd (defection) http://t.co/d1z9e9dC http://t.co/7oikM9LP http://t.co/GFaQUFmB
2012-12-16 21:47:24囚人のジレンマのプレイヤーの2人を、XとYとします。それぞれc (cooperation) とd (defection) の2つの選択肢があります。2人それぞれ意思決定して同時に公開。Xから見れば (Xの決定, Yの決定) = (c,c), (c,d), (d,c), (d,d)
2012-12-11 23:14:55うっかりこの論文と違う記法を使ってしまいましたが、こういう書き方でなく、ccやddのように、くっつけて書いています。それに合わせましょう
2012-12-11 23:18:36(1) についての2。 T>R>P>S が成り立つのも、 http://t.co/wbA7mbGl で書いた通りですが、もう1つ仮定がありました。 2R>T+S がそれです
2012-12-16 21:51:02(1) についての3。最近1回のみの記憶で次回の行動を決定するという仮定が置かれます。この仮定を置いて良いことをappendix Aで証明しているはずなのですが、これがよくわからないので、取り敢えず、これはまあこういうモデルを採用したということで納得することにしました
2012-12-16 21:57:49(1) についての4。最近1回のみの記憶で次回の行動を決定するとはどういうことかというと、 http://t.co/N9yhloor http://t.co/4s5DiVhX
2012-12-16 22:13:45XとYがこの確率p_i (i=1,2,3,4) とq_i (i=1,2,3,4) を決めると、4通りの結果xyのそれぞれに対して、その次の回にどの結果がどれだけの確率で生じるか、が求まります(単なる確率の積です)。例えば、cdの次回にdcになる確率は (1-p_2) q_3 です
2012-12-11 23:42:06この囚人のジレンマを繰り返すことを考えます。論文の前半で計算されているのは、これをマルコフな過程とみた計算です。Xは、ccだった場合に確率p_1でcを選び確率(1-p_1)でdを選ぶ、cdだったら……、という4つの確率を、事前に決めておくのです
2012-12-11 23:31:35この16個の確率を4×4行列に並べてMとします。ベクトルは横に並べて書く(ことになっているようです)ので、それに合わせて並べます。Mは固有値に1を持ちます
2012-12-11 23:48:09(2) についての1。直前の結果からの遷移確率で4×4行列が書けます http://t.co/4s5DiVhX http://t.co/7GxmSWFh このMは固有値1を持ちます
2012-12-16 22:33:41