囚人のジレンマの新しい戦略 ― 解説改

@lkbysによる「囚人のジレンマの新しい戦略 http://www.pnas.org/content/early/2012/05/16/1206569109.abstract」の解説まとめ。まとめ1 http://togetter.com/li/421770 より分かりやすくなりました。 前回からの引用は灰色で表示しています。
5
Lucas KBYS @lkbys

業務連絡は以上です。 "Iterated Prisoner's Dilemma contains strategies that dominate any evolutionary opponent" の話ー

2012-12-16 21:12:08
Lucas KBYS @lkbys

あ、論文へのリンクを今回も張っておきましょう。 http://t.co/5xbO4RJW です(PDF)。著者は William H. Press と Freeman J. Dyson です

2012-12-16 22:00:48
Lucas KBYS @lkbys

先日にここに書いた分については、ゆん様( @yui_hanpen )のまとめがあります http://t.co/iEG20v3m が、いろいろ反省して、ちょっとこれのことは忘れてもう一度書きますー

2012-12-16 21:19:13
Lucas KBYS @lkbys

まず、論文の流れについて。 (1) 囚人のジレンマ Prisoner's Dilemma の設定の確認、その繰り返し Iterated Prisoner's Dilemma の確認、最近1回のみの記憶で次回の行動を決定するという仮定

2012-12-16 21:22:38
Lucas KBYS @lkbys

(2) D(p,q,f) の定義、2人のプレイヤーの利得期待値をそれを用いて表せること

2012-12-16 21:24:52
Lucas KBYS @lkbys

(3) D(p,q,f) を用いた zero-determinant (ZD) strategy の定義

2012-12-16 21:26:41
Lucas KBYS @lkbys

(4) ZD 戦略を利用して相手の利得期待値を決定できること (5) ZD戦略では自分の利得期待値を決定できないこと (6) ZD戦略を用いて相手より大きな利得が得られること

2012-12-16 21:28:59
Lucas KBYS @lkbys

(7) (6)が特にevolutionary playerに対して有効であること

2012-12-16 21:30:56
Lucas KBYS @lkbys

(8) (6)のtimescaleについて

2012-12-16 21:31:57
Lucas KBYS @lkbys

(9) (6)に対して相手は何ができるか

2012-12-16 21:32:56
Lucas KBYS @lkbys

という感じです。このうち、(10) のappendixについてはよくわからないので、取り敢えず放っておきます

2012-12-16 21:42:06
Lucas KBYS @lkbys

(1) について。プレイヤーをXとYとします。個々のゲームにおいてどちらも選択肢はc (cooperation) かd (defection) http://t.co/d1z9e9dC http://t.co/7oikM9LP http://t.co/GFaQUFmB

2012-12-16 21:47:24
Lucas KBYS @lkbys

囚人のジレンマのプレイヤーの2人を、XとYとします。それぞれc (cooperation) とd (defection) の2つの選択肢があります。2人それぞれ意思決定して同時に公開。Xから見れば (Xの決定, Yの決定) = (c,c), (c,d), (d,c), (d,d)

2012-12-11 23:14:55
Lucas KBYS @lkbys

うっかりこの論文と違う記法を使ってしまいましたが、こういう書き方でなく、ccやddのように、くっつけて書いています。それに合わせましょう

2012-12-11 23:18:36
Lucas KBYS @lkbys

Xの利得は、先ほどの4通りそれぞれに対してR, S, T, Pとします。Yの利得はR, T, S, P

2012-12-11 23:21:18
Lucas KBYS @lkbys

(1) についての2。 T>R>P>S が成り立つのも、 http://t.co/wbA7mbGl で書いた通りですが、もう1つ仮定がありました。 2R>T+S がそれです

2012-12-16 21:51:02
Lucas KBYS @lkbys

(1) についての3。最近1回のみの記憶で次回の行動を決定するという仮定が置かれます。この仮定を置いて良いことをappendix Aで証明しているはずなのですが、これがよくわからないので、取り敢えず、これはまあこういうモデルを採用したということで納得することにしました

2012-12-16 21:57:49
Lucas KBYS @lkbys

(1) についての4。最近1回のみの記憶で次回の行動を決定するとはどういうことかというと、 http://t.co/N9yhloor http://t.co/4s5DiVhX

2012-12-16 22:13:45
Lucas KBYS @lkbys

XとYがこの確率p_i (i=1,2,3,4) とq_i (i=1,2,3,4) を決めると、4通りの結果xyのそれぞれに対して、その次の回にどの結果がどれだけの確率で生じるか、が求まります(単なる確率の積です)。例えば、cdの次回にdcになる確率は (1-p_2) q_3 です

2012-12-11 23:42:06
Lucas KBYS @lkbys

この囚人のジレンマを繰り返すことを考えます。論文の前半で計算されているのは、これをマルコフな過程とみた計算です。Xは、ccだった場合に確率p_1でcを選び確率(1-p_1)でdを選ぶ、cdだったら……、という4つの確率を、事前に決めておくのです

2012-12-11 23:31:35
Lucas KBYS @lkbys

(1) についての5。というふうに、直前の結果4通りに対してcする確率をあらかじめ決めておく、ということです

2012-12-16 22:17:00
Lucas KBYS @lkbys

この16個の確率を4×4行列に並べてMとします。ベクトルは横に並べて書く(ことになっているようです)ので、それに合わせて並べます。Mは固有値に1を持ちます

2012-12-11 23:48:09
Lucas KBYS @lkbys

(2) についての1。直前の結果からの遷移確率で4×4行列が書けます http://t.co/4s5DiVhX http://t.co/7GxmSWFh このMは固有値1を持ちます

2012-12-16 22:33:41
Lucas KBYS @lkbys

(2) についての2。このMをごちゃごちゃして、D(p,q,f) を定義します。定義自体は、特に問題ありません

2012-12-16 22:36:10