囚人のジレンマ(しゅうじん - 、Prisoners' Dilemma)は、ゲーム理論や経済学において、個々の最適な選択が全体として最適な選択とはならない状況の例としてよく挙げられる問題。非ゼロ和ゲームの代表例でもある。この問題自体はモデル的であるが、実社会でもこれと似たような状況(値下げ競争、環境保護など)は頻繁に出現する。
1950年、アメリカ合衆国ランド研究所のメリル・フラッド (Merrill Flood) とメルビン・ドレシャー (Melvin Dresher) が考案し、顧問のアルバート・W・タッカー (A.W.Tucker) が定式化した。 共同で犯罪を行った(と思われる)2人が捕まった。警官はこの2人の囚人に自白させる為に、彼らの牢屋を順に訪れ、自白した場合などの司法取引について以下の条件を伝えた。 なお、2人は双方に同じ条件が提示されている事を知っているものとする。また、彼らは2人は別室に隔離されていて、2人の間で強制力のある合意を形成できないとする。 このとき、囚人は共犯者と協調して黙秘すべきか、それとも共犯者を裏切って自白すべきか、というのが問題である。 2人の囚人の名前をA、Bとして表にまとめると、以下のようになる。表内の左側が囚人Aの懲役、右側が囚人Bの懲役を表す。たとえば右上の欄は、Aが懲役15年、Bが1年である事を意味する。 囚人B 協調囚人B 裏切り 囚人2人にとって、互いに裏切りあって10年の刑を受けるよりは互いに協調しあって2年の刑を受ける方が得である。しかし囚人達が自分の利益のみを追求している限り、互いに裏切りあうという結末を迎える。なぜなら囚人Aは以下のように考えるからだ。 以上の議論により、Bが自分との協調を選んだかどうかによらずBを裏切るのが最適な戦略(支配戦略 よってA、Bは(互いに裏切りあうよりは)互いに協調しあったほうが得であるにもかかわらず、互いに裏切りあって10年の刑を受ける事になる。合理的な各個人が自分にとって「最適な選択」(裏切り)をすることと、全体として「最適な選択」をすることが同時に達成できないことがジレンマと言われる所以である。 なお、この場合のパレート効率的な組合せは、(2,2)、(15,1)、(1,15)の3点であり、(10,10) はナッシュ均衡ではあってもパレート効率的ではない。 上述したように、2人プレーヤーの囚人のジレンマのゲームを1回しかしない場合は、両者が「裏切り」を選択する。では囚人のジレンマのゲームを繰り返し行った場合はどうなるか。これは、囚人達がゲームの繰り返し回数を知っているかどうかによって変わる。 ゲームの繰り返し回数を囚人達が双方とも知っていた場合は、全ての回で囚人がともに「裏切り」を選択する事が分かっている。これは状況を最終回から順に帰納法的に考えてみれば分かる(後退帰納法)。 次にゲームの繰り返し回数をいずれの囚人も知らない場合を考える。1980年にロバート・アクセルロッドは、繰り返し型の囚人のジレンマで利得の多くなる戦略を調べるため、様々な分野の研究者から戦略を集めて実験を行った。実験には14種類の戦略が集まり、アクセルロッドはこれらを総当りで対戦させた。その結果、全対戦の利得の合計が最も高かったのは、「しっぺ返し戦略(tit for tat)」であった。「しっぺ返し戦略」とは、最初は「協調」し、以降は、前回相手の出した手をそのまま出す戦略である。 アクセルロッドは、続いて2回目の実験を行った。この実験には、62種類の戦略が集まった。前回の勝者が「しっぺ返し戦略」であることは伝えられていたため、集まった戦略はこれよりも高い利得を得ようと工夫されたものだった。それにもかかわらず、最大の利得を得たのは、またしても「しっぺ返し戦略」であった。 なお、実験の結果は、実験の具体的方法や他の戦略の種類、数にも影響されるため、「しっぺ返し戦略」が常に最強とは限らない。しかし、ある条件下では「しっぺ返し」戦略が「常に裏切り」戦略よりも有効であることを以下のように示すことができる。 例えば、2人のプレーヤーPaとPbが「協調」か「裏切り」かの戦略を選べるときの、それぞれの利得を示す。並んだ数字の左側はPaの利得、右側はPbの利得である。 Pa/Pb協調裏切り ゲームが1回きりの場合、前に述べたとおり、ナッシュ均衡は(裏切り, 裏切り)のみである。しかし、ゲームを複数回行う場合、ゲームが次回も続く確率をpとすると、利得は以下のようになる。 Pa/Pbしっぺ返し常に裏切り
目次
1 囚人のジレンマ
1.1 問題
1.2 解説
2 繰り返し型の囚人のジレンマ
3 繰り返し型の囚人のジレンマゲーム(ノイズあり)
4 その他
5 現実における囚人のジレンマ
6 関連項目
7 参考文献
8 外部リンク
//
囚人のジレンマ
問題
もし、おまえらが2人とも黙秘したら、2人とも懲役2年だ。
だが、共犯者が黙秘していても、おまえだけが自白したらおまえだけは刑を1年に減刑してやろう。ただし、共犯者の方は懲役15年だ。
逆に共犯者だけが自白し、おまえが黙秘したら共犯者は刑が1年になる。ただし、おまえの方は懲役15年だ。
ただし、おまえらが2人とも自白したら、2人とも懲役10年だ。
囚人A 協調(2年、2年)(15年、1年)
囚人A 裏切り(1年、15年)(10年、10年)
解説
囚人Bが「協調」を選んだとする。このとき、もし自分 (=A) がBと協調すれば自分は懲役2年だが、逆に自分がBを裏切れば懲役は1年ですむ。だからBを裏切ったほうが得だ。
囚人Bが「裏切り」を選んだとする。このとき、もし自分がBと協調すれば自分は懲役15年だが、逆に自分がBを裏切れば懲役は10年ですむ。だからBをやはり裏切ったほうが得だ。
繰り返し型の囚人のジレンマ
最終回のゲームの後にもうゲームをやらないので、最終回のゲームの戦略が他のゲームの戦略に影響する事はない。よって最終回のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
最終回のゲームでは双方とも必ず「裏切り」を選択するのだから、最終回の一回前のゲームで自分が「協調」を選択しようが「裏切り」を選択しようが最終回のゲームには影響しない。よって最終回の一回前のゲームにもやはり駆け引き的要素は存在せず、このゲームでも囚人達はともに「裏切り」を選択する。
以下同様に考える事で、全てのゲームで囚人がともに「裏切り」を選択する事が分かる。
協調2, 20, 3
裏切り3, 01, 1
しっぺ返し2/(1-p), 2/(1-p)-1+1/(1-p), 2+1/(1-p)
常に裏切り2+1/(1-p), -1+1/(1-p)1/(1-p), 1/(1-p)
ご協力下さい!!
★暇つぶし何某★
[次ページ]
[オプション/リンク一覧]
[英語版を参照]
[記事の検索]
[おまかせ表示]
[トップページ]
[ニュースをチェック!]
[列車運行情報]