內(nèi)容提要:本節(jié)給出了博弈論經(jīng)典案例《囚徒困境》的數(shù)學(xué)函數(shù)和MATLAB圖形,指出博弈論不存在邊際,使囚徒困境的理解更加直觀和簡單。使用諾貝爾獎(jiǎng)獲得者沙普利的配對(duì)理論,指出哪種配對(duì)是穩(wěn)定的配對(duì)。配對(duì)是我們?nèi)绾螐纳钪械玫郊仁俏覀兯x擇的,同時(shí)也是選擇我們的事物。而博弈論是選擇我想得到的但卻是對(duì)手不想得到的。博弈論是配對(duì)理論的一種反應(yīng)用。本節(jié)不僅分析了博弈雙方在自利情況下的穩(wěn)定配對(duì),還分析了存在自利,克己和利他多種情況下的穩(wěn)定配對(duì)。
創(chuàng)新要點(diǎn):
1. 給出了囚徒困境的數(shù)學(xué)函數(shù),指出博弈論不存在邊際。
2. 使用MATLAB繪制了囚徒困境的三維模型,使其更直觀,更容易理解。
3. 使用配對(duì)理論分析了囚徒困境的穩(wěn)定配對(duì),并且分析了博弈雙方分別是利己,克己和利他情況下的穩(wěn)定配對(duì)。
博弈論考慮游戲中的個(gè)體的預(yù)測行為和實(shí)際行為,并研究它們的優(yōu)化策略。表面上不同的相互作用可能表現(xiàn)出相似的激勵(lì)結(jié)構(gòu)(incentive structure),所以他們是同一個(gè)游戲的特例。其中一個(gè)有名有趣的應(yīng)用例子是囚徒困境。
具有競爭或?qū)剐再|(zhì)的行為稱為博弈行為。在這類行為中,參加斗爭或競爭的各方各自具有不同的目標(biāo)或利益MV。為了達(dá)到各自的目標(biāo)和利益,各方必須考慮對(duì)手的各種可能的行動(dòng)方案α,并力圖選取對(duì)自己最為有利或最為合理的方案α。比如日常生活中的下棋,打牌等。博弈論就是研究博弈行為中斗爭各方是否存在著最合理的行為方案,以及如何找到這個(gè)合理的行為方案的數(shù)學(xué)理論和方法。
囚徒困境與配對(duì)理論
1950年,由就職于蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關(guān)困境的理論,后來由顧問艾伯特·塔克(FlbertTucker)以囚徒方式闡述,并命名為“囚徒困境”。經(jīng)典的囚徒困境如下:
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據(jù)指控二人有罪。于是警方分開囚禁嫌疑犯,分別和二人見面,并向雙方提供以下相同的選擇:
若一人認(rèn)罪并作證檢控對(duì)方(相關(guān)術(shù)語稱“背叛”對(duì)方),而對(duì)方保持沉默,此人將即時(shí)獲釋,沉默者將判監(jiān)10年。
若二人都保持沉默(相關(guān)術(shù)語稱互相“合作”),則二人同樣判監(jiān)半年。
若二人都互相檢舉(互相“背叛”),則二人同樣判監(jiān)2年。
用表格概述如下(如表6-1所示):
表6-1 囚徒困境案例
若對(duì)方沉默、我背叛會(huì)讓我獲釋,所以會(huì)選擇背叛。
若對(duì)方背叛指控我,我也要指控對(duì)方才能得到較低的刑期,所以也是會(huì)選擇背叛。
二人面對(duì)的情況一樣,所以二人的理性思考都會(huì)得出相同的結(jié)論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達(dá)到的納什均衡,就是雙方參與者都背叛對(duì)方,結(jié)果二人同樣服刑2年。
這場博弈的納什均衡,顯然不是顧及團(tuán)體利益的帕累托最優(yōu)解決方案。以全體利益而言,如果兩個(gè)參與者都合作保持沉默,兩人都只會(huì)被判刑半年,總體利益更高,結(jié)果也比兩人背叛對(duì)方、判刑2年的情況較佳。但根據(jù)以上假設(shè),二人均為理性的個(gè)人,且只追求自己個(gè)人利益。均衡狀況會(huì)是兩個(gè)囚徒都選擇背叛,結(jié)果二人判監(jiān)均比合作為高,總體利益較合作為低。這就是“困境”所在。例子有效地證明了:非零和博弈中,帕累托最優(yōu)和納什均衡是互相沖突的。
在博弈論中,是不存在邊際的,即可選擇的點(diǎn)是不連續(xù)的,不可導(dǎo)。我們來構(gòu)建函數(shù),使博弈論的函數(shù)可導(dǎo)。假設(shè)甲合作的可能性為x,認(rèn)罪的可能性為1-x,其中0≤x≤1;設(shè)乙合作的可能性為y,認(rèn)罪的可能性為1-y,其中0≤y≤1。假設(shè)x,y大于等于0.5時(shí)表示合作,小于0.5時(shí)表示認(rèn)罪,并且二人被判刑的總年限為z。則得到如下分段函數(shù)
在MATLAB中輸入如下函數(shù),可以得到對(duì)應(yīng)的囚徒困境的三維圖形(如圖6-21所示)。
[x,y]=meshgrid(0:0.1:1,0:0.1:1);
z=0.5*x.*y.*(x>=0.5&y>=0.5)+0.5*x.*y.*(x>=0.5&y>=0.5)+0*(1-x).*y.*(x<0.5&y>=0.5)+10*(1-x).*y.*(x<0.5&y>=0.5)+10*x.*(1-y).*(x>=0.5&y<0.5)+0*x.*(1-y).*(x>=0.5&y<0.5)+2*(1-x).*(1-y).*(x<0.5&y<0.5)+2*(1-x).*(1-y).*(x<0.5&y<0.5);
surf(x,y,z),shadingflat,hold on
title('囚徒困境')
xlabel('x軸 囚徒甲合作')
ylabel('y軸 囚徒乙合作')
zlabel('z軸 二人總支付')
圖6-21 有邊際的囚徒困境
當(dāng)x和y分別合作和認(rèn)罪時(shí),即當(dāng)x和y分別等于1,0時(shí),得到三維坐標(biāo)系內(nèi)的4個(gè)極值點(diǎn)(1,1,1),(1,0,10),(0,1,10)和(0,0,4)。
表6-2 囚徒
困境的4種情況
當(dāng)x和y分別取0,1時(shí),得到了囚徒困境的4個(gè)極值點(diǎn),構(gòu)建的函數(shù)符合囚徒困境。當(dāng)甲、乙兩人均合作(1,1)時(shí),總的支付為最小的1。但是由于二者均處于自身利益最大化的考慮,二者均選擇了認(rèn)罪(0,0),二者均被判刑2年,二者并沒有達(dá)到系統(tǒng)的最優(yōu)值1年,即每人0.5年。
其中甲x對(duì)應(yīng)自己的被判年數(shù)的函數(shù)為
其中乙y對(duì)應(yīng)自己的被判年數(shù)的函數(shù)為
繼續(xù)在MATLAB中輸入如何程序,得到甲的利益函數(shù)。甲利益函數(shù)對(duì)應(yīng)的4個(gè)極值分別為(1,1,0.5),(0,1,0),(1,0,10)和(1,1,2)(如圖6-22所示)。
[x,y]=meshgrid(0:0.1:1,0:0.1:1);
z=0.5*x.*y.*(x>=1&y>=1)+0*(1-x).*y.*(x<=0&y>=1)+10*x.*(1-y).*(x>=1&y<=0)+2*(1-x).*(1-y).*(x<=0&y<=0);
surf(x,y,z),shadingflat,hold on
圖6-22有邊際和無邊際的囚徒困境
如果限定x和y只能等于0或1,則可以得到無邊際的囚徒困境,輸入如下程序得到無邊際的囚徒困境圖形(如圖6-23所示)。
[x,y]=meshgrid(0:0.1:1,0:0.1:1);
z=0.5*x.*y.*(x>=1&y>=1)+0.5*x.*y.*(x>=1&y>=1)+0*(1-x).*y.*(x<=0&y>=1)+10*(1-x).*y.*(x<=0&y>=1)+10*x.*(1-y).*(x>=1&y<=0)+0*x.*(1-y).*(x>=1&y<=0)+2*(1-x).*(1-y).*(x<=0&y<=0)+2*(1-x).*(1-y).*(x<=0&y<=0);
surf(x,y,z),shadingflat,hold on
title('無邊際的囚徒困境')
xlabel('x軸 囚徒甲合作')
ylabel('y軸 囚徒乙合作')
zlabel('z軸 二人總支付')
圖6-23 無邊際的囚徒困境
在囚徒困境中,一個(gè)人的選擇不僅影響自己的利益,也會(huì)影響對(duì)方的利益,而二者處于自己利益最大化的考慮,最終的結(jié)果卻不是自己的利益最大化。在后邊共享經(jīng)濟(jì)學(xué)中我們會(huì)介紹配對(duì)理論,此處通過配對(duì)理論來解釋囚徒困境。
諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者埃爾文·羅斯在《共享經(jīng)濟(jì):市場設(shè)計(jì)及其應(yīng)用》中寫到:“配對(duì)在經(jīng)濟(jì)學(xué)術(shù)語中可以解釋為,我們?nèi)绾螐纳钪械玫郊仁俏覀兯x擇的,同時(shí)也是選擇我們的事物。”而博弈就是選擇我們想要選擇的,而不讓對(duì)方選擇他們想要選擇的。在囚徒困境中,甲和以均有4種選擇,最好的是自己選擇認(rèn)罪,對(duì)方選擇合作,自己被判0年,對(duì)方被判10年;第2種的是自己和對(duì)方均合作,每人被判0.5年;第3種是雙方都認(rèn)罪,均被判2年;最差的一種是自己合作,對(duì)方認(rèn)罪,自己被判10年,對(duì)方釋放(如表6-3所示)。
表6-3 囚徒困境的四種配對(duì)
在博弈論中推理中,如果對(duì)方選擇認(rèn)罪時(shí),自己選擇合作會(huì)被判10年,而選擇認(rèn)罪會(huì)被判2年,所以在對(duì)方認(rèn)罪的前提下,自己選擇認(rèn)罪是最好的策略。當(dāng)對(duì)方選擇合作時(shí),如果自己選擇合作,會(huì)被判0.5年,而選擇認(rèn)罪會(huì)被釋放,所以在對(duì)方選擇合作時(shí),自己選擇認(rèn)罪是最好的策略。對(duì)方的推理相同,最后兩人都選擇了認(rèn)罪,均被判兩年。他們的選擇沒有達(dá)到系統(tǒng)的最優(yōu)值,因?yàn)槿绻叨歼x擇合作,他們均被判0.5年,比2年少。
在4個(gè)配對(duì)當(dāng)中,第1種配對(duì)對(duì)自己是最有利的,但是對(duì)對(duì)方是最不利的。當(dāng)自己選擇認(rèn)罪時(shí),給對(duì)方的選擇是合作或認(rèn)罪,而認(rèn)罪要比合作獲得的利益多。這個(gè)配對(duì)是不穩(wěn)定的,因?yàn)閷?duì)方會(huì)因?yàn)樽约哼x擇認(rèn)罪而選擇認(rèn)罪,所以第1種配對(duì)達(dá)不到自己認(rèn)罪,對(duì)方合作的配對(duì)組合。在第1種配對(duì)中,不僅為自己選擇了最大的利益,也為對(duì)方選擇了最大的損失。
在第2種配對(duì)中,甲不僅為自己選擇了合適的利益,也為對(duì)方選擇了合適的利益。但是這種配對(duì)也是不穩(wěn)定的,對(duì)于甲來說,如果對(duì)方選擇了合作,而自己認(rèn)罪,自己將獲得更大的利益,從而達(dá)到第1種配對(duì)的狀態(tài)。但是自己獲得的利益是以對(duì)方更大的損失換來的,所以總的利益會(huì)減少。自己增加的利益為少被判刑2年,而對(duì)方的損失是多被判刑8年,自己的自利使兩人的配對(duì)相比之前多被判刑6年。
第3種配對(duì)中,雙方都選擇了認(rèn)罪,任何單方面的改變,都不會(huì)使自己的境遇變得更好,是一個(gè)穩(wěn)定的配對(duì)。如果一方選擇合作,那么相應(yīng)的給對(duì)方選擇了更好的配對(duì),對(duì)方將被釋放,而自己的損失增加。在第3種配對(duì)中,單方面的改變會(huì)變?yōu)榈?span lang="EN-US" style="font-family:"Times New Roman","serif";mso-fareast-font-family:宋體">1種或第4種配對(duì),都是不穩(wěn)定的配對(duì)。
第4種配對(duì)中,自己選擇了最大的損失,對(duì)方選擇了最大的利益,在理智的情況之下,只有利他的精神會(huì)導(dǎo)致此種配對(duì)的發(fā)生。
在囚徒困境的假設(shè)中,博弈的雙方都是理性利己的,追求自身利益的最大化,而第2種配對(duì)則是二人博弈的結(jié)果。除了自利,還有兩種美德影響著人類的選擇。亞當(dāng)·斯密在《道德情操論》中論述了三種美德,分別為審慎(利己),合宜(克己)和慈善(利他),而三種美德分別為心理的自愛,同情和理性三種機(jī)能推薦給我們。如果博弈雙方存在著一方的利他美德,那么第1種或者第4種配對(duì)就會(huì)發(fā)生,利他的一方以對(duì)方利益最大化為出發(fā)點(diǎn),自己選擇了合作。而如果雙方都是利他的話,第2種配對(duì)就會(huì)發(fā)生,均以對(duì)方利益最大化為出發(fā)點(diǎn),而達(dá)到二人博弈的整體最優(yōu)點(diǎn)。在存在利他美德的博弈中,第1種,第2種和第4種配對(duì)都是穩(wěn)定的配對(duì)。如果博弈中存在克己的情感,即不傷害他人。當(dāng)對(duì)方選擇合作時(shí),如果自己選擇認(rèn)罪,將會(huì)使對(duì)方遭受更大的損失,自己會(huì)選擇合作;如果對(duì)方選擇認(rèn)罪,自己選擇合作會(huì)使自己遭受更大的損失,所以自己也會(huì)選擇認(rèn)罪。如果雙方都是克己的,那么第2種配對(duì)就是穩(wěn)定的配對(duì)。如果一方是克己的,一方是利己的,那么第3種配對(duì)就是穩(wěn)定的配對(duì)(如表6-4所示)。
表6-4 自利,利己和利他情況下的穩(wěn)定配對(duì)
在一個(gè)利己的環(huán)境中,很難達(dá)到個(gè)人利益和整體的利益最大化,而在克己或利他的環(huán)境中,就可以達(dá)到整體的利益和個(gè)人的最大化。在哲學(xué)部分我們論述過亞當(dāng)·斯密的哲學(xué)。他在《國富論》中論述了自利可以使自己的利益增加,進(jìn)而使整體的利益增加,而在《道德情操論》論述了審慎(利己),合宜(克己)和慈善(利他)這三種美德中,推崇克己這種美德。亞當(dāng)·斯密的完整論述是在遵守克己原則下的利己行為,即不傷害他人的行為,既可以達(dá)到個(gè)人利益最大化,也可以達(dá)到整體利益的最大化。囚徒困境中,博弈二人都選擇了坦白,得到了納什均衡,但不是帕累托最優(yōu)。二人都選擇合作,可以達(dá)到帕累托最優(yōu)。在博弈二人均是利己的假設(shè)前提下,只能得到納什均衡這個(gè)次優(yōu)解,而不能達(dá)到帕累托最優(yōu)解。而在二人均是克己的假設(shè)下,可以得到帕累托最優(yōu)這個(gè)穩(wěn)定的解。這也證明了亞當(dāng)·斯密在《道德情操論》中推崇克己,而不是自利對(duì)整個(gè)社會(huì)發(fā)展是更有利的。
《可以量化的經(jīng)濟(jì)學(xué)》全書結(jié)構(gòu)
《可以量化的經(jīng)濟(jì)學(xué)》封面
聯(lián)系客服