發(fā)布時(shí)間:2010-10-05
突破“囚徒困境”:合作是如何可能的
——讀羅伯特·阿克塞爾羅德《合作的進(jìn)化》
胡明光
*《合作的進(jìn)化》是美國(guó)著名的行為分析及博弈論專家羅伯特·阿克塞爾羅德的經(jīng)典著作,作者通過(guò)兩輪“重復(fù)囚徒困境”競(jìng)賽以及后續(xù)的“進(jìn)化實(shí)驗(yàn)”,揭示了合作出現(xiàn)的前提條件以及合作的進(jìn)化過(guò)程。毫不夸張地說(shuō),《合作的進(jìn)化》的出版帶來(lái)了一個(gè)新的研究領(lǐng)域的出現(xiàn),被這本書(shū)所激發(fā)出來(lái)的研究成果也在不斷地增加。
理查德·道金斯在為這本書(shū)寫的序言中講到:這是一本樂(lè)觀的書(shū),但這種樂(lè)觀是可信的,它不是天上掉餡餅式的、不切實(shí)際的天真愿望(或者革命的狂熱)。在適者生存的達(dá)爾文世界里,充滿著那些使得生存者生存下來(lái)的特質(zhì)。按照達(dá)爾文的說(shuō)法,我們悲觀地假設(shè)生命在自然選擇這一層面是極端自私的,對(duì)苦難無(wú)情地冷漠,殘忍地?fù)p人利己。然而從這個(gè)被扭曲的起點(diǎn)開(kāi)始,即使不必是刻意的,類似于友善的兄弟姐妹般的伙伴關(guān)系也會(huì)出現(xiàn)。這就是羅伯特·阿克塞爾羅德這本不平凡的書(shū)要傳遞的令人振奮的信息,讓我們?cè)谶@個(gè)私利的世界里感到無(wú)比的欣慰和鼓舞。
一、“重復(fù)囚徒困境實(shí)驗(yàn)”:合作的產(chǎn)生
為了闡釋合作是如何產(chǎn)生的,阿克塞爾羅德組織了一次“重復(fù)囚徒困境”的計(jì)算機(jī)程序競(jìng)賽,對(duì)策論專家被邀請(qǐng)?zhí)崴退麄冋J(rèn)為可以在重復(fù)囚徒困境中得分最高的策略程序,每個(gè)策略與其他所有策略逐個(gè)對(duì)局,以找出總體得分最高的策略。最后的優(yōu)勝者是加拿大學(xué)者羅伯布寫的“一報(bào)還一報(bào)”(tit for tat)。這個(gè)策略首先在第一步合作,然后就模仿對(duì)方上一步的選擇。然而,單一競(jìng)賽的結(jié)果是不能最后說(shuō)明問(wèn)題的,為了進(jìn)一步驗(yàn)證實(shí)驗(yàn)的結(jié)果,阿克塞爾羅德組織了第二輪競(jìng)賽,在第二輪競(jìng)賽中,所有的參賽者都得到了一份關(guān)于第一輪競(jìng)賽的詳細(xì)分析報(bào)告,包括競(jìng)賽過(guò)程中成功的思想和概念、易犯的策略性錯(cuò)誤,但結(jié)果依然是“一報(bào)還一報(bào)”取勝。阿克塞爾羅德還發(fā)現(xiàn),得分排在前面的程序有四個(gè)特性:一、善良性:從不首先背叛;二、報(bào)復(fù)性:對(duì)于對(duì)方的背叛行為一定要報(bào)復(fù),不能總是合作,也就是“可激怒的”;三、寬容性:在反擊對(duì)方的報(bào)復(fù)后要寬容對(duì)方,只要對(duì)方合作,你就合作,有助于重新恢復(fù)合作;四、清晰性:行為簡(jiǎn)單清晰,使對(duì)方能適應(yīng)你的行為模式,從而引出長(zhǎng)期合作。
二、進(jìn)化實(shí)驗(yàn):合作的進(jìn)化
關(guān)于成功策略特性的發(fā)現(xiàn)是令人欣喜的,在競(jìng)賽中,“一報(bào)還一報(bào)”是如此成功,那么,在動(dòng)態(tài)的進(jìn)化群體中,這種合作是否仍然可以產(chǎn)生,并不斷地發(fā)展下去呢?對(duì)此,作者進(jìn)行了第三個(gè)實(shí)驗(yàn):進(jìn)化實(shí)驗(yàn)。實(shí)驗(yàn)依據(jù)生態(tài)學(xué)原理:成功的參賽規(guī)則更有可能在下一輪中被采用,而不成功的規(guī)則很少再被采用。更確切的說(shuō)是,在所有的規(guī)則中,一個(gè)規(guī)則的后代的數(shù)量與它的競(jìng)賽得分成正比。這樣,群體的結(jié)構(gòu)就會(huì)在進(jìn)化過(guò)程中改變,實(shí)驗(yàn)結(jié)果表明:“一報(bào)還一報(bào)”和其他名列前茅的規(guī)則隨著一代一代進(jìn)化,逐漸變得多起來(lái)。這個(gè)過(guò)程模擬了適者生存,到了生態(tài)模擬的1000代的時(shí)候,那些靠背叛占便宜而取得成功的規(guī)則,由于被占便宜的規(guī)則的消失,而失去了剝削者賴以生存的基礎(chǔ),剝削者就要遭受同樣滅絕的命運(yùn),而“一報(bào)還一報(bào)”確實(shí)是最成功的規(guī)則,比其他任何一個(gè)規(guī)則增長(zhǎng)都快,這又是一個(gè)“一報(bào)還一報(bào)”帶給我們的令人興奮而難忘的記錄。
進(jìn)化實(shí)驗(yàn)告訴我們:如果成功是來(lái)自與其他成功的規(guī)則相互作用的話,這個(gè)成功將孕育更多的成功,而如果成功是靠占失敗者的便宜而得到的,這樣的成功者必將隨著失敗者的淘汰而失去賴以生存的基礎(chǔ),走上一條自我毀滅的道路。
三、突破“囚徒困境”的研究困境
實(shí)驗(yàn)的結(jié)果帶來(lái)了作者三方面的考慮:第一、潛在的合作策略如何才能在不合作占優(yōu)勢(shì)的環(huán)境中取得最初的立足之地?第二、何種策略能在由其他各種簡(jiǎn)單和復(fù)雜的策略組成的多樣化環(huán)境中脫穎而出?第三、在何種條件下,這樣的策略一旦在群體中完全立足,就能抵御不合作策略的侵入?與之對(duì)應(yīng)的就是作者關(guān)于合作的初始成活性、魯棒性和穩(wěn)定性的發(fā)現(xiàn)。由此發(fā)現(xiàn):即使是在一個(gè)總是背叛的小人世界,只要有哪怕是很小的一個(gè)合作性群體,合作仍然可以產(chǎn)生,合作一旦在群體中建立,就能保護(hù)自己不受非合作策略的侵入,并不斷的發(fā)展壯大,群體以不可逆轉(zhuǎn)的方式向合作的方向進(jìn)化。
這樣的合作理論是鼓舞人心的,阿克塞爾羅德正是以這樣的結(jié)論突破了“囚徒困境”的研究困境。在沒(méi)有集權(quán)的利己主義者之間,合作依然可以產(chǎn)生并不斷繁榮,那么,應(yīng)該如何促進(jìn)合作呢?
對(duì)于參與者和改革者來(lái)說(shuō),作者提了幾點(diǎn)建議:(1)不要首先背叛,首先背叛只會(huì)給自己帶來(lái)很多的麻煩和道德的壓力;(2)對(duì)方無(wú)論是合作還是背叛,都要給以回應(yīng);(3)不要耍小聰明,以試圖獲得更大的收益;(4)不要嫉妒,嫉妒是自我毀滅,要求自己比對(duì)方做得好不是一個(gè)很好的標(biāo)準(zhǔn),“一報(bào)還一報(bào)”在任何一場(chǎng)對(duì)決中都不會(huì)得到比對(duì)方更高的分?jǐn)?shù),然而它卻表現(xiàn)得如此精彩;(5)為促進(jìn)合作,可以改變對(duì)策者的可能結(jié)果的收益值;(6)使得未來(lái)相對(duì)于現(xiàn)在更重要,也就是對(duì)策雙方有足夠高的概率再次相遇;(7)教給對(duì)策者促進(jìn)合作的準(zhǔn)則、事實(shí)和技能,讓有預(yù)見(jiàn)能力的參與者了解合作理論的真諦,如:教育人們相互關(guān)心、學(xué)會(huì)回報(bào)等等,以加快合作的進(jìn)化。
四、研究的局限性
借助計(jì)算機(jī)和數(shù)學(xué)的研究方法,阿克塞爾羅德通過(guò)嚴(yán)謹(jǐn)?shù)倪壿嬐茖?dǎo),研究如何突破囚徒困境,達(dá)成合作,這個(gè)證明的過(guò)程是無(wú)可置疑,也是令人信服的。為了盡可能地接近現(xiàn)實(shí)世界,避免許多可能限制分析者的約束性框架,作者設(shè)定了盡量仿真的博弈環(huán)境:(1)對(duì)策者是多種多樣的,聰明或狡詐,隨機(jī)或復(fù)雜,一切動(dòng)機(jī)和想法都是可能的;(2)對(duì)策者不必是理性的,甚至不必總是追求利益最大化的,他們的策略可能只是簡(jiǎn)單的依靠直覺(jué)、經(jīng)驗(yàn)或是模仿他人;(3)對(duì)策者行為不必都是有意識(shí)的選擇,并不都是經(jīng)過(guò)深思熟慮的;(4)博弈手段是可以不斷變化的,每一個(gè)對(duì)策者都可以使用所有可能的策略,甚至是不擇手段的;(5)博弈回合是相當(dāng)多的,并且是全體參與者的循環(huán)賽。這樣的博弈環(huán)境更接近現(xiàn)實(shí)的“人性人”社會(huì),而不是經(jīng)濟(jì)學(xué)家所偏好的“理性人”游戲,但不能忽視的是,作者的一些假設(shè)依然是天真的,與現(xiàn)實(shí)脫節(jié)的:
(1)阿克塞爾羅德在“重復(fù)囚徒困境”競(jìng)賽中假定:博弈各方能力是相當(dāng)?shù)?,沒(méi)有差異的。這在現(xiàn)實(shí)中并不總是存在的,當(dāng)對(duì)策雙方能力不等時(shí),若同時(shí)選擇背叛,結(jié)果可能不是雙方同時(shí)得到“對(duì)雙方背叛的懲罰”1分,而是強(qiáng)勢(shì)的一方得到5分,弱勢(shì)的一方得到0分,無(wú)異于是強(qiáng)者選擇背叛,得到“對(duì)背叛的誘惑”5分,弱者選擇合作,得到“給笨蛋的報(bào)酬”0分。但是作者在第八章談到了地位、等級(jí)、信譽(yù)、威懾等博弈能力的差異性所帶來(lái)的,對(duì)策雙方在寬容性、對(duì)背叛的偏好以及報(bào)復(fù)的有效性等問(wèn)題上的不同,這是對(duì)之前“重復(fù)博弈困境”實(shí)驗(yàn)的一個(gè)現(xiàn)實(shí)修正和補(bǔ)充。
(2)作者設(shè)計(jì)的競(jìng)賽有一個(gè)很重要的假設(shè)就是:不能消滅對(duì)方,也不能放棄對(duì)局。這樣一來(lái),現(xiàn)實(shí)生活中的生死游戲就被弱化成了實(shí)驗(yàn)中的輸贏游戲。不能消滅對(duì)方就意味著輸了永遠(yuǎn)都有機(jī)會(huì)報(bào)復(fù),這就在很大程度上限制了不善良策略的威力,從而提高了“一報(bào)還一報(bào)”這些善良對(duì)策存活并不斷發(fā)展壯大的可能性,使其在長(zhǎng)期博弈中獲得明顯優(yōu)勢(shì)。如果修正一下“不能消滅對(duì)方”這一假設(shè),將其變?yōu)椋寒?dāng)對(duì)策者由于選擇合作而遭受背叛達(dá)到一定次數(shù)時(shí),該對(duì)策者就失去了參與資格,對(duì)局就此結(jié)束,這樣就更接近現(xiàn)實(shí)的世界。
(3)在作者看來(lái),合作的產(chǎn)生最重要的一個(gè)條件就是未來(lái)足夠重要,也就是折扣系數(shù)w(表示每一步的收益相對(duì)于前一步收益的折扣程度)足夠大,這就使得博弈回合可以足夠多。然而,重復(fù)博弈在現(xiàn)實(shí)生活中并不總是存在的,一次性博弈導(dǎo)致了很多不合作行為。在“資源悖論”的情況下,無(wú)法將蛋糕做大,此時(shí)每個(gè)人追求的就是如何分得更多的蛋糕,一次性博弈的大量存在和利益的驅(qū)使,大大提高了人們對(duì)背叛的偏好,使得“未來(lái)足夠重要”這一假定的約束力被弱化甚至被完全忽視。這就需要有力的制度安排來(lái)促使合作的產(chǎn)生,規(guī)范合作的秩序,通過(guò)法律和制度手段懲罰不合作行為來(lái)控制每個(gè)人的行為,而不是簡(jiǎn)單的“一報(bào)還一報(bào)”。
(4)研究的基本假設(shè)和命題是整個(gè)研究的靈魂所在,它決定了研究的問(wèn)題和方向,奠定了整個(gè)研究的基調(diào)?!逗献鞯倪M(jìn)化》一書(shū)圍繞“合作是如何產(chǎn)生的”這一問(wèn)題展開(kāi),前提是在沒(méi)有合作的環(huán)境中,合作是如何產(chǎn)生的。然而,如果換個(gè)角度思考,就會(huì)有很有意思的發(fā)現(xiàn)。正如《人類的趨社會(huì)性及其研究》指出的,“強(qiáng)互惠”和“利他”是人類獨(dú)有的屬性,那么,研究的問(wèn)題就不再是合作是如何產(chǎn)生的,而是:背叛是如何出現(xiàn)的?合作是如何被破壞的?
五、結(jié) 語(yǔ)
讀完《合作的進(jìn)化》,感覺(jué)意猶未盡,作者巧妙的實(shí)驗(yàn)、精湛的分析帶給我們很多有益的啟發(fā)。阿克塞爾羅德通過(guò)實(shí)驗(yàn)證明,一個(gè)“小人”的世界可以阻止任何使用其他策略的個(gè)體的入侵,只要這個(gè)新來(lái)者每次都是單個(gè)的,然而,如果新來(lái)者是一個(gè)小群體,它們就有機(jī)會(huì)建立合作,并不斷壯大。因此不能“孤獨(dú)的與人為善”,即使是“一報(bào)還一報(bào)”這樣的優(yōu)秀策略,也是需要遇到同樣采取合作策略的伙伴的,它的優(yōu)勢(shì)不是在單次博弈中獲得比對(duì)方更高的分?jǐn)?shù)(單次博弈中“一報(bào)還一報(bào)”得分從來(lái)不會(huì)超過(guò)對(duì)方),而在于引發(fā)并擴(kuò)大合作,與合作伙伴一起戰(zhàn)勝不合作者,這對(duì)于探索如何開(kāi)啟個(gè)人、組織和國(guó)家間的合作具有重要的意義。
作者的研究以生物進(jìn)化的生存競(jìng)爭(zhēng)和適者生存理論為基礎(chǔ)的,優(yōu)勝劣汰的法則使得模仿表現(xiàn)最出色的策略具有很大的誘惑力,這樣一來(lái),“一報(bào)還一報(bào)”這樣優(yōu)秀的合作策略就會(huì)被更多的對(duì)策者所選擇,并被普遍接受而形成制度,公正的制度能夠促成、維持合作,但它不是合作出現(xiàn)的條件,而是合作的結(jié)果,這對(duì)于制度學(xué)派研究來(lái)說(shuō)是一個(gè)重要啟發(fā)。
《合作的進(jìn)化》帶給了我們一些驚人的、甚至是具有顛覆意義的結(jié)論,突破了傳統(tǒng)的“囚徒困境”的研究困境,形成了一個(gè)新的研究領(lǐng)域。但是在這個(gè)復(fù)雜紛繁的領(lǐng)域中,阿克塞爾羅德的分析卻是清晰直白的,他的合作策略在人類日常生活中廣泛存在,比如:“投桃報(bào)李”、“好心有好報(bào)”就體現(xiàn)了“一報(bào)還一報(bào)”的寬容性,而“人不犯我,我不犯人;人若犯我,我必犯人”則對(duì)應(yīng)其“善良性”和“可激怒性”;“惡人自有惡人磨”則印證了作者所說(shuō)的,依靠占別人便宜而取勝的對(duì)策在遇到同樣的投機(jī)對(duì)策時(shí),就會(huì)兩敗俱傷。這些深入淺出的思想是善良的、美好的、欣慰的、令人鼓舞的,可以讓這個(gè)世界更美好。
* 作者簡(jiǎn)介:胡明光,復(fù)旦大學(xué)國(guó)際關(guān)系與公共事務(wù)學(xué)院行政管理專業(yè)2009級(jí)碩士研究生。