很多人都聽說過“囚徒博弈”,博弈雙方都朝著對(duì)自己最有利的方向進(jìn)行理性決策,最終卻無可奈何地得出“雙輸”的結(jié)果。
但現(xiàn)實(shí)并不是只博弈一次的一錘子買賣,參與博弈的對(duì)象往往也遠(yuǎn)多于兩個(gè)。那么,在長(zhǎng)期的、多次的、多人參加的博弈中,什么才是最佳策略呢?
1980年代,密歇根大學(xué)的社會(huì)學(xué)家/政治學(xué)家羅伯特·阿克塞爾羅德(Robert Axelord)組織了一個(gè)博弈競(jìng)賽,內(nèi)容就是囚徒困境,所有參與者(不同策略)兩兩博弈,看最終誰的收益最大。
可以預(yù)想,參與者設(shè)計(jì)了各種各樣復(fù)雜的博弈策略,但最終勝出的卻是一個(gè)非常簡(jiǎn)單的策略,英文叫“Tit for Tat”,一般翻譯作“以牙還牙”,更確切的含義可能是“針鋒相對(duì)”。
這個(gè)策略其實(shí)就兩條:
1、首先(第一輪)選擇合作;
2、復(fù)制上一輪對(duì)手的選擇。
上一輪對(duì)手選擇合作,我就選擇合作;上一輪對(duì)手背叛,我就選擇背叛。
這不就是中國(guó)古話說的,“人不犯我,我不犯人;人若犯我,我必犯人”?
沒想到這樣一個(gè)簡(jiǎn)單的策略竟取得了最好成績(jī)。阿克塞爾羅德也不太敢相信,又組織了第二次比賽,更多博弈論專家、計(jì)算機(jī)專家、心理學(xué)家參與進(jìn)來,出現(xiàn)了更復(fù)雜的算法,結(jié)果勝出的還是這個(gè)“以牙還牙”。
那么“以牙還牙”策略有什么特點(diǎn)呢?
1、友善:“以牙還牙”首先選擇合作,不主動(dòng)背叛;
2、報(bào)復(fù):遭到背叛,就一定還擊;
3、寬恕:對(duì)方再次合作,就既往不咎;
4、不嫉妒:每一輪最好的結(jié)果只是和對(duì)方打平。
“以牙還牙”策略顧及的是大局,集體利益為上,長(zhǎng)期利益為上。結(jié)果在復(fù)雜的多次多人重復(fù)博弈中,反而老實(shí)人獲得了最終的勝利。
于是上述四個(gè)特點(diǎn)似乎也可以成為我們?yōu)槿颂幨赖膮⒖?。其中兩條根本就是孔老夫子所說的“以直報(bào)怨,以德報(bào)德”嘛。
后來阿克塞爾羅德就寫了本書,叫《合作的進(jìn)化》,已經(jīng)是名著了。我還沒讀過,但是看豆瓣評(píng)分挺高。
不過且慢,“以牙還牙”實(shí)際上是一個(gè)很脆弱的策略。在計(jì)算機(jī)模擬中,這個(gè)策略很有效,但在現(xiàn)實(shí)中則未必,因?yàn)楝F(xiàn)實(shí)容易出差錯(cuò)。
設(shè)想下,如果某一輪,對(duì)手不小心操作失誤,或者像現(xiàn)實(shí)中經(jīng)常會(huì)遇到的可能是“無心之過”,結(jié)果你選擇了“以牙還牙”。那,既然大家都知道“以牙還牙”是個(gè)好策略,對(duì)方繼續(xù)“以牙還牙”。結(jié)果呢,就是陷入無限的報(bào)復(fù)……
明明只是選擇了“以直報(bào)怨”,卻因?yàn)楝F(xiàn)實(shí)中的差錯(cuò)或誤解,導(dǎo)致了“冤冤相報(bào)何時(shí)了”。
所以博弈論專家們發(fā)明了一個(gè)在現(xiàn)實(shí)中更“寬容”一些的策略,可以稱作“以牙還牙(改進(jìn)版)”或者“寬容以牙還牙”,英文是'Tit for tat with forgiveness' 。在這個(gè)策略里頭,對(duì)方背叛一次,我繼續(xù)合作;只有當(dāng)對(duì)方連續(xù)背叛兩次,我再報(bào)復(fù)。
假如人人都寬容一些,也許才更有利于全社會(huì)利益的最大化。
不過,直到前陣子,我才聽說關(guān)于這個(gè)問題,最佳策略又易主了。
哈佛大學(xué)教授馬丁·諾瓦克(Martin A. Nowak)在經(jīng)過無數(shù)次計(jì)算機(jī)模擬后,發(fā)現(xiàn)了一個(gè)更優(yōu)的策略,叫做“Win-stay, lose-shift”,意思是贏就繼續(xù)輸了就變,也有翻譯作“贏定輸移”。
諾瓦克也寫了本書,叫《超級(jí)合作者》,我還沒空看。
“贏定輸移”策略比“以牙還牙”策略勝在哪里呢?
第一,它比“以牙還牙”更冷酷。遇到好騙的,它就騙;只要能騙,就一直騙下去。
第二,它對(duì)認(rèn)知能力的要求更低。不需要觀察對(duì)手什么策略,只要看自己的得失,賺了就繼續(xù),虧了就換招。
這個(gè)策略,擊敗了“以牙還牙”和“寬容以牙還牙”。而且,它竟然更簡(jiǎn)潔。我們不由得懷疑它是不是已經(jīng)很接近最終“真理”了。
但是所有思想實(shí)驗(yàn)都是有邊界條件的,它們都能給我們啟發(fā),但都不會(huì)是復(fù)雜世界的簡(jiǎn)單真理。
“贏定輸移”這個(gè)策略其實(shí)也有瑕疵,就是它假定的是博弈雙方同時(shí)出招。但是,各位,我們現(xiàn)實(shí)中的博弈,哪有什么同時(shí)出招,都是有先后的(不過很多場(chǎng)合可簡(jiǎn)化視作同時(shí)出招)。
科學(xué)家們通過大量的實(shí)驗(yàn)發(fā)現(xiàn),在“同步型”的囚徒困境博弈中,“贏定輸移”是最優(yōu)策略;然而在“交替型”囚徒困境博弈中,“寬容以牙還牙”反而更勝一籌。大概,是因?yàn)椤皩捜菀匝肋€牙”更鼓勵(lì)合作,也更注重集體利益吧。
復(fù)雜的世界,既不會(huì)是純粹的“同步型”,也不會(huì)是純粹的“交替型”,甚至可能都不會(huì)是囚徒困境博弈。但話雖如此,這些有趣的思想實(shí)驗(yàn)對(duì)我們的決策模式還是有很大參考價(jià)值。
無論是“贏定輸移”策略,或者“寬容以牙還牙”策略,它們都有很重要的一點(diǎn),就是——重視反饋。歸納法誠(chéng)然有遇到許多謬誤,但從實(shí)踐的結(jié)果中不斷地去學(xué)習(xí)和調(diào)整,恐怕是我們不完美的人類所能做出的最佳選擇。
聯(lián)系客服