中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
博弈論<5.如何找到一個(gè)最優(yōu)策略>

博弈理論中存在一些對(duì)人的基本假定,比如它假定參與博弈的人必須是理性的,而理性就意味著他在博弈中是從自己的利益出發(fā)的,或者說(shuō)他是自私的。理性的人在博弈過(guò)程中會(huì)將自身利益最大化作為自己的目標(biāo),因此,博弈論的研究是建立在理性人之間的博弈之上的。

約翰·福布斯·納什利用他創(chuàng)造的“囚徒困境”博弈故事清楚地說(shuō)明了“納什平衡”的存在,也即在非合作博弈中存在一個(gè)均衡解,這個(gè)解可使博弈雙方的利益都獲得保障。

每場(chǎng)博弈中都會(huì)涉及三大要素:參與者、策略、得失。

在囚徒困境中,兩個(gè)囚徒是博弈的參與者,他們選擇的策略都是承認(rèn)殺人事實(shí),結(jié)果兩人都贏得了中間宣判結(jié)果。而如果一名囚徒承認(rèn)殺人事實(shí),另一名囚徒不承認(rèn)殺人事實(shí),其結(jié)果是承認(rèn)者獲得減刑,否認(rèn)者獲得死刑。最后兩個(gè)理性的囚徒在經(jīng)過(guò)慎重考慮之后,都選擇承認(rèn)殺人事實(shí),這樣一來(lái)他們都獲得了穩(wěn)妥的保命結(jié)果。

除了囚徒困境,我們還能在“自私基因”“智豬博弈”等理論中找到這種均衡解。

美國(guó)博弈論專(zhuān)家羅伯特·阿克塞爾羅德在研究合作型博弈時(shí)首先設(shè)定了兩個(gè)前提條件,第一個(gè)條件是每個(gè)參與者都是理性的(自私的);第二個(gè)條件是沒(méi)有外界因素干擾參與者的個(gè)人決策。

這就意味著,在合作博弈中,每個(gè)參與者都會(huì)為了最大化自身利益而進(jìn)行個(gè)人決策。在這兩個(gè)條件下,羅伯特·阿克塞爾羅德研究了以下三個(gè)關(guān)于合作的問(wèn)題:

一是博弈者為什么要合作;

二是博弈者在什么時(shí)候合作,什么時(shí)候不合作;

三是博弈者如何使別人與他合作。

這三個(gè)問(wèn)題的研究意義深遠(yuǎn),它們?cè)谏鐣?huì)實(shí)踐中的合作問(wèn)題上多有體現(xiàn),比如貿(mào)易博弈中如何通過(guò)合作來(lái)使博弈雙方都能獲得穩(wěn)定收益的問(wèn)題等。在博弈過(guò)程中,若參與雙方都追求自身利益的最大化,就會(huì)損害群體利益。

舉例來(lái)說(shuō),若現(xiàn)在進(jìn)行一場(chǎng)合作博弈,A、B分別代表博弈雙方,兩者都能自由進(jìn)行無(wú)差別選擇?,F(xiàn)在,擺在兩人面前的選擇有兩個(gè):合作和不合作。我們用Y代表合作,用N代表不合作,并設(shè)定以下規(guī)則:若A和B都選擇Y,兩人都得3分;若A和B都選擇N,兩人都得1分;若一人選Y,另一人選N,選Y的人得零分,選N的人得5分。在這個(gè)例子中,對(duì)這個(gè)兩人團(tuán)體來(lái)說(shuō),最優(yōu)的策略是兩人都選Y。這樣一來(lái),每個(gè)人都能得到3分,團(tuán)體得分就是6分。若兩人都選擇N,那么每人各得1分,團(tuán)體得分是2分;若一人選Y,另一人選N,則選Y的人得零分,選N的人得5分,團(tuán)體得分是5分。該博弈論通過(guò)得分矩陣可以清楚地描述個(gè)體理性與團(tuán)體理性之間的矛盾。若個(gè)人在博弈中追求利益最大化,就會(huì)使群體利益受損,這就是這類(lèi)博弈所體現(xiàn)的重要內(nèi)涵。

站在A的角度來(lái)考慮,可以發(fā)現(xiàn),若B選Y, A在選N的情況下可以獲得最大化利益,即5分;若A在B選擇Y的前提下選擇了Y,他可以得3分;若B選N, A也選擇N,他只能得1分;若A在B選擇N的前提下選擇了Y,他只能得零分。A所能獲得的可能得分從最高到最低分別是5分,3分,1分,零分。對(duì)A來(lái)說(shuō),要使自身利益最大化就是得5分;要使團(tuán)體利益最大化就是得3分。

其中的困境在于如何使每個(gè)人在選定策略后都能得到穩(wěn)定的分?jǐn)?shù),同時(shí)還不讓自己離利益最大化太遠(yuǎn)。個(gè)人得5分雖然可以實(shí)現(xiàn)其自身利益最大化,但整個(gè)團(tuán)體的分?jǐn)?shù)只有5分;若每人得3分,團(tuán)體得6分,團(tuán)體利益就能實(shí)現(xiàn)最大化,但個(gè)人只能獲得3分,距離他們的最高目標(biāo)5分還差一些。這就是個(gè)人理性和團(tuán)體理性之間的矛盾。若這個(gè)博弈只進(jìn)行一次便結(jié)束,那么它在數(shù)學(xué)上是沒(méi)有最優(yōu)解的。若博弈可進(jìn)行多次,且兩個(gè)參與者知曉博弈的次數(shù),那么理性的他們?cè)谧詈笠淮尾┺闹幸欢〞?huì)選擇相互背叛,這樣才能實(shí)現(xiàn)自身利益最大化。

如果是這樣的話(huà),他們?cè)谥暗牟┺闹惺欠窈献鞫际菬o(wú)關(guān)緊要的,即使兩人達(dá)成了一次合作,也是沒(méi)有必要的。所以,參與者在知道博弈次數(shù)的情況下不會(huì)進(jìn)行合作。但是,如果這類(lèi)博弈是在多人之間進(jìn)行的,同時(shí)每一個(gè)參與者都不知道具體的博弈次數(shù),那么在這種情況下,參與者就會(huì)意識(shí)到這個(gè)問(wèn)題,即在持續(xù)地選擇合作時(shí),每一個(gè)人都能持續(xù)且穩(wěn)定地得到3分。若彼此持續(xù)不合作的話(huà),每個(gè)人只能持續(xù)得到1分而已。

通過(guò)這樣的思考,參與者之間的合作動(dòng)機(jī)就非常明顯了。多次博弈的過(guò)程中,參與者未來(lái)的收益要比現(xiàn)在的收益增加一定的折現(xiàn)率,這個(gè)折現(xiàn)率越大,則未來(lái)的收益越重要。而這個(gè)折現(xiàn)率在多人博弈持續(xù)進(jìn)行的條件下相對(duì)較大,所以未來(lái)的收益趨于最重要。這個(gè)時(shí)候,參與者的最優(yōu)策略就與別人采取的策略產(chǎn)生了聯(lián)系。我們假設(shè)一個(gè)參與者第一次選擇合作策略,之后一旦對(duì)方不合作,他便選擇永不合作。與這種參與者進(jìn)行博弈,一直與他合作下去當(dāng)然是最有利的。我們?cè)偌僭O(shè)有一個(gè)參與者無(wú)論別人采取何種策略,他都選擇合作,那么與這種參與者進(jìn)行博弈,始終不與他合作才能獲得最高的分?jǐn)?shù)。與此同時(shí),我們對(duì)于那些總是不合作的人往往會(huì)采取不合作的策略。

阿克塞爾羅德根據(jù)這些思想制定了一個(gè)這樣的實(shí)驗(yàn):他邀請(qǐng)一群人來(lái)參加這個(gè)博弈游戲,得分規(guī)則與我們提到的A和B之間的合作博弈一樣,但何時(shí)結(jié)束這個(gè)游戲,沒(méi)有人知道。阿克塞爾羅德要求每一個(gè)參與游戲的人把自己感到得分最高的策略編成計(jì)算機(jī)程序,然后讓這些程序兩兩博弈循環(huán)進(jìn)行下去,看一看究竟哪種策略的得分最高。

第一輪游戲總共有15個(gè)程序參加,包括阿克塞爾羅德自己制定的一半概率合作一半概率不合作的隨機(jī)程序和14個(gè)主要考察對(duì)象設(shè)計(jì)的程序。在兩兩循環(huán)博弈進(jìn)行了300次后,阿克塞爾羅德終止了游戲,最后的結(jié)果顯示,加拿大學(xué)者羅伯布的“一報(bào)還一報(bào)”程序獲得了最高得分。“一報(bào)還一報(bào)”程序的特點(diǎn)在于第一次對(duì)局采取合作策略,之后每次對(duì)局都以對(duì)手上一次的策略作為參考,即對(duì)手上一次選擇合作,我這一次就選擇合作,對(duì)手上一次選擇不合作,我這一次就選擇不合作。

阿克塞爾羅德對(duì)得分較高的程序進(jìn)行了分析,他發(fā)現(xiàn)得分排名靠前的程序一般有三個(gè)特點(diǎn):

一是具備“善良性”,即從來(lái)不主動(dòng)背叛別人;

二是具備“可激怒性”,即對(duì)于別人的背叛不能一直許以善意的合作,還要具備一定的報(bào)復(fù);

三是“寬容性”,即別人背叛了你一次,你不能無(wú)休止地進(jìn)行報(bào)復(fù),而要在別人選擇合作的時(shí)候與其合作。

阿克塞爾羅德沒(méi)有滿(mǎn)足已有的實(shí)驗(yàn),他又邀請(qǐng)了更多的人重新做了相同的實(shí)驗(yàn),并在游戲開(kāi)始之前,向所有人公布了上一次實(shí)驗(yàn)的研究結(jié)果。這次實(shí)驗(yàn)的對(duì)弈程序高達(dá)63個(gè),包括他的隨機(jī)程序和62個(gè)研究對(duì)象的程序。經(jīng)過(guò)一定數(shù)量的對(duì)局,這次實(shí)驗(yàn)的結(jié)果與上一次沒(méi)有區(qū)別,最終“一報(bào)還一報(bào)”程序依然斬獲了得分第一名。這次實(shí)驗(yàn)證明了“一報(bào)還一報(bào)”策略仍是最優(yōu)解,同時(shí)也證明了排名靠前的程序都具有“善良性”“可激怒性”“寬容性”三個(gè)特點(diǎn)。

63個(gè)程序,前15名中除了第8名程序是“不善良”的外,其余程序都是“善良的”;而在得分較低的后15名中,除了一個(gè)程序具有“善良性”外,其余都是“不善良”程序。另外,優(yōu)秀程序具有“可激怒性”和“寬容性”也在實(shí)驗(yàn)中得到了證明。

與此同時(shí),阿克塞爾羅德在這次實(shí)驗(yàn)中還有新的發(fā)現(xiàn),即優(yōu)秀策略還具有“清晰性”,也就是說(shuō),優(yōu)秀的程序通常只需要在幾次對(duì)弈之后就能被清晰地辨識(shí)出來(lái),而那些復(fù)雜的策略卻并沒(méi)有令人滿(mǎn)意的得分?!耙粓?bào)還一報(bào)”策略顯然就具備“清晰性”特點(diǎn),在應(yīng)用這一策略后,對(duì)手很容易發(fā)現(xiàn)其中的規(guī)律,并明白只有主動(dòng)與對(duì)方合作才能贏得合作。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
《博弈論》:“囚徒困境”是與他人博弈時(shí)實(shí)現(xiàn)利益最大化的縮影
商戰(zhàn)“囚徒困境”有解
什么才是長(zhǎng)期合作博弈的最佳策略
人際交往|為什么做人不能太善良
博弈論與納什平衡
突破“囚徒困境”:合作是如何可能的
更多類(lèi)似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服