說起博弈論不得不提納什均衡,這是納什給人類帶來的偉大財(cái)富。薩繆爾森(Paul A Samuelson)曾經(jīng)說過,你可以將一只鸚鵡訓(xùn)練成經(jīng)濟(jì)學(xué)家,因?yàn)樗枰闹挥袃蓚€(gè)詞:供給與需求。博弈論專家坎多瑞(Kandori)引申說:要成為現(xiàn)代經(jīng)濟(jì)學(xué)家,這只鸚鵡還必須在多學(xué)一個(gè)詞,這個(gè)詞就是“納什均衡”這凸顯出納什均衡在經(jīng)濟(jì)學(xué)中的地位。
美麗心靈劇照
什么是納什均衡?我們從最經(jīng)典的囚徒困境說起。有2個(gè)囚徒如果雙方都坦白則各判5年,如果一個(gè)坦白一個(gè)不坦白則,坦白的無罪釋放不坦白的判8年,如果都不坦白則各判1年。這樣的話2個(gè)囚犯應(yīng)該怎么選擇呢?
囚徒對(duì)應(yīng)收益表
在囚徒1看來,如果囚徒2選擇不坦白,那么自己選擇不坦白的收益是-1選擇坦白的收益是0則應(yīng)該選擇坦白;而如果囚徒2選擇坦白,那么自己選擇不坦白的收益是-8選擇坦白的收益是-5也應(yīng)該選擇坦白。所以最后囚徒1只能選擇坦白,囚徒2也是同樣的情況,最后雙雙選擇坦白,這個(gè)最終策略就是納什均衡點(diǎn),因?yàn)殡p方是不會(huì)選擇其他的(因?yàn)檎l選擇不坦白而另一個(gè)人選擇了坦白,他會(huì)得到比-5更低的收益)。
然而從2個(gè)人的總體結(jié)果來看,這不但不是最好的反而是最差的結(jié)果(總體收益-10最糟)。亞當(dāng)斯密曾經(jīng)說過每個(gè)人由追求自身最大利益出發(fā)最后能夠使得整體利益最大化。由上面囚徒困境看出顯然是有問題的,納什的偉大之處正是發(fā)現(xiàn)這點(diǎn)。
囚徒困境的最終策略為(坦白——坦白)這種單一選擇的策略行為我們稱之為純策略,而相對(duì)應(yīng)的均衡點(diǎn)就表示為純策略納什均衡點(diǎn)。如果沒有固定純策略呢比如猜硬幣,2個(gè)人,一個(gè)人蓋硬幣一個(gè)人猜硬幣他們的收益如下圖,顯然沒有固定策略,這個(gè)時(shí)候雙方就需要在可選策略中按一定的概率來隨機(jī)抽取決策,而這以策略不能讓對(duì)方有機(jī)可乘。
硬幣雙方收益表
對(duì)于上面的猜硬幣游戲顯然采?。?.5,0.5)的策略是最穩(wěn)妥的,因?yàn)檫@樣對(duì)方選正面和反面的期望收益相等。所謂的期望收益可以由全部可能收益乘以它發(fā)生的概率在加總求和得到。而(0.5,0.5)的策略就是混合策略的納什均衡點(diǎn)。
納什最大的貢獻(xiàn)就是對(duì)于上面所說的混合策略納什均衡的存在性證明,即一定存在一個(gè)混合策略納什均衡點(diǎn)使得雙方的策略穩(wěn)定不易改變。
再來說一下副標(biāo)題,所謂完全信息指的是博弈雙方信息都是公開的。靜態(tài)指的是博弈雙方同時(shí)采取策略,而不是一方出完再由另一方采取對(duì)應(yīng)策略(例如下棋),上面提到2個(gè)模型都是完全信息靜態(tài)博弈。
最后來說一個(gè)有趣的例子,小偷和守衛(wèi)。一個(gè)小偷要偷守衛(wèi)看守的倉庫。如果小偷去偷時(shí),守衛(wèi)在睡覺,則小偷得手,單如果小偷去偷時(shí),守衛(wèi)沒有睡覺,則小偷被抓。并且,假定小偷得手時(shí)可得到V,如果被抓坐牢則效用為-P;守衛(wèi)方面,睡覺未被偷效用為S,睡覺被偷要收懲罰,效用為-D。而如果小偷不偷則守衛(wèi)沒有得失。此時(shí)小偷和守衛(wèi)構(gòu)成了靜態(tài)博弈,收益如下表,相對(duì)高收益的用紫色表示:
小偷和守衛(wèi)的收益表
假定守衛(wèi)睡覺的概率為P(A),則小偷去偷得到的期望收益E=V*P(A)+(-P)*[1-P(A)]。整理后得到E=(V+P)*P(A)-P?,F(xiàn)在政府希望控制偷盜行為而加大對(duì)小偷的懲罰會(huì)產(chǎn)生什么樣的情況,如下圖:
當(dāng)對(duì)小偷的懲罰從-P加強(qiáng)到了-P’時(shí),守衛(wèi)睡覺的概率從P(A)1增長到了P(A)2,換句話說,增加對(duì)小偷的懲罰反而使得守衛(wèi)睡覺的可能性增加了,而小偷偷竊的可能性并沒有改變。
聯(lián)系客服