| quantamagazine
導(dǎo)語
現(xiàn)實(shí)生活中許多情況都可以看作是在“博弈”,而達(dá)到納什均衡在某種意義上對所有玩家都是積極的結(jié)果。本文首先條分縷析了納什均衡在小游戲中的體現(xiàn),又對其進(jìn)行了擴(kuò)展延伸探討,更復(fù)雜的情況下,“看不見的手”究竟會如何影響你的決策呢?
編譯:集智俱樂部翻譯組
來源:Quantamagzine
原題:
Why Winning in Rock-Paper-Scissors (and in Life) Isn’t Everything
生活中,我們常用剪刀-石頭-布的猜拳游戲來決定誰去做清潔勞動等等,但是,你有沒有注意到當(dāng)你一輪一輪地進(jìn)行游戲時到底發(fā)生了什么?
起初,你可能處于上風(fēng),然而,你的對手可能會讓游戲又轉(zhuǎn)向?qū)λ欣囊幻?。隨著游戲的進(jìn)行,你們實(shí)施著各自的策略,直到最終所有玩家似乎都不能通過改善個人策略而獲得更多的勝利。
這是為什么呢?
納什均衡
其實(shí),早在1950年,數(shù)學(xué)家約翰·納什(John F. Nash Jr. )就向我們證明,在任何擁有有限參與者和有限策略的游戲(例如,剪刀-石頭-布)中,總是存在這樣的混合策略:使得在該策略下沒有任何參與者可以通過僅改變自身策略而提高收益。
后來,這種穩(wěn)定的策略組合被人們稱為“ 納什均衡 ”。它不僅促進(jìn)了傳統(tǒng)的博弈論領(lǐng)域的革新,改變了經(jīng)濟(jì)學(xué)的進(jìn)程,也改進(jìn)了人們在政治條約、網(wǎng)絡(luò)交通等諸多方面的研究分析方法。而納什也因此獲得了1994年諾貝爾獎。
納什均衡可行性分析:
https://www.quantamagazine.org/in-game-theory-no-clear-path-to-equilibrium-20170718/
1994年諾獎獲得者John F. Nash Jr. 傳記:https://www.nobelprize.org/nobel_prizes/economic-sciences/laureates/1994/nash-bio.html
那么,納什均衡在剪刀-石頭-布的游戲中又是如何體現(xiàn)的呢?
|Fishfinger Creative Agency純(pure)策略
讓我們模擬你(玩家A)和對手(玩家B)來簡單分析一下。其中,玩家每輪勝出得一分,失敗則丟掉一分,平局記零分。
現(xiàn)在,假設(shè)玩家B首先采用一種(愚蠢的)戰(zhàn)略,即每回合都出布。那么,經(jīng)過幾輪的游戲之后,你可能就會發(fā)現(xiàn)她的策略并采取每回合都出剪刀的策略來反擊。我們將這種策略組合記為(剪刀,布)。如果每一輪以這樣的策略組合進(jìn)行,毫無疑問你將取得勝利。
但是,玩家B很快也會發(fā)現(xiàn)自己在這樣的策略組合中的劣勢。當(dāng)她觀察到你總是出剪刀應(yīng)對時,她也轉(zhuǎn)而采用總是選擇石頭的策略。這個策略組合(剪刀,石頭)中B又開始贏得勝利。當(dāng)然,你也可以繼續(xù)針對新的策略組合而選擇出布。
在上述游戲過程中,玩家A和B采用了所謂的“純”(pure)策略,即選擇并重復(fù)執(zhí)行單一的策略。
對于任何純策略,例如“總是選擇石頭”,我們都可以采用對立的策略應(yīng)對,例如“總是選擇布”。此時,相關(guān)的策略也將再一次發(fā)生變化。于是,你和你的對手將永遠(yuǎn)圍繞策略圈互相追逐。
顯然,這樣的純策略是不存在平衡點(diǎn)的。
混合策略
當(dāng)然,你也可以嘗試“混合”策略。假設(shè)你可以在每輪游戲中隨機(jī)選擇一種策略,而不是一直只選擇一種策略。例如,你可以并不“總是選擇石頭”,而是“一半時間出石頭,另一半時間出剪刀”,等等。
納什證明,當(dāng)允許這樣的混合策略時,每個這樣的游戲?qū)⒅辽俅嬖谝粋€平衡點(diǎn)。那么,我們現(xiàn)在來舉例說明一下。
首先,我們需要了解,在剪刀-石頭-布的游戲中,究竟怎樣的混合策略才是合理的呢?例如,我們可以假設(shè)“游戲中以相同的概率選擇剪刀、石頭或布”,那么對應(yīng)的策略組合表示為(1/3,1/3,1/3),即剪刀、石頭或布被選中的概率均為1/3。這會是一個好的策略嗎?
好吧,假設(shè)你的對手策略是“總是選擇石頭”這樣的純策略,我們用(1,0,0)表示。那么,在A選擇(1/3,1/3,1/3)且B選擇(1,0,0)的策略組合中,游戲的結(jié)果將會如何呢?
為此,我們繪制如下表格,其中列出了每輪游戲中九種可能的組合結(jié)果(例如,A出石頭,B出石頭; A出石頭,B出布,等等)對應(yīng)的概率。其中,第一行表示玩家B的選擇,第一列表示玩家A的選擇。
本文所示圖中R-石頭,P-布,S-剪刀,后文不再贅述
表中展示了任意輪次中策略組合的概率,即雙方各自策略對應(yīng)概率的乘積。例如,玩家A選擇布的概率為1/3,而玩家B選擇石頭的概率為1,那么(A選擇布,B選擇石頭)的概率為1/3×1=1/3;而(A選擇布,B選擇剪刀)的概率則是1/3×0=0,因?yàn)橥婕褺選擇剪刀的概率為零。
那么,在這樣的策略組合中,玩家A的表現(xiàn)究竟如何呢?從表中我們可以看到,玩家A將在三分之一的時間取勝(布,石頭),三分之一的時間失?。舻?,石頭),另外三分之一的時間打平(石頭,石頭)。并且,我們可以通過計(jì)算每個結(jié)果與其相應(yīng)概率的乘積的總和來得到玩家A每輪的平均得分:
可以看到,玩家A每輪平均得分為0,即以相等的概率獲勝,失敗或平局。因此,平均而言,雙方勝負(fù)的次數(shù)將均等,從而終究將表現(xiàn)為平局。
但是,正如上文所述,假設(shè)你的對手沒有改變他們的策略,你可以通過改變個人策略而得到更好的結(jié)果。例如,如果你切換到策略(0,1,0)(即“每次都選擇布”),那么相應(yīng)的概率分布如下所示:
每輪游戲中,你選擇的布都將戰(zhàn)勝對手的石頭,于是你每輪都會獲得一分。
所以,A選擇(1/3,1/3,1/3)且B選擇(1,0,0)的策略組合并未達(dá)到納什均衡,因?yàn)樽鳛橥婕褹的你可以通過改變個人策略來改善結(jié)果。
正如我們所見,純策略似乎并沒有導(dǎo)致均衡。但是,如果你的對手嘗試混合策略,比如(1/2,1/4,1/4),即“一半時間選擇石頭; 四分之一的時間選擇布和剪刀”,那么我們可以得到下表中的概率分布:
現(xiàn)在,我們列出玩家A對于每種結(jié)果的得分情況如下:
類似地,將上述兩個圖表的結(jié)果綜合起來,我們可以得到玩家A每輪的平均得分:
可以看到,玩家A平均每輪仍然獲得0分。于是,A選擇(1/3,1/3,1/3) 且B選擇(1/2,1/4,1/4)策略組合最終將同樣達(dá)到平局。
然而,同樣地,作為玩家A的你也可以通過切換策略來改善你的結(jié)果:對于B 的策略(1/2,1/4,1/4),A應(yīng)該選擇策略(1/4,1/2,1/4),相應(yīng)的概率圖表如下:
此時,對于A,每輪游戲的凈得分為:
也就是說, A選擇(1/4,1/2,1/4)且B選擇(1/2,1/4,1/4)的策略組合進(jìn)行游戲時,A每輪游戲的平均得分為1/16,。這樣,在100場游戲過后,A的得分將高出6.25分。因此,作為玩家A的你轉(zhuǎn)變策略的可能性很大,所以A以(1/3,1/3,1/3) 且B以(1/2,1/4,1/4)的策略組合同樣不是納什均衡。
現(xiàn)在,我們考慮一下這一對策略,即 A以(1/3,1/3,1/3)且B以(1/3,1/3,1/3)的策略進(jìn)行游戲時,可以得到相應(yīng)的概率圖表如下:
根據(jù)對稱性我們可以很快得到A每輪游戲的凈得分為:
顯然,你和你的對手將再一次戰(zhàn)成平局。但與上述情況不同的是,此時雙方玩家都不會有改變策略的動機(jī)!
例如,如果玩家B轉(zhuǎn)向任意的不平衡策略,使得其中一種選擇(比如石頭)更多,那么玩家A只需簡單地改變策略使得“布”更多即可。正如上文提到的玩家A采用策略(1/4,1/2,1/4)對抗玩家B 的策略(1/2,1/4,1/4)一樣,這將使A在每輪游戲中得到更好的凈得分。
當(dāng)然,如果玩家A從(1/3,1/3,1/3)的策略轉(zhuǎn)換到一種不平衡策略,那么玩家B也可以用類似的方式進(jìn)行反擊。
因此,任何玩家都不能僅通過僅改變個人策略來改善他們的結(jié)果。也就是說,這樣的策略組合達(dá)到了納什均衡。
設(shè)計(jì)機(jī)制
正如納什證明的,這些(博弈)游戲都具有納什均衡,而這一事實(shí)的重要性體現(xiàn)在好幾個方面。
一方面,現(xiàn)實(shí)生活中的許多情況都可以看作是博弈中的情形。例如,在談判或者在共享資源的競爭中,人們面臨著個人與集體利益的權(quán)衡,這時你就會發(fā)現(xiàn)這些策略在其中得到了很好的應(yīng)用進(jìn)而各方利益可以得到相應(yīng)的評估。也正是這些無所不在的數(shù)學(xué)模型使得是納什的工作有如此影響力。
另一方面,納什均衡在某種意義上對所有玩家都是積極的結(jié)果。到達(dá)均衡后,沒有人能通過僅改變自己的策略來使結(jié)果達(dá)到更優(yōu)。當(dāng)然,如果所有玩家都采取完美的合作的方式,可能會有更好的整體結(jié)果,但如果你能控制的只是你自己,最終達(dá)到納什均衡將會是你最好的選擇。
因此,我們可能更希望像經(jīng)濟(jì)激勵方案、稅務(wù)、條約以及網(wǎng)絡(luò)設(shè)計(jì)這些“(博弈)游戲”終究達(dá)到納什均衡。畢竟在這種均衡中,個人為了自己的利益行事,且最終得到滿意的結(jié)果,并且系統(tǒng)也會很穩(wěn)定。
但是,在這些博弈之中,“玩家自然會達(dá)到納什均衡”的這個假設(shè)是否合理呢?
游戲“升級”
回顧一下,在剪刀-石頭-布的游戲中,我們可能已經(jīng)猜到,玩家以完全隨機(jī)的方式玩更好。但這部分是因?yàn)?strong>玩家都知道彼此的偏好:即每個人都知道彼此在各種可能結(jié)果中獲勝和失敗的情況。
可是,如果偏好未知而且情況更復(fù)雜呢?
想象一下這樣一款新的游戲,其中玩家B在擊敗剪刀時獲得三分,而在任何其他情況下獲勝僅獲得一分。這將改變混合策略:玩家B將會更頻繁地選擇石頭并希望玩家A選擇剪刀從而獲得三倍的得分。雖然積分差異不會直接影響玩家A的得分,但玩家B策略的變化將觸發(fā)A的新的對策。
并且如果玩家B的每一個回報都是不同且未知的,那么玩家A需要一些時間才能弄清楚玩家B的策略是什么。為了估計(jì)自己選擇布的頻率,玩家A需要通過很多回合來理解玩家B選擇石頭的策略。
進(jìn)一步地,我們現(xiàn)在想象有100人玩剪刀-石頭-布的游戲,每個人的得分情況都保密,每個都取決于他們擊敗對手的情況。那么,為了達(dá)到平衡點(diǎn),你需要多長時間來計(jì)算你選擇石頭、布或剪刀的正確頻率?可能是很長一段時間,也許比游戲還要長。甚至可能比宇宙的壽命更長!
至少,即使是完全理性且深思熟慮的玩家,想制定好的策略按照自己的最佳收益行事并最終在比賽中達(dá)到平衡也并不容易。
2016年的一篇論文的核心觀點(diǎn)就向我們證明:在所有游戲中,沒有統(tǒng)一的方法可以引導(dǎo)玩家達(dá)到哪怕是近似的納什均衡。
論文題目:
Communication complexity of approximate Nash equilibria
論文地址:
https://arxiv.org/abs/1608.06580
這并不是說完全理性的玩家在比賽中從不傾向于達(dá)到均衡,實(shí)際上他們經(jīng)常這樣做。這只是意味著我們沒有理由相信——游戲能實(shí)現(xiàn)納什均衡是因?yàn)橹挥赏耆硇缘耐婕覅⑴c。
當(dāng)我們設(shè)計(jì)一個交通網(wǎng)絡(luò)時,我們同樣可能希望游戲中的玩家(即每個尋求最快回家路線的旅行者)能夠共同達(dá)到一種平衡,使得即使各方采取不同的路線也不會獲得任何額外收益。我們可能希望約翰·納什的“看不見的手”能夠指導(dǎo)他們,以便他們在競爭合作中達(dá)到均衡,即采取盡可能短的路線,并避免造成交通擁堵。
然而,上面逐漸復(fù)雜的剪刀-石頭-布游戲已經(jīng)向我們展示了為什么這樣的希望可能會落空。因?yàn)檫@雙'看不見的手'雖然會引導(dǎo)一些博弈,但是其他一些情況可能會抵制它的控制,終于玩家將陷入永無止境的競爭中,永遠(yuǎn)無法獲得收益。
翻譯:SBu
審校:高飛
編輯:王怡藺
原文地址:
https://www.quantamagazine.org/the-game-theory-math-behind-rock-paper-scissors-20180402/
聯(lián)系客服