中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
DeepMind VS Meta:實現(xiàn)納什均衡理性最優(yōu)解,還是多人非零和博弈算法更強大?

DeepMind被谷歌收購之后,一直開啟著“敗家燒”的模式。不過也著實“燒”出了不少成果。曾經大火的AlphaGo,編程機器人系統(tǒng)Alpha Code,智能體Gato……都是讓業(yè)界認可的手筆。不過,盡管在AI技術上全面開花,DeepMind仍沒有放棄曾經的看家本領——AI棋牌競技。隨著DeepNash的推出,棋牌界出現(xiàn)又一亂入者,因為它超越人類專業(yè)棋手的技能,登上了近期的《Nature》雜志。

而它或將會和Meta家的AI產品Cicero展開競技,究竟是怎么回事呢?

編譯 & 整理 | 楊陽
出品 | AI科技大本營
記得豆瓣高分電影《美麗心靈》中的約翰·納什嗎?
作為獲得諾貝爾經濟學獎的數(shù)學家,納什在博弈論、微分幾何學,以及偏微分方程等各個領域都作出卓越貢獻。為表彰他在非合作博弈理論中對均衡(納什均衡)的開創(chuàng)性分析,1994年瑞典中央銀行授予納什諾貝爾經濟學獎。
納什均衡在社科中的應用可謂成功,而在科技領域中,也經常引用博弈論的邏輯來進行技術實現(xiàn),比如,通過密碼學和博弈論的結合實現(xiàn)大數(shù)據(jù)安全。當下,這一邏輯也開始應用在AI的算法上。
DeepNash——DeepMind制造的最新款人工智能,它名字中的“Nash”即為紀念納什而命名。在AlphaGo之后,谷歌已降低在棋牌領域的關注,之所以推出DeepNash,在于借鑒納什均衡的邏輯設定基礎上,這款AI模型得以在西洋陸軍棋Stratego(策略)中擊敗專業(yè)玩家,這比在國際象棋、圍棋和撲克的比賽中擊敗人類更加困難。
DeepNash是怎么做到的呢?
超越圍棋的走法量,訴求“無模型”和強化學習
相較其他棋牌游戲,Stratego在規(guī)則上就包含了更多不確定性,包括玩家之間的信息非對稱。比如,象棋和圍棋的牌面和走位都是公開的,但Stratego的牌面卻是看不到的,這點和玩撲克一樣。另一方面,相較于圍棋只有一個初始定位,德州撲克有106個,而Stratego有驚人的超過1066個可以選擇的起始點。要知道,1066這個量級已經超過了宇宙中所有星辰的總量。

在博弈樹的算法統(tǒng)計量上,Stratego可能的走法達到不可思議的10535種,圍棋的這一數(shù)量為10360。
信息非對稱、路徑解極多,極度復雜性意味著通過通用的“蒙特卡洛樹”模型玩轉Stratego并不可行。DeepNash的研究者之一,DeepMind研究員Perolat表示:“那些適用于撲克的算法在Stratego中是完全行不通的,可能的結果量級太過龐大,因而非常復雜,信息的處理需要更為完備的方法?!?/span>

最終,團隊找到的方法是“無模型”強化算法,意味著在任何模型都無法實現(xiàn)精確模擬的情況下,讓DeepNash就像一個嬰兒或者一張白紙一樣進行從0開始的積累。但這使得預測變得困難,甚至完全不可能。

為了解決這個問題,團隊使用了深度強化學習為DeepNash提供動力源,目的是找到最優(yōu)的納什均衡。


運用納什均衡,在信息不對稱中訴諸最優(yōu)解
強化學習算法如同“鋼鐵俠”,可以處理大規(guī)模數(shù)據(jù)量的問題,但牌面的信息不對稱又該如何解決?該DeepNash中“Nash”發(fā)揮作用了。
納什均衡,也是非合作博弈均衡分析,社會學和經濟學專業(yè)學生對這個名詞非常熟悉。其中最著名的實驗就是后來經常應用在犯罪心理中的囚徒困境。這一理論給出的現(xiàn)實命題是:對于處于非合作博弈中的雙方,無論對方如何選擇,當事一方只有一種確定的策略對自己來說是最優(yōu)解,因而兩方都會選擇自己的最優(yōu),最后達成彼此最優(yōu)下的博弈均衡。
比如,兩個共同犯罪的嫌疑人分別接受審訊,如果雙方都不坦白,兩人各自獲刑一年;其中只有一方坦白,坦白的無罪釋放,不坦白的獲刑十年;而如果雙方都坦白,各獲刑五年。在這個假想實驗中,都不坦白才是整體最優(yōu)。然而,對于兩位囚徒來說,肯定都希望無罪釋放,而無論對方是否坦白,自己坦白都是理性最優(yōu)解,所以最終的結果就是各獲刑五年。
如果將納什均衡的邏輯放到DeepNash的算法設定中,游戲中互相看不到牌面的雙方就像囚徒困境中無法串通的兩個囚徒,彼此是非合作博弈。在信息不確定的情況下,只有走無論對方出什么牌“我”都是最優(yōu)選的牌,才能確保在多輪博弈中獲勝。
DeepNash獲得同類競技97%勝率
納什均衡和加上強化學習,最終達成均衡下的最優(yōu)解:通過“每位玩家獲得任何收益都會導致對手損失”的邏輯,憑借強化學習在游戲的每一步中計算下一步的最佳算法。就這樣,DeepNash開啟了自我對抗訓練。
訓練的獎懲機制是:當DeepNash—A獲勝時,該網絡參數(shù)將會增強;同時,對手方DeepNash—B的參數(shù)將會被削弱。通過55億次的對弈,DeepNash取得了很好的成績,失誤率越來越小,無限接近納什均衡最優(yōu)。
在算法測試中,DeepNash以97%的勝率壓制了其他機器選手。而在Gravon游戲平臺上,通過和人類專業(yè)棋手進行兩周多的競技,DeepNash最終在有20年歷史的積分排名榜中升至第三位。
除了學習能力驚人,DeepNash更讓人驚訝的地方在于,它在開局不會固定自己的起始位置,而是不斷優(yōu)化起始點。這樣做究竟是隨機在10535種可能性中尋找最優(yōu)解,還是“有意識”地避免對手對自己出牌套路的破解而故意為之,目前不得而知。如果是后者,就讓人不寒而栗了。不過,DeepNash確實會用一些看上去“誘騙”的方式來“引誘”對手落入陷阱,通過一些看似無意義(棋子重復跳動),或者犧牲高級棋子(讓對方放松警惕),從而進行伏擊。
加入非理性測算后的多方博弈
DeepNash確實相當厲害,但如果你仔細觀察也不難發(fā)現(xiàn),納什均衡的狀態(tài)是發(fā)生在兩方之間的,而現(xiàn)實世界往往并非兩者的零和博弈。當博弈均衡需要發(fā)生在多方,又會呈現(xiàn)怎樣的態(tài)勢呢?
對此,Meta AI研究員們的發(fā)明或許更具挑戰(zhàn)性:創(chuàng)建了能夠玩多方博弈游戲的AI模型——Cicero。在一款名為Diplomacy(外交風云)的游戲中,多個玩家每人代表一個國家,最多可以有7個玩家一起玩。游戲規(guī)則是進行軍隊和戰(zhàn)艦的戰(zhàn)略部署,從而獲得對供應中心的控制權。
和DeepNash在Stratego中展現(xiàn)的非合作博弈下的純零和狀態(tài)不同,Cicero的博弈模式設定更加開放,包括每個玩家都可以私下進行交流和合作,而當合作博弈與非合作博弈都構建在多玩家的算法模型中時,預期結果更加不可控。
Cicero的開發(fā)者之一Noam Brown表示說:“當你超越雙人的零和游戲時,納什均衡的概念對于與人類打好關系不再那么有用?!?/span>
目前,Cicero已經在Diplomacy的125,261場游戲中進行了訓練,它的推理模塊(SRM)已經學會預測自身的狀態(tài),包括其他玩家可能采取的策略。通過預測,SRM會選擇最佳的行動路徑,并向其擁有27億參數(shù)語言模型的對話模塊上發(fā)出意圖信號。
在Brown看來,像Cicero這樣能夠與人類進行互動,并且可以對人類的非理性次優(yōu)行為進行解釋的人工智能才能越來越接近現(xiàn)實世界,從而為未來的應用鋪平道路。他以智能駕駛舉例:“你不能設想道路上其他司機都是理性的?!?/span>
唯理派 PK 經驗論:哪個更接近現(xiàn)實?
在應用上,盡管DeepNash是為Stratego而開發(fā)的,但它的實際用途遠不止在游戲世界里“搗亂”。未來將會用在便利人們生活的各個方面,比如交通或者市場預測。
和DeepNash一樣,Cicero未來也會應用于現(xiàn)實世界,“我們雖然有一只腳在游戲世界里,但現(xiàn)在我們也有一只腳在現(xiàn)實世界里?!?/span>
對于DeepNash和Cicero,你認為它們哪個更可能實現(xiàn)在現(xiàn)實世界的落地呢?請留言投票。
參考鏈接:
https://singularityhub.com/2022/12/05/deepminds-latest-ai-trounces-human-players-at-the-game-stratego/
https://www.nature.com/articles/d41586-022-04246-7

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
算法博弈論
「博弈智能」最新2023研究綜述
圍棋是有缺陷的游戲?圍棋的博弈論與納什均衡
新智能系統(tǒng) Pluribus在六人無限注德州撲克中擊敗人類專業(yè)選手
一個求解零和博弈的通用框架:讓人工智能自己發(fā)現(xiàn)算法
從日常生活看“博弈論”
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服