最近,美國卡內(nèi)基梅隆大學 Noam Brown 和 Tuomas Sandholm 設計出了新的智能系統(tǒng) Pluribus,它能在六人無限注德州撲克中擊敗人類專業(yè)選手,相關(guān)研究發(fā)表在7月12日的Science 雜志上。
目前,很多超越人類的人工智能都是關(guān)于兩人零和游戲,如圍棋,游戲中只能有一方可以獲勝,用博弈論的術(shù)語來講,這些人工智能所做的都是在找到一個接近納什均衡的策略。所謂納什均衡策略就是指一系列能夠使自己預期收益最大化的策略,無論對手做什么行動,至少自己不會輸,另一個博弈者也會采取同樣的策略。
納什均衡由諾獎得主約翰·納什1951年提出
納什均衡已經(jīng)被證明存在于所有有限次博弈中以及大部分無限次博弈中。只不過,納什均衡策略并不是隨隨便便就能找到。第一,納什均衡策略可通過不斷觀察和利用對手的弱點來獲得,就好比見到一直出剪刀的對手,人工智能就一直出石頭。但對手也可根據(jù)你的策略來做調(diào)整,而且這種方法需要很多訓練樣本;第二,目前還沒有足夠快的算法可以找到納什平衡;第三,在多人游戲中,就算每個玩家都獨自找到了納什均衡策略,這個總的策略集合也不一定是納什均衡策略。
上圖為四人檸檬水果攤游戲。玩家需要在圓環(huán)中找到一個位置,使自己與其他所有人的距離總和最遠(左)。納什均衡策略是每個人都均勻分布在圓環(huán)上。但如果每個人都有自己的納什均衡策略,那么最終可能不會有納什均衡出現(xiàn)(右)。而如果是兩人游戲就不會有這樣的問題。
但 Pluribus 系統(tǒng)并不打算找到這個博弈論意義上的最優(yōu)策略,而是采用一種能夠經(jīng)常打敗人類選手的策略。首先,Pluribus 通過自我博弈計算出自己的策略。換句話說,Pluribus 不斷跟自己的分身玩德州撲克,期間沒有任何人類或其他人工智能的參與。最初,Pluribus 作為新手,行動完全隨機,但它會不斷改進自己的策略,逐漸提高自己的水平。自我訓練得出的策略被稱為“藍圖”。然后,Pluribus 就和真實玩家對戰(zhàn),積累實戰(zhàn)經(jīng)驗,期間不斷改進自己的策略。
這其中涉及到哪些技術(shù)細節(jié)呢?在德州撲克中,由于每一回合可以采取的行動實在太多,為了減少問題的復雜度,研究者采用了行動抽象(Action abstraction)和信息抽象(Information abstraction)的簡化技術(shù)。所謂成敗在于細節(jié),Pluribus 因此只會將信息抽象用于對未來幾個回合的預想中,而不會用在當前回合的決策上。
為了計算出“藍圖”策略,Pluribus 采用了蒙特卡洛虛擬遺憾最小化算法(MCCFR)。MCCFR 會隨機考慮一部分行動,而不是所有可選行動,來選擇應該采取的決定。在MCCFR的每一次迭代中,人工智能會根據(jù)在場玩家的策略模擬一盤游戲,然后找出自己在模擬游戲中的最優(yōu)策略。每一回合,人工智能都會被加入一個虛擬遺憾值,使它會后悔上次沒有用其他更好的策略,那么下一輪人工智能就會有傾向選擇上次后悔沒選的策略。就這樣,Pluribus每局都在學習如何擊敗以前的自己,從而不斷提高自己的水平。
“藍圖”策略只是一個粗略的策略?;凇八{圖”,Pluribus 在跟真正對手博弈的時候,用實時搜索(real-time search)技術(shù)尋找更好的策略。不同于圍棋等完全信息博弈(perfect-information games),六人德州撲克是不完全信息博弈(imperfect-information games)。人工智能對其他玩家的特征、策略和對應收益都沒有完整的了解。所以,研究者獨創(chuàng)了一種新的方法,他們假設每個玩家會有自己的4種策略,包括“藍圖”策略和它的三個變種,并且會在游戲中選擇其中一種。由于對手會變換策略,Pluribus 就會計算出比較平衡的策略,而不會偏向于只采取某些決定。另外,為了防止被對手看穿自己的策略,Pluribus 會先計算如果手上的牌跟現(xiàn)在不一樣時,會采取什么行動。Pluribus 得出一個可以平衡各種情況的策略后才開始該回合的行動。
訓練完成后,就到測試階段了。實際運行中,Pluribus 平均每回合只需要20秒思考時間,足足比專業(yè)選手快一倍。如此快的速度,那實力如何呢?研究者設計了兩個比賽,分別是5H+1AI(H代表人類),以及1H+5AI,并且邀請世界各地的高手參加。結(jié)果發(fā)現(xiàn),在5H+1AI中,Pluribus 平均每局能贏 48mbb(milli big blinds),在六人德州撲克中是極好的成績;在1H+5AI中,Pluribus 以平均每局32mbb 的成績擊敗人類。
Pluribus 擊敗人類,說明人類的經(jīng)驗性策略并不是最優(yōu),或許人類可以從中學習到新的技巧。另外,從人工智能的研究來講,Pluribus 的成功表明即使理論上沒法保證人工智能在多人游戲上的表現(xiàn),我們也可以通過精巧的算法設計來訓練出超越人類的人工智能。
聯(lián)系客服