近年來,博弈論相關(guān)的概念和工具在控制、多智能體系統(tǒng)和網(wǎng)絡(luò)研究中的應(yīng)用幾乎呈指數(shù)增長。
在接受《國家科學(xué)評論》(NSR)訪談時,美國國家工程院院士,伊利諾伊大學(xué)香檳分校Swanlund講席教授(該校教師最高榮譽(yù))、高等研究中心主任,IEEE控制系統(tǒng)學(xué)會和美國自動控制理事會前任主席,國際動態(tài)博弈論學(xué)會創(chuàng)始主席塔米爾·巴薩(Tamer Basar),談到了最近博弈論在控制和網(wǎng)絡(luò)研究中的新興角色、它如何將控制領(lǐng)域的邊界拓展到工程以外的學(xué)科,以及未來的機(jī)遇和挑戰(zhàn)。
Tamer Basar(Swanlund講席教授、伊利諾斯大學(xué)香檳分校高等研究中心主任)
博弈論是什么及其在控制中的作用
NSR:您能簡單地告訴我們什么是博弈論、它是做什么的嗎?
Basar:
博弈論解決的是多個決策者即博弈參與者(某些情況下稱為代理人)之間的策略交互。由一個目標(biāo)函數(shù)刻畫每個參與者在多個可能的博弈結(jié)果之間的排序偏好,她要么試圖最大化目標(biāo)函數(shù)(在此情況下,目標(biāo)函數(shù)是效用函數(shù)或效益函數(shù)),要么最小化目標(biāo)函數(shù)(在這種情況下,我們稱目標(biāo)函數(shù)為成本函數(shù)或損失函數(shù))。
對非平凡博弈來說,參與者的目標(biāo)函數(shù)取決于至少一位其他參與者的選擇(行為或決策變量),并且通常是所有參與者的選擇,因此參與者不能簡單地獨立于其他人的選擇而優(yōu)化自己的目標(biāo)函數(shù)。
因此,這使參與者的行動之間產(chǎn)生了耦合,并導(dǎo)致即便在非合作環(huán)境下,參與者在決策過程中也綁定在一起。
如果參與者能達(dá)成合作協(xié)議,形成集體性的、完全可信的行動或決策選擇,讓所有參與者都能盡可能地受益,那么我們將處于合作博弈論的領(lǐng)域。
如果參與者之間不允許合作,那么我們就處于非合作博弈論的領(lǐng)域。博弈論,作為一種系統(tǒng)性的方法,首先必須引入一個令人滿意的解概念。
首要地,解應(yīng)具有這樣的特征:所有參與者都不能通過單邊行動來提高收益,這就是所謂的非合作均衡或以約翰·納什的名字命名的納什均衡。
60多年前,約翰·納什引入了它,并且證明它存在于有限博弈(即每個參與者只有有限數(shù)量的替代方案的博弈)和混合策略中。對任意一個參與者,如果其他參與者按照納什均衡采取行動,這個參與者將無法通過偏離納什均衡來提高自己的收益。
請注意,我們不允許兩個或兩個以上的參與者從解點集體行動,因為這樣的集體行動需要合作,這是不允許在非合作博弈中發(fā)生的。
另一個非合作均衡解的概念是斯塔克爾伯格均衡(Stackelberg equilibrium),它實際上先于納什均衡提出。
其中,參與者的決策之間有一個層次,一些參與者被指定為領(lǐng)導(dǎo)者,有能力首先宣布他們的策略(并承諾執(zhí)行他們);其余的參與者被指定為跟隨者,根據(jù)領(lǐng)導(dǎo)者的策略決定他們的策略(追隨者之間也存在相互博弈)。
然而,在宣布策略之前,領(lǐng)導(dǎo)者會預(yù)測追隨者的反應(yīng),并以一種對自己最有利的方式?jīng)Q定其行動(就其目標(biāo)函數(shù)而言)。
NSR:我們遇到的不同類型的博弈有哪些?
Basar:
我們可以把博弈分為兩大類,即合作博弈和非合作博弈。后一類是更廣泛意義下的控制界所感興趣的,我們可以對它做進(jìn)一步的分類。
如果參與者的目標(biāo)函數(shù)之和不能在適當(dāng)?shù)恼s放和/或不依賴于參與者的決策變量的平移后變?yōu)榱?,我們稱這樣的非合作博弈是嚴(yán)格的(或真正的)非零和博弈。
如果一個博弈只有兩個參與者,兩個參與者的目標(biāo)函數(shù)之和為零,或者可以通過適當(dāng)?shù)恼s放和/或不依賴于參與者的決策變量的平移使其為零,我們稱它是零和博弈。
進(jìn)一步的細(xì)分基于參與者可使用的行動方案性質(zhì),以及這些行動如何決定結(jié)果。如果每個參與者只有數(shù)量有限的行動方案,即參與者從有限集合(動作集)中選擇他們的動作,這種博弈就是有限博弈,否則就是無限博弈。
有限博弈也稱為矩陣博弈。如果參與者的動作集是連續(xù)的,且其目標(biāo)函數(shù)相對于所有參與者的動作變量是連續(xù)的,則無限博弈被稱為連續(xù)核博弈。
正如目標(biāo)函數(shù)所捕獲的,如果參與者的行為單獨決定結(jié)果,那么這樣的博弈被認(rèn)為是確定性博弈;而如果至少一個參與者的目標(biāo)函數(shù)依賴于一個具有潛在概率分布的附加變量(自然狀態(tài)),那么我們就稱之為隨機(jī)博弈。
如果博弈描述(即參與者、目標(biāo)函數(shù)和潛在概率分布(如果是隨機(jī)的)是所有參與者的共同信息,那么這就是完全信息博弈;否則我們就稱其為不完全信息博弈。
如果參與者只能獲得先驗信息(所有人共享),而不能獲得任何其他參與者的行動信息,我們會稱其為靜態(tài)博弈;否則,我們就稱其為動態(tài)博弈。如果每個參與者只行動一次,我們稱其為單次博弈;否則將稱其為多次博弈。請注意,單次博弈可能是動態(tài)的,多次博弈可能是靜態(tài)的。
如果決策過程的演化(由參與者隨時間控制)發(fā)生在連續(xù)的時間內(nèi),通常涉及一個微分方程,這樣的動態(tài)博弈就被稱為微分博弈;如果它發(fā)生在離散的時間范圍內(nèi),則動態(tài)博弈有時被稱為離散時間博弈。
NSR:策略的概念在博弈中起著重要作用,特別是在動態(tài)博弈中,是這樣嗎?
Basar:
確實如此。在動態(tài)博弈中,隨著博弈的進(jìn)行,參與者獲得關(guān)于其他參與者過去行為的信息(完整或部分的),并在選擇自己的行為時使用這些信息。
例如,在有限動態(tài)博弈中,博弈過程可用樹結(jié)構(gòu)表示(也稱為擴(kuò)展式),其中每個節(jié)點代表一個參與者及其行動時間,節(jié)點的分支顯示該特定參與者可能的行動。
當(dāng)參與者對其他參與者過去的行動沒有完整的信息時,就形成了參與者的信息集。在擴(kuò)展式博弈中,參與者決定的不是他們的行動,而是他們的策略,即他們在每個信息集采取的行動。然后,根據(jù)策略以及在博弈樹上的位置,他們采取特定的行為。
因此,此時的均衡是定義在策略上而非行動上的。如果非要與控制論相比,那么,策略就像控制律,或等價地,控制策略,它根據(jù)控制者所能獲得的信息,通常包括被控系統(tǒng)的狀態(tài),來生成控制信號(或命令)作為系統(tǒng)的輸入控制。被控系統(tǒng)的狀態(tài)信息可以通過完美或含噪信道獲得。
NSR:請問控制和動態(tài)博弈之間是否存在關(guān)聯(lián)?
Basar:
的確有??刂疲貏e是最優(yōu)控制,可以看作是單個參與者的動態(tài)(或微分)博弈。進(jìn)一步,由于納什均衡的表征和計算涉及到每個參與者個體優(yōu)化問題的解,因此給最優(yōu)控制開發(fā)的工具,如動態(tài)規(guī)劃或極大值原理,在動態(tài)博弈中肯定是有用的。
然而,如果參與者有不同類型的信息,那么動態(tài)博弈的情況就會更加復(fù)雜。即使一些參與者具有開環(huán)信息,而其他參與者都具有完全信息,不論是動態(tài)規(guī)劃還是極大值原理,都不能用來構(gòu)造納什均衡。
對其他類型的信息結(jié)構(gòu),情況更加復(fù)雜。這在目前仍然是一個活躍的研究領(lǐng)域,而且動態(tài)博弈中信息結(jié)構(gòu)的復(fù)雜性也是我多年來一直很感興趣的問題。
對于零和動態(tài)博弈或微分博弈來說,情況更容易處理一些,這導(dǎo)致了魯棒控制的成功,其中系統(tǒng)可能有模型不確定性和/或未知輸入。
基于零和博弈論方法的魯棒控制允許系統(tǒng)的未知信息被視為對手博弈者所控制的輸入,而其目標(biāo)與控制器完全相反。
這種控制器和虛擬對手之間的直接利益沖突導(dǎo)致了零和動態(tài)博弈的形成,其在給定的控制器信息結(jié)構(gòu)下的極大極小解或鞍點解也由對手(進(jìn)行收益最大化的博弈參與者)共享,從而為系統(tǒng)提供了魯棒控制律。
這種方法已經(jīng)產(chǎn)生了不同信息結(jié)構(gòu)下線性和非線性系統(tǒng)的最優(yōu)H∞設(shè)計(即H無窮控制),并已經(jīng)為經(jīng)濟(jì)學(xué)家所采用,例如被諾貝爾獎得主拉爾斯·漢森(Lars Hansen)和托馬斯· 薩金特(Thomas Sargent)2008年在普林斯頓大學(xué)出版社出版的《魯棒性》(Robustness)一書中采用。
博弈論的歷史演變
NSR:博弈論的起源可以追溯到什么時候?您可以談?wù)勏嚓P(guān)歷史嗎?
Basar:
1944年,約翰·馮·諾伊曼和奧斯卡·摩根斯坦合著的《博弈論與經(jīng)濟(jì)行為》(Theory of Games and Economic Behavior)一書的出版,被普遍認(rèn)為是這一領(lǐng)域的正式起點。此后,博弈論的理論成果不斷增多,應(yīng)用的范圍和領(lǐng)域也在不斷擴(kuò)大。
作為對該領(lǐng)域活力的認(rèn)可,到目前為止,共有10個諾貝爾經(jīng)濟(jì)學(xué)獎,其主要工作是博弈論。
1994年,約翰·海薩尼(John Harsanyi)、約翰·納什( John Nash)和萊因哈德·澤爾騰(Reinhard Selten)獲得了第一次博弈論相關(guān)的諾獎,以表彰他們“在非合作博弈理論中對均衡的開創(chuàng)性分析”。
2005年,博弈論方面的第二次諾貝爾獎頒給了羅伯特·奧曼(Robert Aumann)和托馬斯·謝林(Thomas Schelling),獲獎理由是“通過博弈論分析加深了我們對沖突和合作的理解”。
2007年,博弈論相關(guān)的第三次諾貝爾獎頒給了列昂尼德·赫維奇(Leonid Hurwicz)、埃里克·馬斯金(Eric Maskin)和羅杰·邁爾森( Roger Myerson),認(rèn)為他們“為機(jī)制設(shè)計理論奠定了基礎(chǔ)”。
最近一次是2012年,阿爾文·羅斯(Alvin Roth)和勞埃德·沙普利(Lloyd Shapley)因“關(guān)于穩(wěn)定分配的理論和市場設(shè)計的實踐”而獲獎。在這個與博弈論貢獻(xiàn)相關(guān)的最高水平獎的名單中,我還應(yīng)該加入1999年的克拉福德獎(由瑞典皇家科學(xué)院設(shè)立的生物科學(xué)最高獎項),當(dāng)年該獎項授予約翰·梅納德·史密斯(John Maynard Smith),以及恩斯特·邁爾(Ernst Mayr)和G·威廉姆斯 (G. Williams),因為他們“發(fā)展了進(jìn)化生物學(xué)的概念”。
其中,通過其在演化博弈論和進(jìn)化穩(wěn)定策略/均衡方面的研究,史密斯這一被公認(rèn)的貢獻(xiàn)有很強(qiáng)的博弈論基礎(chǔ)。
盡管馮·諾依曼和摩根斯坦1944年的書籍被普遍認(rèn)為是博弈論科學(xué)方法的起點,但博弈論的概念和一些孤立的關(guān)鍵結(jié)果卻可以追溯到更早,甚至是幾個世紀(jì)前。
16年前,即1928年,約翰·馮·諾依曼本人徹底解決了零和博弈中一個懸而未決的基本問題,即證明了每個有限的兩人零和博弈在混合策略下都存在一個鞍點,這就是眾所周知的極小極大定理——這是埃米爾·博雷爾(Emile Borel)八年前猜測為錯誤的結(jié)果。
博弈論思考的一些早期痕跡還可見于安德烈·瑪麗·安培(Andre-Marie Ampere,1775-1836)1802年的著作《關(guān)于數(shù)學(xué)的思想》,而他則受到了喬治·路易·布豐(Georges Louis Buffon,1707-1788)1777年著作的影響。
NSR:在此期間,最優(yōu)控制方面是否有平行發(fā)展,對微分博弈論的發(fā)展有何影響?
Basar:
事實上,在大約相同的時間范圍內(nèi),我們看到理查德·貝爾曼(上世紀(jì)50年代)在蘭德公司工作時引入了動態(tài)規(guī)劃,作為最優(yōu)控制和更廣泛意義上的多階段決策的主要原則和工具。
20世紀(jì)50年代初期,蘭德公司(美國最重要的以軍事為主的綜合性戰(zhàn)略研究機(jī)構(gòu))吸引并安置了當(dāng)時最偉大的一些人物,除了貝爾曼之外,還有倫納德·貝爾科維奇(Leonard D. Berkovitz)、大衛(wèi)·布萊克韋爾(David Blackwell)、喬治·丹茨格(George Dantzig)、溫德爾·弗萊明(Wendell Fleming)、M.R.海斯滕斯(M.R. Hestenes)、魯弗斯·伊薩克斯(Rufus Isaacs)、塞繆爾·卡林(Samuel Karlin)、約翰·納什、J.P.拉薩爾(J.P. LaSalle)和勞埃德·沙普利(Lloyd Shapley)(僅列舉其中幾位)。
這些人和其他人奠定了決策論和博弈論的基礎(chǔ),從而為控制研究增添了動力。
在這種獨特的、非常有益的環(huán)境中,貝爾曼早在1949年就開始了多階段決策過程的研究,但更充分的(研究)是在1952年之后—— 一個也許鮮為人知的歷史事實是,貝爾曼在蘭德工作時的早期主題之一就是博弈論(零和與非零和博弈),他與布萊克韋爾、拉薩爾共同撰寫了研究報告。
32年后貝爾曼寫了一本內(nèi)容翔實且有趣的自傳(《颶風(fēng)眼》,Eye of the Hurricane,世界科學(xué)出版社,新加坡),在1984年3月19日他英年早逝前不久完成的這本書中,貝爾曼洋洋灑灑地描述了蘭德公司的研究環(huán)境和他創(chuàng)造“動態(tài)規(guī)劃”這個術(shù)語的原因。
動態(tài)規(guī)劃在不同類型問題中的應(yīng)用,以及“動態(tài)規(guī)劃函數(shù)方程”的獲得,促使貝爾曼隨后提出“最優(yōu)性原理”作為一個統(tǒng)一的原則。這一原則由幾乎同時同樣供職于蘭德公司的伊薩克斯在微分博弈的更廣闊背景下,將其稱為“變遷原則”,這一稱呼抓住了對抗環(huán)境下策略性動態(tài)決策特性。
事實上,伊薩克斯被認(rèn)為是在零和框架下競爭性連續(xù)時間動態(tài)決策中創(chuàng)造了“微分博弈”一詞的人,也有人把最優(yōu)性原理歸功于他,因為它可以看作是變遷原則的一個特例。由于工作的機(jī)密性,多年來伊薩克斯一直未能在公開文獻(xiàn)中公布他的發(fā)現(xiàn)(貝爾曼則可以),直到1965年其書籍《微分博弈》(Differential Games)的出版。
該書引起了研究興趣的躍遷,首先是追逃博弈(更廣泛地,零和微分博弈),后來是上世紀(jì)70年代初的非零和微分博弈,由哈佛大學(xué)的何毓琦及其合作者領(lǐng)頭。
博弈論研究的挑戰(zhàn)
NSR:您能談?wù)勀壳安┺恼?,特別是在動態(tài)博弈方面的主要研究領(lǐng)域,以及主要的挑戰(zhàn)是什么嗎?
Basar:
我談幾個方面,但絕非完整和詳盡。像我之前簡單說過的,信息結(jié)構(gòu)在動態(tài)博弈的非合作均衡表征和計算中所起的作用是目前一個活躍的研究領(lǐng)域,因為其中仍有許多復(fù)雜的因素尚未完全得到理解。
這些都與均衡對決策過程中博弈者所獲得信息類型的相關(guān)性有關(guān)系:誰與誰交流、一個博弈者的行動怎么從質(zhì)量和數(shù)量上影響其他博弈者接收到的與其決策相關(guān)的信息。
顯然,這些問題在單一決策者情況下都不會出現(xiàn)。還有不同參與者的理性問題——有意或無意的理性缺失,即使他們在某種程度上是理性的,其理性的“邊界”是什么(可能是由于對資源如計算能力或感知能力的約束所導(dǎo)致的限制造成),以及這一切如何影響均衡。還有一個問題是均衡對未被建模的不確定性以及對抗性干預(yù)(如加在通信鏈路上的)的魯棒性。
之前我提到過魯棒(H-∞)最優(yōu)控制成功地與零和微分博弈相聯(lián)系,這對其他學(xué)科也有影響,并為與非零和動態(tài)博弈建立類似的聯(lián)系提供了相當(dāng)豐富的路徑。
另一個內(nèi)容豐富的研究領(lǐng)域是網(wǎng)絡(luò)博弈。
廣義上,這里的背景是存在一個底層的網(wǎng)絡(luò)或圖形結(jié)構(gòu),可能是多層的,約束著參與者之間的交互:由鄰居關(guān)系決定誰與誰交流,誰與誰合作,以及哪些參與者的目標(biāo)或動態(tài)是相互耦合的。
另一個高產(chǎn)的研究領(lǐng)域是平均場博弈,涉及到另一種結(jié)構(gòu)特異性,其中參與者的互動不是與其他個體參與者進(jìn)行,而是與無限數(shù)量的參與者對應(yīng)的整體進(jìn)行,單個成員的行為對群體的整體行為只有極小的影響。這是我本人目前感興趣的一個方向。
最后,當(dāng)前一個日益增長的研究領(lǐng)域涉及到將機(jī)器學(xué)習(xí),特別是強(qiáng)化學(xué)習(xí)工具引入博弈論,以解決“無模型”的多智能體決策問題,其中參與者并沒有其他參與者的變化規(guī)律或目標(biāo)函數(shù)信息——而其他參與者的行為會影響他們的表現(xiàn),但會將自己通過觀察所得的數(shù)據(jù),比如在決策過程中獲得的“獎勵”,整合到自己的行為生成算法中。
早在2018年1月,NSR就有一個關(guān)于“機(jī)器學(xué)習(xí)”的專題(第1期第5卷),我看到了將其中的框架和工具擴(kuò)展到博弈論框架下多智能體系統(tǒng)研究的巨大潛力。這也是我目前感興趣的領(lǐng)域之一。
如何為博弈論的研究做好準(zhǔn)備
NSR:對于這一領(lǐng)域的新入門者,如研究生,您有何建議?在深入研究博弈論,特別是動態(tài)博弈之前,他們應(yīng)該具備什么背景?
Basar:
首先,強(qiáng)大的數(shù)學(xué)背景,尤其是實分析,是必須的。其次,深入掌握(確定性的、隨機(jī)的,以及最優(yōu)的)控制論知識是必不可少的,然后才能面對從單一到多個決策者所產(chǎn)生的復(fù)雜問題。
當(dāng)然,作為其中的一部分,還需要扎實的概率、隨機(jī)過程、最優(yōu)化等知識,以及博弈論方面的一些入門知識也是需要的。
最后,根據(jù)要進(jìn)行的研究所涉及的具體應(yīng)用領(lǐng)域,一些領(lǐng)域的知識也必不可少。當(dāng)然,更不必說一個研究領(lǐng)域的新入門者還應(yīng)該熟悉該領(lǐng)域已完成的研究成果以及目前的相關(guān)文獻(xiàn)。
結(jié)語
NSR:非常感謝您參加這次NSR專題的采訪,感謝您對這個新興領(lǐng)域的深刻評論和展望。
Basar:
謝謝您給我這個獨特的機(jī)會。我知道中國對這一領(lǐng)域有濃厚的興趣,我看到中國研究人員的參與度越來越高,對當(dāng)前的發(fā)展有很大的影響。
(作者系中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院研究員,感謝紐約大學(xué)坦登工程學(xué)院電氣和計算機(jī)工程專業(yè)副教授Quanyan Zhu、中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院副研究員穆義芬審校。)
相關(guān)文章信息:
https://doi.org/10.1093/nsr/nwz154
聯(lián)系客服