摘要
人機(jī)對(duì)抗是人工智能的熱門(mén)領(lǐng)域,同時(shí)也為探索機(jī)器智能的內(nèi)在原理與發(fā)展提供了途徑?;谏疃葟?qiáng)化學(xué)習(xí),討論了人機(jī)智能對(duì)抗技術(shù),并分析了人機(jī)對(duì)抗的內(nèi)涵與機(jī)理。首先,簡(jiǎn)化了感知-判斷-決策-行動(dòng)(OODA)模型,總結(jié)了適用于深度強(qiáng)化學(xué)習(xí)的人機(jī)對(duì)抗框架,并歸納了態(tài)勢(shì)認(rèn)知、決策與優(yōu)化以及協(xié)同與通信等關(guān)鍵技術(shù);然后,闡述了態(tài)勢(shì)特征提取與神經(jīng)網(wǎng)絡(luò)選擇、策略制定與策略優(yōu)化以及多智體訓(xùn)練模型與通信等技術(shù)內(nèi)容;最后,列舉了當(dāng)前人機(jī)對(duì)抗的應(yīng)用與挑戰(zhàn),并對(duì)人機(jī)對(duì)抗的未來(lái)發(fā)展做出了展望。
1
問(wèn)題的提出
近年來(lái),深度學(xué)習(xí)(DL)迅速發(fā)展,已在自然語(yǔ)言處理、圖像識(shí)別和目標(biāo)檢測(cè)等領(lǐng)域取得了巨大成就。DL通過(guò)組合低層特征來(lái)形成更抽象的高層表示、屬性類(lèi)別或特征,同時(shí)給出數(shù)據(jù)的分層特征表示。強(qiáng)化學(xué)習(xí)(RL)作為機(jī)器學(xué)習(xí)的一個(gè)分支,其本質(zhì)是為了解決時(shí)序決策問(wèn)題,已廣泛用于圍棋、機(jī)器人控制、車(chē)輛駕駛、動(dòng)態(tài)調(diào)度和游戲博弈等領(lǐng)域。隨著深度Q網(wǎng)絡(luò)(DQN)算法的提出,人工智能領(lǐng)域誕生了新的研究方向,即深度強(qiáng)化學(xué)習(xí)(DRL)。DRL將DL的抽象能力與RL的決策能力進(jìn)行了融合,通過(guò)神經(jīng)網(wǎng)絡(luò)感知高維度特征,從而實(shí)現(xiàn)端到端輸出,并極大降低了問(wèn)題的復(fù)雜程度。
人工智能的發(fā)展一直受到廣泛關(guān)注,而如何衡量一個(gè)智能體的智能程度則取決于人與智能體之間的對(duì)抗。隨著Deep Blue、AlphaGo系列、Libratus和AlphaStar在國(guó)際象棋、圍棋、德州撲克以及星際爭(zhēng)霸中不斷戰(zhàn)勝人類(lèi),人工智能的勝利將“智能化”熱潮推向了新的頂峰。上述人機(jī)對(duì)抗實(shí)例中,DRL扮演了重要角色,對(duì)智能體的勝利起到了關(guān)鍵作用。當(dāng)今世界仍處在由弱人工智能邁向強(qiáng)人工智能的階段,而將DRL與人機(jī)智能對(duì)抗進(jìn)行有機(jī)融合可為挖掘并培育強(qiáng)人工智能提供技術(shù)準(zhǔn)備,因此開(kāi)發(fā)出一種真正有著自我意識(shí)且能進(jìn)行推理和解決問(wèn)題的智能機(jī)器尤為重要。本文從DRL出發(fā),對(duì)人機(jī)智能對(duì)抗進(jìn)行了闡述。基于DRL的人機(jī)智能對(duì)抗原理圖如圖1所示。
圖1 基于DRL的人機(jī)智能對(duì)抗原理圖
盡管DRL與人機(jī)智能對(duì)抗表現(xiàn)出了高度契合性以及廣闊的應(yīng)用前景,但是目前基于DRL的人機(jī)智能對(duì)抗仍面臨以下問(wèn)題與挑戰(zhàn):1)態(tài)勢(shì)認(rèn)知信息復(fù)雜多變,難以全面有效地抽取態(tài)勢(shì)特征,故不利于深度神經(jīng)網(wǎng)絡(luò)感知;2)在不完全信息對(duì)抗局勢(shì)中,由于缺少全局態(tài)勢(shì)信息,DRL做出的決策存在魯棒性差以及陷于局部最優(yōu)等問(wèn)題;3)不同對(duì)抗中的DRL模型難以進(jìn)行遷移,缺乏泛用性。
2
人機(jī)對(duì)抗的內(nèi)涵及其機(jī)理分析
2.1 基本內(nèi)涵
人工智能(AI)必然離不開(kāi)人工智能之父——阿蘭·圖靈,對(duì)于機(jī)器是否能夠思考的問(wèn)題,他提出了著名的圖靈測(cè)試,即讓1個(gè)人和1臺(tái)機(jī)器作為2個(gè)受試者(多在暗處),與他們隔離的測(cè)試者向他們提各種問(wèn)題,由2個(gè)受試者回答,若測(cè)試者分辨不出2個(gè)受試者中誰(shuí)是人誰(shuí)是機(jī)器,那么認(rèn)定該機(jī)器能夠思考。人機(jī)對(duì)抗從廣義上說(shuō)也是圖靈測(cè)試的一個(gè)重要手段,可看作智能體性能的驗(yàn)金石。
人機(jī)對(duì)抗是一種人與機(jī)器相互博弈的方式,人機(jī)對(duì)抗涉及人、機(jī)器(智能體AI)和環(huán)境等要素。其中,人指人類(lèi);機(jī)器指AI或人創(chuàng)造的機(jī)器;環(huán)境指人機(jī)對(duì)抗中的規(guī)則和對(duì)局形式等信息,如在德州撲克中,己方和對(duì)方的牌均為環(huán)境的一部分。根據(jù)人機(jī)對(duì)抗中獲得的環(huán)境信息,可將對(duì)弈分為完全信息博弈、不完全信息博弈(指沒(méi)有參與者能夠獲得其他參與者的行動(dòng)信息)和不完全信息多智體博弈。其中,完全信息博弈包括Deep Blue和AlphaGO等棋類(lèi)游戲,游戲?qū)碾p方均能清楚地觀察到棋盤(pán)上所有棋子的位置以及對(duì)手的動(dòng)作決策;不完美信息博弈則包括了麻將和德州撲克等牌類(lèi)游戲,這類(lèi)游戲最大特點(diǎn)是擁有隱藏信息,且隨著隱藏信息數(shù)量不斷增加,做出正確決策的難度也呈指數(shù)級(jí)增加;不完全信息多智體博弈更復(fù)雜,如在王者榮耀與Dota等即時(shí)戰(zhàn)略游戲中,每個(gè)獨(dú)立的智能體不僅需考慮隱藏信息的干擾,還需準(zhǔn)確分析對(duì)局形式,在競(jìng)爭(zhēng)與合作、作戰(zhàn)與撤退以及獲取資源與轉(zhuǎn)化資源的復(fù)雜情況下做出最優(yōu)決策。
2.2 內(nèi)在機(jī)理
人機(jī)對(duì)抗的最終目的是為了實(shí)現(xiàn)機(jī)器在性能上對(duì)人類(lèi)的超越,而其本質(zhì)則是為了探索機(jī)器超越人類(lèi)這一過(guò)程中的內(nèi)在機(jī)理與技術(shù)原理。黃凱奇等從博弈的角度對(duì)人機(jī)對(duì)抗進(jìn)行了分析,根據(jù)人機(jī)物要素分析法將對(duì)抗分為一元博弈、二元博弈和三元博弈,并從博弈學(xué)習(xí)角度將人機(jī)對(duì)抗智能的科學(xué)問(wèn)題概括為可建模、可計(jì)算和可解釋。周雷等提出了人機(jī)對(duì)抗中的博弈學(xué)習(xí)研究框架,將人機(jī)對(duì)抗劃分為輸入對(duì)抗任務(wù)、構(gòu)建博弈模型、定義博弈可行解、計(jì)算博弈解和輸出策略組合等步驟,將一類(lèi)人機(jī)對(duì)抗任務(wù)的解決近似或等價(jià)轉(zhuǎn)換為對(duì)某一類(lèi)博弈問(wèn)題的求解。
與從博弈角度出發(fā)的人機(jī)智能對(duì)抗相比,本文以DRL的視角看待對(duì)抗問(wèn)題,將求解人機(jī)對(duì)抗任務(wù)視為求解最優(yōu)DRL模型,實(shí)質(zhì)上是從值出發(fā),通過(guò)值來(lái)衡量對(duì)抗任務(wù)的完成質(zhì)量和完成度,因?yàn)镈RL的學(xué)習(xí)過(guò)程是累計(jì)獎(jiǎng)勵(lì)的期望最大化的過(guò)程。從值的角度看,人機(jī)智能對(duì)抗問(wèn)題可概括為以下3個(gè)方面內(nèi)容:1)態(tài)勢(shì)可提?。褐缚蓮娜藱C(jī)對(duì)抗模型中提取關(guān)鍵信息,并能有效輸入神經(jīng)網(wǎng)絡(luò);2)最大值可計(jì)算:指提供的獎(jiǎng)勵(lì)反饋信號(hào)需擁有一定的梯度,能夠使神經(jīng)網(wǎng)絡(luò)進(jìn)行梯度更新從而優(yōu)化參數(shù),并最終使全局獎(jiǎng)勵(lì)最大化;3)策略可輸出:指訓(xùn)練過(guò)程中DRL模塊能有效輸出正確動(dòng)作,而正確動(dòng)作既可以是離散動(dòng)作又可以是連續(xù)動(dòng)作。本文將DRL引入人機(jī)對(duì)抗過(guò)程中,其機(jī)理如圖2所示。
圖2 基于DRL的人機(jī)對(duì)抗機(jī)理
人機(jī)對(duì)抗與人機(jī)交互緊密相關(guān),后者為前者提供了媒介,使得單獨(dú)的人與獨(dú)立的機(jī)器相互關(guān)聯(lián),為后續(xù)對(duì)抗研究提供基礎(chǔ);前者對(duì)后者進(jìn)行評(píng)判與改進(jìn),可從眾多交互方式中挑選出更合適且更高效的種類(lèi),并對(duì)此不斷完善。特定環(huán)境中,人與機(jī)器可以通過(guò)語(yǔ)音、視覺(jué)和姿態(tài)等方式進(jìn)行交互,環(huán)境將交互所得的對(duì)抗信息分別傳遞給人與機(jī)器。機(jī)器可與DRL模塊進(jìn)行綁定,DRL模塊內(nèi)嵌于機(jī)器中,在外界看來(lái)二者是一個(gè)整體,而在內(nèi)部則進(jìn)行了分化,機(jī)器將獎(jiǎng)勵(lì)和狀態(tài)等信息傳遞給DRL模塊,由其決策下一步的行動(dòng)。
人類(lèi)獲得對(duì)抗信息后,經(jīng)由人腦進(jìn)行運(yùn)算推理,并結(jié)合以往經(jīng)驗(yàn)和認(rèn)識(shí)水平等因素做出決策;將決策反饋給環(huán)境,環(huán)境對(duì)這些決策做出相應(yīng)的推演與改變,即進(jìn)行了一次人機(jī)對(duì)抗;在循環(huán)的對(duì)抗中實(shí)現(xiàn)機(jī)器對(duì)人類(lèi)的超越,以及DRL模塊對(duì)人腦的超越。
3
基于DRL的人機(jī)對(duì)抗技術(shù)
為了使人機(jī)對(duì)抗過(guò)程更具規(guī)范性、可解釋性和推廣性,美國(guó)空軍上校John Boyd在20世紀(jì)70年代提出了著名的作戰(zhàn)指揮模型,即將對(duì)抗過(guò)程抽象為感知-判斷-決策-行動(dòng)(OODA)環(huán)。黃凱奇等則將OODA環(huán)歸納為感知-推理-決策-控制,其中感知是對(duì)對(duì)抗態(tài)勢(shì)的理解,推理是在感知基礎(chǔ)上對(duì)態(tài)勢(shì)進(jìn)行預(yù)測(cè)分析,決策和控制是在感知與推理后下達(dá)策略指令,并進(jìn)行方案的實(shí)施與調(diào)控。通過(guò)不斷迭代整個(gè)決策環(huán)路,智能體的決策水平與對(duì)抗能力得以持續(xù)提升。DRL利用深度神經(jīng)網(wǎng)絡(luò)將感知與推理進(jìn)行聯(lián)合抽象,因此本文將基于DRL的人機(jī)智能對(duì)抗決策流程簡(jiǎn)化為感知-決策-控制,并將對(duì)抗技術(shù)歸納為態(tài)勢(shì)認(rèn)知-決策與優(yōu)化-協(xié)同與通信,最終在迭代完成后得到最優(yōu)策略以及訓(xùn)練好的DRL模型,為后續(xù)研究與分析提供參考。
3.1 態(tài)勢(shì)認(rèn)知
態(tài)勢(shì)認(rèn)知的概念是美國(guó)著名心理學(xué)家M. Endsley在研究飛行員空戰(zhàn)任務(wù)時(shí)提出的,一般分為感知、理解和預(yù)測(cè)3個(gè)層次。朱豐等給出了聯(lián)合作戰(zhàn)背景下戰(zhàn)役級(jí)作戰(zhàn)態(tài)勢(shì)的概念,雖然態(tài)勢(shì)從廣義來(lái)說(shuō)包含了環(huán)境要素,但比環(huán)境要素多了許多看不見(jiàn)的信息,如戰(zhàn)場(chǎng)態(tài)勢(shì)中對(duì)抗雙方的力量對(duì)比以及對(duì)敵方戰(zhàn)略的預(yù)測(cè)分析等。
胡曉峰提出了態(tài)勢(shì)認(rèn)知速度將決定智能化作戰(zhàn)的勝負(fù)的觀點(diǎn),未來(lái)的人機(jī)對(duì)抗將會(huì)是高智能的、高數(shù)量級(jí)的和高強(qiáng)度的。在這種情況下,人發(fā)揮的作用是有限的,如在AlphaGo與李世石的圍棋對(duì)弈中,由于人腦的感知限制,使人對(duì)棋盤(pán)局勢(shì)和棋子走向的預(yù)測(cè)始終存在局限性,充滿了主觀色彩,這說(shuō)明人類(lèi)難以勝任復(fù)雜的感知活動(dòng)。而AlphaGo憑借監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)生成的策略網(wǎng)絡(luò),對(duì)棋局表現(xiàn)出了強(qiáng)大的感知力,獲得了超越人類(lèi)的棋感,最終以4:1戰(zhàn)勝李世石。因此,為了加快認(rèn)知速度,態(tài)勢(shì)認(rèn)知必然會(huì)向著智能化方向發(fā)展。本文將態(tài)勢(shì)認(rèn)知分為態(tài)勢(shì)特征提取和神經(jīng)網(wǎng)絡(luò)選用2個(gè)步驟,而最終得到的特征向量則是DL對(duì)態(tài)勢(shì)的一種抽象認(rèn)知。態(tài)勢(shì)認(rèn)知圖如圖3所示。
圖3 態(tài)勢(shì)認(rèn)知圖
3.1.1 態(tài)勢(shì)特征提取
為了將神經(jīng)網(wǎng)絡(luò)應(yīng)用于態(tài)勢(shì)認(rèn)知,關(guān)鍵的特征提取是必不可少的。特征提取包括以下內(nèi)容:1)先驗(yàn)特征提?。喝缭诒鍖?duì)抗中將戰(zhàn)場(chǎng)環(huán)境(包括地形和氣象等)、部隊(duì)當(dāng)前任務(wù)及行動(dòng)、裝備設(shè)施的當(dāng)前狀態(tài)、路徑信息(運(yùn)動(dòng)目標(biāo)的軌跡)和動(dòng)態(tài)信息(交火和位置變化等)提取為先驗(yàn)特征;2)圖像特征提?。簩?duì)于一些難以提取的特征,則可采用圖像提取方式,如在圍棋和麻將等對(duì)抗中,想要從復(fù)雜對(duì)局中抽象出關(guān)鍵的信息則十分困難,因此采用圖像感知形式將整個(gè)對(duì)局盤(pán)面?zhèn)魅肷窠?jīng)網(wǎng)絡(luò),由神經(jīng)網(wǎng)絡(luò)進(jìn)行推理分析,避免人為的過(guò)度解讀。
3.1.2 神經(jīng)網(wǎng)絡(luò)選用
對(duì)于一些簡(jiǎn)單的對(duì)抗,普通的人工神經(jīng)網(wǎng)絡(luò)(ANN)可有效解決感知問(wèn)題,而面對(duì)狀態(tài)空間和動(dòng)作空間中更復(fù)雜的對(duì)抗,簡(jiǎn)單網(wǎng)絡(luò)就顯出了弊端,而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)則能有效解決上述問(wèn)題。RNN網(wǎng)絡(luò)可以實(shí)現(xiàn)信息的時(shí)間轉(zhuǎn)移,擁有記憶能力,可將當(dāng)前對(duì)抗信息傳遞到下一階段對(duì)抗中,為智能體后續(xù)博弈選擇提供依據(jù)。AlphaStar、斗地主AI DouZero和Dota2均采用了RNN的變體長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),提高了智能體對(duì)態(tài)勢(shì)的理解,并通過(guò)整合歷史信息做出更優(yōu)判斷。CNN憑借對(duì)人類(lèi)直覺(jué)的模擬,在AlphaGo上取得了巨大成功,使其成功模擬了人類(lèi)的棋感。徐佳樂(lè)等提出一種基于CNN的戰(zhàn)術(shù)機(jī)動(dòng)策略模型學(xué)習(xí)方法,采用了基礎(chǔ)態(tài)勢(shì)特征融合與網(wǎng)絡(luò)參數(shù)共享方式來(lái)提取更多深層次的態(tài)勢(shì)特征。此外,王者榮耀AI將CNN與LSTM同時(shí)應(yīng)用于模型訓(xùn)練,通過(guò)CNN提取圖像特征,將游戲狀態(tài)信息傳遞給LSTM網(wǎng)絡(luò),并結(jié)合目標(biāo)注意力機(jī)制對(duì)每個(gè)單位的動(dòng)作進(jìn)行預(yù)測(cè)。
3.2 決策與優(yōu)化
決策表明根據(jù)對(duì)抗環(huán)境信息與當(dāng)前自身狀態(tài)制定策略, 并選擇合適的行動(dòng)方案,具有實(shí)時(shí)性、時(shí)序性和反饋滯后性。智能體做出的決策均基于當(dāng)前態(tài)勢(shì)下的選擇,且決策與決策之間擁有先后關(guān)系,而影響智能體決策的最大因素是反饋滯后,很多情況下只有在對(duì)局結(jié)束時(shí)才能得到反饋,不利于智能體進(jìn)行學(xué)習(xí)和改進(jìn)。
智能體做出的決策決定了對(duì)局走向,而決策質(zhì)量則是影響勝負(fù)的關(guān)鍵。人類(lèi)的決策具有主觀性和片面性,帶有經(jīng)驗(yàn)主義色彩,通常只能在當(dāng)前局勢(shì)下取得一定優(yōu)勢(shì),難以對(duì)最終勝利做出貢獻(xiàn)。與人類(lèi)決策相比,DRL實(shí)現(xiàn)了端到端的輸出,通過(guò)神經(jīng)網(wǎng)絡(luò)直接給出決策結(jié)果,并通過(guò)對(duì)抗來(lái)優(yōu)化網(wǎng)絡(luò)參數(shù),不斷增強(qiáng)決策質(zhì)量,提升智能體的決策水平。本文從策略制定和策略優(yōu)化2個(gè)方面討論智能體的決策。決策與優(yōu)化如圖4所示,其中,DDQN為雙重深度Q網(wǎng)絡(luò);DRQN為深度循環(huán)Q網(wǎng)絡(luò);DDPG為深度確定性的策略梯度;PPO為近端策略優(yōu)化;A3C為異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)。
圖4 決策與優(yōu)化
3.2.1 策略制定
目前,DRL主要分為基于值函數(shù)與基于策略梯度2類(lèi)算法?;谥岛瘮?shù)DRL算法的典型代表為DQN,以及在DQN基礎(chǔ)上提出的DUEL、DRQN和DDQN等一系列變體。DQN不直接輸出策略,而是計(jì)算當(dāng)前態(tài)勢(shì)下每個(gè)動(dòng)作的Q值,Q值反映了選取該動(dòng)作后的未來(lái)累計(jì)獎(jiǎng)勵(lì)的期望值,因此Q值代表了對(duì)未來(lái)的評(píng)估與預(yù)期,Q值越大表明智能體越有可能在對(duì)局中取勝。陳希亮等提出基于DQN的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策求解框架,采用自然DQN算法對(duì)策略進(jìn)行求解。DouZero則采用了深度蒙特卡羅方法,其本質(zhì)也是為了求得Q值,實(shí)現(xiàn)策略的準(zhǔn)確評(píng)估。為了使策略收斂到最優(yōu)策略,基于策略梯度的DRL算法通過(guò)計(jì)算期望總獎(jiǎng)勵(lì)關(guān)于策略參數(shù)的梯度來(lái)更新策略參數(shù),最后以端到端的方式直接輸出最優(yōu)策略,省去了許多中間繁瑣步驟,因此基于策略梯度的DRL算法比DQN更受青睞?;诓呗蕴荻鹊乃惴òㄐ袆?dòng)者評(píng)論家(AC)方法、DDPG算法、循環(huán)確定性的策略梯度(RDPG)算法和A3C算法等。在兵棋對(duì)抗方面,李琛等構(gòu)建了基于Actor-Critic框架的多算子分布執(zhí)行集中訓(xùn)練的行動(dòng)決策模型;張振等提出了使用監(jiān)督學(xué)習(xí)訓(xùn)練智能體,研究了基于PPO的對(duì)抗算法。此外,AlphaGo與AlphaStar均采用了AC框架輸出策略,先采用監(jiān)督學(xué)習(xí)方式訓(xùn)練一個(gè)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),再在該網(wǎng)絡(luò)基礎(chǔ)上通過(guò)自博弈進(jìn)行策略網(wǎng)絡(luò)訓(xùn)練,從而有效提高了訓(xùn)練效率。
3.2.2 策略優(yōu)化
策略優(yōu)化能使智能體免于次優(yōu)結(jié)果帶來(lái)的策略劣化,跳脫出局部最優(yōu)的困境,使得最終的策略性能得以改善,其原理如圖5所示。DRL的最終目標(biāo)是使全局獎(jiǎng)勵(lì)最大化,獎(jiǎng)勵(lì)反饋很大程度上決定了決策質(zhì)量,通過(guò)正反饋獎(jiǎng)勵(lì)與負(fù)反饋獎(jiǎng)勵(lì),智能體可以知道在接下來(lái)的任務(wù)中如何決策,即選擇獎(jiǎng)勵(lì)值大的動(dòng)作而避免選擇獎(jiǎng)勵(lì)值小的動(dòng)作。因此,獎(jiǎng)勵(lì)值設(shè)置尤為重要,在面對(duì)對(duì)局時(shí)間長(zhǎng)、獎(jiǎng)勵(lì)反饋稀疏的對(duì)抗中,智能體由于長(zhǎng)時(shí)間未得到反饋,收斂到最優(yōu)決策的效率較低,甚至可能會(huì)陷于局部最優(yōu)解狀態(tài)。為了解決獎(jiǎng)勵(lì)稀疏問(wèn)題,文獻(xiàn)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行了重塑,獎(jiǎng)勵(lì)函數(shù)根據(jù)算子和目標(biāo)奪控點(diǎn)的距離變化而變化;文獻(xiàn)根據(jù)奪控點(diǎn)情況、算子血量和殲敵數(shù)量等進(jìn)行獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì);文獻(xiàn)采用逆向強(qiáng)化學(xué)習(xí)方式,運(yùn)用既有的大量高質(zhì)量范例數(shù)據(jù)來(lái)擬合獎(jiǎng)勵(lì)函數(shù);文獻(xiàn)使用加權(quán)時(shí)序差分(TD(λ))算法結(jié)合學(xué)習(xí)的評(píng)論家(critic)網(wǎng)絡(luò)來(lái)減小方差,利用人類(lèi)數(shù)據(jù)構(gòu)造偽獎(jiǎng)賞,引導(dǎo)策略模仿人類(lèi)行為,緩解稀疏獎(jiǎng)賞問(wèn)題,加速策略訓(xùn)練;文獻(xiàn)引入全局獎(jiǎng)勵(lì)預(yù)測(cè)模塊,采用門(mén)控循環(huán)單元(GRU)建模一局中前若干個(gè)回合對(duì)整局的貢獻(xiàn),利用人類(lèi)高手的數(shù)據(jù)進(jìn)行價(jià)值預(yù)測(cè)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí),并通過(guò)計(jì)算相鄰兩回合的獎(jiǎng)勵(lì)差來(lái)確定當(dāng)前回合的獎(jiǎng)勵(lì)。除了在獎(jiǎng)勵(lì)函數(shù)上的優(yōu)化,AlphaGo為了提高勝率,采用蒙特卡羅搜索樹(shù)實(shí)現(xiàn)了總體策略選擇,并對(duì)策略空間進(jìn)行了搜索,最終確定了方案。文獻(xiàn)提出了一種引入了神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)方法神經(jīng)虛擬自我對(duì)弈(NFSP)算法,在自我博弈中近似均衡求解,雖然在大規(guī)模多人博弈穩(wěn)定性較差,但在小規(guī)模博弈問(wèn)題和簡(jiǎn)化的德州撲克游戲中表現(xiàn)突出。
圖5 策略優(yōu)化原理
3.3 協(xié)同與通信
策略的實(shí)施離不開(kāi)各個(gè)智能體之間的配合,為了應(yīng)對(duì)復(fù)雜多變的對(duì)抗情形,智能體需學(xué)會(huì)協(xié)作,跳出局部最優(yōu)策略的陷阱。星際爭(zhēng)霸中,智能體們需要分工合作、共同完成建筑建造以及戰(zhàn)斗配合等關(guān)鍵性戰(zhàn)略任務(wù),同時(shí)還需要對(duì)各自戰(zhàn)場(chǎng)職能進(jìn)行分類(lèi),實(shí)現(xiàn)行動(dòng)細(xì)化,如讓智能體在對(duì)戰(zhàn)過(guò)程中根據(jù)各自角色進(jìn)行戰(zhàn)術(shù)配合,或在建造采礦方面學(xué)會(huì)有序合作。智能體們想要實(shí)現(xiàn)上述群體協(xié)同控制的目標(biāo),需要通過(guò)信息共享、資源交換和聯(lián)合對(duì)抗等手段,但目前多智體協(xié)同仍面臨智能體數(shù)量增多帶來(lái)的狀態(tài)空間與動(dòng)作空間維數(shù)爆炸、智能體之間采取不同動(dòng)作的相互影響以及個(gè)體利益與團(tuán)體利益協(xié)調(diào)等問(wèn)題。為解決上述問(wèn)題,實(shí)現(xiàn)多智能體協(xié)同,本文對(duì)多智能體訓(xùn)練方式和多智能體通信技術(shù)2個(gè)方面進(jìn)行分析。多智能體通信如圖6所示,其中,RIAL為增強(qiáng)智能體間學(xué)習(xí);DIAL可微分智能體間學(xué)習(xí)。
圖6 多智能體通信
3.3.1 多智能體訓(xùn)練方式
目前,多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練分為全通信集中決策架構(gòu)、全通信自主決策架構(gòu)和欠通信自主決策架構(gòu)3大類(lèi)。本文以優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(A2C)算法在多智能體上的簡(jiǎn)單拓展為例,分別介紹了3種訓(xùn)練方式的實(shí)現(xiàn)。全通信集中決策架構(gòu)如圖7所示,中央決策單元先將所有智能體對(duì)環(huán)境的局部觀測(cè)進(jìn)行統(tǒng)籌,以此整合得到全局觀測(cè)的信息,再訓(xùn)練聯(lián)合價(jià)值網(wǎng)絡(luò)與策略網(wǎng)絡(luò),從而集中決策產(chǎn)生聯(lián)合動(dòng)作,最后以通信方式將動(dòng)作信息傳遞給每個(gè)智能體。該方式的優(yōu)點(diǎn)是擁有全局觀測(cè)信息,避免了局部觀測(cè)導(dǎo)致的噪聲,其決策更優(yōu),且可更好實(shí)現(xiàn)智能體的協(xié)同控制,但同時(shí)不可避免地對(duì)通信的時(shí)效性提出了挑戰(zhàn)。
圖7 全通信集中決策架構(gòu)
全通信自主決策架構(gòu)如圖8所示。中央決策單元只訓(xùn)練聯(lián)合價(jià)值網(wǎng)絡(luò),并將價(jià)值網(wǎng)絡(luò)的輸出反饋給各智能體的本地決策單元,每個(gè)智能體均擁有獨(dú)立的策略網(wǎng)絡(luò),為了提高訓(xùn)練時(shí)決策的準(zhǔn)確性,各智能體間通過(guò)通信實(shí)現(xiàn)信息交換并整合得到全局的信息,以此做出最優(yōu)決策,當(dāng)訓(xùn)練完成后,智能體通過(guò)本地決策單元進(jìn)行決策。由于訓(xùn)練時(shí)采用了全局信息,已經(jīng)包含了對(duì)其他智能體的推斷信息,因此在本地決策時(shí)涌現(xiàn)出了協(xié)同合作的能力。該框架由于應(yīng)用了本地決策,對(duì)通信時(shí)效性要求較低,在訓(xùn)練完成后減少了信息收集流程,因此得到了廣泛應(yīng)用。
圖8 全通信自主決策架構(gòu)
欠通信自主決策架構(gòu)如圖9所示。相比于前2種框架,欠通信自主決策架構(gòu)放棄了對(duì)全局信息的整合,每個(gè)智能體擁有單獨(dú)的價(jià)值網(wǎng)絡(luò)與策略網(wǎng)絡(luò),訓(xùn)練過(guò)程中僅依靠自身的局部觀測(cè)信息進(jìn)行決策,以期涌現(xiàn)出協(xié)調(diào)合作的能力并最終完成任務(wù)。由于減少了通信流程,欠通信自主決策架構(gòu)可以適用于任何一個(gè)多智體環(huán)境,但也產(chǎn)生了因信息缺失與觀測(cè)噪聲導(dǎo)致的不穩(wěn)定因素。
圖9 欠通信自主決策架構(gòu)
3.3.2 多智能體通信技術(shù)
多智能體交流不是真正意義上的交流,而只是顯式假設(shè)智能體之間存在信息的交互,并通過(guò)訓(xùn)練來(lái)學(xué)習(xí)如何根據(jù)對(duì)抗形式生成信息,或者確定是否要和其他智能體進(jìn)行通信。訓(xùn)練完成后,若要運(yùn)行,仍需要來(lái)自其他智能體的信息。Foerster等在多智能體強(qiáng)化學(xué)習(xí)中引入通信概念,采用了全通信自主決策架構(gòu)訓(xùn)練模型,提出了RIAL算法,從而對(duì)智能體之間傳輸可學(xué)習(xí)的信息進(jìn)行展示,此外,為了使智能體對(duì)收到信息進(jìn)行反饋,F(xiàn)oerster等在RIAL的基礎(chǔ)上又提出了DIAL算法,通過(guò)通信信道將梯度信息從信息接收方傳回到信息發(fā)送方,形成反饋循環(huán)。Sukhbaatar等提出了CommNet算法,采用廣播形式傳遞信息,由于采用了全通信集中決策架構(gòu),因此在大規(guī)模環(huán)境下網(wǎng)絡(luò)維度過(guò)大且訓(xùn)練困難。Jiang等為了使智能體能夠自主通信,提出了基于注意力機(jī)制的AtoC模型,該模型采用了全通信自主決策架構(gòu)與DDPG算法,同時(shí)為了提高可擴(kuò)展性,所有智能體之間共享了通信信道、策略網(wǎng)絡(luò)和注意力單元等參數(shù)。另外,采用注意力機(jī)制進(jìn)行通信的還有個(gè)性化控制連續(xù)通信模型(IC3Net)算法和目標(biāo)化多智能體通信(TarMac)算法。
4
應(yīng)用與挑戰(zhàn)
人機(jī)對(duì)抗技術(shù)自其誕生起就受到了廣泛關(guān)注,人與機(jī)器的較量角逐自此拉開(kāi)了帷幕,從深藍(lán)到AlphaGo系列,機(jī)器表現(xiàn)出的強(qiáng)大學(xué)習(xí)能力吸引著人們持續(xù)地探索這一片領(lǐng)域。尤其是AlphaGo在圍棋領(lǐng)域取得的巨大突破,進(jìn)一步推動(dòng)了人機(jī)對(duì)抗技術(shù)的發(fā)展,使得DRL與人機(jī)對(duì)抗相結(jié)合的方式成為可能。
4.1 棋牌類(lèi)游戲?qū)?/strong>
棋牌類(lèi)游戲一直以來(lái)都是進(jìn)行人機(jī)對(duì)抗測(cè)試的平臺(tái),棋牌類(lèi)游戲?qū)故疽鈭D如圖10所示。2016年,谷歌Deepmind公司開(kāi)發(fā)了AlphaGo系列,成功將DRL與人機(jī)對(duì)抗進(jìn)行了結(jié)合,并以4∶1戰(zhàn)勝了韓國(guó)棋手李世石,次年又以3∶0戰(zhàn)勝了我國(guó)棋手柯潔。AlphaGo系列在圍棋方面表現(xiàn)出的強(qiáng)大的想象力從側(cè)面反映了DRL的能力。同年,文獻(xiàn)提出的神經(jīng)虛擬博弈是基于DRL自我博弈優(yōu)化方法的典型代表,并在簡(jiǎn)化德州撲克游戲中取得不錯(cuò)表現(xiàn)。2020年,微軟亞洲研究院發(fā)布了麻將AI suphx,采用分布式強(qiáng)化學(xué)習(xí),對(duì)關(guān)于打牌策略的決策模型進(jìn)行訓(xùn)練,Suphx和其他玩家對(duì)戰(zhàn)了5 000多場(chǎng),達(dá)到了最高段位10段,超過(guò)了平臺(tái)上另外2個(gè)知名AI以及頂級(jí)人類(lèi)選手的平均水平。2021年發(fā)布的斗地主AI DouZero,通過(guò)引入深度神經(jīng)網(wǎng)絡(luò),提出了深度蒙特卡羅算法。需說(shuō)明的是,由于在傳統(tǒng)斗地主游戲中存在運(yùn)氣成分,因此無(wú)法像圍棋一樣完勝人類(lèi),但已可達(dá)到人類(lèi)玩家水平,且與已知斗地主AI相比具有明顯優(yōu)勢(shì)。
圖10 棋牌類(lèi)游戲?qū)故疽鈭D
4.2 多人戰(zhàn)略游戲?qū)?/strong>
與棋牌類(lèi)游戲相比,多人戰(zhàn)略游戲的狀態(tài)空間和行動(dòng)空間更復(fù)雜,且隱藏信息更豐富,因此對(duì)于智能體來(lái)說(shuō)是一個(gè)巨大挑戰(zhàn),多人戰(zhàn)略游戲?qū)故疽鈭D如圖11所示。
多人戰(zhàn)略游戲的代表有Dota 2和星際爭(zhēng)霸等。通常情況下,智能體不會(huì)只控制1個(gè)單位,而是需操縱多個(gè)單位進(jìn)行對(duì)抗活動(dòng),如在星際爭(zhēng)霸中需要控制單位進(jìn)行采礦、戰(zhàn)斗和建造,在Dota 2中需要控制英雄進(jìn)行技能配合、線上補(bǔ)刀和裝備購(gòu)買(mǎi)。智能體不僅需要學(xué)習(xí)如何決策,還要學(xué)習(xí)如何協(xié)調(diào)競(jìng)爭(zhēng)與合作的關(guān)系。即時(shí)戰(zhàn)略游戲一直以來(lái)均受到DeepMind、Facebook和OpenAI等機(jī)構(gòu)的關(guān)注,2019年OpenAI開(kāi)發(fā)的Dota 2 AI OpenAI Five在和Dota2世界冠軍戰(zhàn)隊(duì)的對(duì)局中獲勝,在DRL算法的選擇上,OpenAI Five使用的是近端策略優(yōu)化+廣義優(yōu)勢(shì)估計(jì)器(PPO+GAE)的標(biāo)準(zhǔn)設(shè)定,采用了單層4 096個(gè)單元的LSTM網(wǎng)絡(luò)。同年,DeepMind推出了AlphaStar,采用優(yōu)先虛擬自博弈和聯(lián)盟訓(xùn)練等方法在與星際爭(zhēng)霸2人類(lèi)職業(yè)選手的挑戰(zhàn)賽中,以10∶1的比分戰(zhàn)勝人類(lèi)選手。騰訊人工智能實(shí)驗(yàn)室針對(duì)多玩家在線競(jìng)技場(chǎng)開(kāi)發(fā)了Moba 1v1 AI,且達(dá)到了99.81%的勝率。DeepMind于2019年發(fā)布了基于雷神之錘3的For the win奪旗AI,在奪旗任務(wù)中取得了高于人類(lèi)的勝率。盡管DRL在即時(shí)策略游戲中表現(xiàn)突出,但仍需提高模型的可解釋性和可泛化性,從而增強(qiáng)算法穩(wěn)定性和算法性能,以便實(shí)現(xiàn)對(duì)人類(lèi)的再次超越。
圖11 多人戰(zhàn)略游戲?qū)故疽鈭D
4.3 兵棋推演
兵棋推演作為戰(zhàn)爭(zhēng)研究和訓(xùn)練的手段,正逐漸從早期的手工兵棋演變?yōu)橛?jì)算機(jī)兵棋。圖12給出了兵棋推演示意圖。兵棋推演具有非對(duì)稱(chēng)性、隨機(jī)性和高風(fēng)險(xiǎn)性。與星際爭(zhēng)霸不同,兵棋推演的對(duì)抗雙方實(shí)力不均等,如在奪控戰(zhàn)中,紅方兵力配置一般弱于藍(lán)方,但紅方在視野方面則擁有更多優(yōu)勢(shì),并可使用遠(yuǎn)程飛彈打擊,而藍(lán)方則配備了更多的地面武裝,擁有更強(qiáng)的進(jìn)攻能力。
隨機(jī)性與高風(fēng)險(xiǎn)性體現(xiàn)在游戲的判決規(guī)則中,如武器打擊時(shí)存在偏離目標(biāo)概率而導(dǎo)致打擊失敗,同時(shí)一方兵力受損后未進(jìn)行彌補(bǔ)導(dǎo)致風(fēng)險(xiǎn)增加,可能會(huì)使一方直接潰敗。為了改善兵棋推演面臨的困境,文獻(xiàn)將分布式執(zhí)行集中化訓(xùn)練的AC框架引入了兵棋推演,并通過(guò)簡(jiǎn)化想定進(jìn)行了驗(yàn)證;文獻(xiàn)提出了一種層次化和模塊化DRL方法框架,將網(wǎng)絡(luò)壓縮優(yōu)化與遷移學(xué)習(xí)應(yīng)用其中;文獻(xiàn)提出了一種融合知識(shí)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編組對(duì)抗智能決策方法,并在典型作戰(zhàn)場(chǎng)景中對(duì)方法的實(shí)用性與可行性進(jìn)行了驗(yàn)證。此外,中科院自動(dòng)化所搭建了人機(jī)對(duì)抗智能門(mén)戶網(wǎng)站,可實(shí)現(xiàn)兵棋的機(jī)機(jī)對(duì)抗、人機(jī)對(duì)抗以及人及混合對(duì)抗,同時(shí)發(fā)布了兵棋推演AI AlphaWar,并于2020年通過(guò)了圖靈測(cè)試,促進(jìn)了兵棋推演的智能化發(fā)展。2017全國(guó)首屆兵棋推演大賽中,中科院自動(dòng)化所研制的人工智能程序CASIA-先知V1.0,在“賽諸葛”兵棋推演人機(jī)大戰(zhàn)中與全國(guó)決賽階段軍隊(duì)個(gè)人賽4強(qiáng)和地方個(gè)人賽4強(qiáng)的8名選手激烈交鋒,以7∶1的戰(zhàn)績(jī)大勝。盡管DRL在兵棋推演方面取得了不錯(cuò)的效果,但隨著推演的進(jìn)一步升級(jí)以及推演規(guī)模的不斷擴(kuò)大,現(xiàn)有算法將會(huì)受到狀態(tài)空間巨大、收斂困難和局部最優(yōu)等問(wèn)題的挑戰(zhàn),因此需通過(guò)提高神經(jīng)網(wǎng)絡(luò)的感知力與算法魯棒性來(lái)提升對(duì)抗水平。
圖12 兵棋推演示意圖
5
問(wèn)題與展望
本文從DRL角度出發(fā),對(duì)人機(jī)對(duì)抗智能技術(shù)進(jìn)行了討論,闡述了人機(jī)對(duì)抗的內(nèi)涵與機(jī)理,并在OODA環(huán)的基礎(chǔ)上對(duì)框架進(jìn)行了簡(jiǎn)化,即感知-決策-控制,并就人機(jī)對(duì)抗智能技術(shù)的分類(lèi)與最新發(fā)展進(jìn)行了歸納。從應(yīng)用領(lǐng)域、前沿技術(shù)和面臨挑戰(zhàn)等方面對(duì)基于DRL的人機(jī)智能對(duì)抗進(jìn)行了介紹。雖然基于DRL的人機(jī)智能對(duì)抗近年來(lái)蓬勃發(fā)展,在不同領(lǐng)域均取得了成果,但仍需解決以下關(guān)鍵問(wèn)題:1)構(gòu)建更高效快速的態(tài)勢(shì)感知網(wǎng)絡(luò);2)提高網(wǎng)絡(luò)魯棒性,在不完全信息環(huán)境中保持穩(wěn)定決策;3)實(shí)現(xiàn)網(wǎng)絡(luò)可遷移,可針對(duì)不同對(duì)抗場(chǎng)景進(jìn)行簡(jiǎn)化開(kāi)發(fā)。
回顧人機(jī)對(duì)抗的歷史,DRL對(duì)其發(fā)展起到了巨大的推動(dòng)作用,本文對(duì)基于DRL的人機(jī)智能對(duì)抗研究進(jìn)行了以下展望:1)條件對(duì)稱(chēng)/非對(duì)稱(chēng)的種群間人機(jī)智能對(duì)抗;2)條件對(duì)稱(chēng)/非對(duì)稱(chēng)的個(gè)體間人機(jī)智能對(duì)抗;3)條件非對(duì)稱(chēng)的種群與個(gè)體間人機(jī)智能對(duì)抗。通過(guò)研究同等條件下的種群與種群、個(gè)體與個(gè)體間的對(duì)抗,可以在公平的前提下分析對(duì)抗算法的性能,提高個(gè)體的競(jìng)爭(zhēng)力與種群的協(xié)作性。通過(guò)研究非對(duì)稱(chēng)條件下的對(duì)抗,讓智能體可以實(shí)現(xiàn)以少勝多和以弱勝?gòu)?qiáng)的戰(zhàn)略目標(biāo)。
6
結(jié)束語(yǔ)
人工智能的快速發(fā)展,不僅為DRL的產(chǎn)生奠定了基礎(chǔ),也為人機(jī)對(duì)抗智能化帶來(lái)了契機(jī)。將兩者有機(jī)結(jié)合并進(jìn)行研究與分析,掌握內(nèi)在原理,使得人與機(jī)器之間架起了溝通的橋梁,最終通過(guò)人機(jī)對(duì)抗實(shí)現(xiàn)人機(jī)協(xié)作、人機(jī)互助和共同進(jìn)步的目標(biāo),使社會(huì)在政治、經(jīng)濟(jì)和生活等領(lǐng)域邁向智能化。
相關(guān)文獻(xiàn)推薦:
汪霜玲,李宇飛,黃凱鵬,等. 指揮信息系統(tǒng)智能化水平評(píng)估方法[J]. 指揮信息系統(tǒng)與技術(shù),2022,13(5):55-59.
吳云超,傅琛,張寧馨. 面向數(shù)字孿生戰(zhàn)場(chǎng)的智能體建模框架構(gòu)建[J]. 指揮信息系統(tǒng)與技術(shù),2022,13(4):19-25.
陳新中,曹罡,郭曉鴻. 人工智能在美俄核武器系統(tǒng)現(xiàn)代化建設(shè)中的應(yīng)用[J]. 指揮信息系統(tǒng)與技術(shù),2022,13(3):12-16.
劉小峰,王歡,王子洋. 基于生成對(duì)抗網(wǎng)絡(luò)的無(wú)人機(jī)博弈對(duì)抗技術(shù)[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(5):1-5.
賀嘉璠,汪慢,方峰,等. 深度強(qiáng)化學(xué)習(xí)技術(shù)在智能空戰(zhàn)中的運(yùn)用[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(5):6-13.
陳希亮,李清偉,孫彧. 基于博弈對(duì)抗的空戰(zhàn)智能決策關(guān)鍵技術(shù)[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(2):1-6.
孫彧,李清偉,徐志雄,等. 基于多智能體深度強(qiáng)化學(xué)習(xí)的空戰(zhàn)博弈對(duì)抗策略訓(xùn)練模型[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(2):16-20.
軒書(shū)哲,周昊,柯良軍. 無(wú)人機(jī)集群對(duì)抗博弈綜述[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(2):27-31.
鄭健,陳建,朱琨. 基于多智能體強(qiáng)化學(xué)習(xí)的無(wú)人集群協(xié)同設(shè)計(jì)[J]. 指揮信息系統(tǒng)與技術(shù),2020,11(6):26-31.
南英,蔣亮. 基于深度強(qiáng)化學(xué)習(xí)的彈道導(dǎo)彈中段突防控制[J]. 指揮信息系統(tǒng)與技術(shù),2020,11(4):1-9.
聯(lián)系客服