动漫美女露双奶头视频,后入翘臀美女视频,免费大黄美女视频

本文發(fā)表于《指揮信息系統(tǒng)與技術(shù)》2023年第2期

作者：劉瑋，張永亮，程旭

引用格式：劉瑋，張永亮，程旭. 基于深度強(qiáng)化學(xué)習(xí)的人機(jī)智能對(duì)抗綜述［J］. 指揮信息系統(tǒng)與技術(shù)，2023，14（2）：28-37.

摘要

人機(jī)對(duì)抗是人工智能的熱門(mén)領(lǐng)域，同時(shí)也為探索機(jī)器智能的內(nèi)在原理與發(fā)展提供了途徑?；谏疃葟?qiáng)化學(xué)習(xí)，討論了人機(jī)智能對(duì)抗技術(shù)，并分析了人機(jī)對(duì)抗的內(nèi)涵與機(jī)理。首先，簡(jiǎn)化了感知-判斷-決策-行動(dòng)(OODA)模型，總結(jié)了適用于深度強(qiáng)化學(xué)習(xí)的人機(jī)對(duì)抗框架，并歸納了態(tài)勢(shì)認(rèn)知、決策與優(yōu)化以及協(xié)同與通信等關(guān)鍵技術(shù)；然后，闡述了態(tài)勢(shì)特征提取與神經(jīng)網(wǎng)絡(luò)選擇、策略制定與策略優(yōu)化以及多智體訓(xùn)練模型與通信等技術(shù)內(nèi)容；最后，列舉了當(dāng)前人機(jī)對(duì)抗的應(yīng)用與挑戰(zhàn)，并對(duì)人機(jī)對(duì)抗的未來(lái)發(fā)展做出了展望。

問(wèn)題的提出

近年來(lái)，深度學(xué)習(xí)(DL)迅速發(fā)展，已在自然語(yǔ)言處理、圖像識(shí)別和目標(biāo)檢測(cè)等領(lǐng)域取得了巨大成就。DL通過(guò)組合低層特征來(lái)形成更抽象的高層表示、屬性類(lèi)別或特征，同時(shí)給出數(shù)據(jù)的分層特征表示。強(qiáng)化學(xué)習(xí)(RL)作為機(jī)器學(xué)習(xí)的一個(gè)分支，其本質(zhì)是為了解決時(shí)序決策問(wèn)題，已廣泛用于圍棋、機(jī)器人控制、車(chē)輛駕駛、動(dòng)態(tài)調(diào)度和游戲博弈等領(lǐng)域。隨著深度Q網(wǎng)絡(luò)（DQN）算法的提出，人工智能領(lǐng)域誕生了新的研究方向，即深度強(qiáng)化學(xué)習(xí)(DRL)。DRL將DL的抽象能力與RL的決策能力進(jìn)行了融合，通過(guò)神經(jīng)網(wǎng)絡(luò)感知高維度特征，從而實(shí)現(xiàn)端到端輸出，并極大降低了問(wèn)題的復(fù)雜程度。

人工智能的發(fā)展一直受到廣泛關(guān)注，而如何衡量一個(gè)智能體的智能程度則取決于人與智能體之間的對(duì)抗。隨著Deep Blue、AlphaGo系列、Libratus和AlphaStar在國(guó)際象棋、圍棋、德州撲克以及星際爭(zhēng)霸中不斷戰(zhàn)勝人類(lèi)，人工智能的勝利將“智能化”熱潮推向了新的頂峰。上述人機(jī)對(duì)抗實(shí)例中，DRL扮演了重要角色，對(duì)智能體的勝利起到了關(guān)鍵作用。當(dāng)今世界仍處在由弱人工智能邁向強(qiáng)人工智能的階段，而將DRL與人機(jī)智能對(duì)抗進(jìn)行有機(jī)融合可為挖掘并培育強(qiáng)人工智能提供技術(shù)準(zhǔn)備，因此開(kāi)發(fā)出一種真正有著自我意識(shí)且能進(jìn)行推理和解決問(wèn)題的智能機(jī)器尤為重要。本文從DRL出發(fā)，對(duì)人機(jī)智能對(duì)抗進(jìn)行了闡述。基于DRL的人機(jī)智能對(duì)抗原理圖如圖1所示。

圖1 基于DRL的人機(jī)智能對(duì)抗原理圖

盡管DRL與人機(jī)智能對(duì)抗表現(xiàn)出了高度契合性以及廣闊的應(yīng)用前景，但是目前基于DRL的人機(jī)智能對(duì)抗仍面臨以下問(wèn)題與挑戰(zhàn)：1）態(tài)勢(shì)認(rèn)知信息復(fù)雜多變，難以全面有效地抽取態(tài)勢(shì)特征，故不利于深度神經(jīng)網(wǎng)絡(luò)感知；2）在不完全信息對(duì)抗局勢(shì)中，由于缺少全局態(tài)勢(shì)信息，DRL做出的決策存在魯棒性差以及陷于局部最優(yōu)等問(wèn)題；3）不同對(duì)抗中的DRL模型難以進(jìn)行遷移，缺乏泛用性。

人機(jī)對(duì)抗的內(nèi)涵及其機(jī)理分析

2.1 基本內(nèi)涵

人工智能(AI)必然離不開(kāi)人工智能之父——阿蘭·圖靈，對(duì)于機(jī)器是否能夠思考的問(wèn)題，他提出了著名的圖靈測(cè)試，即讓1個(gè)人和1臺(tái)機(jī)器作為2個(gè)受試者（多在暗處），與他們隔離的測(cè)試者向他們提各種問(wèn)題，由2個(gè)受試者回答，若測(cè)試者分辨不出2個(gè)受試者中誰(shuí)是人誰(shuí)是機(jī)器，那么認(rèn)定該機(jī)器能夠思考。人機(jī)對(duì)抗從廣義上說(shuō)也是圖靈測(cè)試的一個(gè)重要手段，可看作智能體性能的驗(yàn)金石。

人機(jī)對(duì)抗是一種人與機(jī)器相互博弈的方式，人機(jī)對(duì)抗涉及人、機(jī)器（智能體AI）和環(huán)境等要素。其中，人指人類(lèi)；機(jī)器指AI或人創(chuàng)造的機(jī)器；環(huán)境指人機(jī)對(duì)抗中的規(guī)則和對(duì)局形式等信息，如在德州撲克中，己方和對(duì)方的牌均為環(huán)境的一部分。根據(jù)人機(jī)對(duì)抗中獲得的環(huán)境信息，可將對(duì)弈分為完全信息博弈、不完全信息博弈（指沒(méi)有參與者能夠獲得其他參與者的行動(dòng)信息）和不完全信息多智體博弈。其中，完全信息博弈包括Deep Blue和AlphaGO等棋類(lèi)游戲，游戲?qū)碾p方均能清楚地觀察到棋盤(pán)上所有棋子的位置以及對(duì)手的動(dòng)作決策；不完美信息博弈則包括了麻將和德州撲克等牌類(lèi)游戲，這類(lèi)游戲最大特點(diǎn)是擁有隱藏信息，且隨著隱藏信息數(shù)量不斷增加，做出正確決策的難度也呈指數(shù)級(jí)增加；不完全信息多智體博弈更復(fù)雜，如在王者榮耀與Dota等即時(shí)戰(zhàn)略游戲中，每個(gè)獨(dú)立的智能體不僅需考慮隱藏信息的干擾，還需準(zhǔn)確分析對(duì)局形式，在競(jìng)爭(zhēng)與合作、作戰(zhàn)與撤退以及獲取資源與轉(zhuǎn)化資源的復(fù)雜情況下做出最優(yōu)決策。

2.2 內(nèi)在機(jī)理

人機(jī)對(duì)抗的最終目的是為了實(shí)現(xiàn)機(jī)器在性能上對(duì)人類(lèi)的超越，而其本質(zhì)則是為了探索機(jī)器超越人類(lèi)這一過(guò)程中的內(nèi)在機(jī)理與技術(shù)原理。黃凱奇等從博弈的角度對(duì)人機(jī)對(duì)抗進(jìn)行了分析，根據(jù)人機(jī)物要素分析法將對(duì)抗分為一元博弈、二元博弈和三元博弈，并從博弈學(xué)習(xí)角度將人機(jī)對(duì)抗智能的科學(xué)問(wèn)題概括為可建模、可計(jì)算和可解釋。周雷等提出了人機(jī)對(duì)抗中的博弈學(xué)習(xí)研究框架，將人機(jī)對(duì)抗劃分為輸入對(duì)抗任務(wù)、構(gòu)建博弈模型、定義博弈可行解、計(jì)算博弈解和輸出策略組合等步驟，將一類(lèi)人機(jī)對(duì)抗任務(wù)的解決近似或等價(jià)轉(zhuǎn)換為對(duì)某一類(lèi)博弈問(wèn)題的求解。

與從博弈角度出發(fā)的人機(jī)智能對(duì)抗相比，本文以DRL的視角看待對(duì)抗問(wèn)題，將求解人機(jī)對(duì)抗任務(wù)視為求解最優(yōu)DRL模型，實(shí)質(zhì)上是從值出發(fā)，通過(guò)值來(lái)衡量對(duì)抗任務(wù)的完成質(zhì)量和完成度，因?yàn)镈RL的學(xué)習(xí)過(guò)程是累計(jì)獎(jiǎng)勵(lì)的期望最大化的過(guò)程。從值的角度看，人機(jī)智能對(duì)抗問(wèn)題可概括為以下3個(gè)方面內(nèi)容：1）態(tài)勢(shì)可提?。褐缚蓮娜藱C(jī)對(duì)抗模型中提取關(guān)鍵信息，并能有效輸入神經(jīng)網(wǎng)絡(luò)；2）最大值可計(jì)算：指提供的獎(jiǎng)勵(lì)反饋信號(hào)需擁有一定的梯度，能夠使神經(jīng)網(wǎng)絡(luò)進(jìn)行梯度更新從而優(yōu)化參數(shù)，并最終使全局獎(jiǎng)勵(lì)最大化；3）策略可輸出：指訓(xùn)練過(guò)程中DRL模塊能有效輸出正確動(dòng)作，而正確動(dòng)作既可以是離散動(dòng)作又可以是連續(xù)動(dòng)作。本文將DRL引入人機(jī)對(duì)抗過(guò)程中，其機(jī)理如圖2所示。

圖2 基于DRL的人機(jī)對(duì)抗機(jī)理

人機(jī)對(duì)抗與人機(jī)交互緊密相關(guān)，后者為前者提供了媒介，使得單獨(dú)的人與獨(dú)立的機(jī)器相互關(guān)聯(lián)，為后續(xù)對(duì)抗研究提供基礎(chǔ)；前者對(duì)后者進(jìn)行評(píng)判與改進(jìn)，可從眾多交互方式中挑選出更合適且更高效的種類(lèi)，并對(duì)此不斷完善。特定環(huán)境中，人與機(jī)器可以通過(guò)語(yǔ)音、視覺(jué)和姿態(tài)等方式進(jìn)行交互，環(huán)境將交互所得的對(duì)抗信息分別傳遞給人與機(jī)器。機(jī)器可與DRL模塊進(jìn)行綁定，DRL模塊內(nèi)嵌于機(jī)器中，在外界看來(lái)二者是一個(gè)整體，而在內(nèi)部則進(jìn)行了分化，機(jī)器將獎(jiǎng)勵(lì)和狀態(tài)等信息傳遞給DRL模塊，由其決策下一步的行動(dòng)。

人類(lèi)獲得對(duì)抗信息后，經(jīng)由人腦進(jìn)行運(yùn)算推理，并結(jié)合以往經(jīng)驗(yàn)和認(rèn)識(shí)水平等因素做出決策；將決策反饋給環(huán)境，環(huán)境對(duì)這些決策做出相應(yīng)的推演與改變，即進(jìn)行了一次人機(jī)對(duì)抗；在循環(huán)的對(duì)抗中實(shí)現(xiàn)機(jī)器對(duì)人類(lèi)的超越，以及DRL模塊對(duì)人腦的超越。

基于DRL的人機(jī)對(duì)抗技術(shù)

為了使人機(jī)對(duì)抗過(guò)程更具規(guī)范性、可解釋性和推廣性，美國(guó)空軍上校John Boyd在20世紀(jì)70年代提出了著名的作戰(zhàn)指揮模型，即將對(duì)抗過(guò)程抽象為感知-判斷-決策-行動(dòng)（OODA）環(huán)。黃凱奇等則將OODA環(huán)歸納為感知-推理-決策-控制，其中感知是對(duì)對(duì)抗態(tài)勢(shì)的理解，推理是在感知基礎(chǔ)上對(duì)態(tài)勢(shì)進(jìn)行預(yù)測(cè)分析，決策和控制是在感知與推理后下達(dá)策略指令，并進(jìn)行方案的實(shí)施與調(diào)控。通過(guò)不斷迭代整個(gè)決策環(huán)路，智能體的決策水平與對(duì)抗能力得以持續(xù)提升。DRL利用深度神經(jīng)網(wǎng)絡(luò)將感知與推理進(jìn)行聯(lián)合抽象，因此本文將基于DRL的人機(jī)智能對(duì)抗決策流程簡(jiǎn)化為感知-決策-控制，并將對(duì)抗技術(shù)歸納為態(tài)勢(shì)認(rèn)知-決策與優(yōu)化-協(xié)同與通信，最終在迭代完成后得到最優(yōu)策略以及訓(xùn)練好的DRL模型，為后續(xù)研究與分析提供參考。

3.1 態(tài)勢(shì)認(rèn)知

態(tài)勢(shì)認(rèn)知的概念是美國(guó)著名心理學(xué)家M. Endsley在研究飛行員空戰(zhàn)任務(wù)時(shí)提出的，一般分為感知、理解和預(yù)測(cè)3個(gè)層次。朱豐等給出了聯(lián)合作戰(zhàn)背景下戰(zhàn)役級(jí)作戰(zhàn)態(tài)勢(shì)的概念，雖然態(tài)勢(shì)從廣義來(lái)說(shuō)包含了環(huán)境要素，但比環(huán)境要素多了許多看不見(jiàn)的信息，如戰(zhàn)場(chǎng)態(tài)勢(shì)中對(duì)抗雙方的力量對(duì)比以及對(duì)敵方戰(zhàn)略的預(yù)測(cè)分析等。

胡曉峰提出了態(tài)勢(shì)認(rèn)知速度將決定智能化作戰(zhàn)的勝負(fù)的觀點(diǎn)，未來(lái)的人機(jī)對(duì)抗將會(huì)是高智能的、高數(shù)量級(jí)的和高強(qiáng)度的。在這種情況下，人發(fā)揮的作用是有限的，如在AlphaGo與李世石的圍棋對(duì)弈中，由于人腦的感知限制，使人對(duì)棋盤(pán)局勢(shì)和棋子走向的預(yù)測(cè)始終存在局限性，充滿了主觀色彩，這說(shuō)明人類(lèi)難以勝任復(fù)雜的感知活動(dòng)。而AlphaGo憑借監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)生成的策略網(wǎng)絡(luò)，對(duì)棋局表現(xiàn)出了強(qiáng)大的感知力，獲得了超越人類(lèi)的棋感，最終以4:1戰(zhàn)勝李世石。因此，為了加快認(rèn)知速度，態(tài)勢(shì)認(rèn)知必然會(huì)向著智能化方向發(fā)展。本文將態(tài)勢(shì)認(rèn)知分為態(tài)勢(shì)特征提取和神經(jīng)網(wǎng)絡(luò)選用2個(gè)步驟，而最終得到的特征向量則是DL對(duì)態(tài)勢(shì)的一種抽象認(rèn)知。態(tài)勢(shì)認(rèn)知圖如圖3所示。

圖3 態(tài)勢(shì)認(rèn)知圖

3.1.1 態(tài)勢(shì)特征提取

為了將神經(jīng)網(wǎng)絡(luò)應(yīng)用于態(tài)勢(shì)認(rèn)知，關(guān)鍵的特征提取是必不可少的。特征提取包括以下內(nèi)容：1）先驗(yàn)特征提?。喝缭诒鍖?duì)抗中將戰(zhàn)場(chǎng)環(huán)境（包括地形和氣象等）、部隊(duì)當(dāng)前任務(wù)及行動(dòng)、裝備設(shè)施的當(dāng)前狀態(tài)、路徑信息(運(yùn)動(dòng)目標(biāo)的軌跡)和動(dòng)態(tài)信息（交火和位置變化等）提取為先驗(yàn)特征；2）圖像特征提?。簩?duì)于一些難以提取的特征，則可采用圖像提取方式，如在圍棋和麻將等對(duì)抗中，想要從復(fù)雜對(duì)局中抽象出關(guān)鍵的信息則十分困難，因此采用圖像感知形式將整個(gè)對(duì)局盤(pán)面?zhèn)魅肷窠?jīng)網(wǎng)絡(luò)，由神經(jīng)網(wǎng)絡(luò)進(jìn)行推理分析，避免人為的過(guò)度解讀。

3.1.2 神經(jīng)網(wǎng)絡(luò)選用

對(duì)于一些簡(jiǎn)單的對(duì)抗，普通的人工神經(jīng)網(wǎng)絡(luò)(ANN)可有效解決感知問(wèn)題，而面對(duì)狀態(tài)空間和動(dòng)作空間中更復(fù)雜的對(duì)抗，簡(jiǎn)單網(wǎng)絡(luò)就顯出了弊端，而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)則能有效解決上述問(wèn)題。RNN網(wǎng)絡(luò)可以實(shí)現(xiàn)信息的時(shí)間轉(zhuǎn)移，擁有記憶能力，可將當(dāng)前對(duì)抗信息傳遞到下一階段對(duì)抗中，為智能體后續(xù)博弈選擇提供依據(jù)。AlphaStar、斗地主AI DouZero和Dota2均采用了RNN的變體長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM），提高了智能體對(duì)態(tài)勢(shì)的理解，并通過(guò)整合歷史信息做出更優(yōu)判斷。CNN憑借對(duì)人類(lèi)直覺(jué)的模擬，在AlphaGo上取得了巨大成功，使其成功模擬了人類(lèi)的棋感。徐佳樂(lè)等提出一種基于CNN的戰(zhàn)術(shù)機(jī)動(dòng)策略模型學(xué)習(xí)方法，采用了基礎(chǔ)態(tài)勢(shì)特征融合與網(wǎng)絡(luò)參數(shù)共享方式來(lái)提取更多深層次的態(tài)勢(shì)特征。此外，王者榮耀AI將CNN與LSTM同時(shí)應(yīng)用于模型訓(xùn)練，通過(guò)CNN提取圖像特征，將游戲狀態(tài)信息傳遞給LSTM網(wǎng)絡(luò)，并結(jié)合目標(biāo)注意力機(jī)制對(duì)每個(gè)單位的動(dòng)作進(jìn)行預(yù)測(cè)。

3.2 決策與優(yōu)化

決策表明根據(jù)對(duì)抗環(huán)境信息與當(dāng)前自身狀態(tài)制定策略, 并選擇合適的行動(dòng)方案，具有實(shí)時(shí)性、時(shí)序性和反饋滯后性。智能體做出的決策均基于當(dāng)前態(tài)勢(shì)下的選擇，且決策與決策之間擁有先后關(guān)系，而影響智能體決策的最大因素是反饋滯后，很多情況下只有在對(duì)局結(jié)束時(shí)才能得到反饋，不利于智能體進(jìn)行學(xué)習(xí)和改進(jìn)。

智能體做出的決策決定了對(duì)局走向，而決策質(zhì)量則是影響勝負(fù)的關(guān)鍵。人類(lèi)的決策具有主觀性和片面性，帶有經(jīng)驗(yàn)主義色彩，通常只能在當(dāng)前局勢(shì)下取得一定優(yōu)勢(shì)，難以對(duì)最終勝利做出貢獻(xiàn)。與人類(lèi)決策相比，DRL實(shí)現(xiàn)了端到端的輸出，通過(guò)神經(jīng)網(wǎng)絡(luò)直接給出決策結(jié)果，并通過(guò)對(duì)抗來(lái)優(yōu)化網(wǎng)絡(luò)參數(shù)，不斷增強(qiáng)決策質(zhì)量，提升智能體的決策水平。本文從策略制定和策略優(yōu)化2個(gè)方面討論智能體的決策。決策與優(yōu)化如圖4所示，其中，DDQN為雙重深度Q網(wǎng)絡(luò)；DRQN為深度循環(huán)Q網(wǎng)絡(luò)；DDPG為深度確定性的策略梯度；PPO為近端策略優(yōu)化；A3C為異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)。

圖4 決策與優(yōu)化

3.2.1 策略制定

目前，DRL主要分為基于值函數(shù)與基于策略梯度2類(lèi)算法?；谥岛瘮?shù)DRL算法的典型代表為DQN，以及在DQN基礎(chǔ)上提出的DUEL、DRQN和DDQN等一系列變體。DQN不直接輸出策略，而是計(jì)算當(dāng)前態(tài)勢(shì)下每個(gè)動(dòng)作的Q值，Q值反映了選取該動(dòng)作后的未來(lái)累計(jì)獎(jiǎng)勵(lì)的期望值，因此Q值代表了對(duì)未來(lái)的評(píng)估與預(yù)期，Q值越大表明智能體越有可能在對(duì)局中取勝。陳希亮等提出基于DQN的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策求解框架，采用自然DQN算法對(duì)策略進(jìn)行求解。DouZero則采用了深度蒙特卡羅方法，其本質(zhì)也是為了求得Q值，實(shí)現(xiàn)策略的準(zhǔn)確評(píng)估。為了使策略收斂到最優(yōu)策略，基于策略梯度的DRL算法通過(guò)計(jì)算期望總獎(jiǎng)勵(lì)關(guān)于策略參數(shù)的梯度來(lái)更新策略參數(shù)，最后以端到端的方式直接輸出最優(yōu)策略，省去了許多中間繁瑣步驟，因此基于策略梯度的DRL算法比DQN更受青睞?；诓呗蕴荻鹊乃惴òㄐ袆?dòng)者評(píng)論家(AC)方法、DDPG算法、循環(huán)確定性的策略梯度（RDPG）算法和A3C算法等。在兵棋對(duì)抗方面，李琛等構(gòu)建了基于Actor-Critic框架的多算子分布執(zhí)行集中訓(xùn)練的行動(dòng)決策模型；張振等提出了使用監(jiān)督學(xué)習(xí)訓(xùn)練智能體，研究了基于PPO的對(duì)抗算法。此外，AlphaGo與AlphaStar均采用了AC框架輸出策略，先采用監(jiān)督學(xué)習(xí)方式訓(xùn)練一個(gè)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)，再在該網(wǎng)絡(luò)基礎(chǔ)上通過(guò)自博弈進(jìn)行策略網(wǎng)絡(luò)訓(xùn)練，從而有效提高了訓(xùn)練效率。

3.2.2 策略優(yōu)化

策略優(yōu)化能使智能體免于次優(yōu)結(jié)果帶來(lái)的策略劣化，跳脫出局部最優(yōu)的困境，使得最終的策略性能得以改善，其原理如圖5所示。DRL的最終目標(biāo)是使全局獎(jiǎng)勵(lì)最大化，獎(jiǎng)勵(lì)反饋很大程度上決定了決策質(zhì)量，通過(guò)正反饋獎(jiǎng)勵(lì)與負(fù)反饋獎(jiǎng)勵(lì)，智能體可以知道在接下來(lái)的任務(wù)中如何決策，即選擇獎(jiǎng)勵(lì)值大的動(dòng)作而避免選擇獎(jiǎng)勵(lì)值小的動(dòng)作。因此，獎(jiǎng)勵(lì)值設(shè)置尤為重要，在面對(duì)對(duì)局時(shí)間長(zhǎng)、獎(jiǎng)勵(lì)反饋稀疏的對(duì)抗中，智能體由于長(zhǎng)時(shí)間未得到反饋，收斂到最優(yōu)決策的效率較低，甚至可能會(huì)陷于局部最優(yōu)解狀態(tài)。為了解決獎(jiǎng)勵(lì)稀疏問(wèn)題，文獻(xiàn)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行了重塑，獎(jiǎng)勵(lì)函數(shù)根據(jù)算子和目標(biāo)奪控點(diǎn)的距離變化而變化；文獻(xiàn)根據(jù)奪控點(diǎn)情況、算子血量和殲敵數(shù)量等進(jìn)行獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)；文獻(xiàn)采用逆向強(qiáng)化學(xué)習(xí)方式，運(yùn)用既有的大量高質(zhì)量范例數(shù)據(jù)來(lái)擬合獎(jiǎng)勵(lì)函數(shù)；文獻(xiàn)使用加權(quán)時(shí)序差分（TD(λ)）算法結(jié)合學(xué)習(xí)的評(píng)論家（critic）網(wǎng)絡(luò)來(lái)減小方差，利用人類(lèi)數(shù)據(jù)構(gòu)造偽獎(jiǎng)賞，引導(dǎo)策略模仿人類(lèi)行為，緩解稀疏獎(jiǎng)賞問(wèn)題，加速策略訓(xùn)練；文獻(xiàn)引入全局獎(jiǎng)勵(lì)預(yù)測(cè)模塊，采用門(mén)控循環(huán)單元(GRU)建模一局中前若干個(gè)回合對(duì)整局的貢獻(xiàn)，利用人類(lèi)高手的數(shù)據(jù)進(jìn)行價(jià)值預(yù)測(cè)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)，并通過(guò)計(jì)算相鄰兩回合的獎(jiǎng)勵(lì)差來(lái)確定當(dāng)前回合的獎(jiǎng)勵(lì)。除了在獎(jiǎng)勵(lì)函數(shù)上的優(yōu)化，AlphaGo為了提高勝率，采用蒙特卡羅搜索樹(shù)實(shí)現(xiàn)了總體策略選擇，并對(duì)策略空間進(jìn)行了搜索，最終確定了方案。文獻(xiàn)提出了一種引入了神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)方法神經(jīng)虛擬自我對(duì)弈（NFSP）算法，在自我博弈中近似均衡求解，雖然在大規(guī)模多人博弈穩(wěn)定性較差，但在小規(guī)模博弈問(wèn)題和簡(jiǎn)化的德州撲克游戲中表現(xiàn)突出。

圖5 策略優(yōu)化原理

3.3 協(xié)同與通信

策略的實(shí)施離不開(kāi)各個(gè)智能體之間的配合，為了應(yīng)對(duì)復(fù)雜多變的對(duì)抗情形，智能體需學(xué)會(huì)協(xié)作，跳出局部最優(yōu)策略的陷阱。星際爭(zhēng)霸中，智能體們需要分工合作、共同完成建筑建造以及戰(zhàn)斗配合等關(guān)鍵性戰(zhàn)略任務(wù)，同時(shí)還需要對(duì)各自戰(zhàn)場(chǎng)職能進(jìn)行分類(lèi)，實(shí)現(xiàn)行動(dòng)細(xì)化，如讓智能體在對(duì)戰(zhàn)過(guò)程中根據(jù)各自角色進(jìn)行戰(zhàn)術(shù)配合，或在建造采礦方面學(xué)會(huì)有序合作。智能體們想要實(shí)現(xiàn)上述群體協(xié)同控制的目標(biāo)，需要通過(guò)信息共享、資源交換和聯(lián)合對(duì)抗等手段，但目前多智體協(xié)同仍面臨智能體數(shù)量增多帶來(lái)的狀態(tài)空間與動(dòng)作空間維數(shù)爆炸、智能體之間采取不同動(dòng)作的相互影響以及個(gè)體利益與團(tuán)體利益協(xié)調(diào)等問(wèn)題。為解決上述問(wèn)題，實(shí)現(xiàn)多智能體協(xié)同，本文對(duì)多智能體訓(xùn)練方式和多智能體通信技術(shù)2個(gè)方面進(jìn)行分析。多智能體通信如圖6所示，其中，RIAL為增強(qiáng)智能體間學(xué)習(xí)；DIAL可微分智能體間學(xué)習(xí)。

圖6 多智能體通信

3.3.1 多智能體訓(xùn)練方式

目前，多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練分為全通信集中決策架構(gòu)、全通信自主決策架構(gòu)和欠通信自主決策架構(gòu)3大類(lèi)。本文以優(yōu)勢(shì)動(dòng)作評(píng)價(jià)（A2C）算法在多智能體上的簡(jiǎn)單拓展為例，分別介紹了3種訓(xùn)練方式的實(shí)現(xiàn)。全通信集中決策架構(gòu)如圖7所示，中央決策單元先將所有智能體對(duì)環(huán)境的局部觀測(cè)進(jìn)行統(tǒng)籌，以此整合得到全局觀測(cè)的信息，再訓(xùn)練聯(lián)合價(jià)值網(wǎng)絡(luò)與策略網(wǎng)絡(luò)，從而集中決策產(chǎn)生聯(lián)合動(dòng)作，最后以通信方式將動(dòng)作信息傳遞給每個(gè)智能體。該方式的優(yōu)點(diǎn)是擁有全局觀測(cè)信息，避免了局部觀測(cè)導(dǎo)致的噪聲，其決策更優(yōu)，且可更好實(shí)現(xiàn)智能體的協(xié)同控制，但同時(shí)不可避免地對(duì)通信的時(shí)效性提出了挑戰(zhàn)。

圖7 全通信集中決策架構(gòu)

全通信自主決策架構(gòu)如圖8所示。中央決策單元只訓(xùn)練聯(lián)合價(jià)值網(wǎng)絡(luò)，并將價(jià)值網(wǎng)絡(luò)的輸出反饋給各智能體的本地決策單元，每個(gè)智能體均擁有獨(dú)立的策略網(wǎng)絡(luò)，為了提高訓(xùn)練時(shí)決策的準(zhǔn)確性，各智能體間通過(guò)通信實(shí)現(xiàn)信息交換并整合得到全局的信息，以此做出最優(yōu)決策，當(dāng)訓(xùn)練完成后，智能體通過(guò)本地決策單元進(jìn)行決策。由于訓(xùn)練時(shí)采用了全局信息，已經(jīng)包含了對(duì)其他智能體的推斷信息，因此在本地決策時(shí)涌現(xiàn)出了協(xié)同合作的能力。該框架由于應(yīng)用了本地決策，對(duì)通信時(shí)效性要求較低，在訓(xùn)練完成后減少了信息收集流程，因此得到了廣泛應(yīng)用。

圖8 全通信自主決策架構(gòu)

欠通信自主決策架構(gòu)如圖9所示。相比于前2種框架，欠通信自主決策架構(gòu)放棄了對(duì)全局信息的整合，每個(gè)智能體擁有單獨(dú)的價(jià)值網(wǎng)絡(luò)與策略網(wǎng)絡(luò)，訓(xùn)練過(guò)程中僅依靠自身的局部觀測(cè)信息進(jìn)行決策，以期涌現(xiàn)出協(xié)調(diào)合作的能力并最終完成任務(wù)。由于減少了通信流程，欠通信自主決策架構(gòu)可以適用于任何一個(gè)多智體環(huán)境，但也產(chǎn)生了因信息缺失與觀測(cè)噪聲導(dǎo)致的不穩(wěn)定因素。

圖9 欠通信自主決策架構(gòu)

3.3.2 多智能體通信技術(shù)

多智能體交流不是真正意義上的交流，而只是顯式假設(shè)智能體之間存在信息的交互，并通過(guò)訓(xùn)練來(lái)學(xué)習(xí)如何根據(jù)對(duì)抗形式生成信息，或者確定是否要和其他智能體進(jìn)行通信。訓(xùn)練完成后，若要運(yùn)行，仍需要來(lái)自其他智能體的信息。Foerster等在多智能體強(qiáng)化學(xué)習(xí)中引入通信概念，采用了全通信自主決策架構(gòu)訓(xùn)練模型，提出了RIAL算法，從而對(duì)智能體之間傳輸可學(xué)習(xí)的信息進(jìn)行展示，此外，為了使智能體對(duì)收到信息進(jìn)行反饋，F(xiàn)oerster等在RIAL的基礎(chǔ)上又提出了DIAL算法，通過(guò)通信信道將梯度信息從信息接收方傳回到信息發(fā)送方，形成反饋循環(huán)。Sukhbaatar等提出了CommNet算法，采用廣播形式傳遞信息，由于采用了全通信集中決策架構(gòu)，因此在大規(guī)模環(huán)境下網(wǎng)絡(luò)維度過(guò)大且訓(xùn)練困難。Jiang等為了使智能體能夠自主通信，提出了基于注意力機(jī)制的AtoC模型，該模型采用了全通信自主決策架構(gòu)與DDPG算法，同時(shí)為了提高可擴(kuò)展性，所有智能體之間共享了通信信道、策略網(wǎng)絡(luò)和注意力單元等參數(shù)。另外，采用注意力機(jī)制進(jìn)行通信的還有個(gè)性化控制連續(xù)通信模型（IC3Net）算法和目標(biāo)化多智能體通信（TarMac）算法。

應(yīng)用與挑戰(zhàn)

人機(jī)對(duì)抗技術(shù)自其誕生起就受到了廣泛關(guān)注，人與機(jī)器的較量角逐自此拉開(kāi)了帷幕，從深藍(lán)到AlphaGo系列，機(jī)器表現(xiàn)出的強(qiáng)大學(xué)習(xí)能力吸引著人們持續(xù)地探索這一片領(lǐng)域。尤其是AlphaGo在圍棋領(lǐng)域取得的巨大突破，進(jìn)一步推動(dòng)了人機(jī)對(duì)抗技術(shù)的發(fā)展，使得DRL與人機(jī)對(duì)抗相結(jié)合的方式成為可能。

4.1 棋牌類(lèi)游戲?qū)?/strong>

棋牌類(lèi)游戲一直以來(lái)都是進(jìn)行人機(jī)對(duì)抗測(cè)試的平臺(tái)，棋牌類(lèi)游戲?qū)故疽鈭D如圖10所示。2016年，谷歌Deepmind公司開(kāi)發(fā)了AlphaGo系列，成功將DRL與人機(jī)對(duì)抗進(jìn)行了結(jié)合，并以4∶1戰(zhàn)勝了韓國(guó)棋手李世石，次年又以3∶0戰(zhàn)勝了我國(guó)棋手柯潔。AlphaGo系列在圍棋方面表現(xiàn)出的強(qiáng)大的想象力從側(cè)面反映了DRL的能力。同年，文獻(xiàn)提出的神經(jīng)虛擬博弈是基于DRL自我博弈優(yōu)化方法的典型代表，并在簡(jiǎn)化德州撲克游戲中取得不錯(cuò)表現(xiàn)。2020年，微軟亞洲研究院發(fā)布了麻將AI suphx，采用分布式強(qiáng)化學(xué)習(xí)，對(duì)關(guān)于打牌策略的決策模型進(jìn)行訓(xùn)練，Suphx和其他玩家對(duì)戰(zhàn)了5 000多場(chǎng)，達(dá)到了最高段位10段，超過(guò)了平臺(tái)上另外2個(gè)知名AI以及頂級(jí)人類(lèi)選手的平均水平。2021年發(fā)布的斗地主AI DouZero，通過(guò)引入深度神經(jīng)網(wǎng)絡(luò)，提出了深度蒙特卡羅算法。需說(shuō)明的是，由于在傳統(tǒng)斗地主游戲中存在運(yùn)氣成分，因此無(wú)法像圍棋一樣完勝人類(lèi)，但已可達(dá)到人類(lèi)玩家水平，且與已知斗地主AI相比具有明顯優(yōu)勢(shì)。

圖10 棋牌類(lèi)游戲?qū)故疽鈭D

4.2 多人戰(zhàn)略游戲?qū)?/strong>

與棋牌類(lèi)游戲相比，多人戰(zhàn)略游戲的狀態(tài)空間和行動(dòng)空間更復(fù)雜，且隱藏信息更豐富，因此對(duì)于智能體來(lái)說(shuō)是一個(gè)巨大挑戰(zhàn)，多人戰(zhàn)略游戲?qū)故疽鈭D如圖11所示。

多人戰(zhàn)略游戲的代表有Dota 2和星際爭(zhēng)霸等。通常情況下，智能體不會(huì)只控制1個(gè)單位，而是需操縱多個(gè)單位進(jìn)行對(duì)抗活動(dòng)，如在星際爭(zhēng)霸中需要控制單位進(jìn)行采礦、戰(zhàn)斗和建造，在Dota 2中需要控制英雄進(jìn)行技能配合、線上補(bǔ)刀和裝備購(gòu)買(mǎi)。智能體不僅需要學(xué)習(xí)如何決策，還要學(xué)習(xí)如何協(xié)調(diào)競(jìng)爭(zhēng)與合作的關(guān)系。即時(shí)戰(zhàn)略游戲一直以來(lái)均受到DeepMind、Facebook和OpenAI等機(jī)構(gòu)的關(guān)注，2019年OpenAI開(kāi)發(fā)的Dota 2 AI OpenAI Five在和Dota2世界冠軍戰(zhàn)隊(duì)的對(duì)局中獲勝，在DRL算法的選擇上，OpenAI Five使用的是近端策略優(yōu)化+廣義優(yōu)勢(shì)估計(jì)器（PPO+GAE）的標(biāo)準(zhǔn)設(shè)定，采用了單層4 096個(gè)單元的LSTM網(wǎng)絡(luò)。同年，DeepMind推出了AlphaStar，采用優(yōu)先虛擬自博弈和聯(lián)盟訓(xùn)練等方法在與星際爭(zhēng)霸2人類(lèi)職業(yè)選手的挑戰(zhàn)賽中，以10∶1的比分戰(zhàn)勝人類(lèi)選手。騰訊人工智能實(shí)驗(yàn)室針對(duì)多玩家在線競(jìng)技場(chǎng)開(kāi)發(fā)了Moba 1v1 AI，且達(dá)到了99.81%的勝率。DeepMind于2019年發(fā)布了基于雷神之錘3的For the win奪旗AI，在奪旗任務(wù)中取得了高于人類(lèi)的勝率。盡管DRL在即時(shí)策略游戲中表現(xiàn)突出，但仍需提高模型的可解釋性和可泛化性，從而增強(qiáng)算法穩(wěn)定性和算法性能，以便實(shí)現(xiàn)對(duì)人類(lèi)的再次超越。

圖11 多人戰(zhàn)略游戲?qū)故疽鈭D

4.3 兵棋推演

兵棋推演作為戰(zhàn)爭(zhēng)研究和訓(xùn)練的手段，正逐漸從早期的手工兵棋演變?yōu)橛?jì)算機(jī)兵棋。圖12給出了兵棋推演示意圖。兵棋推演具有非對(duì)稱(chēng)性、隨機(jī)性和高風(fēng)險(xiǎn)性。與星際爭(zhēng)霸不同，兵棋推演的對(duì)抗雙方實(shí)力不均等，如在奪控戰(zhàn)中，紅方兵力配置一般弱于藍(lán)方，但紅方在視野方面則擁有更多優(yōu)勢(shì)，并可使用遠(yuǎn)程飛彈打擊，而藍(lán)方則配備了更多的地面武裝，擁有更強(qiáng)的進(jìn)攻能力。

隨機(jī)性與高風(fēng)險(xiǎn)性體現(xiàn)在游戲的判決規(guī)則中，如武器打擊時(shí)存在偏離目標(biāo)概率而導(dǎo)致打擊失敗，同時(shí)一方兵力受損后未進(jìn)行彌補(bǔ)導(dǎo)致風(fēng)險(xiǎn)增加，可能會(huì)使一方直接潰敗。為了改善兵棋推演面臨的困境，文獻(xiàn)將分布式執(zhí)行集中化訓(xùn)練的AC框架引入了兵棋推演，并通過(guò)簡(jiǎn)化想定進(jìn)行了驗(yàn)證；文獻(xiàn)提出了一種層次化和模塊化DRL方法框架，將網(wǎng)絡(luò)壓縮優(yōu)化與遷移學(xué)習(xí)應(yīng)用其中；文獻(xiàn)提出了一種融合知識(shí)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的空戰(zhàn)編組對(duì)抗智能決策方法，并在典型作戰(zhàn)場(chǎng)景中對(duì)方法的實(shí)用性與可行性進(jìn)行了驗(yàn)證。此外，中科院自動(dòng)化所搭建了人機(jī)對(duì)抗智能門(mén)戶網(wǎng)站，可實(shí)現(xiàn)兵棋的機(jī)機(jī)對(duì)抗、人機(jī)對(duì)抗以及人及混合對(duì)抗，同時(shí)發(fā)布了兵棋推演AI AlphaWar，并于2020年通過(guò)了圖靈測(cè)試，促進(jìn)了兵棋推演的智能化發(fā)展。2017全國(guó)首屆兵棋推演大賽中，中科院自動(dòng)化所研制的人工智能程序CASIA-先知V1.0，在“賽諸葛”兵棋推演人機(jī)大戰(zhàn)中與全國(guó)決賽階段軍隊(duì)個(gè)人賽4強(qiáng)和地方個(gè)人賽4強(qiáng)的8名選手激烈交鋒，以7∶1的戰(zhàn)績(jī)大勝。盡管DRL在兵棋推演方面取得了不錯(cuò)的效果，但隨著推演的進(jìn)一步升級(jí)以及推演規(guī)模的不斷擴(kuò)大，現(xiàn)有算法將會(huì)受到狀態(tài)空間巨大、收斂困難和局部最優(yōu)等問(wèn)題的挑戰(zhàn)，因此需通過(guò)提高神經(jīng)網(wǎng)絡(luò)的感知力與算法魯棒性來(lái)提升對(duì)抗水平。

圖12 兵棋推演示意圖

問(wèn)題與展望

本文從DRL角度出發(fā)，對(duì)人機(jī)對(duì)抗智能技術(shù)進(jìn)行了討論，闡述了人機(jī)對(duì)抗的內(nèi)涵與機(jī)理，并在OODA環(huán)的基礎(chǔ)上對(duì)框架進(jìn)行了簡(jiǎn)化，即感知-決策-控制，并就人機(jī)對(duì)抗智能技術(shù)的分類(lèi)與最新發(fā)展進(jìn)行了歸納。從應(yīng)用領(lǐng)域、前沿技術(shù)和面臨挑戰(zhàn)等方面對(duì)基于DRL的人機(jī)智能對(duì)抗進(jìn)行了介紹。雖然基于DRL的人機(jī)智能對(duì)抗近年來(lái)蓬勃發(fā)展，在不同領(lǐng)域均取得了成果，但仍需解決以下關(guān)鍵問(wèn)題：1）構(gòu)建更高效快速的態(tài)勢(shì)感知網(wǎng)絡(luò)；2）提高網(wǎng)絡(luò)魯棒性，在不完全信息環(huán)境中保持穩(wěn)定決策；3）實(shí)現(xiàn)網(wǎng)絡(luò)可遷移，可針對(duì)不同對(duì)抗場(chǎng)景進(jìn)行簡(jiǎn)化開(kāi)發(fā)。

回顧人機(jī)對(duì)抗的歷史，DRL對(duì)其發(fā)展起到了巨大的推動(dòng)作用，本文對(duì)基于DRL的人機(jī)智能對(duì)抗研究進(jìn)行了以下展望：1）條件對(duì)稱(chēng)/非對(duì)稱(chēng)的種群間人機(jī)智能對(duì)抗；2）條件對(duì)稱(chēng)/非對(duì)稱(chēng)的個(gè)體間人機(jī)智能對(duì)抗；3）條件非對(duì)稱(chēng)的種群與個(gè)體間人機(jī)智能對(duì)抗。通過(guò)研究同等條件下的種群與種群、個(gè)體與個(gè)體間的對(duì)抗，可以在公平的前提下分析對(duì)抗算法的性能，提高個(gè)體的競(jìng)爭(zhēng)力與種群的協(xié)作性。通過(guò)研究非對(duì)稱(chēng)條件下的對(duì)抗，讓智能體可以實(shí)現(xiàn)以少勝多和以弱勝?gòu)?qiáng)的戰(zhàn)略目標(biāo)。

結(jié)束語(yǔ)

人工智能的快速發(fā)展，不僅為DRL的產(chǎn)生奠定了基礎(chǔ)，也為人機(jī)對(duì)抗智能化帶來(lái)了契機(jī)。將兩者有機(jī)結(jié)合并進(jìn)行研究與分析，掌握內(nèi)在原理，使得人與機(jī)器之間架起了溝通的橋梁，最終通過(guò)人機(jī)對(duì)抗實(shí)現(xiàn)人機(jī)協(xié)作、人機(jī)互助和共同進(jìn)步的目標(biāo)，使社會(huì)在政治、經(jīng)濟(jì)和生活等領(lǐng)域邁向智能化。

相關(guān)文獻(xiàn)推薦：

汪霜玲，李宇飛，黃凱鵬，等. 指揮信息系統(tǒng)智能化水平評(píng)估方法［J］. 指揮信息系統(tǒng)與技術(shù)，2022，13（5）：55-59.
吳云超，傅琛，張寧馨. 面向數(shù)字孿生戰(zhàn)場(chǎng)的智能體建模框架構(gòu)建［J］. 指揮信息系統(tǒng)與技術(shù)，2022，13（4）：19-25.
陳新中，曹罡，郭曉鴻. 人工智能在美俄核武器系統(tǒng)現(xiàn)代化建設(shè)中的應(yīng)用［J］. 指揮信息系統(tǒng)與技術(shù)，2022，13（3）：12-16.
劉小峰,王歡,王子洋. 基于生成對(duì)抗網(wǎng)絡(luò)的無(wú)人機(jī)博弈對(duì)抗技術(shù)[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(5):1-5.
賀嘉璠,汪慢,方峰,等. 深度強(qiáng)化學(xué)習(xí)技術(shù)在智能空戰(zhàn)中的運(yùn)用[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(5):6-13.
陳希亮,李清偉,孫彧. 基于博弈對(duì)抗的空戰(zhàn)智能決策關(guān)鍵技術(shù)[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(2):1-6.
孫彧,李清偉,徐志雄,等. 基于多智能體深度強(qiáng)化學(xué)習(xí)的空戰(zhàn)博弈對(duì)抗策略訓(xùn)練模型[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(2):16-20.
軒書(shū)哲,周昊,柯良軍. 無(wú)人機(jī)集群對(duì)抗博弈綜述[J]. 指揮信息系統(tǒng)與技術(shù),2021,12(2):27-31.
鄭健,陳建,朱琨. 基于多智能體強(qiáng)化學(xué)習(xí)的無(wú)人集群協(xié)同設(shè)計(jì)[J]. 指揮信息系統(tǒng)與技術(shù),2020,11(6):26-31.
南英,蔣亮. 基于深度強(qiáng)化學(xué)習(xí)的彈道導(dǎo)彈中段突防控制[J]. 指揮信息系統(tǒng)與技術(shù),2020,11(4):1-9.

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频