新智元報(bào)道
編輯:好困 桃子
之前湊在一起「打王者」的學(xué)霸又來了!
成都大運(yùn)會(huì)開幕在即,「世界大學(xué)生數(shù)智競(jìng)技邀請(qǐng)賽」正式啟動(dòng)。
國(guó)際級(jí)規(guī)模的大賽共邀請(qǐng)了12支隊(duì)伍(包含中國(guó)大陸地區(qū)4所高校、中國(guó)港澳臺(tái)地區(qū)及海外8所高校)參加。
每支隊(duì)伍都需要訓(xùn)練三位英雄,并在之后讓自己的AI進(jìn)行「3V3」的對(duì)戰(zhàn),而獲得冠軍的團(tuán)隊(duì)可獲得高達(dá)20萬(wàn)的獎(jiǎng)金。
在此前的1V1中,各大高校的AI各種「騷操作」不斷。
比如,絲血完成反殺之后,又閃現(xiàn)進(jìn)塔的藍(lán)方貂蟬。
在這背后默默提供支持的,正是以「強(qiáng)化學(xué)習(xí)」為基礎(chǔ),《王者榮耀》和騰訊AI Lab共同研發(fā)的AI開放研究平臺(tái) —— 開悟。
不過,為什么是強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí)和游戲有什么關(guān)系?
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是除了監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之外的第三種基本的機(jī)器學(xué)習(xí)方法。一定程度上,一些復(fù)雜的強(qiáng)化學(xué)習(xí)算法在具備解決復(fù)雜問題的通用智能,可以在圍棋和電子游戲中達(dá)到人類水平,算是現(xiàn)階段人工智能領(lǐng)域研究中的一門「必修課」。
舉個(gè)例子,不知道大家還記不記得曾經(jīng)風(fēng)靡一時(shí)的Flappy Bird嗎,這其實(shí)就是一個(gè)典型的強(qiáng)化學(xué)習(xí)場(chǎng)景:
1. 智能體——小鳥
2. 與智能體進(jìn)行交互的「環(huán)境」——參差不齊的水管
3. 智能體可能做出的「動(dòng)作」——向上飛一下或者什么都不做
4. 智能體采取的行動(dòng)所遵循的「策略」——為躲避水管而采取行動(dòng)的概率
5. 智能體在采取行動(dòng)時(shí)得到的「獎(jiǎng)勵(lì)」——飛得越遠(yuǎn)得分就越高
環(huán)境會(huì)給智能體一個(gè)觀測(cè)值,智能體接收到環(huán)境給的觀測(cè)值之后會(huì)做出一個(gè)動(dòng)作, 這個(gè)動(dòng)作給予一個(gè)獎(jiǎng)勵(lì),以及給出一個(gè)新的觀測(cè)值。智能體根據(jù)環(huán)境給予的獎(jiǎng)勵(lì)值去更新自己的策略。
最終,智能體能通過強(qiáng)化學(xué)習(xí)找到一種方法,使自己從系統(tǒng)的每個(gè)狀態(tài)中提取的平均價(jià)值最大化。
雖然早在上世紀(jì)50年代,強(qiáng)化學(xué)習(xí)的相關(guān)理論就已經(jīng)開始成形。但真正走入到大眾的視野之中,還是要靠著「游戲」。
2016年1月,DeepMind的圍棋AI——AlphaGo登上《Nature》封面:Mastering the game of Go with deep neural networks and tree search(通過深度神經(jīng)網(wǎng)絡(luò)和搜索樹,學(xué)會(huì)圍棋游戲)。
通過利用強(qiáng)化學(xué)習(xí)的Value Networks(價(jià)值網(wǎng)絡(luò))和 Policy Networks(策略網(wǎng)絡(luò)),AlphaGo可以實(shí)現(xiàn)棋盤位置的評(píng)估,以及步法的選擇。
兩個(gè)月后,AlphaGo在和李世石的對(duì)戰(zhàn)中實(shí)現(xiàn)驚天逆轉(zhuǎn),取得勝利。
看到AlphaGo的成功,OpenAI直呼厲害!
于是在2016年11月,OpenAI Five正式立項(xiàng)。
雖然相比于更加正經(jīng)的圍棋來說,玩《Dota 2》的OpenAI Five感覺完全是在「不務(wù)正業(yè)」。但實(shí)際上,后者的難度其實(shí)要高得多:
OpenAI Five需要從8000到80000個(gè)動(dòng)作中做出選擇,其中每一步還需觀察約16000個(gè)值。相比之下,國(guó)際象棋中平均的可行動(dòng)作是35個(gè),圍棋是250個(gè)。
經(jīng)過近3年的訓(xùn)練,OpenAI Five在2019年以2:0擊敗了世界冠軍團(tuán)隊(duì)。
同年,DeepMind也祭出了自己潛心打造的AlphaStar,在《星際爭(zhēng)霸2》中以5比0的比分,擊敗了頂尖的職業(yè)級(jí)玩家。
當(dāng)然,除了利用已有的游戲場(chǎng)景訓(xùn)練強(qiáng)化學(xué)習(xí)智能體以外,也可以從0打造「訓(xùn)練基地」。
2021年,在斯坦福教授李飛飛的帶領(lǐng)下,研究小組創(chuàng)建了一個(gè)計(jì)算機(jī)模擬的「游樂場(chǎng)」——DERL(深度進(jìn)化強(qiáng)化學(xué)習(xí))。
在這篇刊登在《自然通訊》上的論文中,團(tuán)隊(duì)設(shè)置了一個(gè)虛擬空間,并將簡(jiǎn)單的模擬生物放入其中。當(dāng)然,這些生物只是一些通過「隨機(jī)方式」進(jìn)行移動(dòng)的「幾何圖形」(Unimal)。
這些Unimal生長(zhǎng)在不同的星球中,星球中充滿了「起伏的山丘」和「低矮的障礙物」,他們?cè)诟蛹ち业沫h(huán)境中展開競(jìng)爭(zhēng)。
Unimal必須通過這些多變的地形,并將一個(gè)塊狀物移動(dòng)到目標(biāo)位置,而只有勝者才能繼續(xù)產(chǎn)生后代。
李飛飛的這項(xiàng)研究也位學(xué)界帶來了一種新的思路:當(dāng)我們不知道該如何設(shè)計(jì)執(zhí)行特殊任務(wù)的機(jī)器人時(shí),不妨在強(qiáng)化學(xué)習(xí)的環(huán)境中讓它們自己「進(jìn)化」出合適的形態(tài)。
說到這里其實(shí)已經(jīng)不難看出,不管是頂級(jí)的公司,還是大學(xué)的教授都在利用游戲+強(qiáng)化學(xué)習(xí)的形式來探索人工智能新的邊界。
在如此重要的領(lǐng)域里,怎么能少了中國(guó)團(tuán)隊(duì)的身影。
于是乎,王者榮耀AI正式發(fā)布。
與《Dota2》和《星際爭(zhēng)霸2》類似,在《王者榮耀》中玩家的動(dòng)作狀態(tài)空間高達(dá)10的20000次方,遠(yuǎn)遠(yuǎn)大于圍棋及其他游戲,甚至超過整個(gè)宇宙的原子總數(shù)(10的80次方)。
王者榮耀AI產(chǎn)品可以分為兩個(gè)部分:「打游戲」的王者絕悟以及「造絕悟」的開悟平臺(tái)。
王者絕悟,簡(jiǎn)單來說就是《王者榮耀》版的OpenAI Five或AlphaStar,它是《王者榮耀》與騰訊AI Lab共同探索人工智能在游戲場(chǎng)景應(yīng)用而推出的「策略協(xié)作型AI」。
其中,「策略」指的是AI能夠通過獲取到的信息,分析局勢(shì)優(yōu)化策略,做出更有利于獲勝的行為?!竻f(xié)作」則指操作游戲內(nèi)多個(gè)智能體(即多個(gè)不同的英雄)互相配合,協(xié)同推進(jìn)博弈。
在2018年對(duì)戰(zhàn)頂尖水平的非職業(yè)戰(zhàn)隊(duì)時(shí),王者絕悟就表現(xiàn)出即時(shí)策略團(tuán)隊(duì)協(xié)作能力。
在對(duì)方團(tuán)滅后,兵線還尚未到達(dá),下路高地塔還有過半血量,王者絕悟果斷選擇四人輪流抗塔,無(wú)兵線強(qiáng)拆。
不過,在訓(xùn)練這些AI之前,首先得有一個(gè)可供訓(xùn)練的平臺(tái)。
對(duì)于DeepMind和OpenAI來說,只需稍稍發(fā)揮一下自己的影響力就能在現(xiàn)成的游戲平臺(tái)上開啟「深度合作」模式。
然而,對(duì)于普通的研究者來說,想要在這些游戲上做研究就只能調(diào)用開放的接口了,體驗(yàn)上來講肯定要差許多。
不過,以《王者榮耀》為模擬環(huán)境的開悟平臺(tái)就不一樣了,雖然也是基于游戲,但卻是開放的。
再結(jié)合上算法、 數(shù)據(jù)、算力的優(yōu)勢(shì),開悟平臺(tái)可以為學(xué)術(shù)研究人員提供一個(gè)全棧打通的閉環(huán)科研驗(yàn)證環(huán)境。
除了可以提供「AI+游戲」的研究場(chǎng)景,以及大規(guī)模彈性算力來支撐AI的研究外,還有統(tǒng)一的強(qiáng)化框架來加速研發(fā)。
不僅如此,開悟平臺(tái)還會(huì)提供通用的訓(xùn)練和推理服務(wù),進(jìn)一步加速AI的訓(xùn)練。
比如開篇提到的去年《王者榮耀》開悟AI賽事的1V1比拼中,清北、中科院、浙大等20余所高校,借助開悟平臺(tái)提供的算法、算力、數(shù)據(jù)、場(chǎng)景等資源,訓(xùn)練出了自己的AI模型。
也許在觀眾看來,雙方的比拼是一場(chǎng)操作水平的競(jìng)技。但是實(shí)際上,這是強(qiáng)化學(xué)習(xí)技術(shù)層面上的角逐 —— AI是如何應(yīng)用大策略,比如何時(shí)進(jìn)攻、何時(shí)撤退、在哪埋伏;以及微觀數(shù)據(jù)判斷 —— 比如血量的計(jì)算、出裝、技能CD計(jì)算等等。
如果沒有開悟平臺(tái)的話,也許這些表面是電競(jìng)比拼,實(shí)際是科技水平對(duì)決的精彩比賽也就不復(fù)存在了。
但,可能又會(huì)有新的疑問出現(xiàn)了。
為何要在游戲中研究人工智能?
其實(shí)答案很簡(jiǎn)單。
最直接的原因就是AI可以構(gòu)建建更動(dòng)態(tài)有趣的游戲環(huán)境和更靈活多變的游戲角色,提升游戲制作效率和玩家的游戲體驗(yàn)。
當(dāng)然,更重要的意義是將人工智能技術(shù)應(yīng)用于諸如醫(yī)療、制造、無(wú)人駕駛、城市管理等現(xiàn)實(shí)生活中的領(lǐng)域。
而游戲則為AI技術(shù)研發(fā)提供了具有明顯優(yōu)勢(shì)的虛擬實(shí)驗(yàn)環(huán)境:
AGI會(huì)在游戲里誕生嗎?
聯(lián)系客服