中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
清華等世界12所頂尖高校學(xué)霸組團(tuán)「打王者」,竟是為了搞科研?


  新智元報(bào)道  

編輯:好困 桃子

【新智元導(dǎo)讀】見過學(xué)霸打王者的樣子嗎?這不,清華、中科大、耶魯?shù)仁澜?2所頂尖高校學(xué)霸集結(jié),一來打王者,二來搞科研。

之前湊在一起「打王者」的學(xué)霸又來了!

成都大運(yùn)會(huì)開幕在即,「世界大學(xué)生數(shù)智競(jìng)技邀請(qǐng)賽」正式啟動(dòng)。

國(guó)際級(jí)規(guī)模的大賽共邀請(qǐng)了12支隊(duì)伍(包含中國(guó)大陸地區(qū)4所高校、中國(guó)港澳臺(tái)地區(qū)及海外8所高校)參加。

每支隊(duì)伍都需要訓(xùn)練三位英雄,并在之后讓自己的AI進(jìn)行「3V3」的對(duì)戰(zhàn),而獲得冠軍的團(tuán)隊(duì)可獲得高達(dá)20萬(wàn)的獎(jiǎng)金。

在此前的1V1中,各大高校的AI各種「騷操作」不斷。

比如,絲血完成反殺之后,又閃現(xiàn)進(jìn)塔的藍(lán)方貂蟬。

在這背后默默提供支持的,正是以「強(qiáng)化學(xué)習(xí)」為基礎(chǔ),《王者榮耀》和騰訊AI Lab共同研發(fā)的AI開放研究平臺(tái) —— 開悟。

不過,為什么是強(qiáng)化學(xué)習(xí)?

強(qiáng)化學(xué)習(xí)和游戲有什么關(guān)系?

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是除了監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之外的第三種基本的機(jī)器學(xué)習(xí)方法。一定程度上,一些復(fù)雜的強(qiáng)化學(xué)習(xí)算法在具備解決復(fù)雜問題的通用智能,可以在圍棋和電子游戲中達(dá)到人類水平,算是現(xiàn)階段人工智能領(lǐng)域研究中的一門「必修課」。

舉個(gè)例子,不知道大家還記不記得曾經(jīng)風(fēng)靡一時(shí)的Flappy Bird嗎,這其實(shí)就是一個(gè)典型的強(qiáng)化學(xué)習(xí)場(chǎng)景:

1. 智能體——小鳥

2. 與智能體進(jìn)行交互的「環(huán)境」——參差不齊的水管

3. 智能體可能做出的「動(dòng)作」——向上飛一下或者什么都不做

4. 智能體采取的行動(dòng)所遵循的「策略」——為躲避水管而采取行動(dòng)的概率

5. 智能體在采取行動(dòng)時(shí)得到的「獎(jiǎng)勵(lì)」——飛得越遠(yuǎn)得分就越高

環(huán)境會(huì)給智能體一個(gè)觀測(cè)值,智能體接收到環(huán)境給的觀測(cè)值之后會(huì)做出一個(gè)動(dòng)作, 這個(gè)動(dòng)作給予一個(gè)獎(jiǎng)勵(lì),以及給出一個(gè)新的觀測(cè)值。智能體根據(jù)環(huán)境給予的獎(jiǎng)勵(lì)值去更新自己的策略。

最終,智能體能通過強(qiáng)化學(xué)習(xí)找到一種方法,使自己從系統(tǒng)的每個(gè)狀態(tài)中提取的平均價(jià)值最大化。

雖然早在上世紀(jì)50年代,強(qiáng)化學(xué)習(xí)的相關(guān)理論就已經(jīng)開始成形。但真正走入到大眾的視野之中,還是要靠著「游戲」。

2016年1月,DeepMind的圍棋AI——AlphaGo登上《Nature》封面:Mastering the game of Go with deep neural networks and tree search(通過深度神經(jīng)網(wǎng)絡(luò)和搜索樹,學(xué)會(huì)圍棋游戲)。

通過利用強(qiáng)化學(xué)習(xí)的Value Networks(價(jià)值網(wǎng)絡(luò))和 Policy Networks(策略網(wǎng)絡(luò)),AlphaGo可以實(shí)現(xiàn)棋盤位置的評(píng)估,以及步法的選擇。

兩個(gè)月后,AlphaGo在和李世石的對(duì)戰(zhàn)中實(shí)現(xiàn)驚天逆轉(zhuǎn),取得勝利。

看到AlphaGo的成功,OpenAI直呼厲害!

于是在2016年11月,OpenAI Five正式立項(xiàng)。

雖然相比于更加正經(jīng)的圍棋來說,玩《Dota 2》的OpenAI Five感覺完全是在「不務(wù)正業(yè)」。但實(shí)際上,后者的難度其實(shí)要高得多:

OpenAI Five需要從8000到80000個(gè)動(dòng)作中做出選擇,其中每一步還需觀察約16000個(gè)值。相比之下,國(guó)際象棋中平均的可行動(dòng)作是35個(gè),圍棋是250個(gè)。

經(jīng)過近3年的訓(xùn)練,OpenAI Five在2019年以2:0擊敗了世界冠軍團(tuán)隊(duì)。

同年,DeepMind也祭出了自己潛心打造的AlphaStar,在《星際爭(zhēng)霸2》中以5比0的比分,擊敗了頂尖的職業(yè)級(jí)玩家。

當(dāng)然,除了利用已有的游戲場(chǎng)景訓(xùn)練強(qiáng)化學(xué)習(xí)智能體以外,也可以從0打造「訓(xùn)練基地」。

2021年,在斯坦福教授李飛飛的帶領(lǐng)下,研究小組創(chuàng)建了一個(gè)計(jì)算機(jī)模擬的「游樂場(chǎng)」——DERL(深度進(jìn)化強(qiáng)化學(xué)習(xí))。

在這篇刊登在《自然通訊》上的論文中,團(tuán)隊(duì)設(shè)置了一個(gè)虛擬空間,并將簡(jiǎn)單的模擬生物放入其中。當(dāng)然,這些生物只是一些通過「隨機(jī)方式」進(jìn)行移動(dòng)的「幾何圖形」(Unimal)。

這些Unimal生長(zhǎng)在不同的星球中,星球中充滿了「起伏的山丘」和「低矮的障礙物」,他們?cè)诟蛹ち业沫h(huán)境中展開競(jìng)爭(zhēng)。

Unimal必須通過這些多變的地形,并將一個(gè)塊狀物移動(dòng)到目標(biāo)位置,而只有勝者才能繼續(xù)產(chǎn)生后代。

李飛飛的這項(xiàng)研究也位學(xué)界帶來了一種新的思路:當(dāng)我們不知道該如何設(shè)計(jì)執(zhí)行特殊任務(wù)的機(jī)器人時(shí),不妨在強(qiáng)化學(xué)習(xí)的環(huán)境中讓它們自己「進(jìn)化」出合適的形態(tài)。

說到這里其實(shí)已經(jīng)不難看出,不管是頂級(jí)的公司,還是大學(xué)的教授都在利用游戲+強(qiáng)化學(xué)習(xí)的形式來探索人工智能新的邊界。

在如此重要的領(lǐng)域里,怎么能少了中國(guó)團(tuán)隊(duì)的身影。

于是乎,王者榮耀AI正式發(fā)布。

與《Dota2》和《星際爭(zhēng)霸2》類似,在《王者榮耀》中玩家的動(dòng)作狀態(tài)空間高達(dá)10的20000次方,遠(yuǎn)遠(yuǎn)大于圍棋及其他游戲,甚至超過整個(gè)宇宙的原子總數(shù)(10的80次方)。

王者榮耀AI產(chǎn)品可以分為兩個(gè)部分:「打游戲」的王者絕悟以及「造絕悟」的開悟平臺(tái)。

王者絕悟,簡(jiǎn)單來說就是《王者榮耀》版的OpenAI Five或AlphaStar,它是《王者榮耀》與騰訊AI Lab共同探索人工智能在游戲場(chǎng)景應(yīng)用而推出的「策略協(xié)作型AI」。

其中,「策略」指的是AI能夠通過獲取到的信息,分析局勢(shì)優(yōu)化策略,做出更有利于獲勝的行為?!竻f(xié)作」則指操作游戲內(nèi)多個(gè)智能體(即多個(gè)不同的英雄)互相配合,協(xié)同推進(jìn)博弈。

在2018年對(duì)戰(zhàn)頂尖水平的非職業(yè)戰(zhàn)隊(duì)時(shí),王者絕悟就表現(xiàn)出即時(shí)策略團(tuán)隊(duì)協(xié)作能力。

在對(duì)方團(tuán)滅后,兵線還尚未到達(dá),下路高地塔還有過半血量,王者絕悟果斷選擇四人輪流抗塔,無(wú)兵線強(qiáng)拆。

不過,在訓(xùn)練這些AI之前,首先得有一個(gè)可供訓(xùn)練的平臺(tái)。

對(duì)于DeepMind和OpenAI來說,只需稍稍發(fā)揮一下自己的影響力就能在現(xiàn)成的游戲平臺(tái)上開啟「深度合作」模式。

然而,對(duì)于普通的研究者來說,想要在這些游戲上做研究就只能調(diào)用開放的接口了,體驗(yàn)上來講肯定要差許多。

不過,以《王者榮耀》為模擬環(huán)境的開悟平臺(tái)就不一樣了,雖然也是基于游戲,但卻是開放的。

再結(jié)合上算法、 數(shù)據(jù)、算力的優(yōu)勢(shì),開悟平臺(tái)可以為學(xué)術(shù)研究人員提供一個(gè)全棧打通的閉環(huán)科研驗(yàn)證環(huán)境。

除了可以提供「AI+游戲」的研究場(chǎng)景,以及大規(guī)模彈性算力來支撐AI的研究外,還有統(tǒng)一的強(qiáng)化框架來加速研發(fā)。

不僅如此,開悟平臺(tái)還會(huì)提供通用的訓(xùn)練和推理服務(wù),進(jìn)一步加速AI的訓(xùn)練。

比如開篇提到的去年《王者榮耀》開悟AI賽事的1V1比拼中,清北、中科院、浙大等20余所高校,借助開悟平臺(tái)提供的算法、算力、數(shù)據(jù)、場(chǎng)景等資源,訓(xùn)練出了自己的AI模型。

也許在觀眾看來,雙方的比拼是一場(chǎng)操作水平的競(jìng)技。但是實(shí)際上,這是強(qiáng)化學(xué)習(xí)技術(shù)層面上的角逐 —— AI是如何應(yīng)用大策略,比如何時(shí)進(jìn)攻、何時(shí)撤退、在哪埋伏;以及微觀數(shù)據(jù)判斷 —— 比如血量的計(jì)算、出裝、技能CD計(jì)算等等。

如果沒有開悟平臺(tái)的話,也許這些表面是電競(jìng)比拼,實(shí)際是科技水平對(duì)決的精彩比賽也就不復(fù)存在了。

但,可能又會(huì)有新的疑問出現(xiàn)了。

為何要在游戲中研究人工智能?

其實(shí)答案很簡(jiǎn)單。

最直接的原因就是AI可以構(gòu)建建更動(dòng)態(tài)有趣的游戲環(huán)境和更靈活多變的游戲角色,提升游戲制作效率和玩家的游戲體驗(yàn)。

當(dāng)然,更重要的意義是將人工智能技術(shù)應(yīng)用于諸如醫(yī)療、制造、無(wú)人駕駛、城市管理等現(xiàn)實(shí)生活中的領(lǐng)域。

而游戲則為AI技術(shù)研發(fā)提供了具有明顯優(yōu)勢(shì)的虛擬實(shí)驗(yàn)環(huán)境:

  • 提供易于量化的訓(xùn)練和評(píng)估指標(biāo)
游戲中的等級(jí)、血量、經(jīng)濟(jì)等等,都有助于為AI設(shè)定任務(wù)目標(biāo),同時(shí)還能為檢驗(yàn)AI能力提供統(tǒng)一的驗(yàn)證評(píng)估標(biāo)準(zhǔn)。
 
  • 難度接近甚至超過很多現(xiàn)實(shí)任務(wù)
比如《王者榮耀》需要分析存在戰(zhàn)爭(zhēng)迷霧的游戲環(huán)境,還需要預(yù)測(cè)敵方的行為,更需要友方的互相協(xié)作。在這樣的環(huán)境中成功研發(fā)的AI技術(shù)在學(xué)習(xí)解決復(fù)雜的現(xiàn)實(shí)任務(wù)時(shí)會(huì)更加得心應(yīng)手。
 
  • 更快的速度、更低的成本
不同于現(xiàn)實(shí)任務(wù),游戲環(huán)境的一切都發(fā)生在計(jì)算機(jī)系統(tǒng)內(nèi)部,因此在這個(gè)環(huán)境中進(jìn)行開發(fā)的成本要低得多,而且也能以更快的速度大規(guī)模并行式地進(jìn)行訓(xùn)練。
 
  • 更多場(chǎng)景、更加安全
游戲可以AI模型提供各種各樣,甚至是十分危險(xiǎn)的場(chǎng)景模擬,比如為自動(dòng)駕駛AI構(gòu)建橫穿馬路的行人,或者各種極端的天氣等等。
 
 
看起來不太直觀?
 
不如,我們?cè)诂F(xiàn)實(shí)世界中嘗試一下用強(qiáng)化學(xué)習(xí)訓(xùn)練智能體開車吧。
 
由于模型的初始參數(shù)時(shí)隨機(jī)的,所以智能體最開始經(jīng)常一腳油就帶著車沖向了路邊的籬笆上,研究人員不得不趕緊把方向打回來。
 
基于人工的干預(yù),智能體便得到了自己動(dòng)作的「獎(jiǎng)勵(lì)」,知道這樣操作是不對(duì)的。
 
 
還好整個(gè)過程有驚無(wú)險(xiǎn),而智能體的操作也逐漸嫻熟了起來。
 
在經(jīng)過11次訓(xùn)練之后,終于學(xué)會(huì)了沿著道路行駛。
 
 
當(dāng)然了,這只是研究人員做的一個(gè)實(shí)驗(yàn),真正可用的AI可不能這么訓(xùn)練。
 
不過,如此一來也可以看出,直接在現(xiàn)實(shí)中訓(xùn)練AI不僅十分耗時(shí),而且場(chǎng)景不能太復(fù)雜,畢竟萬(wàn)一反應(yīng)不及時(shí),這「成本」就太高了……
 
雖然,強(qiáng)化學(xué)習(xí)在理論上具有諸多優(yōu)勢(shì),但實(shí)際的落地卻并沒有像深度學(xué)習(xí)那樣轟轟烈烈。即便如此,也已經(jīng)在不少領(lǐng)域取得了進(jìn)展。
 
比如在工業(yè)方面,南京大學(xué)的俞揚(yáng)教授帶領(lǐng)團(tuán)隊(duì)利用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了汽車的檢驗(yàn)。
 
汽車上市之前需要調(diào)參數(shù),這其中涉及到很多仿真,通常需要幾十年的經(jīng)驗(yàn)積累。
 
而俞揚(yáng)團(tuán)隊(duì)花了大概兩個(gè)月的時(shí)間,整理清楚了數(shù)據(jù)和流程,以及發(fā)動(dòng)機(jī)該怎么控制。雖然對(duì)行業(yè)一無(wú)所知,但有了這個(gè)數(shù)據(jù)以后,強(qiáng)化學(xué)習(xí)自己把發(fā)動(dòng)機(jī)模型、整車模型全部建立了出來。
 
 
經(jīng)過兩次測(cè)試,每一次所有排放都在降低,而且這個(gè)降低的值是完全無(wú)法通過傳統(tǒng)的人工調(diào)整達(dá)到的。
 
除了這些看得見摸得著的原因之外,強(qiáng)化學(xué)習(xí)還承載起了研究人員的一個(gè)美好的「夢(mèng)想」:通用人工智能(AGI)的誕生。

AGI會(huì)在游戲里誕生嗎?

 
AGI的最終目標(biāo)是終結(jié)者中的「天網(wǎng)」嗎?絕對(duì)不是!
 
正如AI發(fā)展的終點(diǎn)是為了人類更加美好的生活,AGI同樣如此。當(dāng)機(jī)器能夠擁有和人類一樣智能的那天,萬(wàn)事都變得簡(jiǎn)單了。
 
 
然而,對(duì)于應(yīng)該如何實(shí)現(xiàn)這一目標(biāo),雖然各路專家們還無(wú)法完全達(dá)成一致,但肯定不是監(jiān)督學(xué)習(xí)。
 
于是剩下的兩個(gè)分支自然也就形成了:以Meta(LeCun)為首的自監(jiān)督學(xué)習(xí)派;以DeepMind和OpenAI為首的強(qiáng)化學(xué)習(xí)派。
 
 
2021年6月,DeepMind首席研究科學(xué)家、倫敦大學(xué)學(xué)院教授David Silver在題為「Reward is enough」的論文中指出,人工智能及其相關(guān)能力不是通過制定和解決復(fù)雜問題而產(chǎn)生的,而是通過堅(jiān)持一個(gè)簡(jiǎn)單而強(qiáng)大的原則:獎(jiǎng)勵(lì)最大化。
 
簡(jiǎn)而言之,Silver等人認(rèn)為,智能的定義是使獎(jiǎng)勵(lì)最大化的能力,同時(shí)獎(jiǎng)勵(lì)的最大化也可以用來來解釋智力以及通用人工智能的出現(xiàn)。
 
 
但是在我們到達(dá)AGI之前,沒人知道答案是什么。
 
因此,在這個(gè)時(shí)候,做再多的嘗試也不為過。
 
而開悟平臺(tái)的出現(xiàn),也讓感興趣的研究人員們可以更容易地接觸到強(qiáng)化學(xué)習(xí)。
 
其中的開悟平臺(tái)以「AI+游戲」為切入,讓越來越多的人可以參與到探討和研究之中,并進(jìn)一步將在該游戲測(cè)試環(huán)境中探索得到的新技術(shù)和新方法,應(yīng)用于日常生活中的現(xiàn)實(shí)問題。
 
目前,以開悟?yàn)槠脚_(tái)基礎(chǔ),兩屆「騰訊開悟多智能體強(qiáng)化學(xué)習(xí)高校邀請(qǐng)賽」已經(jīng)成功落地,國(guó)內(nèi)20+名校積極響應(yīng),成為國(guó)內(nèi)高校頂級(jí)AI競(jìng)賽。
 
通往AGI沒有唯一路徑,隨著入局者的增加,AGI這個(gè)領(lǐng)域的最終命題也許可以找到更多通道。 
 
而借著大運(yùn)會(huì)「智慧大運(yùn)」東風(fēng),即將舉辦的「世界大學(xué)生數(shù)智競(jìng)技邀請(qǐng)賽」正是提供了這樣一個(gè)更具影響力和更具國(guó)際化的舞臺(tái),從而吸引到來自各地的AI人才加入。
 
 
畢竟,AI行業(yè)里流傳著這么一句話:「下一個(gè)AI的里程碑,很有可能會(huì)在復(fù)雜游戲里誕生」。
 
當(dāng)更多人參與到開悟平臺(tái)所搭建的王者榮耀AI賽事中的時(shí)候,我們與那個(gè)電影中構(gòu)想的未來就又近了一步。
 
以開悟平臺(tái)為載體,王者榮耀AI賽事此前已經(jīng)舉辦了2屆高校賽。此次的大運(yùn)會(huì)上,大運(yùn)會(huì)執(zhí)委會(huì)和《王者榮耀》還宣布了「開悟AI多智能體博弈」和「王者榮耀世界高校電競(jìng)」兩條賽道。
 
看得出來,做AI,《王者榮耀》是認(rèn)真的。
 
此外,邀請(qǐng)賽進(jìn)入大運(yùn)會(huì)還能夠促進(jìn)產(chǎn)學(xué)研用一體化,讓中國(guó)算法平臺(tái)走向世界,促進(jìn)人才與技術(shù)交流。
 
或許,這次的比賽還能為未來通用人工智能技術(shù)發(fā)展埋下一顆「小小的」種子。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
馬斯克就人工智能再次發(fā)出警告,內(nèi)心究竟在恐懼什么?
太神了!vivo教會(huì)手機(jī)打王者榮耀,未來上分就交給AI吧!
比爾·蓋茨:AI時(shí)代已經(jīng)開啟,GPT是40年來最具革命性技術(shù)
10億美元賭注:OpenAI稱5年后AI有望達(dá)到人腦水平
微軟狂砸10億美元押注OpenAI,欲搶奪人工智能皇冠上的明珠?
《萬(wàn)維鋼AI前言課》3000字復(fù)盤
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服