孙俪生宝宝视频,没美女视频,透视美女视频

新智元報(bào)道

編輯：好困桃子

【新智元導(dǎo)讀】見過學(xué)霸打王者的樣子嗎？這不，清華、中科大、耶魯?shù)仁澜?2所頂尖高校學(xué)霸集結(jié)，一來打王者，二來搞科研。

之前湊在一起「打王者」的學(xué)霸又來了！

成都大運(yùn)會(huì)開幕在即，「世界大學(xué)生數(shù)智競(jìng)技邀請(qǐng)賽」正式啟動(dòng)。

國(guó)際級(jí)規(guī)模的大賽共邀請(qǐng)了12支隊(duì)伍（包含中國(guó)大陸地區(qū)4所高校、中國(guó)港澳臺(tái)地區(qū)及海外8所高校）參加。

每支隊(duì)伍都需要訓(xùn)練三位英雄，并在之后讓自己的AI進(jìn)行「3V3」的對(duì)戰(zhàn)，而獲得冠軍的團(tuán)隊(duì)可獲得高達(dá)20萬(wàn)的獎(jiǎng)金。

在此前的1V1中，各大高校的AI各種「騷操作」不斷。

比如，絲血完成反殺之后，又閃現(xiàn)進(jìn)塔的藍(lán)方貂蟬。

在這背后默默提供支持的，正是以「強(qiáng)化學(xué)習(xí)」為基礎(chǔ)，《王者榮耀》和騰訊AI Lab共同研發(fā)的AI開放研究平臺(tái) —— 開悟。

不過，為什么是強(qiáng)化學(xué)習(xí)？

強(qiáng)化學(xué)習(xí)和游戲有什么關(guān)系？

強(qiáng)化學(xué)習(xí)（Reinforcement Learning）是除了監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之外的第三種基本的機(jī)器學(xué)習(xí)方法。一定程度上，一些復(fù)雜的強(qiáng)化學(xué)習(xí)算法在具備解決復(fù)雜問題的通用智能，可以在圍棋和電子游戲中達(dá)到人類水平，算是現(xiàn)階段人工智能領(lǐng)域研究中的一門「必修課」。

舉個(gè)例子，不知道大家還記不記得曾經(jīng)風(fēng)靡一時(shí)的Flappy Bird嗎，這其實(shí)就是一個(gè)典型的強(qiáng)化學(xué)習(xí)場(chǎng)景：

1. 智能體——小鳥

2. 與智能體進(jìn)行交互的「環(huán)境」——參差不齊的水管

3. 智能體可能做出的「動(dòng)作」——向上飛一下或者什么都不做

4. 智能體采取的行動(dòng)所遵循的「策略」——為躲避水管而采取行動(dòng)的概率

5. 智能體在采取行動(dòng)時(shí)得到的「獎(jiǎng)勵(lì)」——飛得越遠(yuǎn)得分就越高

環(huán)境會(huì)給智能體一個(gè)觀測(cè)值，智能體接收到環(huán)境給的觀測(cè)值之后會(huì)做出一個(gè)動(dòng)作, 這個(gè)動(dòng)作給予一個(gè)獎(jiǎng)勵(lì)，以及給出一個(gè)新的觀測(cè)值。智能體根據(jù)環(huán)境給予的獎(jiǎng)勵(lì)值去更新自己的策略。

最終，智能體能通過強(qiáng)化學(xué)習(xí)找到一種方法，使自己從系統(tǒng)的每個(gè)狀態(tài)中提取的平均價(jià)值最大化。

雖然早在上世紀(jì)50年代，強(qiáng)化學(xué)習(xí)的相關(guān)理論就已經(jīng)開始成形。但真正走入到大眾的視野之中，還是要靠著「游戲」。

2016年1月，DeepMind的圍棋AI——AlphaGo登上《Nature》封面：Mastering the game of Go with deep neural networks and tree search（通過深度神經(jīng)網(wǎng)絡(luò)和搜索樹，學(xué)會(huì)圍棋游戲）。

通過利用強(qiáng)化學(xué)習(xí)的Value Networks（價(jià)值網(wǎng)絡(luò)）和 Policy Networks（策略網(wǎng)絡(luò)），AlphaGo可以實(shí)現(xiàn)棋盤位置的評(píng)估，以及步法的選擇。

兩個(gè)月后，AlphaGo在和李世石的對(duì)戰(zhàn)中實(shí)現(xiàn)驚天逆轉(zhuǎn)，取得勝利。

看到AlphaGo的成功，OpenAI直呼厲害！

于是在2016年11月，OpenAI Five正式立項(xiàng)。

雖然相比于更加正經(jīng)的圍棋來說，玩《Dota 2》的OpenAI Five感覺完全是在「不務(wù)正業(yè)」。但實(shí)際上，后者的難度其實(shí)要高得多：

OpenAI Five需要從8000到80000個(gè)動(dòng)作中做出選擇，其中每一步還需觀察約16000個(gè)值。相比之下，國(guó)際象棋中平均的可行動(dòng)作是35個(gè)，圍棋是250個(gè)。

經(jīng)過近3年的訓(xùn)練，OpenAI Five在2019年以2:0擊敗了世界冠軍團(tuán)隊(duì)。

同年，DeepMind也祭出了自己潛心打造的AlphaStar，在《星際爭(zhēng)霸2》中以5比0的比分，擊敗了頂尖的職業(yè)級(jí)玩家。

當(dāng)然，除了利用已有的游戲場(chǎng)景訓(xùn)練強(qiáng)化學(xué)習(xí)智能體以外，也可以從0打造「訓(xùn)練基地」。

2021年，在斯坦福教授李飛飛的帶領(lǐng)下，研究小組創(chuàng)建了一個(gè)計(jì)算機(jī)模擬的「游樂場(chǎng)」——DERL（深度進(jìn)化強(qiáng)化學(xué)習(xí)）。

在這篇刊登在《自然通訊》上的論文中，團(tuán)隊(duì)設(shè)置了一個(gè)虛擬空間，并將簡(jiǎn)單的模擬生物放入其中。當(dāng)然，這些生物只是一些通過「隨機(jī)方式」進(jìn)行移動(dòng)的「幾何圖形」（Unimal）。

這些Unimal生長(zhǎng)在不同的星球中，星球中充滿了「起伏的山丘」和「低矮的障礙物」，他們?cè)诟蛹ち业沫h(huán)境中展開競(jìng)爭(zhēng)。

Unimal必須通過這些多變的地形，并將一個(gè)塊狀物移動(dòng)到目標(biāo)位置，而只有勝者才能繼續(xù)產(chǎn)生后代。

李飛飛的這項(xiàng)研究也位學(xué)界帶來了一種新的思路：當(dāng)我們不知道該如何設(shè)計(jì)執(zhí)行特殊任務(wù)的機(jī)器人時(shí)，不妨在強(qiáng)化學(xué)習(xí)的環(huán)境中讓它們自己「進(jìn)化」出合適的形態(tài)。

說到這里其實(shí)已經(jīng)不難看出，不管是頂級(jí)的公司，還是大學(xué)的教授都在利用游戲+強(qiáng)化學(xué)習(xí)的形式來探索人工智能新的邊界。

在如此重要的領(lǐng)域里，怎么能少了中國(guó)團(tuán)隊(duì)的身影。

于是乎，王者榮耀AI正式發(fā)布。

與《Dota2》和《星際爭(zhēng)霸2》類似，在《王者榮耀》中玩家的動(dòng)作狀態(tài)空間高達(dá)10的20000次方，遠(yuǎn)遠(yuǎn)大于圍棋及其他游戲，甚至超過整個(gè)宇宙的原子總數(shù)（10的80次方）。

王者榮耀AI產(chǎn)品可以分為兩個(gè)部分：「打游戲」的王者絕悟以及「造絕悟」的開悟平臺(tái)。

王者絕悟，簡(jiǎn)單來說就是《王者榮耀》版的OpenAI Five或AlphaStar，它是《王者榮耀》與騰訊AI Lab共同探索人工智能在游戲場(chǎng)景應(yīng)用而推出的「策略協(xié)作型AI」。

其中，「策略」指的是AI能夠通過獲取到的信息，分析局勢(shì)優(yōu)化策略，做出更有利于獲勝的行為?！竻f(xié)作」則指操作游戲內(nèi)多個(gè)智能體（即多個(gè)不同的英雄）互相配合，協(xié)同推進(jìn)博弈。

在2018年對(duì)戰(zhàn)頂尖水平的非職業(yè)戰(zhàn)隊(duì)時(shí)，王者絕悟就表現(xiàn)出即時(shí)策略團(tuán)隊(duì)協(xié)作能力。

在對(duì)方團(tuán)滅后，兵線還尚未到達(dá)，下路高地塔還有過半血量，王者絕悟果斷選擇四人輪流抗塔，無(wú)兵線強(qiáng)拆。

不過，在訓(xùn)練這些AI之前，首先得有一個(gè)可供訓(xùn)練的平臺(tái)。

對(duì)于DeepMind和OpenAI來說，只需稍稍發(fā)揮一下自己的影響力就能在現(xiàn)成的游戲平臺(tái)上開啟「深度合作」模式。

然而，對(duì)于普通的研究者來說，想要在這些游戲上做研究就只能調(diào)用開放的接口了，體驗(yàn)上來講肯定要差許多。

不過，以《王者榮耀》為模擬環(huán)境的開悟平臺(tái)就不一樣了，雖然也是基于游戲，但卻是開放的。

再結(jié)合上算法、數(shù)據(jù)、算力的優(yōu)勢(shì)，開悟平臺(tái)可以為學(xué)術(shù)研究人員提供一個(gè)全棧打通的閉環(huán)科研驗(yàn)證環(huán)境。

除了可以提供「AI+游戲」的研究場(chǎng)景，以及大規(guī)模彈性算力來支撐AI的研究外，還有統(tǒng)一的強(qiáng)化框架來加速研發(fā)。

不僅如此，開悟平臺(tái)還會(huì)提供通用的訓(xùn)練和推理服務(wù)，進(jìn)一步加速AI的訓(xùn)練。

比如開篇提到的去年《王者榮耀》開悟AI賽事的1V1比拼中，清北、中科院、浙大等20余所高校，借助開悟平臺(tái)提供的算法、算力、數(shù)據(jù)、場(chǎng)景等資源，訓(xùn)練出了自己的AI模型。

也許在觀眾看來，雙方的比拼是一場(chǎng)操作水平的競(jìng)技。但是實(shí)際上，這是強(qiáng)化學(xué)習(xí)技術(shù)層面上的角逐 —— AI是如何應(yīng)用大策略，比如何時(shí)進(jìn)攻、何時(shí)撤退、在哪埋伏；以及微觀數(shù)據(jù)判斷 —— 比如血量的計(jì)算、出裝、技能CD計(jì)算等等。

如果沒有開悟平臺(tái)的話，也許這些表面是電競(jìng)比拼，實(shí)際是科技水平對(duì)決的精彩比賽也就不復(fù)存在了。

但，可能又會(huì)有新的疑問出現(xiàn)了。

為何要在游戲中研究人工智能？

其實(shí)答案很簡(jiǎn)單。

最直接的原因就是AI可以構(gòu)建建更動(dòng)態(tài)有趣的游戲環(huán)境和更靈活多變的游戲角色，提升游戲制作效率和玩家的游戲體驗(yàn)。

當(dāng)然，更重要的意義是將人工智能技術(shù)應(yīng)用于諸如醫(yī)療、制造、無(wú)人駕駛、城市管理等現(xiàn)實(shí)生活中的領(lǐng)域。

而游戲則為AI技術(shù)研發(fā)提供了具有明顯優(yōu)勢(shì)的虛擬實(shí)驗(yàn)環(huán)境：

提供易于量化的訓(xùn)練和評(píng)估指標(biāo)

游戲中的等級(jí)、血量、經(jīng)濟(jì)等等，都有助于為AI設(shè)定任務(wù)目標(biāo)，同時(shí)還能為檢驗(yàn)AI能力提供統(tǒng)一的驗(yàn)證評(píng)估標(biāo)準(zhǔn)。

難度接近甚至超過很多現(xiàn)實(shí)任務(wù)

比如《王者榮耀》需要分析存在戰(zhàn)爭(zhēng)迷霧的游戲環(huán)境，還需要預(yù)測(cè)敵方的行為，更需要友方的互相協(xié)作。在這樣的環(huán)境中成功研發(fā)的AI技術(shù)在學(xué)習(xí)解決復(fù)雜的現(xiàn)實(shí)任務(wù)時(shí)會(huì)更加得心應(yīng)手。

更快的速度、更低的成本

不同于現(xiàn)實(shí)任務(wù)，游戲環(huán)境的一切都發(fā)生在計(jì)算機(jī)系統(tǒng)內(nèi)部，因此在這個(gè)環(huán)境中進(jìn)行開發(fā)的成本要低得多，而且也能以更快的速度大規(guī)模并行式地進(jìn)行訓(xùn)練。

更多場(chǎng)景、更加安全

游戲可以AI模型提供各種各樣，甚至是十分危險(xiǎn)的場(chǎng)景模擬，比如為自動(dòng)駕駛AI構(gòu)建橫穿馬路的行人，或者各種極端的天氣等等。

看起來不太直觀？

不如，我們?cè)诂F(xiàn)實(shí)世界中嘗試一下用強(qiáng)化學(xué)習(xí)訓(xùn)練智能體開車吧。

由于模型的初始參數(shù)時(shí)隨機(jī)的，所以智能體最開始經(jīng)常一腳油就帶著車沖向了路邊的籬笆上，研究人員不得不趕緊把方向打回來。

基于人工的干預(yù)，智能體便得到了自己動(dòng)作的「獎(jiǎng)勵(lì)」，知道這樣操作是不對(duì)的。

還好整個(gè)過程有驚無(wú)險(xiǎn)，而智能體的操作也逐漸嫻熟了起來。

在經(jīng)過11次訓(xùn)練之后，終于學(xué)會(huì)了沿著道路行駛。

當(dāng)然了，這只是研究人員做的一個(gè)實(shí)驗(yàn)，真正可用的AI可不能這么訓(xùn)練。

不過，如此一來也可以看出，直接在現(xiàn)實(shí)中訓(xùn)練AI不僅十分耗時(shí)，而且場(chǎng)景不能太復(fù)雜，畢竟萬(wàn)一反應(yīng)不及時(shí)，這「成本」就太高了……

雖然，強(qiáng)化學(xué)習(xí)在理論上具有諸多優(yōu)勢(shì)，但實(shí)際的落地卻并沒有像深度學(xué)習(xí)那樣轟轟烈烈。即便如此，也已經(jīng)在不少領(lǐng)域取得了進(jìn)展。

比如在工業(yè)方面，南京大學(xué)的俞揚(yáng)教授帶領(lǐng)團(tuán)隊(duì)利用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了汽車的檢驗(yàn)。

汽車上市之前需要調(diào)參數(shù)，這其中涉及到很多仿真，通常需要幾十年的經(jīng)驗(yàn)積累。

而俞揚(yáng)團(tuán)隊(duì)花了大概兩個(gè)月的時(shí)間，整理清楚了數(shù)據(jù)和流程，以及發(fā)動(dòng)機(jī)該怎么控制。雖然對(duì)行業(yè)一無(wú)所知，但有了這個(gè)數(shù)據(jù)以后，強(qiáng)化學(xué)習(xí)自己把發(fā)動(dòng)機(jī)模型、整車模型全部建立了出來。

經(jīng)過兩次測(cè)試，每一次所有排放都在降低，而且這個(gè)降低的值是完全無(wú)法通過傳統(tǒng)的人工調(diào)整達(dá)到的。

除了這些看得見摸得著的原因之外，強(qiáng)化學(xué)習(xí)還承載起了研究人員的一個(gè)美好的「夢(mèng)想」：通用人工智能（AGI）的誕生。

AGI會(huì)在游戲里誕生嗎？

AGI的最終目標(biāo)是終結(jié)者中的「天網(wǎng)」嗎？絕對(duì)不是！

正如AI發(fā)展的終點(diǎn)是為了人類更加美好的生活，AGI同樣如此。當(dāng)機(jī)器能夠擁有和人類一樣智能的那天，萬(wàn)事都變得簡(jiǎn)單了。

然而，對(duì)于應(yīng)該如何實(shí)現(xiàn)這一目標(biāo)，雖然各路專家們還無(wú)法完全達(dá)成一致，但肯定不是監(jiān)督學(xué)習(xí)。

于是剩下的兩個(gè)分支自然也就形成了：以Meta（LeCun）為首的自監(jiān)督學(xué)習(xí)派；以DeepMind和OpenAI為首的強(qiáng)化學(xué)習(xí)派。

2021年6月，DeepMind首席研究科學(xué)家、倫敦大學(xué)學(xué)院教授David Silver在題為「Reward is enough」的論文中指出，人工智能及其相關(guān)能力不是通過制定和解決復(fù)雜問題而產(chǎn)生的，而是通過堅(jiān)持一個(gè)簡(jiǎn)單而強(qiáng)大的原則：獎(jiǎng)勵(lì)最大化。

簡(jiǎn)而言之，Silver等人認(rèn)為，智能的定義是使獎(jiǎng)勵(lì)最大化的能力，同時(shí)獎(jiǎng)勵(lì)的最大化也可以用來來解釋智力以及通用人工智能的出現(xiàn)。

但是在我們到達(dá)AGI之前，沒人知道答案是什么。

因此，在這個(gè)時(shí)候，做再多的嘗試也不為過。

而開悟平臺(tái)的出現(xiàn)，也讓感興趣的研究人員們可以更容易地接觸到強(qiáng)化學(xué)習(xí)。

其中的開悟平臺(tái)以「AI+游戲」為切入，讓越來越多的人可以參與到探討和研究之中，并進(jìn)一步將在該游戲測(cè)試環(huán)境中探索得到的新技術(shù)和新方法，應(yīng)用于日常生活中的現(xiàn)實(shí)問題。

目前，以開悟?yàn)槠脚_(tái)基礎(chǔ)，兩屆「騰訊開悟多智能體強(qiáng)化學(xué)習(xí)高校邀請(qǐng)賽」已經(jīng)成功落地，國(guó)內(nèi)20+名校積極響應(yīng)，成為國(guó)內(nèi)高校頂級(jí)AI競(jìng)賽。

通往AGI沒有唯一路徑，隨著入局者的增加，AGI這個(gè)領(lǐng)域的最終命題也許可以找到更多通道。

而借著大運(yùn)會(huì)「智慧大運(yùn)」東風(fēng)，即將舉辦的「世界大學(xué)生數(shù)智競(jìng)技邀請(qǐng)賽」正是提供了這樣一個(gè)更具影響力和更具國(guó)際化的舞臺(tái)，從而吸引到來自各地的AI人才加入。

畢竟，AI行業(yè)里流傳著這么一句話：「下一個(gè)AI的里程碑，很有可能會(huì)在復(fù)雜游戲里誕生」。

當(dāng)更多人參與到開悟平臺(tái)所搭建的王者榮耀AI賽事中的時(shí)候，我們與那個(gè)電影中構(gòu)想的未來就又近了一步。

以開悟平臺(tái)為載體，王者榮耀AI賽事此前已經(jīng)舉辦了2屆高校賽。此次的大運(yùn)會(huì)上，大運(yùn)會(huì)執(zhí)委會(huì)和《王者榮耀》還宣布了「開悟AI多智能體博弈」和「王者榮耀世界高校電競(jìng)」兩條賽道。

看得出來，做AI，《王者榮耀》是認(rèn)真的。

此外，邀請(qǐng)賽進(jìn)入大運(yùn)會(huì)還能夠促進(jìn)產(chǎn)學(xué)研用一體化，讓中國(guó)算法平臺(tái)走向世界，促進(jìn)人才與技術(shù)交流。

或許，這次的比賽還能為未來通用人工智能技術(shù)發(fā)展埋下一顆「小小的」種子。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

新智元報(bào)道

【新智元導(dǎo)讀】見過學(xué)霸打王者的樣子嗎？這不，清華、中科大、耶魯?shù)仁澜?2所頂尖高校學(xué)霸集結(jié)，一來打王者，二來搞科研。

【新智元導(dǎo)讀】見過學(xué)霸打王者的樣子嗎？這不，清華、中科大、耶魯?shù)仁澜?2所頂尖高校學(xué)霸集結(jié)，一來打王者，二來搞科研。