丝袜美女视频叫床,杨幂床戏视频

DeepMind用同一個算法，攻克了國際象棋、將棋、圍棋和雅達(dá)利游戲。動圖來源：DeepMind

開發(fā)出人工通用智能，一直是人工智能研究的一大目標(biāo)。此前的許多算法雖能精通諸如圍棋、象棋等游戲，卻無法“觸類旁通”，每遇到新的游戲都需要更改框架，重新學(xué)習(xí)，更不用說將棋類游戲的方法搬到電腦游戲上了。

然而就在昨天，曾開發(fā)AlphaGo的DeepMind公司在《自然》上發(fā)文，正式宣布了MuZero：這個新的算法不僅精通圍棋、國際象棋和將棋，還能在30多款雅達(dá)利（Atari）游戲上全面超越過去的人工智能算法和人類。MuZero的正式發(fā)布，為人工智能領(lǐng)域揭開了新的篇章。

撰文 | 羅丁豪

故事從2014年開始，基于倫敦的DeepMind公司懷著一腔雄心壯志，著手建造一個巨大項(xiàng)目：他們想要將正在生根發(fā)芽的人工智能（artificial intelligence，簡稱AI）技術(shù)大面積地應(yīng)用到人類生活場景中，讓機(jī)器與人真正地互動并融合。

他們決定從國際象棋入手：這是一個需要長期計(jì)劃能力的人類游戲，對初出茅廬的AI技術(shù)來說是一項(xiàng)嚴(yán)峻的挑戰(zhàn)。即使在1997年IBM的“深藍(lán)”（Deep Blue）擊敗當(dāng)時的國際象棋冠軍卡斯帕羅夫之后，棋類AI的發(fā)展仍步履維艱。以圍棋（Go，即日語“碁”字之轉(zhuǎn)寫）為例：2013年，AI在不讓子的情況下幾乎無法擊敗人類職業(yè)選手。

2016年，AlphaGo橫空出世，以4:1擊敗韓國選手李世石，并在2017年的烏鎮(zhèn)圍棋峰會上擊敗了世界第一棋手柯潔。中國圍棋協(xié)會當(dāng)即授予AlphaGo職業(yè)圍棋九段的稱號。

如果說AlphaGo的成功確立了AI的“圍棋霸權(quán)”，隨后的AlphaGo Zero和AlphaZero則進(jìn)一步揭示了“棋類霸權(quán)”的可能性。作為AI算法，不論是AlphaGo還是其繼位者，都需要大量的訓(xùn)練。AlphaGo依賴于專家棋法（expert moves）數(shù)據(jù)集，而AlphaGo Zero舍去了這一步，直接與自己對戰(zhàn)以為訓(xùn)練提供數(shù)據(jù)。AlphaZero則除了圍棋，更學(xué)會了日本象棋（將棋）和國際象棋。值得一提的是，2018年底發(fā)布的AlphaZero，從第一次見到棋盤，到成為世界級棋類大師，只用了24小時。

DeepMind公司在過去幾年中陸續(xù)開發(fā)了AlphaGo、AlphaGo Zero、AlphaZero和MuZero。圖片來源：DeepMind，翻譯制圖：羅丁豪

然后，MuZero來了。一篇昨晚正式發(fā)表于《自然》的論文，揭示了一個更加通用、強(qiáng)力的算法：MuZero不僅能下圍棋、將棋和國際象棋，還在30多款雅達(dá)利游戲中展示出了超人類表現(xiàn)（superhuman performance）。

最重要的是，沒人教過MuZero這些游戲的規(guī)則。

無師自通

自古以來，哲學(xué)家和科學(xué)家都幻想著有朝一日能造出“人工通用智能”（artificial general intelligence）。簡單地說，人工通用智能需要有極高的可塑性（flexibility），從而適應(yīng)（甚至精通）各式不同的任務(wù)：一個能下棋、玩游戲、做家務(wù)、開飛機(jī)的AI。然而在此之前，最好的AI算法也只能精通數(shù)個同類任務(wù)；會下圍棋、將棋和國際象棋的AlphaZero就是一個例子。

這種限制，在很大程度上來自AI算法對規(guī)則的依賴性。要想讓AlphaZero下好各種棋，人類需要明確地教它各種棋的規(guī)則。以國際象棋為例，AlphaZero知道象只能斜著走，還不能跨過障礙物，而馬可以跨過障礙物，但需要走“日”字。AlphaZero也知道什么是輸贏和平局?？墒且坏└鼡Q棋種，人類就需要將新棋種的規(guī)則從頭教給AlphaZero。

AlphaZero（簡稱AZ）對戰(zhàn)各個此前最強(qiáng)的棋類AI。圖片來源：DeepMind，翻譯制圖：羅丁豪

既然這種依賴性限制了目前AI算法的應(yīng)用范圍，那最簡單的解決方案，就是去除這種依賴性：人類可以不教AI下棋，只給它一個棋盤。每當(dāng)AI選擇了下一步該如何走時，人類才告訴它這一步合不合法，并且是否導(dǎo)致了輸贏或平局。

——這就是MuZero面臨的情境。對于任何一個游戲或任務(wù)，MuZero所掌握的只有一套“思考方式”，并沒有該任務(wù)的“行為準(zhǔn)則”。它不知道國際象棋里的馬該怎么走，也不知道將棋中如何達(dá)成“王手”。如同第一次見到電腦的小孩，MuZero具有作出推理論斷的“思維工具”，但不知道如何才能贏得“掃雷”。

跟人類一樣，MuZero的秘訣，在于摸著石頭過河，為外部世界建立一個只屬于自己的“模型”（internal model）。在這個內(nèi)部模型中，MuZero舍棄了一切表面上的規(guī)則，只留下對決策有用的信息：價(jià)值（value，即當(dāng)前決策“有多好”）、策略（policy，即最好的“下一步”是什么）和獎勵（reward，即上一步“有多好”）。

MuZero能為外部世界建立模型，從而指導(dǎo)自己在不同任務(wù)中的策略。圖片來源：Connor Shorten，翻譯制圖：羅丁豪

要明白這種策略的特殊和有效性，我們可以拿MuZero和AlphaZero的神經(jīng)網(wǎng)絡(luò)作對比：

任何深度學(xué)習(xí)算法在面對棋盤時，第一步總是觀察。AlphaZero能觀察當(dāng)前棋局（），并直接利用計(jì)劃未來的棋步。這要多虧了它所知道的棋類規(guī)則：它明白做出一個動作（action）后的下一個棋局長什么樣，并可以在下一個棋局的基礎(chǔ)上繼續(xù)規(guī)劃棋路，“想象”并評估各種不同的可能性。這樣的規(guī)劃方式，在深度學(xué)習(xí)上稱為“蒙特卡洛樹搜索”（Monte Carlo tree search，MCTS）。MCTS允許算法探索不同的可能性，并從中擇出最優(yōu)的動作。因此，熟知規(guī)則的AlphaZero要想精通棋類，只需要一個“神經(jīng)網(wǎng)絡(luò)”（neural network），即“預(yù)測網(wǎng)絡(luò)”（prediction network），給輸入一個狀態(tài)，它就能給出這個狀態(tài)的價(jià)值（）和潛在策略（）；通過評估各個可能性，AlphaZero就能得知當(dāng)前最好的棋步。

MuZero則沒有這種“奢華待遇”：它需要摸索出棋盤上各個子的合法（legal）走法，還需要弄清輸贏的概念；當(dāng)然，它的目標(biāo)與AlphaZero一樣，贏就好了，越多越好。但在不清楚規(guī)則的情況下，MuZero需要另辟蹊徑，利用“表征網(wǎng)絡(luò)”（representation network），將觀察到的棋盤狀態(tài)轉(zhuǎn)換成只屬于自己的隱藏狀態(tài)（hidden state）。我們將當(dāng)前的棋盤狀態(tài)稱為“O”（observation，即觀察），MuZero的當(dāng)前隱藏狀態(tài)稱為。但這時，MuZero遇到了第二個大難題：如何像AlphaZero一樣評估未來的各種可能性呢？

不像AlphaZero，不知道棋盤規(guī)則的MuZero不能預(yù)測棋盤的各種可能狀態(tài)，因此，MuZero需要從零開始，創(chuàng)造自己對棋路的內(nèi)部模型。幸運(yùn)的是，有了隱藏狀態(tài)之后，MuZero就能算出狀態(tài)下可以做出的各種行動（經(jīng)過學(xué)習(xí)，MuZero得出的可能行動會越來越符合規(guī)則），并能通過“動態(tài)網(wǎng)絡(luò)”（dynamic network），利用MuZero選擇的行動和當(dāng)前潛在狀態(tài)，推演出。在每一個真實(shí)世界的時間點(diǎn)內(nèi)，MuZero都能利用自己的內(nèi)部模型和MCTS選擇出這一個時間點(diǎn)的最佳行為，并將其應(yīng)用于真實(shí)世界中。在實(shí)際做出了一個最佳行為后，這個行為又能再“回收”，用于訓(xùn)練動態(tài)網(wǎng)絡(luò)（從而改進(jìn)MuZero的內(nèi)部模型）。

AlphaZero和MuZero MCTS方法的并列對比。熟知規(guī)則的AlphaZero能由一個真實(shí)狀態(tài)和可能行為，推測下一個真實(shí)狀態(tài)。而MuZero由于不知道游戲規(guī)則，只能將真實(shí)狀態(tài)表征為隱藏狀態(tài)，學(xué)會建立自己的內(nèi)在模型。制圖：羅丁豪

也就是說，由于AlphaZero對規(guī)則的掌握，它只需要一個預(yù)測網(wǎng)絡(luò)就能精通棋類。而不能預(yù)先知曉規(guī)則的MuZero，則需要利用動態(tài)網(wǎng)絡(luò)和表征網(wǎng)絡(luò)，自己學(xué)習(xí)并建立一個內(nèi)在模型，從而學(xué)會下棋。在建立內(nèi)在模型的過程中，人類不會給MuZero設(shè)置任何限制：MuZero可以舍棄任何信息，只保留有用的元素（即價(jià)值、策略和獎勵）。

相比于只需要1個神經(jīng)網(wǎng)絡(luò)的AlphaZero，MuZero需要3個神經(jīng)網(wǎng)絡(luò)來建立內(nèi)部模型，從而指導(dǎo)精確規(guī)劃。制圖：羅丁豪

與人類一樣，MuZero可以在它的“腦?！敝袆?chuàng)造任何規(guī)則和動態(tài)。它的目標(biāo)是做出最精確、最有效的未來規(guī)劃。舍棄了'循規(guī)蹈矩'的MuZero反而因此獲得了極強(qiáng)的可塑性，在截然不同的棋類和電腦游戲中都'得心應(yīng)手'。

'超人'表現(xiàn)？

就這樣，MuZero這樣一個“無師自通”的算法，竟然在AlphaZero引以為傲的棋類游戲中輕松與后者打成了平手。

在國際象棋、將棋和圍棋中，MuZero的表現(xiàn)（藍(lán)線）達(dá)到甚至超過了AlphaZero（橙線）。而在雅達(dá)利游戲“吃豆人小姐”中，MuZero的表現(xiàn)（藍(lán)線）遠(yuǎn)超此前表現(xiàn)最佳的R2D2算法得分（橙線）。圖片來源：Schrittwieser et al., Nature，翻譯制圖：羅丁豪

在國際象棋、將棋和圍棋中，MuZero都能達(dá)到AlphaZero的水平，甚至在圍棋中稍稍勝過了AlphaZero。這表明MuZero“自學(xué)成才”建立的內(nèi)部模型，或許比AlphaZero的“循規(guī)蹈矩”更接近圍棋的要義。在雅達(dá)利游戲中，MuZero的表現(xiàn)也非同尋常。以“吃豆人小姐”（Ms. Pac-Man）為例，MuZero的得分為243401.10，相比之下，人類的最高分只有6951.60，是MuZero的1/35。在57個測試用的雅達(dá)利游戲中，MuZero在37個中取得了歷史最高分，而人類則僅在5個游戲中保持著最佳成績。

但是，在利用AlphaZero和其他算法攻破了這些游戲后，反而對MuZero隱藏起規(guī)則，讓它“閉上眼”下棋、“背著手”玩游戲的目的是什么呢？

正如本文開頭所說，DeepMind和整個AI領(lǐng)域一樣，并不在乎國際象棋和雅達(dá)利游戲本身。這是一場事關(guān)智能的征途，目標(biāo)是理解智能本身。牙牙學(xué)語的嬰兒并不明白動名詞的區(qū)別，卻能在短短幾個月內(nèi)連詞成句，甚至創(chuàng)造出只屬于他們的句子。生物學(xué)家也并非生來就知曉細(xì)胞的各種秘密，而是在實(shí)驗(yàn)和失敗中，一步步對生物世界建立了理論和模型，從而獲得深刻洞見。

事實(shí)很殘酷：循規(guī)蹈矩不是智能。事先熟知規(guī)則再精通下棋，與先摸索規(guī)則、建立內(nèi)部模型再精通棋路是全然不同的。前者只能困于“棋”中，后者則能將一套“思考方式”搬到各種任務(wù)上。前者的例子包括AlphaGo到AlphaZero的各種棋類AI，后者則包括MuZero和于爾根·施密德胡波（Jürgen Schmidhuber）著名的“循環(huán)世界模型”（Recurrent World Model）。

為外界建立內(nèi)部表征是人類最引以為傲的能力之一。如今在AI身上，這個能力再次證明了自己的價(jià)值。MuZero不僅讓人類看到了創(chuàng)造人工通用智能的可能性，還為我們打開了一扇通往智能本身的大門：

智能究竟是什么？我們離答案似乎越來越近。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频