近日,Jose Camacho Collados 在 Medium 上發(fā)表了一篇題為《Is AlphaZero really a scientific breakthrough in AI?》的文章,對(duì) AlphaZero 在 AI 領(lǐng)域的真正科學(xué)價(jià)值提出質(zhì)疑。作者本人是一名自然語(yǔ)言處理專(zhuān)家,同時(shí)精通國(guó)際象棋。他認(rèn)為當(dāng)下媒體對(duì) AlphaZero 的壯舉存在夸大之嫌,因此作者從可用性/可復(fù)現(xiàn)性、4 小時(shí)訓(xùn)練、自我對(duì)弈、泛化能力等多方面表達(dá)了疑慮,所有的疑慮聚合到一起形成了對(duì) AlphaZero 的科學(xué)有效性的合理質(zhì)疑。
DeepMind 最近發(fā)表了一篇關(guān)于 AlphaZero [1] 的論文,介紹了一個(gè)通過(guò)自我學(xué)習(xí)掌握國(guó)際象棋或?qū)⑵宓南到y(tǒng)。
進(jìn)入正文之前,我首先做個(gè)自我介紹。我是一名人工智能領(lǐng)域研究者,方向是自然語(yǔ)言處理;我同樣也是一名國(guó)際象棋大師,目前是韓國(guó)的頂尖選手,但是由于我全職科研最近幾年不是很活躍。因此,我會(huì)盡力提出一個(gè)合理的、有建設(shè)性的觀(guān)點(diǎn)。很明顯我會(huì)著重講國(guó)際象棋,但是一些論點(diǎn)是通用的,可推算至將棋或圍棋。本文僅代表個(gè)人觀(guān)點(diǎn),可能出現(xiàn)錯(cuò)誤或誤解,請(qǐng)見(jiàn)諒。
國(guó)際象棋可以說(shuō)是在「人機(jī)對(duì)戰(zhàn)」和人工智能中研究最為廣泛的游戲。該領(lǐng)域的首個(gè)突破是 1997 年 IBM 深藍(lán)(Deep Blue)擊敗世界冠軍 Garry Kasparov [2]。在此之前,人們普遍認(rèn)為在國(guó)際象棋上機(jī)器不如人,但自深藍(lán)勝利以后,人與機(jī)器的國(guó)際象棋之爭(zhēng)已勝負(fù)分明。
Garry Kasparov 對(duì)戰(zhàn) IBM 深藍(lán),1997。
2016 年,DeepMind 推出圍棋引擎 AlphaGo,可擊敗一些人類(lèi)頂尖圍棋選手 [3]。值得注意的是圍棋的復(fù)雜性要遠(yuǎn)高于國(guó)際象棋,正由于此,盡管計(jì)算機(jī)的算力有了很大提升,但機(jī)器依然無(wú)法在圍棋上戰(zhàn)勝人類(lèi)。因此,AlphaGo 被認(rèn)為是一次突破。AlphaGo Zero 在 AlphaGo 的基礎(chǔ)上更進(jìn)一步,可通過(guò)完全自我對(duì)弈掌握圍棋 [4]。最近出現(xiàn)的 AlphaZero 是一個(gè)類(lèi)似的模型,通過(guò)通用強(qiáng)化學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)架構(gòu),并擊敗了最好的將棋和國(guó)際象棋引擎 [1]。
AlphaZero 的壯舉已被大眾媒體 [5,6] 和國(guó)際象棋媒體 [7,8] 大量報(bào)道,其中不乏對(duì)其突破的過(guò)分夸大。然而,通過(guò)仔細(xì)地閱讀 AlphaZero 的論文,我認(rèn)為確實(shí)存在對(duì)其重要聲明有效性的合理質(zhì)疑。有些質(zhì)疑本身可能并不重要,并且作者可能也做出了解釋。但即便如此,所有的疑慮聚合到一起就形成了對(duì)其主要聲明的科學(xué)有效性的合理質(zhì)疑。以下列舉了一些普遍的疑慮:
可用性/可復(fù)現(xiàn)性。DeepMind 開(kāi)發(fā)的 AlphaZero 系統(tǒng)都沒(méi)有對(duì)公眾開(kāi)放:代碼沒(méi)有開(kāi)源,甚至都沒(méi)有一個(gè)商業(yè)版本讓用戶(hù)進(jìn)行測(cè)試。這是一個(gè)很大的阻礙,因?yàn)閺目茖W(xué)角度看,這些方法既不能被驗(yàn)證也不能被其他專(zhuān)家利用。這種缺乏透明度的做法使他們的實(shí)驗(yàn)基本不可能被復(fù)現(xiàn)。
4 小時(shí)訓(xùn)練。AlphaZero 的訓(xùn)練量成為最難理解的因素之一。根據(jù)論文,AlphaZero 在 5000 個(gè) TPU 上訓(xùn)練了 4 個(gè)小時(shí),就達(dá)到了超越開(kāi)源國(guó)際象棋引擎 Stockfish 的級(jí)別(充分訓(xùn)練的 AlphaZero 需要再多幾個(gè)小時(shí)的訓(xùn)練)。這意味著如果僅使用一塊 TPU,AlphaZero 需要花費(fèi)大約兩年的訓(xùn)練時(shí)間,這個(gè)訓(xùn)練時(shí)間大大超過(guò)了使用一塊普通 CPU 的訓(xùn)練時(shí)間。因此,即使 4 小時(shí)訓(xùn)練時(shí)間給我們留下深刻的印象(確實(shí)很深刻),這也主要是近幾年算力得到極大發(fā)展的功勞,特別是像 DeepMind 這樣對(duì)算力進(jìn)行大量投資的公司。例如,到 2012 年,7 子以?xún)?nèi)的所有象棋局面已經(jīng)可以使用數(shù)學(xué)方法和少得多的計(jì)算資源求解 [9]。計(jì)算能力的提升為新算法的開(kāi)發(fā)鋪平了道路,可能幾年后國(guó)際象棋這樣的游戲甚至可以使用暴力求解方法來(lái)解決。
AlphaZero 和 Stockfish 的比賽實(shí)驗(yàn)設(shè)置。為了證明 AlphaZero 相對(duì)于以前的國(guó)際象棋引擎的優(yōu)越性,DeepMind 讓 AlphaZero 和 Stockfish 進(jìn)行了 100 次比賽(AlphaZero 以 64:36 的成績(jī)打敗了 Stockfish)。選擇 Stockfish 作為對(duì)手看起來(lái)是挺合理的,Stockfish 是目前最強(qiáng)大的開(kāi)源國(guó)際象棋引擎,且在最近的 TCEC(目前世界上水平最高的引擎競(jìng)賽)中取得了第三名(排名在 Komodo 和 Houdini 之后)[10]。然而,AlphaZero 和 Stockfish 比賽的實(shí)驗(yàn)設(shè)置看起來(lái)并不公平。他們使用的 Stockfish 版本并不是最新的,更重要的是,該版本還是在一個(gè)普通 PC 上運(yùn)行的,而 AlphaZero 使用的計(jì)算能力要強(qiáng)大得多。例如,在 TCEC 競(jìng)賽中,所有的引擎都必須使用相同的處理器進(jìn)行比賽。此外,對(duì)時(shí)間的選擇看起來(lái)也很奇怪。每一個(gè)引擎被設(shè)置成每一手一分鐘的思考時(shí)間。然而,大部分人機(jī)競(jìng)賽都只為整場(chǎng)比賽指定固定時(shí)間,每一手的時(shí)間由選手自行管理。正如 Stockfish 的最初開(kāi)發(fā)者之一 Tord Romstad 指出的,這是影響 Stockfish 表現(xiàn)的另一項(xiàng)可疑決定,「研究者投入了大量努力使 Stockfish 能夠鑒別游戲中的關(guān)鍵點(diǎn),在走棋中決定什么時(shí)候使用額外的時(shí)間 [10]?!筎ord Romstad 還指出 Stockfish「執(zhí)行的搜索線(xiàn)程遠(yuǎn)遠(yuǎn)多于多次測(cè)試中的線(xiàn)程」。此外,AlphaZero 對(duì)戰(zhàn) Stockfish 的超高勝率使某些頂尖的國(guó)際象棋選手非常驚訝,它挑戰(zhàn)了「國(guó)際象棋引擎幾乎不可戰(zhàn)勝」的普遍觀(guān)念(例如,世界排名第九的國(guó)際象棋選手 Hikaru Nakamura 質(zhì)疑了 AlphaZero 和 Stockfish 比賽中的低平局率 [11])。
和 Stockfish 的 10 局比賽。DeepMind 的論文只分享了 10 場(chǎng)比賽樣本,10 場(chǎng)全是 AlphaZero 取得勝利 [12]。由于 AlphaZero 展示出的對(duì)象棋的「深度理解」,這些比賽獲得了象棋社區(qū)的一致贊揚(yáng):Peter-Heine Nielsen [13],象棋特級(jí)大師、世界冠軍 Magnus Carlsen 的教練;Maxime Vachier Lagrave [11],世界排名第五的象棋選手,二者均對(duì) AlphaZero 在和 Stockfish 比賽中的表現(xiàn)做出了積極回應(yīng)。但是,在科技論文中展示提出系統(tǒng)出現(xiàn)缺點(diǎn)或表現(xiàn)不太好的樣本是一種慣例,以使大家對(duì)該系統(tǒng)有一個(gè)全局了解,也便于其他研究者基于此進(jìn)行進(jìn)一步研究。該論文另一個(gè)不明確的地方是比賽是從特定的開(kāi)局開(kāi)始還是從頭開(kāi)始。鑒于這 10 場(chǎng)比賽的開(kāi)局類(lèi)型,似乎初始棋局是預(yù)先確定好的。
AlphaZero 和 Stockfish 的比賽。最后一手:26. Qh1!象棋特級(jí)大師 Francisco Vallejo Pons 稱(chēng)這場(chǎng)比賽像「科幻小說(shuō)」。圖片來(lái)源:chess24
自我對(duì)弈。AlphaZero 完全從自我對(duì)弈中學(xué)習(xí)的嗎?根據(jù)論文提供的細(xì)節(jié)來(lái)看是這樣的,但有兩個(gè)重要的地方需要注意:在開(kāi)始自我對(duì)弈之前必須先教會(huì)系統(tǒng)游戲規(guī)則和通常手?jǐn)?shù)(typical number of moves)。這一點(diǎn)并不像看上去那么無(wú)足輕重。要尋找可以對(duì)規(guī)則進(jìn)行編碼的合適神經(jīng)網(wǎng)絡(luò)架構(gòu)必須投入大量研究,正如 AlphaZero 論文中解釋的那樣。AlphaGo 使用的基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)適合圍棋,但不適合其他游戲。例如,國(guó)際象棋、將棋就和圍棋不同,它們是不對(duì)稱(chēng)的,一些棋子根據(jù)局面進(jìn)行不同的操作。最新的 AlphaZero 引入了更通用的 AlphaGo 算法版本,適用于象棋和將棋。第二點(diǎn)(即教會(huì) AlphaZero 棋類(lèi)游戲的通常手?jǐn)?shù))還需要游戲的一些先驗(yàn)知識(shí)。此外,超出最大步數(shù)的賽局被定為平局(DeepMind 未提供最大步數(shù)的信息)?,F(xiàn)在不清楚這種啟發(fā)式方法是否也用于對(duì)抗 Stockfish 的比賽中,還是僅用于訓(xùn)練。
泛化。AlphaZero 稱(chēng)其使用了可在多個(gè)領(lǐng)域中獲勝的通用強(qiáng)化學(xué)習(xí)方法。但是,在前面關(guān)于自我對(duì)弈的觀(guān)點(diǎn)之后,也出現(xiàn)大量爭(zhēng)論關(guān)于 AlphaGo 和 AlphaZero 系統(tǒng)泛化至其他領(lǐng)域的能力 [14]。假設(shè)現(xiàn)實(shí)生活的很多場(chǎng)景可以被簡(jiǎn)化成固定的預(yù)制規(guī)則集,像圍棋、象棋、將棋那樣,這似乎不切實(shí)際。此外,這些游戲不僅具備固定的規(guī)則集,而且是有限的,即可能的配置情況是有限的,盡管它們的復(fù)雜程度各有不同。這和其他也有固定規(guī)則集的游戲不一樣。比如,網(wǎng)球比賽中需要考慮的變量很難量化,必須考慮速度和風(fēng)向、球速、球和球面的角度、球面類(lèi)型、球拍材質(zhì)、場(chǎng)地問(wèn)題等。
我們應(yīng)該科學(xué)、審慎地觀(guān)察這些所謂的突破,尤其是在現(xiàn)在這個(gè) AI 炒作的時(shí)代。準(zhǔn)確地描述和推廣我們的成就是該領(lǐng)域研究者的責(zé)任,研究者不應(yīng)助長(zhǎng)不實(shí)信息,把該領(lǐng)域神秘化。事實(shí)上,在月初的 NIPS 大會(huì)上,一些研究者表達(dá)了對(duì)近年來(lái)該科學(xué)領(lǐng)域缺乏嚴(yán)謹(jǐn)性的擔(dān)憂(yōu) [15]。
在這種情況下,我希望這些擔(dān)憂(yōu)能夠得到解決,準(zhǔn)確地評(píng)估 AlphaZero 的實(shí)際科學(xué)貢獻(xiàn),而這一判斷并不是現(xiàn)在就能做出的?;蛟S如果有更好的實(shí)驗(yàn)設(shè)計(jì)和對(duì)復(fù)現(xiàn)的考慮,DeepMind 的結(jié)論就沒(méi)有現(xiàn)在那么讓人震驚了,不過(guò)也說(shuō)不準(zhǔn)。但是我們很難對(duì)此做出評(píng)估,除非 DeepMind 真的在這方面做出努力。我個(gè)人非常希望 DeepMind 在 AI 領(lǐng)域?qū)崿F(xiàn)更多相關(guān)發(fā)現(xiàn),但是我也希望這些成績(jī)的取得是以一種同行可以輕松評(píng)價(jià)且對(duì)社會(huì)有所貢獻(xiàn)的方式進(jìn)行。
參考資料
[1] Silver et al.「Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm.」arXiv preprint arXiv:1712.01815 (2017). https://arxiv.org/pdf/1712.01815.pdf
[2] https://en.wikipedia.org/wiki/Deep_Blue_versus_Garry_Kasparov
[3] https://www.theguardian.com/technology/2016/mar/15/googles-alphago-seals-4-1-victory-over-grandmaster-lee-sedol
[4] Silver et al.「Mastering the game of go without human knowledge.」Nature 550.7676 (2017): 354–359. https://www.gwern.net/docs/rl/2017-silver.pdf
[5] https://www.theguardian.com/technology/2017/dec/07/alphazero-google-deepmind-ai-beats-champion-program-teaching-itself-to-play-four-hours
[6] http://www.bbc.com/news/technology-42251535
[7] https://chess24.com/en/read/news/deepmind-s-alphazero-crushes-chess
[8] https://www.chess.com/news/view/google-s-alphazero-destroys-stockfish-in-100-game-match
[9] http://chessok.com/?page_id=27966
[10] https://hunonchess.com/houdini-is-tcec-season-10-champion/
[11] https://www.chess.com/news/view/alphazero-reactions-from-top-gms-stockfish-author
[12] Link to reproduce the 10 games of AlphaZero against Stockfish: https://chess24.com/en/watch/live-tournaments/alphazero-vs-stockfish/1/1/1
[13] https://www.twitch.tv/videos/207257790
[14] https://medium.com/@karpathy/alphago-in-context-c47718cb95a5
[15] Ali Rahimi compared current Machine Learning practices with「alchemy」in his talk at NIPS 2017 following the reception of his test of time award: https://www.youtube.com/watch?v=ORHFOnaEzPc
原文鏈接:https://medium.com/@josecamachocollados/is-alphazero-really-a-scientific-breakthrough-in-ai-bf66ae1c84f2
聯(lián)系客服