200 多家明星企業(yè),20 位著名投資機(jī)構(gòu)頂級(jí)投資人共同參與!「新智造成長(zhǎng)榜」致力于發(fā)掘 AI 領(lǐng)域有 “三年十倍” 成長(zhǎng)潛力的創(chuàng)新公司,下一波 AI 獨(dú)角獸,會(huì)有你么?點(diǎn)擊閱讀原文了解詳情!
雷鋒網(wǎng)按:本文由鄭宇博士應(yīng)雷鋒網(wǎng)之邀特約撰寫。鄭宇博士為微軟亞洲研究院資深研究員,上海交通大學(xué)講座教授,香港科技大學(xué)客座教授,ACM TIST 主編,KDD China 秘書長(zhǎng),2016 年被評(píng)為美國(guó)計(jì)算機(jī)學(xué)會(huì)杰出科學(xué)家。
5 月 25 日,AlphaGo 2.0 版本在人機(jī)圍棋比賽第二局中盤戰(zhàn)勝柯潔。相比第一場(chǎng)比賽的沉悶,此次對(duì)弈中,柯潔下得非常積極,多次下出好手和狠手,把局面攪得很亂,多塊棋的命運(yùn)都連在了一起,場(chǎng)面一度非常復(fù)雜,過(guò)程驚心動(dòng)魄,跌宕起伏。
據(jù) AlphaGo 工作人員介紹,此次比賽人機(jī)雙方都展現(xiàn)了強(qiáng)大的水平。AlphaGo 后臺(tái)的計(jì)算量急劇增加,如果不能及時(shí)剪枝,可能很快就要算不過(guò)來(lái)了。無(wú)奈柯潔在關(guān)鍵時(shí)刻出現(xiàn)明顯失誤,痛失好局,這可能也是人類的弱點(diǎn)(疲勞和情緒的波動(dòng))。
與上一局觀戰(zhàn)專業(yè)棋手集體悲觀相比,這次大家普遍認(rèn)為局勢(shì)一直在向著有利于柯潔的方向發(fā)展,非常有希望獲勝。專業(yè)棋手的信心也在悄然復(fù)蘇。
昨天第一局比賽后,中國(guó)計(jì)算機(jī)學(xué)會(huì)向我約稿。我發(fā)表了第一篇評(píng)論,在網(wǎng)上引起了不小的討論,因此,本次評(píng)論也順便解答網(wǎng)友們提出的疑問(wèn)。
還是先上觀點(diǎn),再解析。先重申一下昨天的幾個(gè)觀點(diǎn):
1. 在圍棋這個(gè)項(xiàng)目上,AlphaGo 的綜合實(shí)力目前走在了人類的前面,但并沒(méi)有完全攻克圍棋這項(xiàng)運(yùn)動(dòng)。
一方面,能通過(guò)短短幾個(gè)星期的學(xué)習(xí)就能擊敗學(xué)棋二十多年的頂尖圍棋選手,已經(jīng)證明了人工智能的強(qiáng)大。因此,即便 AlphaGo 日后萬(wàn)一輸了,我們也仍然應(yīng)該為人工智能點(diǎn)贊,切不可再次否定人工智能的力量。
另一方面,AlphaGo 采用這樣的技術(shù)線路其實(shí)是根據(jù)人類自身對(duì)圍棋的理解來(lái)設(shè)計(jì)的,即搜索 + 價(jià)值評(píng)判。也就是說(shuō)我們先假設(shè)各種走法(執(zhí)行下去),再評(píng)判這樣走可能贏的機(jī)會(huì)大小。由于索搜空間巨大,即便用盡地球上所有的資源,也不能找到最優(yōu)解。此時(shí),在某個(gè)局面下對(duì)(未來(lái)輸贏)價(jià)值的判斷就變得尤其重要。在深度學(xué)習(xí)沒(méi)有出現(xiàn)之前,這點(diǎn)一直是機(jī)器的弱項(xiàng),因此,早年間人在這方面占有巨大優(yōu)勢(shì)。
從專業(yè)的角度來(lái)講,AlphaGo 用深度學(xué)習(xí)去逼近了一個(gè)價(jià)值判斷函數(shù),然后再跟蒙特卡洛搜索樹結(jié)合的方法。這個(gè)近似解比目前人類的價(jià)值判斷(可能)接近或者要略強(qiáng)一些,加上機(jī)器不知疲倦的搜索效率和無(wú)情感波動(dòng),綜合來(lái)看走在了人的前面。
但 AlphaGo 得到的這個(gè)解遠(yuǎn)不是最優(yōu)解法,圍棋未來(lái)可探索的空間還很大,還沒(méi)有被攻克。打一個(gè)不恰當(dāng)?shù)谋扔鳎帽任覀儸F(xiàn)在發(fā)明了一種新的抗癌藥品,比以前的藥物能更好的延緩癌細(xì)胞的擴(kuò)散,但還是不能完全殺死癌細(xì)胞,治愈人類。因此,我們不能說(shuō)這個(gè)藥品已經(jīng)攻克了癌癥。
其實(shí),機(jī)器和人可以互相幫助提高水平。當(dāng)人們對(duì)圍棋有了更深入的了解之后,又會(huì)設(shè)計(jì)出更好的人工智能算法。兩者其實(shí)并不矛盾,相輔相成,互相促進(jìn),不管誰(shuí)輸誰(shuí)贏都是人類文明進(jìn)步的體現(xiàn)??陀^認(rèn)識(shí)這一點(diǎn)很重要。
2. 人類也是在進(jìn)步的,我們也不要低估了人類后天的快速(小樣本)學(xué)習(xí)能力,這點(diǎn) AlphaGo 基于現(xiàn)在的學(xué)習(xí)方法還做不到。
短期來(lái)看人獲勝概率小,但長(zhǎng)遠(yuǎn)來(lái)看(未來(lái) 5-10 年)人還有機(jī)會(huì),因?yàn)槿艘灿泻軓?qiáng)的學(xué)習(xí)能力,可以從少量跟 AlphaGo 的對(duì)弈的棋局中快速學(xué)習(xí)。尤其是在價(jià)值判斷這塊,人和機(jī)器都還沒(méi)有弄明白怎么回事,在沒(méi)有明確的規(guī)則時(shí),人相對(duì)于機(jī)器還有機(jī)會(huì)。
另外,如果還是基于現(xiàn)有的學(xué)習(xí)體系,即便再給 AlphaGo 一億副棋譜,再添加一萬(wàn)塊 GPU,它進(jìn)步的速度也終將放緩,因?yàn)樾略龅钠遄V和計(jì)算資源相對(duì)于 2*10171 這個(gè)搜索空間來(lái)說(shuō)只是滄海一粟。
現(xiàn)在人類跟 AlphaGo 處在一個(gè)信息不對(duì)稱的局面。人類跟 AlphaGo 對(duì)弈的次數(shù)還太少,獲得的信息反饋也還遠(yuǎn)遠(yuǎn)不夠。如果能夠把 AlphaGo 開放出來(lái),讓更多的職業(yè)高手跟它對(duì)弈,讓年輕的棋手來(lái)學(xué)習(xí)它的下法和招數(shù),相信人類棋手也能夠從中學(xué)習(xí)到很多,從而再次進(jìn)步。
3. AlphaGo 不可能讓專業(yè)棋手 3 子,目前人類職業(yè)棋手跟 AlphaGo 的差距也就在一個(gè)貼目的水平,沒(méi)有大家想象的那么大。
即便 AlphaGo 2.0 能讓之前的版本 3 子,也不能代表它能讓職業(yè)棋手 3 子。 因?yàn)?,AlphaGo 的價(jià)值判斷里只有輸贏,沒(méi)有贏多少一說(shuō)。在做價(jià)值判斷時(shí),它也不知道自己是被讓了子,它會(huì)根據(jù)當(dāng)前(把讓子優(yōu)勢(shì)算在一起的)盤面,去盡量選擇獲勝概率最大(風(fēng)險(xiǎn)最小)的一條路徑走下去(哪怕只贏半目),這樣就很容易下出緩手,從而給對(duì)手機(jī)會(huì)把讓子的優(yōu)勢(shì)給撈回來(lái)。因此,AlphaGo 2.0 讓之前版本 2 子、3 子的區(qū)別可能不會(huì)太大。
而職業(yè)棋手則不會(huì)這樣,他們(在判斷形式時(shí))會(huì)忘記這兩子的優(yōu)勢(shì),(至少在前期會(huì))繼續(xù)用最強(qiáng)的招式來(lái)下,而不會(huì)讓優(yōu)勢(shì)付之東流。加之 AlphaGo 的價(jià)值判斷也不是精確解,之前下得過(guò)緩,后面一旦有一點(diǎn)估計(jì)不準(zhǔn)確,就可能會(huì)輸(機(jī)器不會(huì)累,情緒也不會(huì)波動(dòng),所以一臺(tái)機(jī)器不會(huì)給另一臺(tái)機(jī)器機(jī)會(huì))。
其實(shí)貼目的差距(按中國(guó)標(biāo)準(zhǔn) 7 目半),在職業(yè)棋手看來(lái),已經(jīng)是非常大的差距了。很多職業(yè)高手,進(jìn)入官子階段后發(fā)現(xiàn)自己還落后對(duì)方 7-8 目,就會(huì)主動(dòng)投子認(rèn)輸了。很多通過(guò)數(shù)子來(lái)決定勝負(fù)的比賽,輸贏往往都在 1-2 目之間(比如柯潔就輸給 AlphaGo 半目)。否則會(huì)被其他專業(yè)棋手笑話,自己落后那么多都不知道,點(diǎn)空能力太弱了。
4. 人類也有弱點(diǎn),輸在綜合實(shí)力
人類會(huì)疲勞、面臨心理壓力和情緒波動(dòng)。AlphaGo 下棋沒(méi)有連貫的思路,也沒(méi)有表情,這讓很多已經(jīng)習(xí)慣跟人下棋的專業(yè)棋手很不適應(yīng)。此外,人類在壓力狀態(tài)下容易犯錯(cuò)(比如今天柯潔在關(guān)鍵時(shí)候下出明顯的敗招),這些機(jī)器不會(huì),有優(yōu)勢(shì)。所以,我只能說(shuō) AlphaGo 在綜合實(shí)力上超過(guò)了職業(yè)選手,在對(duì)圍棋的理解上,AlphaGo 可能已經(jīng)接近或者略微超過(guò)了人類。在后半部分,人類還有希望。
總結(jié)
AlphaGo 體現(xiàn)了人工智能的強(qiáng)大,但并沒(méi)有攻克圍棋這個(gè)難題。但它可以作為一種工具幫助人們更加深入的去理解圍棋,其中的技術(shù)甚至可以應(yīng)用到其它領(lǐng)域。人類可能現(xiàn)階段仍然會(huì)輸給人工智能,這是人與機(jī)器對(duì)比綜合實(shí)力的落后。但人類也在進(jìn)步,通過(guò)跟 AlphaGo 的對(duì)弈,人類也在重新認(rèn)識(shí)圍棋。
人腦復(fù)雜程度遠(yuǎn)遠(yuǎn)超過(guò)了 AlphaGo 現(xiàn)在使用的深度神經(jīng)網(wǎng)絡(luò),而人類敏銳的抽象思維能在價(jià)值判斷這個(gè)規(guī)則不明確的領(lǐng)域仍有希望。當(dāng)人們對(duì)圍棋有了更深入的了解之后,又會(huì)設(shè)計(jì)出更好的人工智能算法。兩者相輔相成,互相促進(jìn),不管誰(shuí)輸誰(shuí)贏都是人類文明進(jìn)步的體現(xiàn)。人類的智能也將始終走在機(jī)器的前面,而不會(huì)被機(jī)器取代。
回答幾個(gè)網(wǎng)友疑問(wèn)
1. 如果人有快速小樣本學(xué)習(xí)能力,人類在國(guó)際象棋這個(gè)項(xiàng)目上已經(jīng)敗給深藍(lán)很多年了,為什么還沒(méi)有反超深藍(lán)?
答:國(guó)際象棋搜索空間?。?*1050),并且價(jià)值判斷容易。這是因?yàn)楦鱾€(gè)棋子功能和活動(dòng)范圍差異很大,當(dāng)棋子剩余不多時(shí),根據(jù)剩余棋子就可計(jì)算出大概的得分,從而在不用下完的情況下就能基本判斷出局面的好壞。
基于以上兩個(gè)條件,國(guó)際象棋已經(jīng)被人工智能算法攻克了,機(jī)器可以無(wú)限接近的找到最優(yōu)解,所以人沒(méi)希望反超了。但圍棋空間大(2*10171),價(jià)值判斷難(單個(gè)棋子在功能上沒(méi)有任何區(qū)別,在棋沒(méi)有下完之前如何判斷優(yōu)劣也沒(méi)有明確的規(guī)則),現(xiàn)在人工智能的方法只得到一個(gè)粗糙的近似解,離最優(yōu)解的距離還很大。還有很大的探索空間,因此,圍棋和國(guó)際象棋不一樣。
2. 機(jī)器越來(lái)越快,人哪里能算過(guò)機(jī)器,所以差距只有越拉越大。
答:首先,這個(gè)世界上最快的速度不是光,更不是計(jì)算機(jī),而是人類的思維;最復(fù)雜的不是那些龐大的工程,而是人腦。我們有不少人已經(jīng)清楚了 AlphaGo 的工作原理(因?yàn)樗緛?lái)就是人類設(shè)計(jì)的),但世界上還沒(méi)有人能清楚解釋人類的思維和人腦的奧妙。因此,我們不能太早否則這兩個(gè)未知物體的潛能。
機(jī)器重復(fù)規(guī)則明確的事情(比如搜索)速度比人要快,因?yàn)槿藭?huì)疲勞,需要補(bǔ)給。如果給定有限空間,機(jī)器會(huì)比人類更快的完成索搜,這也是人跟機(jī)器比的劣勢(shì)。但圍棋不是有限空間,機(jī)器能夠投入到搜索的資源,相對(duì)于這個(gè)空間來(lái)說(shuō)遠(yuǎn)遠(yuǎn)不夠,光靠搜索不行(這也是早年間圍棋 AI 水平太低的原因)。
因此,價(jià)值判斷就變得很重要。但價(jià)值判斷沒(méi)有明確的規(guī)則,目前仍是一個(gè)說(shuō)不清、道不明的東西,機(jī)器聯(lián)想、抽象和穿梭不同時(shí)空和任務(wù)之間的能力未必比人要強(qiáng)。由于學(xué)習(xí)了比一般人類遠(yuǎn)遠(yuǎn)多的棋譜,AlphaGo 的深度神經(jīng)網(wǎng)絡(luò)目前獲得了跟人類接近(也許略微超過(guò)的)價(jià)值網(wǎng)絡(luò)。但不要忘了,人腦的結(jié)構(gòu)比現(xiàn)在 AlphaGo 的深度神經(jīng)網(wǎng)絡(luò)要復(fù)雜的太多了,其抽象能力也比現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)要強(qiáng)太多了。一個(gè)專業(yè)棋手一生所見的棋譜也不到 AlphaGo 的萬(wàn)分之一,但已經(jīng)跟 AlphaGo 達(dá)到了非常接近的水平,如果人類棋手能看到更多有價(jià)值的棋譜,那又會(huì)如何呢?為什么說(shuō)人類日后就沒(méi)機(jī)會(huì)呢?
回顧歷史,中國(guó)圍棋曾有一段時(shí)間被韓國(guó)壓制,韓國(guó)流在各種國(guó)際大賽上盛行一時(shí)。后來(lái),中國(guó)國(guó)家隊(duì)專門組織學(xué)習(xí)和研討,吸取經(jīng)驗(yàn),近幾年中國(guó)圍棋又重回巔峰。這就是人類在圍棋上學(xué)習(xí)進(jìn)步的一個(gè)例子。
當(dāng)前人類的圍棋水平也比 30 年前強(qiáng)大太多了,歷史也就是這樣在進(jìn)步。此外,人類多次從很少的事件中就快速獲得豐富的經(jīng)驗(yàn),從而讓整個(gè)人類的文明得以進(jìn)步,這點(diǎn)能力不僅在 AlphaGo 之上,也遠(yuǎn)在任何的機(jī)器之上。
在獲得更好的價(jià)值網(wǎng)絡(luò)這方面,人類面臨的問(wèn)題是獲取的學(xué)習(xí)樣本還不足夠,跟 AlphaGo 對(duì)弈的次數(shù)還太少。如果能有機(jī)會(huì)學(xué)習(xí)更多的樣本,人類可以在價(jià)值判斷上快速趕上或者超越 AlphaGo,也是人類機(jī)會(huì)所在。在獲得的更好的價(jià)值網(wǎng)絡(luò)之后,如何抵抗自己的疲勞和情緒波動(dòng)確實(shí)也是一個(gè)難點(diǎn)。因此,這是一個(gè)綜合實(shí)力的比拼。
3. 機(jī)器越能存那么多東西,人腦才能存多少啊,所以差距只有越拉越大。
答:人腦真的不如機(jī)器能存東西嗎?這點(diǎn)我很懷疑。人的一生所見、所聞、所感、所處環(huán)境都一一存儲(chǔ)在大腦里(至于怎么存,怎么調(diào)出這都仍待探索),信息量之大完全不亞于世界上任何一臺(tái)超級(jí)計(jì)算機(jī)和云計(jì)算平臺(tái)。我們平日里能記起的只是其存儲(chǔ)的非常少的一部分,并不是所有的信息。而且,人腦要處理人體這么多器官和細(xì)胞之間的協(xié)同,期間傳輸?shù)男畔⒘恳脖热魏我粋€(gè)系統(tǒng)都要復(fù)雜。人腦從眾多信息中快速調(diào)出自己想要的內(nèi)容也,令人驚嘆,信息訪問(wèn)速度超過(guò)世界上任何一個(gè)搜索引擎。因此,只能說(shuō)我們還沒(méi)有搞清楚人體(尤其是人腦)這個(gè)極其復(fù)雜的系統(tǒng),而不能說(shuō)人不如機(jī)器能存東西。
其次,AlphaGo 根本也沒(méi)有記憶功能。每次訓(xùn)練后,模型的參數(shù)都要被全部修改。訓(xùn)練調(diào)參數(shù)時(shí),也只基于當(dāng)前這一批訓(xùn)練樣本,新增的幾幅棋譜對(duì)提高它的棋力起不到任何作用。其實(shí) AlphaGo 是通過(guò)自我對(duì)弈來(lái)生成很多棋譜,然后利用棋譜中的(兩個(gè)連續(xù)的)盤面跟最后的勝負(fù)對(duì)應(yīng)關(guān)系訓(xùn)練出價(jià)值網(wǎng)絡(luò)來(lái)。因此,AlphaGo 并沒(méi)有大家想象的那種自我博弈就能自己不斷進(jìn)步的能力。
聯(lián)系客服