2017-03-07 褚達晨達晨隨筆
國內(nèi)的人工智能熱很大程度上就是被AlphaGo炒起來的。機器圍棋和哥德巴赫猜想、費爾馬大定理一樣,是一道舉世公認(rèn)的難題。圍棋361個點,一盤棋的變化數(shù)目據(jù)說超過了宇宙中的原子數(shù)目,和其他博弈游戲相比是高出幾十個數(shù)量級的差別。
在我看來,圍棋規(guī)則異常簡單:“交替落子,氣盡棋滅”,卻暗含宇宙中生命之妙。你看一個19路棋盤宛如蒼茫大地,黑白棋從無而始,兩支生命交替生長;中盤取勢占地,扭殺守御,皆為棋子生存繁衍。一局終了,棋譜留世。圍棋作為古人發(fā)明的智力游戲,妙處實不可言狀。千萬年后即使地球毀滅,外星來客若找到一張高手遺譜,我覺得他們大致可以探知人類當(dāng)時所擁有的計算能力和智力水平。
AlphaGo的核心算法早已在Nature雜志上發(fā)表,解讀的文章也很多?;旧暇褪钦fAlphaGo團隊通過喂了狗狗幾十萬盤人類對局,讓狗狗學(xué)會了下棋,到了一定水平后狗狗自己和自己下棋就能漲棋,水平會越來越強。
果然,2016年底升級版阿法狗——Master橫空出世,在圍棋網(wǎng)站上小試牛刀,戰(zhàn)遍中日韓頂尖高手,求一敗而不得。更為可怕的是60連勝棋譜傳世之后,人類高手反復(fù)拆解,好像至今沒有人敢說在60局中有某一局的某一個時刻人類棋手有過明顯領(lǐng)先的時刻。從數(shù)學(xué)上講,如果(60局棋)X(每局200步棋)X(每步可能的變化數(shù))在這么大的概率空間里,人類高手都沒有明確的獲勝機會,那Master這個系統(tǒng)的水平和穩(wěn)定性可謂深不可測。
作為深度圍棋愛好者,讓我震驚的是對局內(nèi)容。去年AlphaGo和李世石的棋譜其實還比較循規(guī)蹈矩,就算被媒體追捧的第二局五路尖沖“外星招法”,其實也并不算太出格。今年Master的棋就不一樣了,60局快棋中推翻人類棋手思維的下法簡直俯拾皆是。比如序盤很早就點三三,習(xí)慣性尖沖無憂角,對人類已經(jīng)沿用了幾十年的“妖刀定式”“大雪崩定式”的徹底改造,等等,給很多圍棋國手“要重新學(xué)圍棋”的觸動。打個比方,如果說去年的AlphaGo是集天下劍術(shù)之大成(畢竟剛剛從人類棋譜里學(xué)來)的高手,今年Master的感覺就已接近劍術(shù)通神的大師,手中無劍,天下萬物為劍,飛花摘葉退敵千里。Master新年一出場,就是風(fēng)清揚、掃地僧這樣的世外高人范兒,輕輕松松饒?zhí)煜掠⑿垡幌取?/font>
舉個有點搞笑的例子,Master在對日本第一人井山的棋局中在右上角下出一步看起來很像初學(xué)者下出來的圍空棋,人類研究后認(rèn)為Master表示就這樣隨便下下就贏了,頗為推崇。事后替Master擺棋的“機器臂”黃士杰博士解釋是他連續(xù)在電腦前擺那么多盤棋太累了,鼠標(biāo)一滑擺錯位置的結(jié)果。雖然有點尷尬,不過的確說明Master隨便下下,中間打個盹歇一手也能追回來。
大師是怎樣練成的?Master沒有公開任何信息,外面基本上沒有什么技術(shù)解讀。作為業(yè)余愛好者,權(quán)且說說我的看法。
上一篇說了“深度子”的厲害,AlphaGo or Master不只是簡單用到了深度學(xué)習(xí)技術(shù),它用了兩個“深度子”的乘法效應(yīng)。具體而言,狗狗訓(xùn)練了兩個深度神經(jīng)網(wǎng)絡(luò),一個叫“策略網(wǎng)絡(luò)”負(fù)責(zé)學(xué)習(xí)人類的“棋感”,就是通過人類棋譜猜測棋盤上哪幾步是最有可能的“下一手”,幫助計算機剪枝,把寶貴的計算資源用在刀刃上。另一個“價值網(wǎng)絡(luò)”負(fù)責(zé)做“形勢判斷”,就是計算在選用策略網(wǎng)絡(luò)推薦 “下一手”時的獲勝概率。這兩個算法相輔相成,互相推動,產(chǎn)生了乘法效應(yīng)。
狗狗的“棋感”一開始是跟人學(xué)的,但精確的形勢判斷能力是自己發(fā)展起來的。形勢判斷能力其實是下圍棋的核心能力,這恰恰是人類的弱點和容易被忽視的地方。人類棋手在序盤和中盤用的“點目法”做形勢判斷的方法是非常非常粗糙的近似,無法和機器的量化方法(比如說把勝率精確到小數(shù)點后3位)抗衡。人腦其實剪枝能力超強,如果給予充分時間,高手也基本能把變化都算清楚,但是若是在選擇下出對自己更有利的招法時犯糊涂,你說怎么下贏狗?
Master能通過“反人類思維”的招數(shù)戰(zhàn)勝人類,是機器學(xué)習(xí)的一個巨大的進步!究其原因,一方面可能是過去一年狗狗在“價值網(wǎng)絡(luò)”取得了大突破,在判斷局勢、把握局勢走向的能力上遠超人類,就是“控場能力爆表”。另一個方面,兩個高水平狗狗雙手互博,可以不斷嘗試超越人類“直覺”或者“經(jīng)驗”的選點,這樣一些需要深度模擬才能推敲出來的好棋(比如人類需要反復(fù)推演30步才能得到的結(jié)論),就會被Master挖掘出來。
這次Master在布局階段走出了不少以前被人類否定的下法,就是說已經(jīng)擺脫了人類棋譜的思維限制,開始探索未入之境。人類下棋其實有個問題,就是借助于經(jīng)驗的成分遠遠大于臨場發(fā)揮的成分。比如說學(xué)習(xí)和記憶定式,最多考慮一個四分之一棋盤,但是狗狗是通盤全局考慮的,Master新的棋譜就很明顯,左上角是黑子還是白子,無憂角還是大飛角,左下角選擇的定式可能完全不同。這種“牽一發(fā)而動全身”的戰(zhàn)法給人很多啟發(fā),有棋手說“美的讓人哭”。如果說一開始狗狗通過打人類棋譜學(xué)棋,現(xiàn)在是人類通過向狗老師學(xué)習(xí)來探索圍棋的奧秘了。
翻譯成機器學(xué)習(xí)的語言,狗狗是從監(jiān)督學(xué)習(xí)(照棋譜學(xué)習(xí))進入了非監(jiān)督學(xué)習(xí)(自由探索)的階段,AlphaGo的設(shè)計者讓程序具備了自我進化的能力。人工智能算法的提升依賴于高質(zhì)量的數(shù)據(jù),在任何領(lǐng)域,高質(zhì)量的標(biāo)注數(shù)據(jù)(比如說高手的棋譜)都是有限的,或者說生產(chǎn)速度很慢,成本很高。AlphaGo一旦能夠自我產(chǎn)生高水平的新數(shù)據(jù),還通過自我博弈不斷提高自身水平,就相當(dāng)于有了自我進化的能力。所以說領(lǐng)先的AI技術(shù)一旦確立優(yōu)勢,很有可能一騎絕塵,讓后來者難以追趕。
舉例來說,日本zen是一個有10年發(fā)展歷史的老牌圍棋程序。他們引入alphago的“策略網(wǎng)絡(luò)”技術(shù)后,很快就提高到了職業(yè)水平,但是后面再提升好像有點難。目前世界第二應(yīng)該是騰訊主力部隊開發(fā)的“絕藝”,開發(fā)半年多現(xiàn)在已經(jīng)到了去年AlphaGo戰(zhàn)勝李世石的水平。雖然距離Master還有差距,我非常希望這個國產(chǎn)圍棋程序能迎頭趕上,讓Master不再寂寞。
在一個商業(yè)領(lǐng)域,如果人工智能技術(shù)能在機制上能不斷自行產(chǎn)生優(yōu)質(zhì)數(shù)據(jù)從而自我進化,那么別人后來居上的可能性也就大大降低,這可能就是全球頂尖互聯(lián)網(wǎng)公司在人工智能領(lǐng)域做瘋狂的軍備競賽的動因。
好了,Master“粲粲如星,揮灑縛豪英”的故事就說到這里。既然已經(jīng)提到了AI商業(yè)化,下一篇就回到我工作的領(lǐng)域,談?wù)勅斯ぶ悄芎蜕虡I(yè)結(jié)合。
聯(lián)系客服