阿爾法狗人工智能帶給全世界的沖擊是巨大的,目前全世界展開人工智能開發(fā)與應(yīng)用熱潮,這其中當(dāng)然有很多偽智能。我們來了解一下alphago的基本運(yùn)行機(jī)制。它一共有四個(gè)大模塊:
1:MCTS;
2:快速展開網(wǎng)絡(luò);
3:走子網(wǎng)絡(luò);
4,估值網(wǎng)絡(luò)。
快速展開網(wǎng)絡(luò)的功能就是對一個(gè)目前棋局做快速的展開下到棋局結(jié)束,然后程序判斷是贏還是輸,這是阿狗判斷的一個(gè)依據(jù)。
走子網(wǎng)絡(luò)的功能是選下一步走在哪里的一些可能性。走子網(wǎng)絡(luò)有兩個(gè)選擇(其實(shí)是三個(gè)),一個(gè)是通過KGS高水平對局訓(xùn)練出來的走子網(wǎng)絡(luò)(SL),另一個(gè)是在此基礎(chǔ)上通過reinforcement learning訓(xùn)練出來的走子網(wǎng)絡(luò)(RL)。兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)差不多,但參數(shù)不一樣,RL是左右互搏來提高自己水平的,它有優(yōu)點(diǎn)也有缺點(diǎn),這里不展開。
價(jià)值網(wǎng)絡(luò)的用處是估算目前局勢好不好,是基于全局輸贏的判斷。它是通過RL左右互搏幾千萬,現(xiàn)在可能更多盤棋訓(xùn)練出來的。MCTS是阿狗用來搜索并且確切的挑出下一手是什么的算法。其它網(wǎng)絡(luò)是基礎(chǔ)的支撐。MCTS先挑幾個(gè)有希望的下一手,然后在這些手的基礎(chǔ)上再展開幾手,這樣就有一個(gè)樹形結(jié)構(gòu),到達(dá)第L層時(shí),不再用走子網(wǎng)絡(luò)展開搜索而是直接用快速展開網(wǎng)絡(luò)展開到底。這樣就把一次模擬做完,這樣重復(fù)很多次,MCTS可以通過自己的算法挑一個(gè)最好的下法,然后落子。
這么輕描淡寫的運(yùn)行機(jī)制其實(shí)是建立在巨型運(yùn)算之上的,這個(gè)計(jì)算不光是對弈時(shí)的運(yùn)算量,更重要的是這些網(wǎng)絡(luò)的訓(xùn)練需要耗費(fèi)極大的運(yùn)算量。更可貴的是程序員的智慧,因?yàn)槔锩娴募夹g(shù)小細(xì)節(jié)可以決定網(wǎng)絡(luò)質(zhì)量,繼而影響機(jī)器下棋水平。沒有這些阿爾法狗就沒有今天,因此歸根到底,狗是人類的朋友和寵物。
這個(gè)運(yùn)行機(jī)制是如何提高阿狗類人工智能棋力的呢?deep mind的論文里告訴大家每一個(gè)模塊對勝率都有重要的影響力。比如快速走子展開網(wǎng)絡(luò),它的影響的可能主要是局部對殺的能力。走子網(wǎng)絡(luò)主要提高機(jī)器的布局能力,也就是說它其實(shí)是建立在人類智慧之上的。估值網(wǎng)絡(luò)的功效在于給機(jī)器提供一個(gè)對整盤局勢的判斷的依據(jù),雖然MCTS選落子的時(shí)候,它不是唯一選擇。如果算法只用它,機(jī)器棋力會下降。事實(shí)上,狗的算法里控制了一個(gè)平衡:exploitation 和exploration。失去平衡的機(jī)器可能要么特別有想象力但有時(shí)會發(fā)瘋,要么墨守成規(guī)比較好預(yù)測。MCTS和其它模塊一起運(yùn)行保障機(jī)器隨時(shí)以大局為重并且眼光深邃而且寬廣。用圍棋語言就是算路深,妙手多,大局好。
這就很好的解釋了人類高手在快棋時(shí)面臨的困境和結(jié)局。通常是在一頓拼殺后不知不覺中,master已經(jīng)圍出一個(gè)蔚為壯觀的巨大空,此為大局好;或者在大家意想不到,人類的‘棋理’通常不會考慮的地方,來一手或者犀利或者讓人迷惑但又不好對付的棋,此為創(chuàng)意多;又有時(shí)人類想要和master拼殺,但大師總是在平穩(wěn)的騰挪里,面不改色的泰然處之,此為算路深。有這三個(gè)特點(diǎn),快棋里人類不崩潰才應(yīng)該是新聞。它簡直就是接近圍棋之神的機(jī)器。
阿狗算法里從高層總結(jié)有幾個(gè)特點(diǎn):
1。汲取了人類的下棋直覺,通過走子網(wǎng)絡(luò)來獲得;
2。算路很深,主要靠MCTS和展開網(wǎng)絡(luò);
3。時(shí)刻以大局為重,一切以贏棋為目的;
4。最后,有一定的隨機(jī)和意外手段。
這么霸道,冷酷,而全面的master,肯定不是不可擊敗。即使是人類,也有希望。
master官子一般,這是事實(shí),但也是事出有因。訓(xùn)狗時(shí),算法的唯一目標(biāo)是輸贏,所以怎么贏更多目數(shù)并不在它考慮范圍內(nèi)。但每次都是官子虧損,也說明它的官子算法里可能有缺陷。如果有缺陷,我覺得也是有原因的。因?yàn)楣僮悠鋵?shí)需要在棋盤的多處輪流處理,次序很重要,也沒有固定的下法。它的走子網(wǎng)絡(luò),展開網(wǎng)絡(luò),還有估值網(wǎng)絡(luò)對這個(gè)就不那么敏感。這也造成它收官時(shí)靈活度和計(jì)算大小上不是特別準(zhǔn)確。但這一波,人類前面落后實(shí)在大多,官子的問題沒有凸顯。但這個(gè)是人類可以利用的一個(gè)點(diǎn)。
此外期待的是在中盤階段多處有余味的戰(zhàn)斗,可能會讓機(jī)器的搜索程序出現(xiàn)盲點(diǎn),如果阿狗沒有在算法里加入自適應(yīng)的控制,繼續(xù)保持它的套路,很可能在這時(shí)出現(xiàn)機(jī)會。目前唯一的案例,李世石-阿狗的第四局那一挖,其實(shí)就是一個(gè)例子。局面碎片化,有多處黑棋需要考慮死活以及圍空,這對機(jī)器的挑戰(zhàn)就很大了,這種局面的人類直覺不好學(xué),因?yàn)檎娴男枰硇浴乃伎己推胶饫?,不像開局處,統(tǒng)計(jì)式的算局面以及對人類直覺的統(tǒng)計(jì)模仿(走子網(wǎng)絡(luò))可以達(dá)到甚至超過人類,那這里的真實(shí)的估值函數(shù)對于選點(diǎn)是極端不平滑的,選錯(cuò)點(diǎn)會造成生死的差別,而機(jī)器正是此時(shí)出現(xiàn)了人類看來莫名其妙的選點(diǎn)。這不是機(jī)器崩潰了,而是價(jià)值函數(shù)不平滑的情況下,有很多模棱兩可的點(diǎn)可選,隨機(jī)性決定了它選了莫名其妙的地點(diǎn)。
這個(gè)潛在的缺陷是不是在master版里被彌補(bǔ)了呢?個(gè)人看法是很可能更大了。因?yàn)榭赐暌恍┢遄V,master總體感覺exploration的能力,就是創(chuàng)意的新手,好像變強(qiáng)了,也就是deep mind的工程師調(diào)了參數(shù)加重了這部分網(wǎng)絡(luò)的比重,或者RL網(wǎng)絡(luò)訓(xùn)練的樣本變大了。后者可能比較小些,因?yàn)橹暗挠?xùn)練表明,RL訓(xùn)練出來的網(wǎng)絡(luò)偏向保守,變化性不足。
棋道的研究
沒有人懂得棋理的全部,但是還是可以聊聊,不是嗎?
布局階段,雖然大多務(wù)虛,卻是每個(gè)子的平均價(jià)值影響力最大的時(shí)期。這一點(diǎn)說來并不難懂,但實(shí)戰(zhàn)時(shí),貌似很多棋手都會暫時(shí)性的忽略。所以實(shí)際看來,這個(gè)簡單的真理,目前強(qiáng)調(diào)的還不夠。但這點(diǎn)特別重要,值得換一個(gè)說法,再來講一遍。布局的每一步必須考慮全局價(jià)值,而且很有可能一手錯(cuò)而成全盤恨。這點(diǎn)在大家的下棋哲學(xué)相近時(shí),問題不突出,大家都在定式和研究局部變化時(shí),忽略的問題也不突出。而遇到master這樣天生考慮全局的對手時(shí),我們最牛的職業(yè)棋手,布局階段大多落后相當(dāng)多。
人機(jī)大戰(zhàn)規(guī)則如何定?
什么樣的規(guī)則才是合理的?人腦考慮一個(gè)局面的時(shí)間-效果比應(yīng)該是有一個(gè)飽和過程的,最初的幾秒甚至一分鐘可能帶來的效果增長很快,到了后面思考的得利越來越小。而機(jī)器不一樣,它的算法決定了,它的時(shí)效幾乎是線性的。所以人機(jī)所得的時(shí)間是不是考慮有所差別?
機(jī)器的算法建立在大量人類對局的智慧之上,并且做了改進(jìn),加上自己的運(yùn)算優(yōu)勢,同時(shí)還有創(chuàng)新的能力,而我們?nèi)祟惼迨謱C(jī)器的‘智慧’了解太少。這是一個(gè)巨大的不對稱。人機(jī)大戰(zhàn)是不是考慮允許熱身賽。人類代表應(yīng)該被公平的給予一定量的對局機(jī)會,這樣對于雙方都公平,尤其人類。
聯(lián)系客服