選自andreykurenkov
機(jī)器之心編譯出品
翻譯:微胖、Ben、Sane、Salmoner、Chen、柒少
導(dǎo)讀:這是《神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史》第四部分。前三部分的鏈接分別是:
神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史(一):從感知機(jī)到BP算法
神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史(二):BP算法之后的又一突破——信念網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史(三):90年代的興衰——強(qiáng)化學(xué)習(xí)與遞歸神經(jīng)網(wǎng)絡(luò)
我們終于來(lái)到簡(jiǎn)史的最后一部分。這一部分,我們會(huì)來(lái)到故事的尾聲并一睹神經(jīng)網(wǎng)絡(luò)如何在上世紀(jì)九十年代末擺脫頹勢(shì)并找回自己,也會(huì)看到自此以后它獲得的驚人先進(jìn)成果。
「試問(wèn)機(jī)器學(xué)習(xí)領(lǐng)域的任何一人,是什么讓神經(jīng)網(wǎng)絡(luò)研究進(jìn)行下來(lái),對(duì)方很可能提及這幾個(gè)名字中的一個(gè)或全部: Geoffrey Hinton,加拿大同事Yoshua Bengio 以及臉書(shū)和紐約大學(xué)的Yann LeCun?!?/p> 深度學(xué)習(xí)的密謀
當(dāng)你希望有一場(chǎng)革命的時(shí)候,那么,從密謀開(kāi)始吧。隨著支持向量機(jī)的上升和反向傳播的失敗,對(duì)于神經(jīng)網(wǎng)絡(luò)研究來(lái)說(shuō),上世紀(jì)早期是一段黑暗的時(shí)間。Lecun與Hinton各自提到過(guò),那時(shí)他們以及他們學(xué)生的論文被拒成了家常便飯,因?yàn)檎撐闹黝}是神經(jīng)網(wǎng)絡(luò)。上面的引文可能夸張了——當(dāng)然機(jī)器學(xué)習(xí)與AI的研究仍然十分活躍,其他人,例如Juergen Schmidhuber也正在研究神經(jīng)網(wǎng)絡(luò)——但這段時(shí)間的引用次數(shù)也清楚表明興奮期已經(jīng)平緩下來(lái),盡管還沒(méi)有完全消失。在研究領(lǐng)域之外,他們找到了一個(gè)強(qiáng)有力的同盟:加拿大政府。CIFAR的資助鼓勵(lì)還沒(méi)有直接應(yīng)用的基礎(chǔ)研究,這項(xiàng)資助首先鼓勵(lì)Hinton于1987年搬到加拿大,然后一直資助他的研究直到九十年代中期?!璈inton 沒(méi)有放棄并改變他的方向,而是繼續(xù)研究神經(jīng)網(wǎng)絡(luò),并努力從CIFAR那里獲得更多資助,正如這篇例文(http://www.thestar.com/news/world/2015/04/17/how-a-toronto-professors-research-revolutionized-artificial-intelligence.html)清楚道明的:
「但是,在2004年,Hinton要求領(lǐng)導(dǎo)一項(xiàng)新的有關(guān)神經(jīng)計(jì)算的項(xiàng)目。主流機(jī)器學(xué)習(xí)社區(qū)對(duì)神經(jīng)網(wǎng)絡(luò)興趣寡然?!?/p>
「那是最不可能的時(shí)候」Bengio是蒙特利爾大學(xué)的教授,也是去年重新上馬的CIFAR項(xiàng)目聯(lián)合主管,「其他每個(gè)人都在做著不同的事。莫名其妙地,Geoff說(shuō)服了他們。」
「我們應(yīng)該為了他們的那場(chǎng)豪賭大力贊許CIFAR。」
CIFAR「對(duì)于深度學(xué)習(xí)的社區(qū)形成有著巨大的影響。」LeCun補(bǔ)充道,他是CIFAR項(xiàng)目的另一個(gè)聯(lián)合主管。「我們像是廣大機(jī)器學(xué)習(xí)社區(qū)的棄兒:無(wú)法發(fā)表任何文章。這個(gè)項(xiàng)目給了我們交流思想的天地?!?/p>
資助不算豐厚,但足夠讓研究員小組繼續(xù)下去。Hinton和這個(gè)小組孕育了一場(chǎng)密謀:用「深度學(xué)習(xí)」來(lái)「重新命名」讓人聞之色變的神經(jīng)網(wǎng)絡(luò)領(lǐng)域。接下來(lái),每位研究人員肯定都?jí)粝脒^(guò)的事情真的發(fā)生了:2006年,Hinton、Simon Osindero與Yee-Whye Teh發(fā)表了一篇論文,這被視為一次重要突破,足以重燃人們對(duì)神經(jīng)網(wǎng)絡(luò)的興趣:A fast learning algorithm for deep belief nets(論文參見(jiàn):https://www.cs.toronto.edu/~hinton/absps/fastnc.pdf)。
正如我們將要看到的,盡管這個(gè)想法所包含的東西都已經(jīng)很古老了,「深度學(xué)習(xí)」的運(yùn)動(dòng)完全可以說(shuō)是由這篇文章所開(kāi)始。但是比起名稱(chēng),更重要的是如果權(quán)重能夠以一種更靈活而非隨機(jī)的方式進(jìn)行初始化,有著多層的神經(jīng)網(wǎng)絡(luò)就可以得以更好地訓(xùn)練。
「歷史上的第一次,神經(jīng)網(wǎng)絡(luò)沒(méi)有好處且不可訓(xùn)練的信念被克服了,并且這是個(gè)非常強(qiáng)烈的信念。我的一個(gè)朋友在ICML(機(jī)器學(xué)習(xí)國(guó)際會(huì)議)發(fā)表了一篇文章,而就在這不久之前,選稿編輯還說(shuō)過(guò)ICML不應(yīng)該接受這種文章,因?yàn)樗顷P(guān)于神經(jīng)網(wǎng)絡(luò),并不適合ICML。實(shí)際上如果你看一下去年的ICML,沒(méi)有一篇文章的標(biāo)題有『神經(jīng)網(wǎng)絡(luò)』四個(gè)字,因此ICML不應(yīng)該接受神經(jīng)網(wǎng)絡(luò)的文章。那還僅僅只是幾年前。IEEE期刊真的有『不接收你的文章』的官方準(zhǔn)則。所以,這種信念其實(shí)非常強(qiáng)烈?!?/p>
受限的玻爾茲曼機(jī)器
那么什么叫做初始化權(quán)重的靈活方法呢?實(shí)際上,這個(gè)主意基本就是利用非監(jiān)督式訓(xùn)練方式去一個(gè)一個(gè)訓(xùn)練神經(jīng)層,比起一開(kāi)始隨機(jī)分配值的方法要更好些,之后以監(jiān)督式學(xué)習(xí)作為結(jié)束。每一層都以受限波爾茲曼機(jī)器(RBM)開(kāi)始,就像上圖所顯示的隱藏單元和可見(jiàn)單元之間并沒(méi)有連接的玻爾茲曼機(jī)器(如同亥姆霍茲?rùn)C(jī)器),并以非監(jiān)督模式進(jìn)行數(shù)據(jù)生成模式的訓(xùn)練。事實(shí)證明這種形式的玻爾茲曼機(jī)器能夠有效采用2002年Hinton引進(jìn)的方式「最小化對(duì)比發(fā)散專(zhuān)家訓(xùn)練產(chǎn)品(Training Products of Experts by Minimizing Contrastive Divergence)」進(jìn)行訓(xùn)練。
基本上,除去單元生成訓(xùn)練數(shù)據(jù)的可能,這個(gè)算法最大化了某些東西,保證更優(yōu)擬合,事實(shí)證明它做的很好。因此,利用這個(gè)方法,這個(gè)算法如以下:
利用對(duì)比發(fā)散訓(xùn)練數(shù)據(jù)訓(xùn)練RBM。這是信念網(wǎng)絡(luò)(belief net)的第一層。
生成訓(xùn)練后RBM數(shù)據(jù)的隱藏值,模擬這些隱藏值訓(xùn)練另一個(gè)RBM,這是第二層——將之「堆棧」在第一層之上,僅在一個(gè)方向上保持權(quán)重直至形成一個(gè)信念網(wǎng)絡(luò)。
根據(jù)信念網(wǎng)絡(luò)需求在多層基礎(chǔ)上重復(fù)步驟2。
如果需要進(jìn)行分類(lèi),就添加一套隱藏單元,對(duì)應(yīng)分類(lèi)標(biāo)志,并改變喚醒-休眠算法「微調(diào)」權(quán)重。這樣非監(jiān)督式與監(jiān)督式的組合也經(jīng)常叫做半監(jiān)督式學(xué)習(xí)。
Hinton引入的層式預(yù)訓(xùn)練
這篇論文展示了深度信念網(wǎng)絡(luò)(DBNs)對(duì)于標(biāo)準(zhǔn)化MNIST字符識(shí)別數(shù)據(jù)庫(kù)有著完美的表現(xiàn),超越了僅有幾層的普通神經(jīng)網(wǎng)絡(luò)。Yoshua Bengio等在這項(xiàng)工作后于2007年提出了「深層網(wǎng)絡(luò)冗余式逐層訓(xùn)練( “Greedy Layer-Wise Training of Deep Networks)」,其中他們表達(dá)了一個(gè)強(qiáng)有力的論點(diǎn),深度機(jī)器學(xué)習(xí)方法(也就是有著多重處理步驟的方法,或者有著數(shù)據(jù)等級(jí)排列特征顯示)在復(fù)雜問(wèn)題上比淺顯方法更加有效(雙層ANNs或向量支持機(jī)器)。
關(guān)于非監(jiān)督式預(yù)訓(xùn)練的另一種看法,利用自動(dòng)代碼取代RBM。
他們還提出了為什么附加非監(jiān)督式預(yù)訓(xùn)練,并總結(jié)這不僅僅以更優(yōu)化的方式初始權(quán)重,而且更加重要的是導(dǎo)致了更有用的可學(xué)習(xí)數(shù)據(jù)顯示,讓算法可以有更加普遍化的模型。實(shí)際上,利用RBM并不是那么重要——普通神經(jīng)網(wǎng)絡(luò)層的非監(jiān)督式預(yù)訓(xùn)練利用簡(jiǎn)單的自動(dòng)代碼層反向傳播證明了其有效性。同樣的,與此同時(shí),另一種叫做分散編碼的方法也表明,非監(jiān)督式特征學(xué)習(xí)對(duì)于改進(jìn)監(jiān)督式學(xué)習(xí)的性能非常有力。
因此,關(guān)鍵在于有著足夠多的顯示層,這樣優(yōu)良的高層數(shù)據(jù)顯示能夠被學(xué)習(xí)——與傳統(tǒng)的手動(dòng)設(shè)計(jì)一些特征提取步驟并以提取到的特征進(jìn)行機(jī)器學(xué)習(xí)方式完全不同。Hinton與Bengio的工作有著實(shí)踐上的證明,但是更重要的是,展示了深層神經(jīng)網(wǎng)絡(luò)并不能被訓(xùn)練好的假設(shè)是錯(cuò)誤的。LeCun已經(jīng)在整個(gè)九十年代證明了CNN,但是大部分研究團(tuán)體卻拒絕接受。Bengio與Yann LeCun一起,在「實(shí)現(xiàn)AI的算法(Scaling Algorithms Towards AI)」研究之上證明了他們自己:
「直至最近,許多人相信訓(xùn)練深層架構(gòu)是一個(gè)太過(guò)困難的優(yōu)化問(wèn)題。然而,至少有兩個(gè)不同的方法對(duì)此都很有效:應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單梯度下降[LeCun et al., 1989, LeCun et al., 1998](適用于信號(hào)和圖像),以及近期的逐層非監(jiān)督式學(xué)習(xí)之后的梯度下降[Hinton et al., 2006, Bengio et al., 2007, Ranzato et al., 2006]。深層架構(gòu)的研究仍然處于雛形之中,更好的學(xué)習(xí)算法還有待發(fā)現(xiàn)。從更廣泛的觀點(diǎn)來(lái)看待以發(fā)現(xiàn)能夠引出AI的學(xué)習(xí)準(zhǔn)則為目標(biāo)這事已經(jīng)成為指導(dǎo)性觀念。我們希望能夠激發(fā)他人去尋找實(shí)現(xiàn)AI的機(jī)器學(xué)習(xí)方法。」
他們的確做到了?;蛘咧辽?,他們開(kāi)始了。盡管深度學(xué)習(xí)還沒(méi)有達(dá)到今天山呼海應(yīng)的效果,它已經(jīng)如冰面下的潛流,不容忽視地開(kāi)始了涌動(dòng)。那個(gè)時(shí)候的成果還不那么引人注意——大部分論文中證明的表現(xiàn)都限于MNIST數(shù)據(jù)庫(kù),一個(gè)經(jīng)典的機(jī)器學(xué)習(xí)任務(wù),成為了十年間算法的標(biāo)準(zhǔn)化基準(zhǔn)。Hinton在2006年發(fā)布的論文展現(xiàn)出驚人的錯(cuò)誤率,在測(cè)試集上僅有1.25%的錯(cuò)誤率,但SVMs已經(jīng)達(dá)到了僅1.4%的錯(cuò)誤率,甚至簡(jiǎn)單的算法在個(gè)位數(shù)上也能達(dá)到較低的錯(cuò)誤率,正如在論文中所提到的,LeCun已經(jīng)在1998年利用CNNs表現(xiàn)出0.95%的錯(cuò)誤率。
因此,在MNIST上做得很好并不是什么大事。意識(shí)到這一點(diǎn),并自信這就是深度學(xué)習(xí)踏上舞臺(tái)的時(shí)刻的Hinton與他的兩個(gè)研究生,Abdel-rahman Mohamed和George Dahl,展現(xiàn)了他們?cè)谝粋€(gè)更具有挑戰(zhàn)性的任務(wù)上的努力:語(yǔ)音識(shí)別( Speech Recognition)。
利用DBN,這兩個(gè)學(xué)生與Hinton做到了一件事,那就是改善了十年間都沒(méi)有進(jìn)步的標(biāo)準(zhǔn)語(yǔ)音識(shí)別數(shù)據(jù)集。這是一個(gè)了不起的成就,但是現(xiàn)在回首來(lái)看,那只是暗示著即將到來(lái)的未來(lái)——簡(jiǎn)而言之,就是打破更多的記錄。
蠻力的重要性
上面所描述的算法對(duì)于深度學(xué)習(xí)的出現(xiàn)有著不容置疑的重要性,但是自上世紀(jì)九十年代開(kāi)始,也有著其他重要組成部分陸續(xù)出現(xiàn):純粹的計(jì)算速度。隨著摩爾定律,計(jì)算機(jī)比起九十年代快了數(shù)十倍,讓大型數(shù)據(jù)集和多層的學(xué)習(xí)更加易于處理。但是甚至這也不夠——CPU開(kāi)始抵達(dá)速度增長(zhǎng)的上限,計(jì)算機(jī)能力開(kāi)始主要通過(guò)數(shù)個(gè)CPU并行計(jì)算增長(zhǎng)。為了學(xué)習(xí)深度模型中常有的數(shù)百萬(wàn)個(gè)權(quán)重值,脆弱的CPU并行限制需要被拋棄,并被具有大型并行計(jì)算能力的GPUs所代替。意識(shí)到這一點(diǎn)也是Abdel-rahman Mohamed,George Dahl與Geoff Hinton做到打破語(yǔ)音識(shí)別性能記錄的部分原因:
「由Hinton的深度神經(jīng)網(wǎng)絡(luò)課堂之一所激發(fā),Mohamed開(kāi)始將它們應(yīng)用于語(yǔ)音——但是深度神經(jīng)網(wǎng)絡(luò)需要巨大的計(jì)算能力,傳統(tǒng)計(jì)算機(jī)顯然達(dá)不到——因此Hinton與Mohamed招募了Dahl。Dahl是Hinton實(shí)驗(yàn)室的學(xué)生,他發(fā)現(xiàn)了如何利用相同的高端顯卡(讓栩栩如生的計(jì)算機(jī)游戲能夠顯示在私人計(jì)算機(jī)上)有效訓(xùn)練并模擬神經(jīng)網(wǎng)絡(luò)。」
「他們用相同的方法去解決時(shí)長(zhǎng)過(guò)短的語(yǔ)音中片段的音素識(shí)別問(wèn)題,」Hinton說(shuō)道,「對(duì)比于之前標(biāo)準(zhǔn)化三小時(shí)基準(zhǔn)的方法,他們有了更好的成果。」
在這個(gè)案例中利用GPU而不是CPU到底能變得有多快很難說(shuō)清楚,但是同年《Large-scale Deep Unsupervised Learning using Graphics Processors》這篇論文給出了一個(gè)數(shù)字:70倍。是的,70倍,這使得數(shù)以周記的工作可以被壓縮到幾天就完成,甚至是一天。之前研發(fā)了分散式代碼的作者中包括高產(chǎn)的機(jī)器學(xué)習(xí)研究者吳恩達(dá),他逐漸意識(shí)到利用大量訓(xùn)練數(shù)據(jù)與快速計(jì)算的能力在之前被贊同學(xué)習(xí)算法演變愈烈的研究員們低估了。這個(gè)想法在2010年的《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》(作者之一J. Schimidhuber正是遞歸LTSM網(wǎng)絡(luò)(recurrent LTSM networks)的投資者)中也得到了大力支持,展示了MNIST數(shù)據(jù)庫(kù)能夠達(dá)到令人驚嘆的0.35%錯(cuò)誤率,并且除去大型神經(jīng)網(wǎng)絡(luò)、輸入的多個(gè)變量、以及有效的反向傳播GPU實(shí)現(xiàn)以外沒(méi)有任何特殊的地方。這些想法已經(jīng)存在了數(shù)十年,因此盡管可以說(shuō)算法的改進(jìn)并不那么重要,但是結(jié)果確實(shí)強(qiáng)烈表明大型訓(xùn)練數(shù)據(jù)集與快速腭化計(jì)算的蠻力方法是一個(gè)關(guān)鍵。
Dahl與Mohamed利用GPU打破記錄是一個(gè)早期且相對(duì)有限的成功,但是它足以激勵(lì)人們,并且對(duì)這兩人來(lái)說(shuō)也為他們帶來(lái)了在微軟研究室實(shí)習(xí)的機(jī)會(huì)。在這里,他們可以享受到那時(shí)已經(jīng)出現(xiàn)的計(jì)算領(lǐng)域內(nèi)另一個(gè)趨勢(shì)所帶來(lái)的益處:大數(shù)據(jù)。這個(gè)詞語(yǔ)定義寬松,在機(jī)器學(xué)習(xí)的環(huán)境下則很容易理解——大量訓(xùn)練數(shù)據(jù)。大量的訓(xùn)練數(shù)據(jù)非常重要,因?yàn)闆](méi)有它神經(jīng)網(wǎng)絡(luò)仍然不能做到很好——它們有些過(guò)擬合了(完美適用于訓(xùn)練數(shù)據(jù),但無(wú)法推廣到新的測(cè)試數(shù)據(jù))。這說(shuō)得通——大型神經(jīng)網(wǎng)絡(luò)能夠計(jì)算的復(fù)雜度需要許多數(shù)據(jù)來(lái)使它們避免學(xué)習(xí)訓(xùn)練集中那些不重要的方面——這也是過(guò)去研究者面對(duì)的主要難題。因此現(xiàn)在,大型公司的計(jì)算與數(shù)據(jù)集合能力證明了其不可替代性。這兩個(gè)學(xué)生在三個(gè)月的實(shí)習(xí)期中輕易地證明了深度學(xué)習(xí)的能力,微軟研究室也自此成為了深度學(xué)習(xí)語(yǔ)音識(shí)別研究的前沿地帶。
微軟不是唯一一個(gè)意識(shí)到深度學(xué)習(xí)力量的大公司(盡管起初它很靈巧)。Navdeep Jaitly是Hinton的另一個(gè)學(xué)生,2011年曾在谷歌當(dāng)過(guò)暑假實(shí)習(xí)生。他致力于谷歌的語(yǔ)音識(shí)別項(xiàng)目,通過(guò)結(jié)合深度學(xué)習(xí)能夠讓他們現(xiàn)存的設(shè)備大大提高。修正后的方法不久就加強(qiáng)了安卓的語(yǔ)音識(shí)別技術(shù),替代了許多之前的解決方案。
除了博士實(shí)習(xí)生給大公司的產(chǎn)品帶來(lái)的深刻影響之外,這里最著名的是兩家公司都在用相同的方法——這方法對(duì)所有使用它的人都是開(kāi)放的。實(shí)際上,微軟和谷歌的工作成果,以及IBM和Hinton實(shí)驗(yàn)室的工作成果,在2012 年發(fā)布了令人印象深刻的名為「深層神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別的聲學(xué)建模:分享四個(gè)研究小組的觀點(diǎn)」的文章。
這四個(gè)研究小組——有三個(gè)是來(lái)自企業(yè),確定能從傷腦筋的深度學(xué)習(xí)這一新興技術(shù)專(zhuān)利中獲益,而大學(xué)研究小組推廣了技術(shù)——共同努力并將他們的成果發(fā)布給更廣泛的研究社區(qū)。如果有什么理想的場(chǎng)景讓行業(yè)接受研究中的觀念,似乎就是這一刻了。
這并不是說(shuō)公司這么做是為了慈善。這是他們所有人探索如何把技術(shù)商業(yè)化的開(kāi)始,其中最為突出的是谷歌。但是也許并非Hinton,而是吳恩達(dá)造成了這一切,他促使公司成為世界最大的商業(yè)化采用者和技術(shù)用戶(hù)者。在2011年,吳恩達(dá)在巡視公司時(shí)偶遇到了傳說(shuō)中的谷歌人Jeff Dean,聊了一些他用谷歌的計(jì)算資源來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)所做的努力。
這使Dean著迷,于是與吳恩達(dá)一起創(chuàng)建了谷歌大腦(Google Brain)——努力構(gòu)建真正巨大的神經(jīng)網(wǎng)絡(luò)并且探索它們能做什么。這項(xiàng)工作引發(fā)了一個(gè)規(guī)模前所未有的無(wú)監(jiān)督式神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)——16000個(gè)CPU核,驅(qū)動(dòng)高達(dá)10億權(quán)重的學(xué)習(xí)(作為比較,Hinton在2006年突破性的DBN大約有100萬(wàn)權(quán)重)。神經(jīng)網(wǎng)絡(luò)在YouTube視頻上被訓(xùn)練,完全無(wú)標(biāo)記,并且學(xué)著在這些視頻中去辨認(rèn)最平常的物體——而神經(jīng)網(wǎng)絡(luò)對(duì)于貓的發(fā)現(xiàn),引起了互聯(lián)網(wǎng)的集體歡樂(lè)。
它很可愛(ài),也很有用。正如他們常規(guī)發(fā)表的一篇論文中所報(bào)道的,由模型學(xué)習(xí)的特征能用來(lái)記錄標(biāo)準(zhǔn)的計(jì)算機(jī)視覺(jué)基準(zhǔn)的設(shè)置性能。
這樣一來(lái),谷歌訓(xùn)練大規(guī)模的神經(jīng)網(wǎng)絡(luò)的內(nèi)部工具誕生了,自此他們僅需繼續(xù)發(fā)展它。深度學(xué)習(xí)研究的浪潮始于2006年,現(xiàn)在已經(jīng)確定進(jìn)入行業(yè)使用。
深度學(xué)習(xí)的上升
當(dāng)深度學(xué)習(xí)進(jìn)入行業(yè)使用時(shí),研究社區(qū)很難保持平靜。有效的利用GPU和計(jì)算能力的發(fā)現(xiàn)是如此重要,它讓人們檢查長(zhǎng)久存疑的假設(shè)并且問(wèn)一些也許很久之前被提及過(guò)的問(wèn)題——也就是,反向傳播到底為何沒(méi)什么用呢?為什么舊的方法不起作用,而不是新的方法能奏效,這樣的問(wèn)題觀點(diǎn)讓Xavier Glort 和 Yoshua Bengio在2010年寫(xiě)了「理解訓(xùn)練深度前饋神經(jīng)網(wǎng)絡(luò)的難點(diǎn)」(Understanding the difficulty of training deep feedforward neural networks)一文。
在文中,他們討論了兩個(gè)有重大意義的發(fā)現(xiàn):
為神經(jīng)網(wǎng)絡(luò)中神經(jīng)元選取的特定非線(xiàn)性激活函數(shù),對(duì)性能有巨大影響,而默認(rèn)使用的函數(shù)不是最好的選擇。
相對(duì)于隨機(jī)選取權(quán)重,不考慮神經(jīng)層的權(quán)重就隨機(jī)選取權(quán)重的問(wèn)題要大得多。以往消失的梯度問(wèn)題重現(xiàn),根本上,由于反向傳播引入一系列乘法,不可避免地導(dǎo)致給前面的神經(jīng)層帶來(lái)細(xì)微的偏差。就是這樣,除非依據(jù)所在的神經(jīng)層不同分別選取不同的權(quán)重 ——否則很小的變化會(huì)引起結(jié)果巨大變化。
第二點(diǎn)的結(jié)論已經(jīng)很清楚了,但是第一點(diǎn)提出了這樣的問(wèn)題:『然而,什么是最好的激活函數(shù)?』有三個(gè)不同的團(tuán)隊(duì)研究了這個(gè)問(wèn)題:LeCun所在的團(tuán)隊(duì),他們研究的是「針對(duì)對(duì)象識(shí)別最好的多級(jí)結(jié)構(gòu)是什么?」;另一組是Hinton所在的團(tuán)隊(duì),研究「修正的線(xiàn)性單元改善受限玻爾茲曼機(jī)器」;第三組是Bengio所在的團(tuán)隊(duì)——「深度稀缺的修正神經(jīng)網(wǎng)絡(luò)」。他們都發(fā)現(xiàn)驚人的相似結(jié)論:近乎不可微的、十分簡(jiǎn)單的函數(shù)f(x)=max(0,x)似乎是最好的。令人吃驚的是,這個(gè)函數(shù)有點(diǎn)古怪——它不是嚴(yán)格可微的,確切地說(shuō),在零點(diǎn)不可微,因此 就 數(shù)學(xué)而言論文看起來(lái)很糟糕。但是,清楚的是零點(diǎn)是很小的數(shù)學(xué)問(wèn)題——更嚴(yán)重的問(wèn)題是為什么這樣一個(gè)零點(diǎn)兩側(cè)導(dǎo)數(shù)都是常數(shù)的簡(jiǎn)單函數(shù),這么好用。答案還未揭曉,但一些想法看起來(lái)已經(jīng)成型:
修正的激活導(dǎo)致了表征稀疏,這意味著在給定輸入時(shí),很多神經(jīng)元實(shí)際上最終需要輸出非零值。這些年的結(jié)論是,稀疏對(duì)深度學(xué)習(xí)十分有利,一方面是由于它用更具魯棒性的方式表征信息,另一方面由于它帶來(lái)極高的計(jì)算效率(如果大多數(shù)的神經(jīng)元在輸出零,實(shí)際上就可以忽略它們,計(jì)算也就更快)。順便提一句,計(jì)算神經(jīng)科學(xué)的研究者首次在大腦視覺(jué)系統(tǒng)中引入稀疏計(jì)算,比機(jī)器學(xué)習(xí)的研究早了10年。
相比指數(shù)函數(shù)或者三角函數(shù),簡(jiǎn)單的函數(shù)及其導(dǎo)數(shù),使它能非常快地工作。當(dāng)使用GPU時(shí),這就不僅僅是一個(gè)很小的改善,而是十分重要,因?yàn)檫@能規(guī)模化神經(jīng)網(wǎng)絡(luò)以很好地完成極具挑戰(zhàn)的問(wèn)題。
后來(lái)吳恩達(dá)聯(lián)合發(fā)表的「修正的非線(xiàn)性改善神經(jīng)網(wǎng)絡(luò)的語(yǔ)音模型 」(Rectifier Nonlinearities Improve Neural Network Acoustic Models)一文,也證明了ReLU導(dǎo)數(shù)為常數(shù)0或1對(duì)學(xué)習(xí)并無(wú)害處。實(shí)際上,它有助于避免梯度消失的問(wèn)題,而這正是反向傳播的禍根。此外,除了生成更稀疏的表征,它還能生成更發(fā)散的表征——這樣就可以結(jié)合多個(gè)神經(jīng)元的多重值,而不局限于從單個(gè)神經(jīng)元中獲取有意義的結(jié)論。
目前,結(jié)合2006年以來(lái)的這些發(fā)現(xiàn),很清楚的是非監(jiān)督預(yù)訓(xùn)練對(duì)深度學(xué)習(xí)來(lái)說(shuō)不是必要的。雖然,它的確有幫助,但是在某些情況下也表明,純粹的監(jiān)督學(xué)習(xí)(有正確的初始權(quán)重規(guī)模和激活函數(shù))能超越含非監(jiān)督訓(xùn)練的學(xué)習(xí)方式。那么,到底為什么基于反向傳播的純監(jiān)督學(xué)習(xí)在過(guò)去表現(xiàn)不佳?Geoffrey Hinton總結(jié)了目前發(fā)現(xiàn)的四個(gè)方面問(wèn)題:
帶標(biāo)簽的數(shù)據(jù)集很小,只有現(xiàn)在的千分之一.
計(jì)算性能很慢,只有現(xiàn)在的百萬(wàn)分之一.
權(quán)重的初始化方式笨拙.
使用了錯(cuò)誤的非線(xiàn)性模型。
好了,就到這里了。深度學(xué)習(xí)。數(shù)十年研究的積累,總結(jié)成一個(gè)公式就是:
深度學(xué)習(xí)=許多訓(xùn)練數(shù)據(jù)+并行計(jì)算+規(guī)?;?、靈巧的的算法
更不要說(shuō)這里就是希望弄清楚這點(diǎn)。差遠(yuǎn)了!被想通的東西剛好是相反的:人們的直覺(jué)經(jīng)常出錯(cuò),尤其是一些看似沒(méi)有問(wèn)題的決定及假設(shè)通常都是沒(méi)有根據(jù)的。問(wèn)簡(jiǎn)單的問(wèn)題,嘗試簡(jiǎn)單的東西——這些對(duì)于改善最新的技術(shù)有很大的幫助。其實(shí)這一直都在發(fā)生,我們看到更多的想法及方法在深度學(xué)習(xí)領(lǐng)域中被發(fā)掘、被分享。例如 G. E. Hinton等的「透過(guò)預(yù)防特征檢測(cè)器的互相適應(yīng)改善神經(jīng)網(wǎng)絡(luò)」( Improving neural networks by preventing co-adaptation of feature detectors)。
其構(gòu)思很簡(jiǎn)單:為了避免過(guò)度擬合,我們可以隨機(jī)假裝在訓(xùn)練當(dāng)中有些神經(jīng)元并不在那兒。想法雖然非常簡(jiǎn)單——被稱(chēng)為丟棄法(dropout)——但對(duì)于實(shí)施非常強(qiáng)大的集成學(xué)習(xí)方法又非常有效,這意味著我們可以在訓(xùn)練數(shù)據(jù)中實(shí)行多種不同的學(xué)習(xí)方法。隨機(jī)森林——一種在當(dāng)今機(jī)器學(xué)習(xí)領(lǐng)域中占主導(dǎo)地位的方法——主要就是得益于集成學(xué)習(xí)而非常有效。訓(xùn)練多個(gè)不同的神經(jīng)網(wǎng)絡(luò)是可能的,但它在計(jì)算上過(guò)于昂貴,而這個(gè)簡(jiǎn)單的想法在本質(zhì)上也可取得相同的結(jié)果,而且性能也可有顯著提高。
然而,自2006年以來(lái)的所有這些研究發(fā)現(xiàn)都不是促使計(jì)算機(jī)視覺(jué)及其他研究機(jī)構(gòu)再次尊重神經(jīng)網(wǎng)絡(luò)的原因。這個(gè)原因遠(yuǎn)沒(méi)有看來(lái)的高尚:在現(xiàn)代競(jìng)爭(zhēng)的基準(zhǔn)上完全摧毀其他非深度學(xué)習(xí)的方法。Geoffrey Hinton召集與他共同寫(xiě)丟棄法的兩位作家,Alex Krizhevsky 與 Ilya Sutskever,將他們所發(fā)現(xiàn)的想法在ILSVRC-2012計(jì)算機(jī)視覺(jué)比賽中創(chuàng)建了一個(gè)條目。
對(duì)于我來(lái)說(shuō),了解他們的工作是非常驚人的,他們的「使用深度卷積神經(jīng)網(wǎng)絡(luò)在ImageNet上分類(lèi)」(ImageNet Classification with deep convolutional neural networks)一文其實(shí)就是將一些很舊的概念(例如卷積神經(jīng)網(wǎng)絡(luò)的池化及卷積層,輸入數(shù)據(jù)的變化)與一些新的關(guān)鍵觀點(diǎn)(例如十分高性能的GPU、ReLU神經(jīng)元、丟棄法等)重新組合,而這點(diǎn),正是這一點(diǎn),就是現(xiàn)代深度網(wǎng)絡(luò)的所有深意了。但他們?nèi)绾巫龅降哪兀?/p>
遠(yuǎn)比下一個(gè)最近的條目好:它們的誤差率是15.3%,第二個(gè)最近的是26.2%。在這點(diǎn)上——第一個(gè)及唯一一個(gè)在比賽中的CNN條目——對(duì)于CNNs及深度學(xué)習(xí)整體來(lái)說(shuō)是一個(gè)無(wú)可爭(zhēng)議的標(biāo)志,對(duì)于計(jì)算機(jī)視覺(jué),它應(yīng)該被認(rèn)真對(duì)待。如今,幾乎所有的比賽條目都是CNNs——這就是Yann LeCun自1989年以來(lái)在上面花費(fèi)大量心血的神經(jīng)網(wǎng)絡(luò)模型。還記得上世紀(jì)90年代由Sepp Hochreiter 及 Jürgen Schmidhuber為了解決反向傳播問(wèn)題而開(kāi)發(fā)的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)嗎?這些在現(xiàn)在也是最新的連續(xù)任務(wù)比如語(yǔ)音處理的處理方法。
這就是轉(zhuǎn)折點(diǎn)。一波對(duì)于其可能發(fā)展的狂歡在其無(wú)可否認(rèn)的成績(jī)中達(dá)到了高潮,這遠(yuǎn)遠(yuǎn)超過(guò)了其他已知方法所能處理的。這就是我們?cè)诘谝徊糠珠_(kāi)頭所描寫(xiě)的山呼海應(yīng)比喻的起點(diǎn),而且它到如今還一直在增長(zhǎng),強(qiáng)化。深度學(xué)習(xí)就在這兒,我們看不到寒冬。
我們列舉了對(duì)深度學(xué)習(xí)的發(fā)展做出重要貢獻(xiàn)的人物。我相信我不需要再指出自從2012年以來(lái)其飛漲的趨勢(shì)了。
后記:現(xiàn)狀
如果這是一部電影,2012年ImageNet比賽將是其高潮,而現(xiàn)在在電影結(jié)束的時(shí)候,我們將會(huì)出現(xiàn)這幾個(gè)字:「他們?nèi)缃裨谀睦铩?。Yann Lecun:Facebook; Geoffrey Hinton: 谷歌; 吳恩達(dá): Coursera、谷歌、百度; Bengi、Schmidhuber 及 Hochreiter 依然還留在學(xué)術(shù)界——但我們可以很容易推測(cè),這個(gè)領(lǐng)域?qū)?huì)有更多的引用及畢業(yè)生。
雖然深度學(xué)習(xí)的理念及成績(jī)令人振奮,但當(dāng)我在寫(xiě)這幾篇文章的時(shí)候,我也不由自主地被他們所感動(dòng),他們?cè)谝粋€(gè)幾乎被人遺棄的領(lǐng)域里深耕數(shù)十年,他們現(xiàn)在富裕、成功,但重要的是他們?nèi)缃窀_信自己的研究。這些人的思想依然保持開(kāi)放,而這些大公司也一直在開(kāi)源他們的深度學(xué)習(xí)模型,猶如一個(gè)由工業(yè)界領(lǐng)導(dǎo)研究界的理想國(guó)。多美好的故事啊啊。
我愚蠢的以為我可以在這一部分寫(xiě)一個(gè)過(guò)去幾年讓人印象深刻的成果總結(jié),但在此,我清楚知道我已經(jīng)沒(méi)有足夠的空間來(lái)寫(xiě)這些。可能有一天我會(huì)繼續(xù)寫(xiě)第五部分,那就可以完成這個(gè)故事了。但現(xiàn)在,讓我提供以下一個(gè)簡(jiǎn)短的清單:
1.LTSM RNNs的死灰復(fù)燃以及分布式表征的代表
2.利用深度學(xué)習(xí)來(lái)加強(qiáng)學(xué)習(xí)
3.附加外部可讀寫(xiě)存儲(chǔ)
參考文獻(xiàn):
Kate Allen. How a Toronto professor’s research revolutionized artificial intelligence Science and Technology reporter, Apr 17 2015 http://www.thestar.com/news/world/2015/04/17/how-a-toronto-professors-research-revolutionized-artificial-intelligence.html
Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural computation, 18(7), 1527-1554.
Hinton, G. E. (2002). Training products of experts by minimizing contrastive divergence. Neural computation, 14(8), 1771-1800.
Bengio, Y., Lamblin, P., Popovici, D., & Larochelle, H. (2007). Greedy layer-wise training of deep networks. Advances in neural information processing systems, 19, 153.
Bengio, Y., & LeCun, Y. (2007). Scaling learning algorithms towards AI. Large-scale kernel machines, 34(5).
Mohamed, A. R., Sainath, T. N., Dahl, G., Ramabhadran, B., Hinton, G. E., & Picheny, M. (2011, May). Deep belief networks using discriminative features for phone recognition. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on (pp. 5060-5063). IEEE.
November 26, 2012. Leading breakthroughs in speech recognition software at Microsoft, Google, IBM Source: http://news.utoronto.ca/leading-breakthroughs-speech-recognition-software-microsoft-google-ibm
Raina, R., Madhavan, A., & Ng, A. Y. (2009, June). Large-scale deep unsupervised learning using graphics processors. In Proceedings of the 26th annual international conference on machine learning (pp. 873-880). ACM.
Claudiu Ciresan, D., Meier, U., Gambardella, L. M., & Schmidhuber, J. (2010). Deep big simple neural nets excel on handwritten digit recognition. arXiv preprint arXiv:1003.0358.
Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., … & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. Signal Processing Magazine, IEEE, 29(6), 82-97.
Le, Q. V. (2013, May). Building high-level features using large scale unsupervised learning. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 8595-8598). IEEE. ?
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. In International conference on artificial intelligence and statistics (pp. 249-256).
Jarrett, K., Kavukcuoglu, K., Ranzato, M. A., & LeCun, Y. (2009, September). What is the best multi-stage architecture for object recognition?. In Computer Vision, 2009 IEEE 12th International Conference on (pp. 2146-2153). IEEE.
Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML-10) (pp. 807-814).
Glorot, X., Bordes, A., & Bengio, Y. (2011). Deep sparse rectifier neural networks. In International Conference on Artificial Intelligence and Statistics (pp. 315-323).
Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013, June). Rectifier nonlinearities improve neural network acoustic models. In Proc. ICML (Vol. 30).
Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580.
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).
http://www.technologyreview.com/news/524026/is-google-cornering-the-market-on-deep-learning/
本文由機(jī)器之心原創(chuàng)編譯,轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。
------------------------------------------------
加入機(jī)器之心(全職記者/實(shí)習(xí)生):hr@almosthuman.cn
投稿或?qū)で髨?bào)道:editor@almosthuman.cn
廣告&商務(wù)合作:bd@almosthuman.cn
機(jī)器之心是Comet Labs旗下的前沿科技媒體。Comet Labs是由聯(lián)想之星發(fā)起、獨(dú)立運(yùn)作的全球人工智能和智能機(jī)器加速投資平臺(tái),攜手全球領(lǐng)先的產(chǎn)業(yè)公司和投資機(jī)構(gòu),幫助創(chuàng)業(yè)者解決產(chǎn)業(yè)對(duì)接、用戶(hù)拓展、全球市場(chǎng)、技術(shù)整合、資金等關(guān)鍵問(wèn)題。旗下業(yè)務(wù)還包括:Comet舊金山加速器、Comet北京加速器、Comet垂直行業(yè)加速器。
↓↓↓點(diǎn)擊「閱讀原文」查看機(jī)器之心網(wǎng)站,獲取更多精彩內(nèi)容。
聯(lián)系客服