乌克兰的美女视频,美女视频在线观看网,杨幂小视频在线观看

選自andreykurenkov

機(jī)器之心編譯出品

翻譯：微胖、Ben、Sane、Salmoner、Chen、柒少

導(dǎo)讀：這是《神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史》第四部分。前三部分的鏈接分別是：

神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史（一）：從感知機(jī)到BP算法
神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史（二）：BP算法之后的又一突破——信念網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史（三）：90年代的興衰——強(qiáng)化學(xué)習(xí)與遞歸神經(jīng)網(wǎng)絡(luò)

我們終于來(lái)到簡(jiǎn)史的最后一部分。這一部分，我們會(huì)來(lái)到故事的尾聲并一睹神經(jīng)網(wǎng)絡(luò)如何在上世紀(jì)九十年代末擺脫頹勢(shì)并找回自己，也會(huì)看到自此以后它獲得的驚人先進(jìn)成果。

「試問(wèn)機(jī)器學(xué)習(xí)領(lǐng)域的任何一人，是什么讓神經(jīng)網(wǎng)絡(luò)研究進(jìn)行下來(lái)，對(duì)方很可能提及這幾個(gè)名字中的一個(gè)或全部: Geoffrey Hinton，加拿大同事Yoshua Bengio 以及臉書(shū)和紐約大學(xué)的Yann LeCun?！?/p>

深度學(xué)習(xí)的密謀

當(dāng)你希望有一場(chǎng)革命的時(shí)候，那么，從密謀開(kāi)始吧。隨著支持向量機(jī)的上升和反向傳播的失敗，對(duì)于神經(jīng)網(wǎng)絡(luò)研究來(lái)說(shuō)，上世紀(jì)早期是一段黑暗的時(shí)間。Lecun與Hinton各自提到過(guò)，那時(shí)他們以及他們學(xué)生的論文被拒成了家常便飯，因?yàn)檎撐闹黝}是神經(jīng)網(wǎng)絡(luò)。上面的引文可能夸張了——當(dāng)然機(jī)器學(xué)習(xí)與AI的研究仍然十分活躍，其他人，例如Juergen Schmidhuber也正在研究神經(jīng)網(wǎng)絡(luò)——但這段時(shí)間的引用次數(shù)也清楚表明興奮期已經(jīng)平緩下來(lái)，盡管還沒(méi)有完全消失。在研究領(lǐng)域之外，他們找到了一個(gè)強(qiáng)有力的同盟：加拿大政府。CIFAR的資助鼓勵(lì)還沒(méi)有直接應(yīng)用的基礎(chǔ)研究，這項(xiàng)資助首先鼓勵(lì)Hinton于1987年搬到加拿大，然后一直資助他的研究直到九十年代中期?！璈inton 沒(méi)有放棄并改變他的方向，而是繼續(xù)研究神經(jīng)網(wǎng)絡(luò)，并努力從CIFAR那里獲得更多資助，正如這篇例文（http://www.thestar.com/news/world/2015/04/17/how-a-toronto-professors-research-revolutionized-artificial-intelligence.html）清楚道明的：

「但是，在2004年，Hinton要求領(lǐng)導(dǎo)一項(xiàng)新的有關(guān)神經(jīng)計(jì)算的項(xiàng)目。主流機(jī)器學(xué)習(xí)社區(qū)對(duì)神經(jīng)網(wǎng)絡(luò)興趣寡然?！?/p>

「那是最不可能的時(shí)候」Bengio是蒙特利爾大學(xué)的教授，也是去年重新上馬的CIFAR項(xiàng)目聯(lián)合主管，「其他每個(gè)人都在做著不同的事。莫名其妙地，Geoff說(shuō)服了他們。」

「我們應(yīng)該為了他們的那場(chǎng)豪賭大力贊許CIFAR。」

CIFAR「對(duì)于深度學(xué)習(xí)的社區(qū)形成有著巨大的影響。」LeCun補(bǔ)充道，他是CIFAR項(xiàng)目的另一個(gè)聯(lián)合主管。「我們像是廣大機(jī)器學(xué)習(xí)社區(qū)的棄兒：無(wú)法發(fā)表任何文章。這個(gè)項(xiàng)目給了我們交流思想的天地?！?/p>

資助不算豐厚，但足夠讓研究員小組繼續(xù)下去。Hinton和這個(gè)小組孕育了一場(chǎng)密謀：用「深度學(xué)習(xí)」來(lái)「重新命名」讓人聞之色變的神經(jīng)網(wǎng)絡(luò)領(lǐng)域。接下來(lái)，每位研究人員肯定都?jí)粝脒^(guò)的事情真的發(fā)生了：2006年，Hinton、Simon Osindero與Yee-Whye Teh發(fā)表了一篇論文，這被視為一次重要突破，足以重燃人們對(duì)神經(jīng)網(wǎng)絡(luò)的興趣：A fast learning algorithm for deep belief nets（論文參見(jiàn)：https://www.cs.toronto.edu/~hinton/absps/fastnc.pdf）。

正如我們將要看到的，盡管這個(gè)想法所包含的東西都已經(jīng)很古老了，「深度學(xué)習(xí)」的運(yùn)動(dòng)完全可以說(shuō)是由這篇文章所開(kāi)始。但是比起名稱(chēng)，更重要的是如果權(quán)重能夠以一種更靈活而非隨機(jī)的方式進(jìn)行初始化，有著多層的神經(jīng)網(wǎng)絡(luò)就可以得以更好地訓(xùn)練。

「歷史上的第一次，神經(jīng)網(wǎng)絡(luò)沒(méi)有好處且不可訓(xùn)練的信念被克服了，并且這是個(gè)非常強(qiáng)烈的信念。我的一個(gè)朋友在ICML（機(jī)器學(xué)習(xí)國(guó)際會(huì)議）發(fā)表了一篇文章，而就在這不久之前，選稿編輯還說(shuō)過(guò)ICML不應(yīng)該接受這種文章，因?yàn)樗顷P(guān)于神經(jīng)網(wǎng)絡(luò)，并不適合ICML。實(shí)際上如果你看一下去年的ICML，沒(méi)有一篇文章的標(biāo)題有『神經(jīng)網(wǎng)絡(luò)』四個(gè)字，因此ICML不應(yīng)該接受神經(jīng)網(wǎng)絡(luò)的文章。那還僅僅只是幾年前。IEEE期刊真的有『不接收你的文章』的官方準(zhǔn)則。所以，這種信念其實(shí)非常強(qiáng)烈?！?/p>

受限的玻爾茲曼機(jī)器

那么什么叫做初始化權(quán)重的靈活方法呢？實(shí)際上，這個(gè)主意基本就是利用非監(jiān)督式訓(xùn)練方式去一個(gè)一個(gè)訓(xùn)練神經(jīng)層，比起一開(kāi)始隨機(jī)分配值的方法要更好些，之后以監(jiān)督式學(xué)習(xí)作為結(jié)束。每一層都以受限波爾茲曼機(jī)器（RBM）開(kāi)始，就像上圖所顯示的隱藏單元和可見(jiàn)單元之間并沒(méi)有連接的玻爾茲曼機(jī)器（如同亥姆霍茲?rùn)C(jī)器），并以非監(jiān)督模式進(jìn)行數(shù)據(jù)生成模式的訓(xùn)練。事實(shí)證明這種形式的玻爾茲曼機(jī)器能夠有效采用2002年Hinton引進(jìn)的方式「最小化對(duì)比發(fā)散專(zhuān)家訓(xùn)練產(chǎn)品（Training Products of Experts by Minimizing Contrastive Divergence）」進(jìn)行訓(xùn)練。

基本上，除去單元生成訓(xùn)練數(shù)據(jù)的可能，這個(gè)算法最大化了某些東西，保證更優(yōu)擬合，事實(shí)證明它做的很好。因此，利用這個(gè)方法，這個(gè)算法如以下：

利用對(duì)比發(fā)散訓(xùn)練數(shù)據(jù)訓(xùn)練RBM。這是信念網(wǎng)絡(luò)（belief net）的第一層。
生成訓(xùn)練后RBM數(shù)據(jù)的隱藏值，模擬這些隱藏值訓(xùn)練另一個(gè)RBM，這是第二層——將之「堆棧」在第一層之上，僅在一個(gè)方向上保持權(quán)重直至形成一個(gè)信念網(wǎng)絡(luò)。
根據(jù)信念網(wǎng)絡(luò)需求在多層基礎(chǔ)上重復(fù)步驟2。
如果需要進(jìn)行分類(lèi)，就添加一套隱藏單元，對(duì)應(yīng)分類(lèi)標(biāo)志，并改變喚醒-休眠算法「微調(diào)」權(quán)重。這樣非監(jiān)督式與監(jiān)督式的組合也經(jīng)常叫做半監(jiān)督式學(xué)習(xí)。

Hinton引入的層式預(yù)訓(xùn)練

這篇論文展示了深度信念網(wǎng)絡(luò)（DBNs）對(duì)于標(biāo)準(zhǔn)化MNIST字符識(shí)別數(shù)據(jù)庫(kù)有著完美的表現(xiàn)，超越了僅有幾層的普通神經(jīng)網(wǎng)絡(luò)。Yoshua Bengio等在這項(xiàng)工作后于2007年提出了「深層網(wǎng)絡(luò)冗余式逐層訓(xùn)練（ “Greedy Layer-Wise Training of Deep Networks）」，其中他們表達(dá)了一個(gè)強(qiáng)有力的論點(diǎn)，深度機(jī)器學(xué)習(xí)方法（也就是有著多重處理步驟的方法，或者有著數(shù)據(jù)等級(jí)排列特征顯示）在復(fù)雜問(wèn)題上比淺顯方法更加有效（雙層ANNs或向量支持機(jī)器）。

關(guān)于非監(jiān)督式預(yù)訓(xùn)練的另一種看法，利用自動(dòng)代碼取代RBM。

他們還提出了為什么附加非監(jiān)督式預(yù)訓(xùn)練，并總結(jié)這不僅僅以更優(yōu)化的方式初始權(quán)重，而且更加重要的是導(dǎo)致了更有用的可學(xué)習(xí)數(shù)據(jù)顯示，讓算法可以有更加普遍化的模型。實(shí)際上，利用RBM并不是那么重要——普通神經(jīng)網(wǎng)絡(luò)層的非監(jiān)督式預(yù)訓(xùn)練利用簡(jiǎn)單的自動(dòng)代碼層反向傳播證明了其有效性。同樣的，與此同時(shí)，另一種叫做分散編碼的方法也表明，非監(jiān)督式特征學(xué)習(xí)對(duì)于改進(jìn)監(jiān)督式學(xué)習(xí)的性能非常有力。

因此，關(guān)鍵在于有著足夠多的顯示層，這樣優(yōu)良的高層數(shù)據(jù)顯示能夠被學(xué)習(xí)——與傳統(tǒng)的手動(dòng)設(shè)計(jì)一些特征提取步驟并以提取到的特征進(jìn)行機(jī)器學(xué)習(xí)方式完全不同。Hinton與Bengio的工作有著實(shí)踐上的證明，但是更重要的是，展示了深層神經(jīng)網(wǎng)絡(luò)并不能被訓(xùn)練好的假設(shè)是錯(cuò)誤的。LeCun已經(jīng)在整個(gè)九十年代證明了CNN，但是大部分研究團(tuán)體卻拒絕接受。Bengio與Yann LeCun一起，在「實(shí)現(xiàn)AI的算法（Scaling Algorithms Towards AI）」研究之上證明了他們自己：

「直至最近，許多人相信訓(xùn)練深層架構(gòu)是一個(gè)太過(guò)困難的優(yōu)化問(wèn)題。然而，至少有兩個(gè)不同的方法對(duì)此都很有效：應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單梯度下降[LeCun et al., 1989, LeCun et al., 1998]（適用于信號(hào)和圖像），以及近期的逐層非監(jiān)督式學(xué)習(xí)之后的梯度下降[Hinton et al., 2006, Bengio et al., 2007, Ranzato et al., 2006]。深層架構(gòu)的研究仍然處于雛形之中，更好的學(xué)習(xí)算法還有待發(fā)現(xiàn)。從更廣泛的觀點(diǎn)來(lái)看待以發(fā)現(xiàn)能夠引出AI的學(xué)習(xí)準(zhǔn)則為目標(biāo)這事已經(jīng)成為指導(dǎo)性觀念。我們希望能夠激發(fā)他人去尋找實(shí)現(xiàn)AI的機(jī)器學(xué)習(xí)方法。」

他們的確做到了?；蛘咧辽?，他們開(kāi)始了。盡管深度學(xué)習(xí)還沒(méi)有達(dá)到今天山呼海應(yīng)的效果，它已經(jīng)如冰面下的潛流，不容忽視地開(kāi)始了涌動(dòng)。那個(gè)時(shí)候的成果還不那么引人注意——大部分論文中證明的表現(xiàn)都限于MNIST數(shù)據(jù)庫(kù)，一個(gè)經(jīng)典的機(jī)器學(xué)習(xí)任務(wù)，成為了十年間算法的標(biāo)準(zhǔn)化基準(zhǔn)。Hinton在2006年發(fā)布的論文展現(xiàn)出驚人的錯(cuò)誤率，在測(cè)試集上僅有1.25%的錯(cuò)誤率，但SVMs已經(jīng)達(dá)到了僅1.4%的錯(cuò)誤率，甚至簡(jiǎn)單的算法在個(gè)位數(shù)上也能達(dá)到較低的錯(cuò)誤率，正如在論文中所提到的，LeCun已經(jīng)在1998年利用CNNs表現(xiàn)出0.95%的錯(cuò)誤率。

因此，在MNIST上做得很好并不是什么大事。意識(shí)到這一點(diǎn)，并自信這就是深度學(xué)習(xí)踏上舞臺(tái)的時(shí)刻的Hinton與他的兩個(gè)研究生，Abdel-rahman Mohamed和George Dahl，展現(xiàn)了他們?cè)谝粋€(gè)更具有挑戰(zhàn)性的任務(wù)上的努力：語(yǔ)音識(shí)別（ Speech Recognition）。

利用DBN，這兩個(gè)學(xué)生與Hinton做到了一件事，那就是改善了十年間都沒(méi)有進(jìn)步的標(biāo)準(zhǔn)語(yǔ)音識(shí)別數(shù)據(jù)集。這是一個(gè)了不起的成就，但是現(xiàn)在回首來(lái)看，那只是暗示著即將到來(lái)的未來(lái)——簡(jiǎn)而言之，就是打破更多的記錄。

蠻力的重要性

上面所描述的算法對(duì)于深度學(xué)習(xí)的出現(xiàn)有著不容置疑的重要性，但是自上世紀(jì)九十年代開(kāi)始，也有著其他重要組成部分陸續(xù)出現(xiàn)：純粹的計(jì)算速度。隨著摩爾定律，計(jì)算機(jī)比起九十年代快了數(shù)十倍，讓大型數(shù)據(jù)集和多層的學(xué)習(xí)更加易于處理。但是甚至這也不夠——CPU開(kāi)始抵達(dá)速度增長(zhǎng)的上限，計(jì)算機(jī)能力開(kāi)始主要通過(guò)數(shù)個(gè)CPU并行計(jì)算增長(zhǎng)。為了學(xué)習(xí)深度模型中常有的數(shù)百萬(wàn)個(gè)權(quán)重值，脆弱的CPU并行限制需要被拋棄，并被具有大型并行計(jì)算能力的GPUs所代替。意識(shí)到這一點(diǎn)也是Abdel-rahman Mohamed，George Dahl與Geoff Hinton做到打破語(yǔ)音識(shí)別性能記錄的部分原因：

「由Hinton的深度神經(jīng)網(wǎng)絡(luò)課堂之一所激發(fā)，Mohamed開(kāi)始將它們應(yīng)用于語(yǔ)音——但是深度神經(jīng)網(wǎng)絡(luò)需要巨大的計(jì)算能力，傳統(tǒng)計(jì)算機(jī)顯然達(dá)不到——因此Hinton與Mohamed招募了Dahl。Dahl是Hinton實(shí)驗(yàn)室的學(xué)生，他發(fā)現(xiàn)了如何利用相同的高端顯卡（讓栩栩如生的計(jì)算機(jī)游戲能夠顯示在私人計(jì)算機(jī)上）有效訓(xùn)練并模擬神經(jīng)網(wǎng)絡(luò)。」

「他們用相同的方法去解決時(shí)長(zhǎng)過(guò)短的語(yǔ)音中片段的音素識(shí)別問(wèn)題，」Hinton說(shuō)道，「對(duì)比于之前標(biāo)準(zhǔn)化三小時(shí)基準(zhǔn)的方法，他們有了更好的成果。」

在這個(gè)案例中利用GPU而不是CPU到底能變得有多快很難說(shuō)清楚，但是同年《Large-scale Deep Unsupervised Learning using Graphics Processors》這篇論文給出了一個(gè)數(shù)字：70倍。是的，70倍，這使得數(shù)以周記的工作可以被壓縮到幾天就完成，甚至是一天。之前研發(fā)了分散式代碼的作者中包括高產(chǎn)的機(jī)器學(xué)習(xí)研究者吳恩達(dá)，他逐漸意識(shí)到利用大量訓(xùn)練數(shù)據(jù)與快速計(jì)算的能力在之前被贊同學(xué)習(xí)算法演變愈烈的研究員們低估了。這個(gè)想法在2010年的《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》（作者之一J. Schimidhuber正是遞歸LTSM網(wǎng)絡(luò)（recurrent LTSM networks）的投資者）中也得到了大力支持，展示了MNIST數(shù)據(jù)庫(kù)能夠達(dá)到令人驚嘆的0.35%錯(cuò)誤率，并且除去大型神經(jīng)網(wǎng)絡(luò)、輸入的多個(gè)變量、以及有效的反向傳播GPU實(shí)現(xiàn)以外沒(méi)有任何特殊的地方。這些想法已經(jīng)存在了數(shù)十年，因此盡管可以說(shuō)算法的改進(jìn)并不那么重要，但是結(jié)果確實(shí)強(qiáng)烈表明大型訓(xùn)練數(shù)據(jù)集與快速腭化計(jì)算的蠻力方法是一個(gè)關(guān)鍵。

Dahl與Mohamed利用GPU打破記錄是一個(gè)早期且相對(duì)有限的成功，但是它足以激勵(lì)人們，并且對(duì)這兩人來(lái)說(shuō)也為他們帶來(lái)了在微軟研究室實(shí)習(xí)的機(jī)會(huì)。在這里，他們可以享受到那時(shí)已經(jīng)出現(xiàn)的計(jì)算領(lǐng)域內(nèi)另一個(gè)趨勢(shì)所帶來(lái)的益處：大數(shù)據(jù)。這個(gè)詞語(yǔ)定義寬松，在機(jī)器學(xué)習(xí)的環(huán)境下則很容易理解——大量訓(xùn)練數(shù)據(jù)。大量的訓(xùn)練數(shù)據(jù)非常重要，因?yàn)闆](méi)有它神經(jīng)網(wǎng)絡(luò)仍然不能做到很好——它們有些過(guò)擬合了（完美適用于訓(xùn)練數(shù)據(jù)，但無(wú)法推廣到新的測(cè)試數(shù)據(jù)）。這說(shuō)得通——大型神經(jīng)網(wǎng)絡(luò)能夠計(jì)算的復(fù)雜度需要許多數(shù)據(jù)來(lái)使它們避免學(xué)習(xí)訓(xùn)練集中那些不重要的方面——這也是過(guò)去研究者面對(duì)的主要難題。因此現(xiàn)在，大型公司的計(jì)算與數(shù)據(jù)集合能力證明了其不可替代性。這兩個(gè)學(xué)生在三個(gè)月的實(shí)習(xí)期中輕易地證明了深度學(xué)習(xí)的能力，微軟研究室也自此成為了深度學(xué)習(xí)語(yǔ)音識(shí)別研究的前沿地帶。

微軟不是唯一一個(gè)意識(shí)到深度學(xué)習(xí)力量的大公司（盡管起初它很靈巧）。Navdeep Jaitly是Hinton的另一個(gè)學(xué)生，2011年曾在谷歌當(dāng)過(guò)暑假實(shí)習(xí)生。他致力于谷歌的語(yǔ)音識(shí)別項(xiàng)目，通過(guò)結(jié)合深度學(xué)習(xí)能夠讓他們現(xiàn)存的設(shè)備大大提高。修正后的方法不久就加強(qiáng)了安卓的語(yǔ)音識(shí)別技術(shù)，替代了許多之前的解決方案。

除了博士實(shí)習(xí)生給大公司的產(chǎn)品帶來(lái)的深刻影響之外，這里最著名的是兩家公司都在用相同的方法——這方法對(duì)所有使用它的人都是開(kāi)放的。實(shí)際上，微軟和谷歌的工作成果，以及IBM和Hinton實(shí)驗(yàn)室的工作成果，在2012 年發(fā)布了令人印象深刻的名為「深層神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別的聲學(xué)建模：分享四個(gè)研究小組的觀點(diǎn)」的文章。

這四個(gè)研究小組——有三個(gè)是來(lái)自企業(yè)，確定能從傷腦筋的深度學(xué)習(xí)這一新興技術(shù)專(zhuān)利中獲益，而大學(xué)研究小組推廣了技術(shù)——共同努力并將他們的成果發(fā)布給更廣泛的研究社區(qū)。如果有什么理想的場(chǎng)景讓行業(yè)接受研究中的觀念，似乎就是這一刻了。

這并不是說(shuō)公司這么做是為了慈善。這是他們所有人探索如何把技術(shù)商業(yè)化的開(kāi)始，其中最為突出的是谷歌。但是也許并非Hinton，而是吳恩達(dá)造成了這一切，他促使公司成為世界最大的商業(yè)化采用者和技術(shù)用戶(hù)者。在2011年，吳恩達(dá)在巡視公司時(shí)偶遇到了傳說(shuō)中的谷歌人Jeff Dean，聊了一些他用谷歌的計(jì)算資源來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)所做的努力。

這使Dean著迷，于是與吳恩達(dá)一起創(chuàng)建了谷歌大腦（Google Brain）——努力構(gòu)建真正巨大的神經(jīng)網(wǎng)絡(luò)并且探索它們能做什么。這項(xiàng)工作引發(fā)了一個(gè)規(guī)模前所未有的無(wú)監(jiān)督式神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)——16000個(gè)CPU核，驅(qū)動(dòng)高達(dá)10億權(quán)重的學(xué)習(xí)（作為比較，Hinton在2006年突破性的DBN大約有100萬(wàn)權(quán)重）。神經(jīng)網(wǎng)絡(luò)在YouTube視頻上被訓(xùn)練，完全無(wú)標(biāo)記，并且學(xué)著在這些視頻中去辨認(rèn)最平常的物體——而神經(jīng)網(wǎng)絡(luò)對(duì)于貓的發(fā)現(xiàn)，引起了互聯(lián)網(wǎng)的集體歡樂(lè)。

谷歌最著名的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)貓。這是輸入到一個(gè)神經(jīng)元中最佳的一張。

它很可愛(ài)，也很有用。正如他們常規(guī)發(fā)表的一篇論文中所報(bào)道的，由模型學(xué)習(xí)的特征能用來(lái)記錄標(biāo)準(zhǔn)的計(jì)算機(jī)視覺(jué)基準(zhǔn)的設(shè)置性能。

這樣一來(lái)，谷歌訓(xùn)練大規(guī)模的神經(jīng)網(wǎng)絡(luò)的內(nèi)部工具誕生了，自此他們僅需繼續(xù)發(fā)展它。深度學(xué)習(xí)研究的浪潮始于2006年，現(xiàn)在已經(jīng)確定進(jìn)入行業(yè)使用。

深度學(xué)習(xí)的上升

當(dāng)深度學(xué)習(xí)進(jìn)入行業(yè)使用時(shí)，研究社區(qū)很難保持平靜。有效的利用GPU和計(jì)算能力的發(fā)現(xiàn)是如此重要，它讓人們檢查長(zhǎng)久存疑的假設(shè)并且問(wèn)一些也許很久之前被提及過(guò)的問(wèn)題——也就是，反向傳播到底為何沒(méi)什么用呢？為什么舊的方法不起作用，而不是新的方法能奏效，這樣的問(wèn)題觀點(diǎn)讓Xavier Glort 和 Yoshua Bengio在2010年寫(xiě)了「理解訓(xùn)練深度前饋神經(jīng)網(wǎng)絡(luò)的難點(diǎn)」（Understanding the difficulty of training deep feedforward neural networks）一文。

在文中，他們討論了兩個(gè)有重大意義的發(fā)現(xiàn)：

為神經(jīng)網(wǎng)絡(luò)中神經(jīng)元選取的特定非線(xiàn)性激活函數(shù)，對(duì)性能有巨大影響，而默認(rèn)使用的函數(shù)不是最好的選擇。
相對(duì)于隨機(jī)選取權(quán)重，不考慮神經(jīng)層的權(quán)重就隨機(jī)選取權(quán)重的問(wèn)題要大得多。以往消失的梯度問(wèn)題重現(xiàn)，根本上，由于反向傳播引入一系列乘法，不可避免地導(dǎo)致給前面的神經(jīng)層帶來(lái)細(xì)微的偏差。就是這樣，除非依據(jù)所在的神經(jīng)層不同分別選取不同的權(quán)重 ——否則很小的變化會(huì)引起結(jié)果巨大變化。

不同的激活函數(shù)。ReLU是**修正線(xiàn)性單元**

第二點(diǎn)的結(jié)論已經(jīng)很清楚了，但是第一點(diǎn)提出了這樣的問(wèn)題：『然而，什么是最好的激活函數(shù)？』有三個(gè)不同的團(tuán)隊(duì)研究了這個(gè)問(wèn)題：LeCun所在的團(tuán)隊(duì)，他們研究的是「針對(duì)對(duì)象識(shí)別最好的多級(jí)結(jié)構(gòu)是什么？」；另一組是Hinton所在的團(tuán)隊(duì)，研究「修正的線(xiàn)性單元改善受限玻爾茲曼機(jī)器」；第三組是Bengio所在的團(tuán)隊(duì)——「深度稀缺的修正神經(jīng)網(wǎng)絡(luò)」。他們都發(fā)現(xiàn)驚人的相似結(jié)論：近乎不可微的、十分簡(jiǎn)單的函數(shù)f(x)=max(0,x)似乎是最好的。令人吃驚的是，這個(gè)函數(shù)有點(diǎn)古怪——它不是嚴(yán)格可微的，確切地說(shuō)，在零點(diǎn)不可微，因此就數(shù)學(xué)而言論文看起來(lái)很糟糕。但是，清楚的是零點(diǎn)是很小的數(shù)學(xué)問(wèn)題——更嚴(yán)重的問(wèn)題是為什么這樣一個(gè)零點(diǎn)兩側(cè)導(dǎo)數(shù)都是常數(shù)的簡(jiǎn)單函數(shù)，這么好用。答案還未揭曉，但一些想法看起來(lái)已經(jīng)成型：

修正的激活導(dǎo)致了表征稀疏，這意味著在給定輸入時(shí)，很多神經(jīng)元實(shí)際上最終需要輸出非零值。這些年的結(jié)論是，稀疏對(duì)深度學(xué)習(xí)十分有利，一方面是由于它用更具魯棒性的方式表征信息，另一方面由于它帶來(lái)極高的計(jì)算效率（如果大多數(shù)的神經(jīng)元在輸出零，實(shí)際上就可以忽略它們，計(jì)算也就更快）。順便提一句，計(jì)算神經(jīng)科學(xué)的研究者首次在大腦視覺(jué)系統(tǒng)中引入稀疏計(jì)算，比機(jī)器學(xué)習(xí)的研究早了10年。

相比指數(shù)函數(shù)或者三角函數(shù)，簡(jiǎn)單的函數(shù)及其導(dǎo)數(shù)，使它能非常快地工作。當(dāng)使用GPU時(shí)，這就不僅僅是一個(gè)很小的改善，而是十分重要，因?yàn)檫@能規(guī)模化神經(jīng)網(wǎng)絡(luò)以很好地完成極具挑戰(zhàn)的問(wèn)題。

后來(lái)吳恩達(dá)聯(lián)合發(fā)表的「修正的非線(xiàn)性改善神經(jīng)網(wǎng)絡(luò)的語(yǔ)音模型」（Rectifier Nonlinearities Improve Neural Network Acoustic Models）一文，也證明了ReLU導(dǎo)數(shù)為常數(shù)0或1對(duì)學(xué)習(xí)并無(wú)害處。實(shí)際上，它有助于避免梯度消失的問(wèn)題，而這正是反向傳播的禍根。此外，除了生成更稀疏的表征，它還能生成更發(fā)散的表征——這樣就可以結(jié)合多個(gè)神經(jīng)元的多重值，而不局限于從單個(gè)神經(jīng)元中獲取有意義的結(jié)論。

目前，結(jié)合2006年以來(lái)的這些發(fā)現(xiàn)，很清楚的是非監(jiān)督預(yù)訓(xùn)練對(duì)深度學(xué)習(xí)來(lái)說(shuō)不是必要的。雖然，它的確有幫助，但是在某些情況下也表明，純粹的監(jiān)督學(xué)習(xí)（有正確的初始權(quán)重規(guī)模和激活函數(shù)）能超越含非監(jiān)督訓(xùn)練的學(xué)習(xí)方式。那么，到底為什么基于反向傳播的純監(jiān)督學(xué)習(xí)在過(guò)去表現(xiàn)不佳？Geoffrey Hinton總結(jié)了目前發(fā)現(xiàn)的四個(gè)方面問(wèn)題：

帶標(biāo)簽的數(shù)據(jù)集很小，只有現(xiàn)在的千分之一.
計(jì)算性能很慢，只有現(xiàn)在的百萬(wàn)分之一.
權(quán)重的初始化方式笨拙.
使用了錯(cuò)誤的非線(xiàn)性模型。

好了，就到這里了。深度學(xué)習(xí)。數(shù)十年研究的積累，總結(jié)成一個(gè)公式就是：

深度學(xué)習(xí)=許多訓(xùn)練數(shù)據(jù)+并行計(jì)算+規(guī)?；?、靈巧的的算法

我希望我是第一個(gè)提出這個(gè)賞心悅目的方程的，但是看起來(lái)有人走在我前面了。

更不要說(shuō)這里就是希望弄清楚這點(diǎn)。差遠(yuǎn)了！被想通的東西剛好是相反的：人們的直覺(jué)經(jīng)常出錯(cuò)，尤其是一些看似沒(méi)有問(wèn)題的決定及假設(shè)通常都是沒(méi)有根據(jù)的。問(wèn)簡(jiǎn)單的問(wèn)題，嘗試簡(jiǎn)單的東西——這些對(duì)于改善最新的技術(shù)有很大的幫助。其實(shí)這一直都在發(fā)生，我們看到更多的想法及方法在深度學(xué)習(xí)領(lǐng)域中被發(fā)掘、被分享。例如 G. E. Hinton等的「透過(guò)預(yù)防特征檢測(cè)器的互相適應(yīng)改善神經(jīng)網(wǎng)絡(luò)」（ Improving neural networks by preventing co-adaptation of feature detectors）。

其構(gòu)思很簡(jiǎn)單：為了避免過(guò)度擬合，我們可以隨機(jī)假裝在訓(xùn)練當(dāng)中有些神經(jīng)元并不在那兒。想法雖然非常簡(jiǎn)單——被稱(chēng)為丟棄法（dropout）——但對(duì)于實(shí)施非常強(qiáng)大的集成學(xué)習(xí)方法又非常有效，這意味著我們可以在訓(xùn)練數(shù)據(jù)中實(shí)行多種不同的學(xué)習(xí)方法。隨機(jī)森林——一種在當(dāng)今機(jī)器學(xué)習(xí)領(lǐng)域中占主導(dǎo)地位的方法——主要就是得益于集成學(xué)習(xí)而非常有效。訓(xùn)練多個(gè)不同的神經(jīng)網(wǎng)絡(luò)是可能的，但它在計(jì)算上過(guò)于昂貴，而這個(gè)簡(jiǎn)單的想法在本質(zhì)上也可取得相同的結(jié)果，而且性能也可有顯著提高。

然而，自2006年以來(lái)的所有這些研究發(fā)現(xiàn)都不是促使計(jì)算機(jī)視覺(jué)及其他研究機(jī)構(gòu)再次尊重神經(jīng)網(wǎng)絡(luò)的原因。這個(gè)原因遠(yuǎn)沒(méi)有看來(lái)的高尚：在現(xiàn)代競(jìng)爭(zhēng)的基準(zhǔn)上完全摧毀其他非深度學(xué)習(xí)的方法。Geoffrey Hinton召集與他共同寫(xiě)丟棄法的兩位作家，Alex Krizhevsky 與 Ilya Sutskever，將他們所發(fā)現(xiàn)的想法在ILSVRC-2012計(jì)算機(jī)視覺(jué)比賽中創(chuàng)建了一個(gè)條目。

對(duì)于我來(lái)說(shuō)，了解他們的工作是非常驚人的，他們的「使用深度卷積神經(jīng)網(wǎng)絡(luò)在ImageNet上分類(lèi)」（ImageNet Classification with deep convolutional neural networks）一文其實(shí)就是將一些很舊的概念（例如卷積神經(jīng)網(wǎng)絡(luò)的池化及卷積層，輸入數(shù)據(jù)的變化）與一些新的關(guān)鍵觀點(diǎn)（例如十分高性能的GPU、ReLU神經(jīng)元、丟棄法等）重新組合，而這點(diǎn)，正是這一點(diǎn)，就是現(xiàn)代深度網(wǎng)絡(luò)的所有深意了。但他們?nèi)绾巫龅降哪兀?/p>

遠(yuǎn)比下一個(gè)最近的條目好：它們的誤差率是15.3%，第二個(gè)最近的是26.2%。在這點(diǎn)上——第一個(gè)及唯一一個(gè)在比賽中的CNN條目——對(duì)于CNNs及深度學(xué)習(xí)整體來(lái)說(shuō)是一個(gè)無(wú)可爭(zhēng)議的標(biāo)志，對(duì)于計(jì)算機(jī)視覺(jué)，它應(yīng)該被認(rèn)真對(duì)待。如今，幾乎所有的比賽條目都是CNNs——這就是Yann LeCun自1989年以來(lái)在上面花費(fèi)大量心血的神經(jīng)網(wǎng)絡(luò)模型。還記得上世紀(jì)90年代由Sepp Hochreiter 及 Jürgen Schmidhuber為了解決反向傳播問(wèn)題而開(kāi)發(fā)的LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)嗎？這些在現(xiàn)在也是最新的連續(xù)任務(wù)比如語(yǔ)音處理的處理方法。

這就是轉(zhuǎn)折點(diǎn)。一波對(duì)于其可能發(fā)展的狂歡在其無(wú)可否認(rèn)的成績(jī)中達(dá)到了高潮，這遠(yuǎn)遠(yuǎn)超過(guò)了其他已知方法所能處理的。這就是我們?cè)诘谝徊糠珠_(kāi)頭所描寫(xiě)的山呼海應(yīng)比喻的起點(diǎn)，而且它到如今還一直在增長(zhǎng)，強(qiáng)化。深度學(xué)習(xí)就在這兒，我們看不到寒冬。

我們列舉了對(duì)深度學(xué)習(xí)的發(fā)展做出重要貢獻(xiàn)的人物。我相信我不需要再指出自從2012年以來(lái)其飛漲的趨勢(shì)了。

后記：現(xiàn)狀

如果這是一部電影，2012年ImageNet比賽將是其高潮，而現(xiàn)在在電影結(jié)束的時(shí)候，我們將會(huì)出現(xiàn)這幾個(gè)字：「他們?nèi)缃裨谀睦铩?。Yann Lecun：Facebook； Geoffrey Hinton：谷歌；吳恩達(dá)： Coursera、谷歌、百度； Bengi、Schmidhuber 及 Hochreiter 依然還留在學(xué)術(shù)界——但我們可以很容易推測(cè)，這個(gè)領(lǐng)域?qū)?huì)有更多的引用及畢業(yè)生。

雖然深度學(xué)習(xí)的理念及成績(jī)令人振奮，但當(dāng)我在寫(xiě)這幾篇文章的時(shí)候，我也不由自主地被他們所感動(dòng)，他們?cè)谝粋€(gè)幾乎被人遺棄的領(lǐng)域里深耕數(shù)十年，他們現(xiàn)在富裕、成功，但重要的是他們?nèi)缃窀_信自己的研究。這些人的思想依然保持開(kāi)放，而這些大公司也一直在開(kāi)源他們的深度學(xué)習(xí)模型，猶如一個(gè)由工業(yè)界領(lǐng)導(dǎo)研究界的理想國(guó)。多美好的故事啊啊。

我愚蠢的以為我可以在這一部分寫(xiě)一個(gè)過(guò)去幾年讓人印象深刻的成果總結(jié)，但在此，我清楚知道我已經(jīng)沒(méi)有足夠的空間來(lái)寫(xiě)這些。可能有一天我會(huì)繼續(xù)寫(xiě)第五部分，那就可以完成這個(gè)故事了。但現(xiàn)在，讓我提供以下一個(gè)簡(jiǎn)短的清單：

1.LTSM RNNs的死灰復(fù)燃以及分布式表征的代表

去年的結(jié)果?？纯窗桑?/span>

2.利用深度學(xué)習(xí)來(lái)加強(qiáng)學(xué)習(xí)

3.附加外部可讀寫(xiě)存儲(chǔ)

參考文獻(xiàn)：

Kate Allen. How a Toronto professor’s research revolutionized artificial intelligence Science and Technology reporter, Apr 17 2015 http://www.thestar.com/news/world/2015/04/17/how-a-toronto-professors-research-revolutionized-artificial-intelligence.html

Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural computation, 18(7), 1527-1554.

Hinton, G. E. (2002). Training products of experts by minimizing contrastive divergence. Neural computation, 14(8), 1771-1800.

Bengio, Y., Lamblin, P., Popovici, D., & Larochelle, H. (2007). Greedy layer-wise training of deep networks. Advances in neural information processing systems, 19, 153.

Bengio, Y., & LeCun, Y. (2007). Scaling learning algorithms towards AI. Large-scale kernel machines, 34(5).

Mohamed, A. R., Sainath, T. N., Dahl, G., Ramabhadran, B., Hinton, G. E., & Picheny, M. (2011, May). Deep belief networks using discriminative features for phone recognition. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on (pp. 5060-5063). IEEE.

November 26, 2012. Leading breakthroughs in speech recognition software at Microsoft, Google, IBM Source: http://news.utoronto.ca/leading-breakthroughs-speech-recognition-software-microsoft-google-ibm

Raina, R., Madhavan, A., & Ng, A. Y. (2009, June). Large-scale deep unsupervised learning using graphics processors. In Proceedings of the 26th annual international conference on machine learning (pp. 873-880). ACM.

Claudiu Ciresan, D., Meier, U., Gambardella, L. M., & Schmidhuber, J. (2010). Deep big simple neural nets excel on handwritten digit recognition. arXiv preprint arXiv:1003.0358.

Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., … & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. Signal Processing Magazine, IEEE, 29(6), 82-97.

Le, Q. V. (2013, May). Building high-level features using large scale unsupervised learning. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 8595-8598). IEEE. ?

Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. In International conference on artificial intelligence and statistics (pp. 249-256).

Jarrett, K., Kavukcuoglu, K., Ranzato, M. A., & LeCun, Y. (2009, September). What is the best multi-stage architecture for object recognition?. In Computer Vision, 2009 IEEE 12th International Conference on (pp. 2146-2153). IEEE.

Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML-10) (pp. 807-814).

Glorot, X., Bordes, A., & Bengio, Y. (2011). Deep sparse rectifier neural networks. In International Conference on Artificial Intelligence and Statistics (pp. 315-323).

Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013, June). Rectifier nonlinearities improve neural network acoustic models. In Proc. ICML (Vol. 30).

Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580.

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).

http://www.technologyreview.com/news/524026/is-google-cornering-the-market-on-deep-learning/

本文由機(jī)器之心原創(chuàng)編譯，轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。

------------------------------------------------

加入機(jī)器之心（全職記者/實(shí)習(xí)生）：hr@almosthuman.cn

投稿或?qū)で髨?bào)道：editor@almosthuman.cn

廣告&商務(wù)合作：bd@almosthuman.cn

機(jī)器之心是Comet Labs旗下的前沿科技媒體。Comet Labs是由聯(lián)想之星發(fā)起、獨(dú)立運(yùn)作的全球人工智能和智能機(jī)器加速投資平臺(tái)，攜手全球領(lǐng)先的產(chǎn)業(yè)公司和投資機(jī)構(gòu)，幫助創(chuàng)業(yè)者解決產(chǎn)業(yè)對(duì)接、用戶(hù)拓展、全球市場(chǎng)、技術(shù)整合、資金等關(guān)鍵問(wèn)題。旗下業(yè)務(wù)還包括：Comet舊金山加速器、Comet北京加速器、Comet垂直行業(yè)加速器。

↓↓↓點(diǎn)擊「閱讀原文」查看機(jī)器之心網(wǎng)站，獲取更多精彩內(nèi)容。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频