編譯:Don
“如果我們能夠揭示大腦的某些學(xué)習(xí)機(jī)制或?qū)W習(xí)方法,那么人工智能將能迎來(lái)進(jìn)一步的發(fā)展,”Bengio如是說(shuō)。
深度學(xué)習(xí)依賴(lài)于精妙設(shè)計(jì)的算法,一行行精妙絕倫的公式讓冰冷的計(jì)算機(jī)學(xué)習(xí)出只有人腦才能執(zhí)行的任務(wù)。深度學(xué)習(xí)算法雖然啟發(fā)自人腦的結(jié)構(gòu)單元和學(xué)習(xí)機(jī)制,但這種簡(jiǎn)單的“模擬”其實(shí)并不是人腦真正運(yùn)行的方式。在最新的研究進(jìn)展中,科學(xué)家們正在抽絲剝繭,利用人工神經(jīng)網(wǎng)絡(luò)的算法機(jī)制揭示人腦的工作方法。
時(shí)間回到14年前,2007年,彼時(shí)神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)還是一個(gè)冷門(mén)的領(lǐng)域。一群深度學(xué)習(xí)的先鋒研究人員悄悄的在一次人工智能學(xué)術(shù)會(huì)議后秘密碰頭,舉辦了一場(chǎng)“非法”的學(xué)術(shù)研討會(huì)。之所以說(shuō)它是“非法”的,是因?yàn)橹鲿?huì)場(chǎng)沒(méi)有允許他們舉辦正式的神經(jīng)網(wǎng)絡(luò)相關(guān)的研討會(huì),畢竟當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)還是個(gè)異類(lèi)小眾群體,支持向量機(jī)和隨機(jī)森林等傳統(tǒng)機(jī)器學(xué)習(xí)算法才是所謂的“主流正道”。
在這場(chǎng)非正式的研討會(huì)的最后,來(lái)自多倫多大學(xué)的Geoffrey Hinton教授壓軸發(fā)言。彼時(shí)的Hinton還不像今日一樣名聲大噪享譽(yù)全球,當(dāng)時(shí)他的身份還是一位認(rèn)知心理學(xué)家和計(jì)算科學(xué)家,正在深度學(xué)習(xí)網(wǎng)絡(luò)領(lǐng)域的研究泥淖中苦苦奮戰(zhàn)。在發(fā)言之初,他很幽默的說(shuō):“大約是一年多以前,有一次我回家吃晚飯的時(shí)候說(shuō),'我想我終于弄明白大腦是怎么工作的了!',然后我15歲的女兒無(wú)奈地撅起嘴回諷我道,'唉老爸,您又來(lái)了,咱別這樣了行不’”。
當(dāng)場(chǎng)在坐的觀眾都笑了,Hinton接著說(shuō),“所以,這就是大腦的工作原理”。這個(gè)成功的返場(chǎng)包袱讓大家再次忍俊不禁。
在Hinton的這個(gè)玩笑背后,是一個(gè)神經(jīng)網(wǎng)絡(luò)領(lǐng)域一直都在苦苦求索的話題:用人工智能來(lái)理解人腦。時(shí)至今日,深度學(xué)習(xí)網(wǎng)絡(luò)統(tǒng)治了人工智能領(lǐng)域,是當(dāng)之無(wú)愧的新時(shí)代的弄潮兒,其背后最大的功臣之一,便是大名鼎鼎的反向傳播算法Backpropagation。有時(shí)人們也會(huì)親昵的將其簡(jiǎn)稱(chēng)為Backprop算法。這個(gè)算法能讓深度學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重根據(jù)學(xué)習(xí)的目標(biāo)和喂入的數(shù)據(jù)學(xué)習(xí)知識(shí),給算法賦予多種多樣的能力,比如圖像分類(lèi)、語(yǔ)音識(shí)別、自然語(yǔ)言翻譯、自動(dòng)駕駛中路況的識(shí)別,或者其他更玄妙的能力。
Geoffrey Hinton,多倫多大學(xué)的認(rèn)知心理學(xué)家和計(jì)算科學(xué)家,引領(lǐng)了深度學(xué)習(xí)網(wǎng)絡(luò)技術(shù)的很多重大突破,包括反向傳播算法。
但是多年來(lái)的生物學(xué)研究都表明,生物大腦不太可能使用反向傳播機(jī)制來(lái)進(jìn)行學(xué)習(xí)。來(lái)自Montreal大學(xué)的計(jì)算機(jī)科學(xué)家、魁北克人工智能研究所科學(xué)主任、也是2007年那場(chǎng)“非法”的研討會(huì)的組織者之一Yoshua Bengio說(shuō),“相對(duì)于深度學(xué)習(xí)算法,人腦更加強(qiáng)大,它擁有更好的泛化和學(xué)習(xí)的能力”。而且各種證據(jù)都顯示,在大腦的解剖和生理構(gòu)造上,特別是在皮質(zhì)層,人腦是幾乎不可能利用反向傳播機(jī)制進(jìn)行學(xué)習(xí)的。
Yoshua Bengio,Montreal大學(xué)的人工智能研究員和計(jì)算科學(xué)家,他也是研究具有生物合理性的學(xué)習(xí)算法的科學(xué)家之一,這些算法和反向傳播一樣具有很好的學(xué)習(xí)能力,但是在生物學(xué)的角度上也更加合理和可信。
在深度學(xué)習(xí)領(lǐng)域,一直以來(lái),Bengio和很多同樣受到Hinton啟發(fā)的研究人員都在思考一個(gè)更具生物學(xué)意義的問(wèn)題,就是人腦是如何工作和學(xué)習(xí)的。相對(duì)于簡(jiǎn)單的深度學(xué)習(xí)算法來(lái)說(shuō),人腦是一個(gè)更趨于完美的有機(jī)主體,如果我們能對(duì)它的學(xué)習(xí)機(jī)制有所了解,肯定能夠促進(jìn)深度學(xué)習(xí)的發(fā)展。
因此,相關(guān)的研究人員一直在苦苦求索這個(gè)人腦中的與“反向傳播”學(xué)習(xí)算法相匹配的生物機(jī)制。近年來(lái),人們已經(jīng)取得了一些相關(guān)的進(jìn)展,其中最有前景的三個(gè)發(fā)現(xiàn)包括——反饋對(duì)齊(FeedBack Alignment)、均衡傳播(Equilibrium Propagation)和預(yù)測(cè)編碼(Predictive Coding)。還有一些研究人員甚至將生物學(xué)中某些類(lèi)型的皮質(zhì)層神經(jīng)元的特性和注意力機(jī)制等過(guò)程具體化到他們的算法之中,力求揭示人腦神經(jīng)元學(xué)習(xí)背后的奧秘。研究人員的每一個(gè)進(jìn)步都讓我們對(duì)大腦的學(xué)習(xí)機(jī)制有了更深一步的理解。
“大腦是一個(gè)巨大的謎團(tuán),人們普遍相信,如果我們能夠揭示大腦的某些學(xué)習(xí)機(jī)制或?qū)W習(xí)方法,那么人工智能將能迎來(lái)進(jìn)一步的發(fā)展”,Bengio如是說(shuō),“但是揭示人腦的工作機(jī)制本身也具有極高的研究?jī)r(jià)值”。使用反向傳播進(jìn)行學(xué)習(xí)
深度學(xué)習(xí)網(wǎng)絡(luò)的基礎(chǔ)之一便是生物學(xué)中的神經(jīng)元模型理論,該理論由加拿大心理學(xué)家Donald Hebb提出。數(shù)十年來(lái),深度學(xué)習(xí)網(wǎng)絡(luò)算法的研究都是在該理論的指導(dǎo)下完成的。在理論模型可以通??梢员缓?jiǎn)單地概括為“一起激活的神經(jīng)元相互連接”。具體來(lái)說(shuō),這是指,活動(dòng)越相關(guān)的神經(jīng)元之間的聯(lián)系越強(qiáng)。這句簡(jiǎn)單的“真理”啟發(fā)了無(wú)數(shù)后世的研究,源于它的若干規(guī)則和算法也成功地落地在一些學(xué)習(xí)和視覺(jué)分類(lèi)任務(wù)中。但是當(dāng)神經(jīng)網(wǎng)絡(luò)的規(guī)模變得十分龐大的時(shí)候,由于需要逐步從大量數(shù)據(jù)中的誤差中學(xué)習(xí)最優(yōu)的權(quán)重,反向傳播算法的效果就會(huì)差很多了。對(duì)于那些處于較深層數(shù)的深層神經(jīng)元而言,它們很難通過(guò)殘留的梯度發(fā)現(xiàn)自身誤差,從而不能很好的更新權(quán)重并降低誤差。所以在這種情況下,深層的神經(jīng)元經(jīng)常會(huì)出現(xiàn)不學(xué)習(xí)、不收斂和不擬合的問(wèn)題。這種問(wèn)題被稱(chēng)作梯度消失。斯坦福大學(xué)的計(jì)算神經(jīng)學(xué)家和計(jì)算科學(xué)家Danniel Yamins說(shuō),“Hebb法則是一種反饋利用機(jī)制,它非常局限,只在某些很特殊情況下才會(huì)起作用,并且對(duì)誤差十分敏感”。Daniel Yamins,Stanford大學(xué)計(jì)算神經(jīng)學(xué)家和計(jì)算科學(xué)家。他正在研究如何識(shí)別生物大腦中到底“運(yùn)行著”哪些算法。然而,這是目前為止神經(jīng)學(xué)家能夠發(fā)現(xiàn)和利用的最佳的模擬人腦學(xué)習(xí)的機(jī)制了。甚至在20世紀(jì)50年代那個(gè)深度學(xué)習(xí)算法和思想還未統(tǒng)治人工智能領(lǐng)域的時(shí)候,Hebb法則就啟發(fā)了第一個(gè)神經(jīng)網(wǎng)絡(luò)模型的誕生。在那個(gè)上古時(shí)代,神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元都僅能接受一個(gè)輸入,也只能產(chǎn)生一個(gè)輸出,就跟生物神經(jīng)元一樣。神經(jīng)元在計(jì)算中會(huì)將輸入乘以一個(gè)所謂的“突觸權(quán)重”,該突觸權(quán)重表示所連接的輸入重要度,然后將加權(quán)的輸入們求和。這個(gè)加和便構(gòu)成了各神經(jīng)元的輸出。到了20世紀(jì)60年代,神經(jīng)元被組織成了網(wǎng)絡(luò),形成一個(gè)具有輸入層和輸出層的全連接網(wǎng)絡(luò)。而具有該雛形結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型可以用來(lái)解決一些簡(jiǎn)單的分類(lèi)和回歸問(wèn)題。在訓(xùn)練的過(guò)程中,神經(jīng)網(wǎng)絡(luò)的目標(biāo)是最小化輸出和真值之間的誤差,并據(jù)此調(diào)整各神經(jīng)元的權(quán)重取值。而到了20世紀(jì)60年代,神經(jīng)網(wǎng)絡(luò)由于添加了輸入和輸出層,網(wǎng)絡(luò)的結(jié)構(gòu)開(kāi)始從三明治向多層夾心巨無(wú)霸進(jìn)化,也就是網(wǎng)絡(luò)層數(shù)開(kāi)始增多。隨之而來(lái)的是深層神經(jīng)元的梯度消失問(wèn)題。當(dāng)時(shí)沒(méi)有人知道如何有效地訓(xùn)練這些深層神經(jīng)元,也沒(méi)有妥善的方法能夠高效地訓(xùn)練具有眾多隱藏層的神經(jīng)網(wǎng)絡(luò)。這個(gè)困境直到1986年才得到解決,而解決的標(biāo)志便是那篇由Hinton、已故的David Rumelhart和來(lái)自美國(guó)Northeastern大學(xué)的Ronald Williams共同發(fā)表的反向傳播算法論文。反向傳播算法可以分成前向和反向傳播兩個(gè)階段。在前向的階段中,當(dāng)網(wǎng)絡(luò)得到一個(gè)輸入數(shù)據(jù),它會(huì)根據(jù)當(dāng)前模型的權(quán)重得到一個(gè)輸出,而該輸出和理想的目標(biāo)輸出之間存在著一些誤差。而后在反向的階段中,學(xué)習(xí)算法將根據(jù)誤差值為每個(gè)神經(jīng)元的權(quán)重進(jìn)行有針對(duì)性的更新,從而使輸出和目標(biāo)值之間的誤差變小。為了理解這個(gè)學(xué)習(xí)的過(guò)程,我們將網(wǎng)絡(luò)的實(shí)際輸出和理想輸出之間的誤差用一個(gè)“損失函數(shù)”來(lái)進(jìn)行表示,它描述了模型前向輸出結(jié)果和期望輸出之間的差異。這個(gè)損失函數(shù)就像是一個(gè)二維的“山谷和丘陵”圖像,當(dāng)一個(gè)網(wǎng)絡(luò)的實(shí)際輸出和期望輸出之間的誤差較大的時(shí)候,對(duì)應(yīng)著二維圖形的丘陵部分;當(dāng)誤差較小時(shí),就對(duì)應(yīng)于圖形中的山谷。當(dāng)網(wǎng)絡(luò)根據(jù)指定輸出進(jìn)行前向推理時(shí),得到的輸出所對(duì)應(yīng)的誤差會(huì)對(duì)應(yīng)于二維圖像中的某個(gè)確切點(diǎn),而學(xué)習(xí)的過(guò)程就是使該誤差從“丘陵”位置沿著“山坡”找到“山谷”的過(guò)程。在山谷的位置誤差和損失值是很小的。而反向傳播算法就是一種更新神經(jīng)元權(quán)重從而降低損失和誤差的方法。從計(jì)算的角度和算法的本質(zhì)上來(lái)說(shuō),在反向傳播階段中,算法會(huì)計(jì)算每個(gè)神經(jīng)元的權(quán)重對(duì)誤差的貢獻(xiàn)度,然后根據(jù)誤差結(jié)果對(duì)這些權(quán)重進(jìn)行修改和更新,從而提高網(wǎng)絡(luò)的性能、降低損失值并得到理想的輸出。這個(gè)計(jì)算過(guò)程是從輸出層向輸入層傳遞的,方向是從后層向前層進(jìn)行的,因此人們將其稱(chēng)為反向傳播。反向傳播算法會(huì)利用輸入和輸出的期望值所組成的數(shù)據(jù)集反復(fù)調(diào)整網(wǎng)絡(luò)的權(quán)重,從而得到一組可以接受的收斂的權(quán)重。
人腦不可能使用反向傳播機(jī)制
反向傳播算法在很多神經(jīng)科學(xué)家的眼里是一個(gè)十分簡(jiǎn)陋和天真的機(jī)制,他們認(rèn)為在大腦中絕對(duì)不會(huì)基于反向傳播機(jī)制進(jìn)行學(xué)習(xí)。其中最有名的反對(duì)者是Francis Crick,他是諾貝爾獎(jiǎng)得主,也是DNA結(jié)構(gòu)的共同發(fā)現(xiàn)者。而如今,F(xiàn)ancis則是一位神經(jīng)科學(xué)家。在1989年時(shí),Crick寫(xiě)道:“就學(xué)習(xí)過(guò)程而言,大腦不太可能使用反向傳播機(jī)制來(lái)進(jìn)行學(xué)習(xí)”。科學(xué)家們普遍認(rèn)為反向傳播算法在生物學(xué)上是不可信的,這主要是基于幾個(gè)主要的原因。首先,在計(jì)算原理上來(lái)說(shuō),反向傳播算法分成了兩個(gè)明確的階段,一個(gè)前向、一個(gè)反向。但是在生物大腦的神經(jīng)網(wǎng)絡(luò)中,實(shí)現(xiàn)這樣的機(jī)制是很難的。第二個(gè)是計(jì)算神經(jīng)學(xué)家稱(chēng)之為梯度/權(quán)重傳遞的問(wèn)題:反向傳播算法會(huì)復(fù)制或者傳遞前向中的所有的權(quán)重信息,并根據(jù)誤差更新這些權(quán)重從而使網(wǎng)絡(luò)模型的準(zhǔn)確度更高、性能更好。但是在生物大腦的神經(jīng)元網(wǎng)絡(luò)中,各個(gè)神經(jīng)元通常只能看到與其連接的神經(jīng)元的輸出,而看不到形成輸出的權(quán)重分量或其內(nèi)部的計(jì)算過(guò)程。Yamins說(shuō),從神經(jīng)元的角度來(lái)看,“它們可以知道自己的權(quán)重,但問(wèn)題是它們還需要知道其他神經(jīng)元的權(quán)重,從生物學(xué)的角度上來(lái)看,這有點(diǎn)困難”。從生物神經(jīng)學(xué)的角度來(lái)看,任何實(shí)際的生物模型和學(xué)習(xí)機(jī)制都要滿足這樣的限制:神經(jīng)元只能從鄰近的神經(jīng)元獲取信息。但顯而易見(jiàn)的是,反向傳播算法可能需要很遠(yuǎn)處的神經(jīng)元的權(quán)重信息。所以“話說(shuō)回來(lái),大腦幾乎不可能利用反向傳播進(jìn)行計(jì)算和學(xué)習(xí)”,Bengio說(shuō)。盡管探索的困難重重,Hinton和其他的科學(xué)家也痛快地接受了挑戰(zhàn),開(kāi)始研究生物學(xué)中大腦的學(xué)習(xí)過(guò)程,努力地探索生物大腦中的“反向傳播”學(xué)習(xí)機(jī)制。賓夕法尼亞大學(xué)的計(jì)算神經(jīng)學(xué)科學(xué)家Konrad Kording說(shuō):“可以預(yù)期的是,第一篇提出大腦會(huì)執(zhí)行類(lèi)似反向傳播學(xué)習(xí)的論文可能和反向傳播的論文一樣具有跨時(shí)代的意義”。慶幸的是,在過(guò)去的十余年中,隨著人工神經(jīng)網(wǎng)絡(luò)的爆發(fā),人們也開(kāi)始發(fā)力研究生物大腦中的“反向傳播”學(xué)習(xí)機(jī)制。
更符合生物特性的學(xué)習(xí)機(jī)制
其實(shí)在深度學(xué)習(xí)領(lǐng)域中,除了反向傳播之外還有一些更符合生物特性的學(xué)習(xí)算法存在。比如2016年,來(lái)自Google倫敦DeepMind團(tuán)隊(duì)的Timothy Lillicrap和他的同事提出了反饋對(duì)齊(Feedback Alignment)算法。該算法并沒(méi)有傳遞權(quán)重,從而在生物學(xué)中也就更加的“合理”了。這個(gè)算法不會(huì)依賴(lài)于前向傳遞的權(quán)重矩陣,而是轉(zhuǎn)而使用一個(gè)隨機(jī)初始的反向傳遞矩陣。在算法中,一旦算法為一個(gè)神經(jīng)元分配了一個(gè)權(quán)重,這些權(quán)重將不會(huì)像反向傳播算法一樣來(lái)來(lái)回回微調(diào)和改變,因此不需要為反向傳播過(guò)程傳遞任何權(quán)重。這種算法在算法的角度上來(lái)看,雖然不怎么合理,但是很令人驚訝的是,這個(gè)家伙很管用,網(wǎng)絡(luò)能夠通過(guò)這個(gè)算法學(xué)到比較合理的結(jié)果。由于前向推理的前向權(quán)重會(huì)隨著每次反向傳遞而更新,因此網(wǎng)絡(luò)仍舊會(huì)降低損失函數(shù)的梯度,但是學(xué)習(xí)和優(yōu)化的實(shí)現(xiàn)方法是有所不同的。在該算法中,前向的權(quán)重和隨機(jī)選擇的反向權(quán)重會(huì)緩慢地對(duì)齊,并最終得到正確的結(jié)果,因此該算法被稱(chēng)為反饋對(duì)齊Feedback Alignment。“事實(shí)證明,這種學(xué)習(xí)算法不是很糟糕,”Yamins說(shuō),至少對(duì)于簡(jiǎn)單的學(xué)習(xí)任務(wù)來(lái)說(shuō)是這樣的。但是對(duì)于那些復(fù)雜的問(wèn)題,比如當(dāng)網(wǎng)絡(luò)規(guī)模十分大、神經(jīng)元數(shù)量很多、網(wǎng)絡(luò)層數(shù)很深的情況而言,反饋對(duì)齊機(jī)制還是不如傳統(tǒng)的反向傳播有效。這是因?yàn)橄鄬?duì)于從反向傳播得到的誤差反饋信息而言,每次傳遞前向權(quán)重的更新都不是那么的準(zhǔn)確,所以這樣的學(xué)習(xí)機(jī)制就會(huì)需要更多的數(shù)據(jù)。科學(xué)家們同時(shí)也在探索另一個(gè)領(lǐng)域,就是一種既能達(dá)到反向傳播的學(xué)習(xí)效果,又能滿足Hebb法則的生物合理性要求的學(xué)習(xí)算法。簡(jiǎn)單來(lái)說(shuō)就是如何讓算法只利用其相鄰神經(jīng)元的信息進(jìn)行學(xué)習(xí)和權(quán)重的更新。比如Hinton就提出了一個(gè)想法:每個(gè)神經(jīng)元同時(shí)進(jìn)行兩組計(jì)算。Bengio說(shuō),“這基本上就是Geoffs在2007年所說(shuō)的那件事兒”。在Hinton工作的基礎(chǔ)上,Bengio的團(tuán)隊(duì)在2017年提出了一個(gè)學(xué)習(xí)方法,該方法需要一個(gè)具有循環(huán)連接的神經(jīng)網(wǎng)絡(luò),也就是說(shuō),如果神經(jīng)元A激活了神經(jīng)元B,那么神經(jīng)元B反過(guò)來(lái)也會(huì)激活神經(jīng)元A。這個(gè)網(wǎng)絡(luò)在得到一些輸入的時(shí)候,會(huì)產(chǎn)生一些“回響”(reverberating),因?yàn)槊總€(gè)神經(jīng)元都會(huì)立即對(duì)其相鄰的神經(jīng)元產(chǎn)生反饋。最終,網(wǎng)絡(luò)會(huì)達(dá)到一種相對(duì)穩(wěn)定的狀態(tài),在該狀態(tài)下,網(wǎng)絡(luò)會(huì)在輸入和各神經(jīng)元之間維持一個(gè)平衡狀態(tài),并產(chǎn)生一個(gè)輸出,然而這個(gè)輸出和理想值之間存在一定的誤差。然后,算法將改變神經(jīng)元的權(quán)重,從而使網(wǎng)絡(luò)的實(shí)際輸出朝著理想輸出值靠攏。這將使得另一個(gè)信號(hào)通過(guò)網(wǎng)絡(luò)反向傳播,從而起到類(lèi)似的作用。最終,網(wǎng)絡(luò)就能找到一個(gè)新的平衡點(diǎn)。“算法背后的數(shù)學(xué)之美在于,如果你比較修改前和修改后的權(quán)重,你就能得到改變梯度所需的所有信息,”Bengio說(shuō)。網(wǎng)絡(luò)的訓(xùn)練只需要在大量帶標(biāo)簽的訓(xùn)練數(shù)據(jù)上重復(fù)這個(gè)“均衡傳播(Equilibrium Propagation)”的過(guò)程就能找到最終的結(jié)果。
預(yù)測(cè)感知
在生物學(xué)中,大腦感知過(guò)程的新研究也體現(xiàn)了神經(jīng)元只能對(duì)局部環(huán)境做出反應(yīng)的特性。Beren Milidge是Edinburgh大學(xué)的博士生,也是Sussex大學(xué)的訪問(wèn)學(xué)者,他和他的同事們一直在研究這種大腦神經(jīng)元的感知機(jī)制,也就是我們所謂的預(yù)測(cè)編碼(Prediction Encoding)和反向傳播之間的關(guān)系。Milidge說(shuō):“如果在生物大腦中預(yù)測(cè)編碼機(jī)制真實(shí)存在的話,那它將為我們提供一個(gè)生物學(xué)上合理的背景支撐”。預(yù)測(cè)編碼理論假設(shè)大腦不斷地對(duì)輸入做出預(yù)測(cè),這個(gè)過(guò)程涉及神經(jīng)處理的層次結(jié)構(gòu)。為了產(chǎn)生一定的輸出,每一層都必須預(yù)測(cè)下一層的神經(jīng)活動(dòng)。如果某個(gè)高層的神經(jīng)元認(rèn)為“我需要提取出一張臉的抽象特征”,它會(huì)認(rèn)為它的下一層會(huì)利用這個(gè)臉的特征進(jìn)行更高層更抽象的活動(dòng)。如果下一層利用了該信息,那么就印證了我提取臉的操作是正確的,反之就說(shuō)明這個(gè)特征沒(méi)有意義,因?yàn)樗鼪](méi)有被利用。概括來(lái)說(shuō),下面一層會(huì)利用上一層所提取出的有用特征,有用的特征就像是落在視網(wǎng)膜上的光子一樣。這樣的話,預(yù)測(cè)就從高一層流向低一層了。但是話說(shuō)回來(lái),誤差可能發(fā)生在網(wǎng)絡(luò)的每一層中,每一層的輸入和輸出之間都會(huì)存在或多或少的差異,這些差異的疊加才形成最終的誤差。最底層的網(wǎng)絡(luò)根據(jù)收到的感知信息調(diào)整權(quán)重從而最小化誤差。這種調(diào)整可能會(huì)引起剛剛更新的層和上面層之間產(chǎn)生誤差,因此較高的層必須重新調(diào)整權(quán)重來(lái)最小化預(yù)測(cè)誤差。這些誤差逐漸累積并同時(shí)向上傳遞。網(wǎng)絡(luò)產(chǎn)生誤差和權(quán)重調(diào)整貫徹始終,并前后傳遞,直到每一層的預(yù)測(cè)誤差達(dá)到最小。Millidge已經(jīng)證明,通過(guò)適當(dāng)?shù)呐渲?,這種學(xué)習(xí)方法的預(yù)測(cè)編碼網(wǎng)絡(luò)可以收斂到和反向傳播算法十分類(lèi)似的權(quán)重。他說(shuō):“你可以將網(wǎng)絡(luò)訓(xùn)練得非常非常接近于反向傳播的權(quán)重結(jié)果?!?/span>但是相對(duì)于深度學(xué)習(xí)網(wǎng)絡(luò)的傳統(tǒng)的反向傳播算法來(lái)說(shuō),預(yù)測(cè)編碼網(wǎng)絡(luò)需要一次又一次地進(jìn)行的迭代傳播,僅僅傳播一次是不能夠收斂的。網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程是一個(gè)一個(gè)漸進(jìn)修改的過(guò)程,預(yù)測(cè)編碼網(wǎng)絡(luò)通常需要幾十上百甚至千余次的傳播才能收斂。迭代也是需要時(shí)間的,因此這種迭代的機(jī)制是否具有生物合理性取決于在真實(shí)的大腦中每次傳播所需的時(shí)長(zhǎng)。其中的關(guān)鍵點(diǎn)在于,生物大腦的神經(jīng)網(wǎng)絡(luò)必須快到在外部世界的輸入發(fā)生變化之前,就收斂到一個(gè)穩(wěn)定的狀態(tài)下。Milidge說(shuō):“學(xué)習(xí)的過(guò)程肯定很快,比如說(shuō),當(dāng)有一只老虎向我撲來(lái)的時(shí)候,我肯定不可能讓我的大腦反復(fù)計(jì)算、反復(fù)傳播個(gè)幾百次,然后告訴我:跑!那樣的話估計(jì)我腿還沒(méi)邁開(kāi)就成了老虎的下午茶了。”盡管如此,他說(shuō):“所以在真實(shí)的大腦中,一些誤差和不準(zhǔn)確是可以接受的,預(yù)測(cè)編碼應(yīng)該能夠很快的計(jì)算出一個(gè)可以接受的、一般來(lái)說(shuō)都很管用的較優(yōu)結(jié)果”。
椎體神經(jīng)元
除了上述的比較“高級(jí)”的研究之外,也有很多科學(xué)家致力于基礎(chǔ)研究,比如根據(jù)單個(gè)神經(jīng)元的特性建立起具有類(lèi)似反向傳播能力的模型。在標(biāo)準(zhǔn)的神經(jīng)元中,存在著一種生理結(jié)構(gòu)叫做樹(shù)突,樹(shù)突從其他神經(jīng)元中收集信息,并且將信號(hào)傳遞到神經(jīng)元的細(xì)胞體中。所有的輸入在細(xì)胞體中被整合。這個(gè)輸入到整合的現(xiàn)象可能會(huì)導(dǎo)致神經(jīng)元激活,從而產(chǎn)生軸突到突觸后神經(jīng)元樹(shù)突的動(dòng)作電位和生物電尖峰,當(dāng)然在某種情況下也不會(huì)產(chǎn)生對(duì)應(yīng)的動(dòng)作電位。但并不是所有的神經(jīng)元都有這種結(jié)構(gòu)。特別是對(duì)于錐體神經(jīng)元來(lái)說(shuō)。錐體神經(jīng)元是大腦皮層中最豐富的神經(jīng)元類(lèi)型,它具有樹(shù)狀結(jié)構(gòu),并且具有兩組不同的樹(shù)突。樹(shù)突的神經(jīng)干向上伸展并開(kāi)叉,分成所謂的頂端樹(shù)突;而神經(jīng)元根部向下延伸并形成基部樹(shù)突。Kording在2001年就曾獨(dú)立提出過(guò)相應(yīng)的神經(jīng)元模型。無(wú)獨(dú)有偶,最近來(lái)自McGill大學(xué)和Quebec人工智能研究所的Blake Richards及其同事也提出了類(lèi)似的神經(jīng)元模型。這些模型已經(jīng)表明神經(jīng)元可以通過(guò)同時(shí)進(jìn)行正向和反向的計(jì)算來(lái)形成深度學(xué)習(xí)網(wǎng)絡(luò)的基本單元。其模型的關(guān)鍵在于從輸入神經(jīng)元的信號(hào)中分離出正向推理和反向誤差的傳播分量,這兩種誤差分量是分別由基底樹(shù)突和頂端樹(shù)突分別處理的。這兩種信號(hào)的信息可以同時(shí)在神經(jīng)元中進(jìn)行編碼,經(jīng)過(guò)處理后可作為輸出發(fā)送到軸突,并轉(zhuǎn)換為生物電信號(hào)。Richards說(shuō),在他們團(tuán)隊(duì)的最新研究中,“我們已經(jīng)驗(yàn)證了錐體神經(jīng)元模型的可用性,我們通過(guò)算法來(lái)模擬錐體神經(jīng)元的計(jì)算,并且驗(yàn)證錐形神經(jīng)元網(wǎng)絡(luò)能夠完成各種任務(wù)的學(xué)習(xí) 。然后我們將網(wǎng)絡(luò)模型進(jìn)行初步的抽象,并利用這個(gè)由錐體神經(jīng)元所組成的抽象模型進(jìn)行更加復(fù)雜的任務(wù),這些復(fù)雜的任務(wù)和普通的機(jī)器學(xué)習(xí)算法和神經(jīng)網(wǎng)絡(luò)所做的任務(wù)一樣?!?/span>
注意力機(jī)制
在反向傳播機(jī)制中,算法默認(rèn)需要一個(gè)“老師”。具體來(lái)說(shuō),“老師”就是算法中損失值對(duì)各權(quán)重的偏導(dǎo)梯度,通過(guò)老師的“指導(dǎo)”,算法能夠據(jù)此修改權(quán)重的大小。也就是說(shuō),我們需要一個(gè)提供誤差信息的機(jī)制。但是來(lái)自荷蘭阿姆斯特丹神經(jīng)學(xué)研究所的Pieter Roelfsema說(shuō):“大腦中是沒(méi)有一個(gè)老師的,它也沒(méi)有一個(gè)器官或者機(jī)制來(lái)告訴每一個(gè)運(yùn)動(dòng)皮層的神經(jīng)元對(duì)應(yīng)的監(jiān)督信息,每個(gè)皮層也無(wú)從知曉自己到底是應(yīng)該激活還是靜息”。Roelfsema認(rèn)為,雖然沒(méi)有老師的信息,但是大腦可以利用注意力機(jī)制來(lái)實(shí)現(xiàn)類(lèi)似的效果以解決問(wèn)題。在20世紀(jì)90年代末,Roelfsema和他的同事們發(fā)現(xiàn),當(dāng)一只猴子注視一個(gè)物體的時(shí)候,大腦皮層中代表該物體的神經(jīng)元就會(huì)表現(xiàn)得更加活躍。猴子大腦中的注意力信息充當(dāng)了老師的角色,為皮層中的神經(jīng)元提供反饋監(jiān)督信息?!斑@是一個(gè)具有高度選擇性的反饋信號(hào),”Roelfsema說(shuō),“這不是誤差信號(hào),它只是對(duì)所有這些神經(jīng)元說(shuō):嘿伙計(jì),我們要做一件事兒,你得出把力激活一發(fā)了?!?/span>Roelfsema認(rèn)為,當(dāng)基于注意力的這種反饋信號(hào)和神經(jīng)科學(xué)領(lǐng)域中某些已有或者還未發(fā)現(xiàn)的現(xiàn)象相結(jié)合的時(shí)候,能夠在生物大腦中實(shí)現(xiàn)類(lèi)似于反向傳播的學(xué)習(xí)效果。例如,劍橋大學(xué)Wolfram Schultz和其它人已經(jīng)證明,當(dāng)動(dòng)物執(zhí)行的某些動(dòng)作產(chǎn)生比預(yù)期還好的效果的時(shí)候,生物大腦中的多巴胺系統(tǒng)就會(huì)被激活,從而產(chǎn)生正向的激勵(lì)效果。“多巴胺是一種神奇的神經(jīng)調(diào)節(jié)劑,能讓動(dòng)物們產(chǎn)生愉悅和幸福的感覺(jué), 當(dāng)我們獲得了多巴胺的正向激勵(lì)時(shí),它將遍布我們的全身,強(qiáng)化神經(jīng)元對(duì)于這種反應(yīng)和動(dòng)作的認(rèn)可”。Roelfsema說(shuō),理論上來(lái)說(shuō),注意力反饋信號(hào)只能激活那些負(fù)責(zé)一個(gè)動(dòng)作的神經(jīng)元,通過(guò)更新它們的神經(jīng)元權(quán)重來(lái)對(duì)整體的強(qiáng)化信號(hào)做出反應(yīng)。Roelfsema和他的同事們基于這個(gè)想法實(shí)現(xiàn)了一個(gè)深度神經(jīng)網(wǎng)絡(luò),并研究了它的數(shù)學(xué)特性。“結(jié)果是,這種機(jī)制能夠達(dá)到和反向傳播一樣的數(shù)學(xué)結(jié)果。但是從生物學(xué)的角度上來(lái)看,注意力機(jī)制的權(quán)重調(diào)整方法顯然更加合理”。Roelfsema的團(tuán)隊(duì)已經(jīng)將該工作發(fā)表到了2020年12月的NeuroIPS在線會(huì)議上。他表示,“我們可以通過(guò)這個(gè)方法訓(xùn)練深度網(wǎng)絡(luò),它只比反向傳播算法慢了2至3倍?!币虼耍f(shuō),“在所有符合生物合理性的學(xué)習(xí)算法中,基于注意力的學(xué)習(xí)機(jī)制已經(jīng)是其中最好的一個(gè)了”。但是,我們的大腦真的是利用這些看似很玄學(xué)的機(jī)制來(lái)進(jìn)行學(xué)習(xí)的嗎?似乎目前的研究不足以證明這一點(diǎn)。這些機(jī)制只是我們的一些經(jīng)驗(yàn)假設(shè)而已。Bengio說(shuō):“我認(rèn)為我們的研究忽略了一些東西。以我的經(jīng)驗(yàn)而言,這可能是一些很小的機(jī)制和細(xì)節(jié),也許我們只需要對(duì)現(xiàn)有的方法稍作修改就能起到奇效?!?/span>那我們?nèi)绾稳ゴ_定哪種學(xué)習(xí)算法在生物中是合理的呢?Yamins和他的斯坦福同事提出了一些建議。他們通過(guò)分析1056個(gè)深度網(wǎng)絡(luò)中的學(xué)習(xí)方法,發(fā)現(xiàn)可以通過(guò)神經(jīng)元子集隨時(shí)間的活動(dòng)現(xiàn)象來(lái)確定大腦的學(xué)習(xí)方法。這種信息能夠從猴子大腦的活動(dòng)記錄中獲取。Yamins說(shuō):“事實(shí)證明,如果我們能夠收集到正確的觀測(cè)數(shù)據(jù),那確定生物大腦的學(xué)習(xí)方式就變得十分簡(jiǎn)單了?!?/span>每每想到這些好處,計(jì)算神經(jīng)學(xué)家們都會(huì)暗自欣喜。Kording說(shuō):“大腦其實(shí)有很多種可以實(shí)現(xiàn)學(xué)習(xí)的方法,就像反向傳播一樣有效。生物的進(jìn)化十分奇妙,我相信反向傳播是有效的,而進(jìn)化論會(huì)推著我們朝著這個(gè)方向演進(jìn)的!”https://www.quantamagazine.org/artificial-neural-nets-finally-yield-clues-to-how-brains-learn-20210218/未來(lái)智能實(shí)驗(yàn)室的主要工作包括:建立AI智能系統(tǒng)智商評(píng)測(cè)體系,開(kāi)展世界人工智能智商評(píng)測(cè);開(kāi)展互聯(lián)網(wǎng)(城市)云腦研究計(jì)劃,構(gòu)建互聯(lián)網(wǎng)(城市)云腦技術(shù)和企業(yè)圖譜,為提升企業(yè),行業(yè)與城市的智能水平服務(wù)。