記憶可能是大腦的傷疤
By Fancee
一、為什么會走向深度學(xué)習(xí)
1. 深度學(xué)習(xí)是機器學(xué)習(xí)的一個分支,它根植于數(shù)學(xué)、計算機科學(xué)和神經(jīng)科學(xué)。深度學(xué)習(xí)一開始并不受待見,但是現(xiàn)在成為機器學(xué)習(xí)的主流。而機器學(xué)習(xí)又是人工智能的一個部分。
2. 上個世紀80聯(lián)大實現(xiàn)人工智能的主流方式是基于使用符號、邏輯和規(guī)則來編寫智能行為的程序;認知心理學(xué)家已經(jīng)采用這種方法來理解人類的認知能力,尤其是語言。而符號的問題在于,這種過分概括的表達形式使其很難在現(xiàn)實世界中被精確地描述出來。而那時的杰弗里卻在逆流而行。杰弗里堅信,將由簡單處理單元構(gòu)成的網(wǎng)絡(luò)、并行工作和從樣本中學(xué)習(xí)相結(jié)合,是理解認知的更好的方式。這個看上去很容易解決的簡單的視覺識別問題,最終被證明是個“陷阱”,吞噬了整整一代計算機視覺研究人員的青春。
3. 有一小群不屬于主流群體的AI研究人員認為,受大腦生物學(xué)啟發(fā)的那些被稱為“神經(jīng)網(wǎng)絡(luò)”、“連接主義”和“并行分布處理”的AI實現(xiàn)方法,會最終解決困擾基于邏輯的AI研究的難題。作者正是那一小群人中的一個。
4. 早期人工智能發(fā)展緩慢,規(guī)則編程負責(zé),且計算機能力不足,不在意腦科學(xué)的進展?,F(xiàn)在迅猛發(fā)展得益于數(shù)據(jù)存儲和計算能力的提升和成本低廉。計算機能力日趨強大,數(shù)據(jù)資源也變得龐大且豐富。深度學(xué)習(xí)的應(yīng)用就在我們身邊。從無人駕駛,到語言識別,到智能翻譯,到精準治療和金融交易等領(lǐng)域。
5. 任何人工智能的難題都可以被解決,因為自然界通過進化已經(jīng)解決了這些難題。 有四個暗示:
第一條:大腦是強大的模式識別器。我們的視覺系統(tǒng)可以在1/10秒內(nèi)識別混亂場景中的對象。
第二條,我們的大腦可以通過練習(xí)來學(xué)會如何執(zhí)行若干艱巨的任務(wù),比如彈鋼琴、掌握物理學(xué)知識。
第三條,我們的大腦并沒有充斥著邏輯或規(guī)則。推理似乎是基于特定領(lǐng)域的,我們對該領(lǐng)域越熟悉,就越容易解決其中的問題。
第四條,我們的大腦充滿了數(shù)百億個小小的神經(jīng)元,每時每刻都在互相傳遞信息。這表明,要解決人工智能中的難題,我們應(yīng)該研究具有大規(guī)模并行體系結(jié)構(gòu)的計算機,而不是那些具有馮·諾依曼數(shù)字體系結(jié)構(gòu),每次只能獲取和執(zhí)行一個數(shù)據(jù)或指令的計算機。
二、深度學(xué)習(xí)學(xué)科的發(fā)展
6. 深度學(xué)習(xí)前期發(fā)展進程如下:
20世紀五六十年代,諾伯特·維納(Norbert Wiener)提出基于機器和生物中的通信和控制系統(tǒng)的控制論,學(xué)界對自組織系統(tǒng)開始產(chǎn)生了濃厚的興趣。
奧利弗·塞弗里奇(Oliver Selfridge)創(chuàng)造一個圖案識別設(shè)備Pandemonium(鬼域)。奧利弗·塞弗里奇認為,大腦中有惡魔負責(zé)從感官輸入中先后提取更復(fù)雜的特征和抽象概念,從而做出決定。
圖 1 Pandemonium
斯坦福大學(xué)的伯納德·威德羅(Bernard Widrow)和他的學(xué)生泰德·霍夫(Ted Hoff)發(fā)明了LMS(最小均方)學(xué)習(xí)算法,它與其后繼算法一起被廣泛用于自適應(yīng)信號處理,例如噪聲消除、財務(wù)預(yù)測等應(yīng)用。
弗蘭克·羅森布拉特(Frank Rosenblatt),他發(fā)明的感知器是深度學(xué)習(xí)的前身。感知器的目標是確定輸入的圖案是否屬于圖像中的某一類別(比如貓)。
圖2 感知器工作原理示意
上圖解釋了感知器的輸入如何通過一組權(quán)重,來實現(xiàn)輸入單元到輸出單元的轉(zhuǎn)換。權(quán)重是對每一次輸入對輸出單元做出的最終決定所產(chǎn)生影響的度量。工程師解決這個問題的傳統(tǒng)方法,是根據(jù)分析或特定程序來手動設(shè)定權(quán)重或者使用一種從樣本中學(xué)習(xí)的自動過程,算法根據(jù)樣本自動對權(quán)重進行校正。這種感知器學(xué)習(xí)算法的美妙之處在于,如果已經(jīng)存在這樣一組權(quán)重,并且有足夠數(shù)量的樣本,那么它肯定能自動地找到一組合適的權(quán)重。訓(xùn)練結(jié)束時,用測試集(test set)來對感知器是否能夠推廣到類別未知的新樣本的真實度量。然后再泛化(generalization),將以前的經(jīng)驗泛化到新的視角或場景中,我們就可以處理更多現(xiàn)實世界的問題。
7. 在20世紀80年代,相信網(wǎng)絡(luò)模型能夠模仿智能行為的人并不只有我和杰弗里,堅持不懈地開發(fā)著專門的網(wǎng)絡(luò)模型。還有
克里斯托弗·馮·德·馬爾斯伯格(Christoph von der Malsburg),開發(fā)了一種模式識別模型,將發(fā)射脈沖的人造神經(jīng)元連接在一起,并證明了這種方法可以識別圖像中的人臉。
大阪大學(xué)的福島邦彥(Kunihiko Fukushima)發(fā)明了神經(jīng)認知機(Neocognitron),一個基于視覺系統(tǒng)架構(gòu)的多層網(wǎng)絡(luò)模型,它使用了卷積濾波器和簡單形式的赫布可塑性(Hebbian plasticity),這也是深度學(xué)習(xí)網(wǎng)絡(luò)的一個直接的前身。
赫爾辛基大學(xué)的電氣工程師戴沃·科霍寧(Teuvo Kohonen),他開發(fā)了一個自組織網(wǎng)絡(luò),可以學(xué)習(xí)將相似的輸入通過不同的處理單元聚類到二維映射中(例如可以用來代表不同的語音),相似的輸入能夠激活輸出空間的相鄰區(qū)域。這個 不需要對每個輸入的類別進行標記(通過生成標記來訓(xùn)練監(jiān)督網(wǎng)絡(luò)的花費十分高昂)。
在加州大學(xué)洛杉磯分校的朱迪亞·珀爾(Judea Pearl)引入了將網(wǎng)絡(luò)中的結(jié)點用概率聯(lián)系起來的信念網(wǎng)絡(luò),比如草地變濕,是因為噴水器打開了的概率,或者因為下雨了的概率。
上述幾個例子和其他基于網(wǎng)絡(luò)的模型都有一個共同的致命缺陷:它們都不足以解決現(xiàn)實世界中的問題。
8. 在普林斯頓上課時,我發(fā)現(xiàn)神經(jīng)科學(xué)家們正在取得令人振奮的進展 在此之前,生物學(xué)、心理學(xué)、解剖學(xué)、生理學(xué)、藥理學(xué)、神經(jīng)學(xué)、精神病學(xué)、生物工程學(xué)等許多學(xué)科都對大腦進行了研究。
大衛(wèi)·馬爾(David Marr)是MIT AI Lab的一名有遠見的領(lǐng)導(dǎo)者。追求一種自下而上的策略,從視網(wǎng)膜開始入手(在那里光被轉(zhuǎn)換成電信號),并探求視網(wǎng)膜中的信號如何編碼對象的特征,以及視覺皮層如何表示物體的表面和邊界。他和托馬索·波吉奧為立體視覺開發(fā)了一種帶有反饋連接的遞歸神經(jīng)網(wǎng)絡(luò)模型,
查爾斯·格羅斯(Charles Gross)教授是在普林斯頓研究猴子視覺系統(tǒng)的心理學(xué)家。 由于他們在初級視覺皮層中的開創(chuàng)性工作,他們獲得了1981年的諾貝爾生理學(xué)或醫(yī)學(xué)獎。
喬恩·卡斯(Jon Kaas)和約翰·奧爾曼(John Allman)于 20世紀70年代早期,在威斯康星大學(xué)神經(jīng)生理學(xué)系研究從初級視覺皮層接受輸入的皮層區(qū)域,發(fā)現(xiàn)了不同區(qū)域具有不同的特性。
弗農(nóng)·蒙特卡索(Vernon Mountcastle) 發(fā)現(xiàn)了皮層柱(cortical column)。
作者完成了與導(dǎo)師艾倫·蓋爾普林(Alan Gelperin)共同進行的一個繪制大蛞蝓的足神經(jīng)節(jié)代謝活動的短期博士后項目。所學(xué)到的是無脊椎動物中所謂的簡單神經(jīng)系統(tǒng),實際上比進化階梯上那些更高級動物器官里的更復(fù)雜,因為無脊椎動物必須依賴更少的神經(jīng)元存活,每個神經(jīng)元都是高度特異化的。也開始明白,沒有行為支持,神經(jīng)科學(xué)的任何東西都講不通。
作者研究了牛蛙交感神經(jīng)節(jié)一個突觸的遲慢興奮性反應(yīng) ,它的反應(yīng)速度是位于同一神經(jīng)元的另一個突觸上的快速的毫秒級興奮性反應(yīng)的1/60000。這次經(jīng)歷告訴我,復(fù)雜性可能不是通向理解大腦功能的坦途。突觸是大腦中基本的計算單元,而突觸類型的多樣性不可小覷。
視覺皮層的組織結(jié)構(gòu)為最成功的深度學(xué)習(xí)網(wǎng)絡(luò)提供了靈感。大腦如何解決問題,是終極謎題。視覺是我們最敏銳,也是被研究得最多的一種感官。前額下方的眼睛帶給了我們精準敏銳的雙眼深度知覺,然而,也正是這種良好的視覺,導(dǎo)致我們完全忽視了視覺系統(tǒng)背后巨大的計算復(fù)雜性,大自然經(jīng)過數(shù)億年的進化才解決了這個問題。
圖3 獼猴視覺系統(tǒng)的信息流動示意圖
人眼是怎么產(chǎn)生視覺的? 休伯爾和威澤爾發(fā)現(xiàn),皮層神經(jīng)元對定向條形光斑和高對比度邊緣的反應(yīng)比點狀光斑更強烈。視覺皮層中的每個皮層神經(jīng)元都可以被認為是一個視覺特征檢測器。在視野中的特定區(qū)域,當(dāng)某些神經(jīng)元所偏好的特征信號輸入高于某個閾值時,這些神經(jīng)元就會被激活。每個神經(jīng)元偏好的特征取決于它與其他神經(jīng)元的連接。
圖4 貓的初級視覺皮層中一個復(fù)雜細胞的響應(yīng)
這張圖片來自休伯爾和威澤爾在1962年發(fā)表的論文中關(guān)于發(fā)現(xiàn)復(fù)雜細胞的描述。只要方向正確(圖中A、B、C這三條記錄),一個長而窄的黑條會引起大量放電(垂直豎線)響應(yīng),無論它位于復(fù)雜細胞感受野(虛線)內(nèi)的哪個位置。而非最優(yōu)方向會導(dǎo)致較弱的響應(yīng),或根本沒有響應(yīng)(圖中D、E這兩個記錄。
科學(xué)家從視覺神經(jīng)入手研究神經(jīng)網(wǎng)絡(luò)。發(fā)現(xiàn)視覺神經(jīng)突觸是可塑的,而且只在一定時間內(nèi)可塑。磨損的蛋白質(zhì)會被替換,膜中的脂質(zhì)也會被更新。有了這么多的動態(tài)轉(zhuǎn)變,就很難解釋記憶是如何在有生之年得以維持的了。這使得記憶有了一種新解釋,記憶是大腦的傷疤,是神經(jīng)細胞的骨骼而不是細胞本身。
9. 通過陰影腦補立體全貌
史蒂文·祖克(Steven Zucker)(見圖5–7)專注于融合了計算機視覺和生物視覺的交叉領(lǐng)域的研究。想要了解我們?nèi)绾螐谋砻骊幱耙约罢酆酆婉薨欀刑釤挸鑫矬w的形狀。他用方程來解釋為何從毛衣上的陰影變化中,我們可以察覺到衣服褶皺的形狀。最近已經(jīng)能夠搞清楚我們是如何在有陰影的圖像中看到褶皺的,其背后的解釋是基于類似山體等高線圖的表面三維輪廓,以及圖像上等照度輪廓之間的密切關(guān)系。
圖5 耶魯大學(xué)史蒂文·祖克,
他身后黑板上的方程式解釋了為什么我們能識折痕和褶皺中提煉出物體的形狀
1988年,西德尼·萊基(Sidney Lehky)和我有了一個想法,我們也許可以訓(xùn)練一個只有一層隱藏單元的神經(jīng)網(wǎng)絡(luò)來計算陰影曲面的曲率。我們成功了,而且出人意料的是,隱藏單元的表現(xiàn)跟簡單細胞非常相似。這一結(jié)論令人驚訝:神經(jīng)元的功能不僅僅取決于它如何對輸入做出反應(yīng),而且還取決于它通過自身的“投射域”激活的下游神經(jīng)元。
1991年,還在加州理工學(xué)院的大衛(wèi)·范·艾森(David Van Essen)仔細研究了皮層每個視覺區(qū)域的輸入和輸出,并將它們按層級排列了出來(見圖5–11)。這張圖有時僅僅被用于說明皮層的復(fù)雜性。它就像一座大城市的地鐵圖。
圖6猴腦中視覺區(qū)域的層級結(jié)構(gòu)圖
三、計算神經(jīng)科學(xué)的創(chuàng)立
10. 與物理學(xué)中的力不同,大腦回路(brain circuits)有一個目的,就是解決計算問題,比如看見和移動,以便在世界上生存。即使是一個關(guān)于神經(jīng)元如何工作的完美的物理模型,也不會告訴我們它的目的是什么。神經(jīng)元負責(zé)處理攜帶信息的信號,而計算則是試圖理解大自然的缺失一環(huán)。 作者開創(chuàng)了一個新的領(lǐng)域,叫作“計算神經(jīng)科學(xué)computational neuroscience”。對大腦學(xué)習(xí)行為的研究可以在從分子層面到行為層面不同的層面進行。
11. 作者利用神經(jīng)科學(xué)理解大腦。像物理學(xué)家?guī)讉€世紀以來使用數(shù)學(xué)來理解重力、光、電、磁和核能的本質(zhì)一樣,通過寫下非線性神經(jīng)元交互網(wǎng)絡(luò)的方程式并分析它們來解決如何理解大腦的問題,但是因為神經(jīng)網(wǎng)絡(luò)方程式是非線性的,與之相關(guān)的噪聲是非高斯分布的,而且變量是不可分的,所以它們并沒有明確的解。
12. 與20世紀80年代只有數(shù)百個單元和數(shù)千個連接的網(wǎng)絡(luò)相比,現(xiàn)在模擬出的神經(jīng)網(wǎng)絡(luò)具有數(shù)百萬個單元和數(shù)十億個連接。盡管按照擁有數(shù)千億個神經(jīng)元和千萬億個突觸連接的人類大腦的標準來看,這個數(shù)字仍然很小,但現(xiàn)有神經(jīng)網(wǎng)絡(luò)的規(guī)模已經(jīng)可以在有限領(lǐng)域中進行原理的證明。
圖7 人腦連接組
13. 普林斯頓大學(xué)的尤里·哈森(Uri Hasson)進行了一項fMRI實驗,旨在探究視覺層級的哪些部分涉及處理不同長度的電影。查理·卓別林(Charlie Chaplin)的無聲電影被剪輯為4秒、12秒和36秒的片段呈現(xiàn)給受試者。在4秒的剪輯中,受試者可以識別一個場景;12秒時,可以看清連接的動作;在36秒的長度下,能夠看到一個有開頭和結(jié)尾的故事。在層級底部的初級視覺皮層中的fMRI反應(yīng),無論在什么樣的時間尺度上,都強大且可靠。但在視覺等級的較高層次上,只有較長的時間尺度才能引起可靠的反應(yīng),而位于層級頂層的前額葉皮層區(qū)需要最長的時間間隔。這與其他實驗結(jié)果一致,即工作記憶也按照層級分布。工作記憶是我們掌握信息的能力,比如要記住的電話號碼,以及我們正在處理的任務(wù)的要素。最長的工作記憶時間尺度同樣位于前額葉皮層。
四、深度學(xué)習(xí)的影響
14. 如果說數(shù)據(jù)是新時代的石油,那么學(xué)習(xí)算法就是從中提取信息的煉油廠;信息積累成知識;知識深化成理解;理解演變?yōu)橹腔?/strong>。而深度學(xué)習(xí)能夠讓傳統(tǒng)的數(shù)據(jù)分析方法如虎添翼。
15. 新興技術(shù)不是生存威脅,AI可以讓你變得更聰明。訓(xùn)練深層網(wǎng)絡(luò)能干什么只受限于訓(xùn)練者的想象力和數(shù)據(jù)。這種形式的學(xué)習(xí)只取決于在一系列動作結(jié)束時給予獲勝者的獎勵,這似乎和提前做出更好的決策相矛盾。
16. 人工智能的發(fā)展要求每個人都要終身學(xué)習(xí),教育不僅會變得更加個性化,也會變得更加精準。要做到這一點,我們需要一個以家庭,而不是以學(xué)校為基礎(chǔ)的新教育體系。
聯(lián)系客服