MIT大腦和認知科學(xué)教授、大腦,意識和機器中心(CBMM)主任 Tomaso Poggio 長期以來一直認為大腦必然存在面部和其他對象的“恒定(invariant)”表征——即與物體方位、它們與觀看者的距離、它們在視場中位置無關(guān)的表征。
研究人員設(shè)計了一個實現(xiàn)他們的模型的機器學(xué)習(xí)系統(tǒng),并加入了圖像數(shù)據(jù)來訓(xùn)練它識別特定的面部。他們發(fā)現(xiàn),經(jīng)過訓(xùn)練的系統(tǒng)出現(xiàn)了一個中間處理步驟(intermediate processing step),該步驟表征了面部的旋轉(zhuǎn)度——例如,從中間旋轉(zhuǎn)了 45 度,但無關(guān)左右方向。
這種特性事先沒有被編寫進系統(tǒng)中,它是在訓(xùn)練過程中自發(fā)出現(xiàn)的。它復(fù)制了此前在實驗中觀察到的靈長類動物的面部處理機制特征。研究人員認為這表明他們的系統(tǒng)的工作方式和大腦中的面部處理過程存在相似之處。
“這還不能證明我們搞清楚了什么新機制。”MIT 大腦和認知科學(xué)教授、大腦,意識和機器中心(CBMM)主任 Tomaso Poggio 說道,“模型是對現(xiàn)實世界——特別是對生物而言——的簡單模擬。如果事實真的如此簡單,那才是一件值得驚訝的事。但我確信我們正走在正確的軌道上?!?/p>
事實上,研究人員的新論文包括了一個數(shù)學(xué)證明——他們使用了特定類型的機器學(xué)習(xí)系統(tǒng),旨在提供 Poggio 所稱的神經(jīng)系統(tǒng)的“生物上可信的(biologically plausible)”模型;這類機器學(xué)習(xí)系統(tǒng)將不可避免地產(chǎn)生無關(guān)物體旋轉(zhuǎn)角度的中間表征(intermediary representation)。
Poggio 是這篇論文的主要作者,他同時也是 MIT 的 McGovern Institute for Brain Research 的主要研究者,他們的論文今天剛剛發(fā)表在《Computational Biology》期刊上。這一發(fā)現(xiàn)是 Poggio 與 CBMM、McGovern 和其他研究人員們共同努力的結(jié)果:第一作者 Joel Leibo 是谷歌 DeepMind 的研究者,他曾在 MIT 學(xué)習(xí)大腦與認知科學(xué)博士期間師從 Poggio;Qianli Liao 是 MIT 電氣工程與計算機科學(xué)專業(yè)研究生;Fabio Anselmi 是 IIT@MIT 計算和統(tǒng)計學(xué)習(xí)實驗室的博士后;Winrich Freiwald 是洛克菲勒大學(xué)的副教授。
涌現(xiàn)的特征
“這一成果很好地展示了我們在 CBMM 想要實現(xiàn)的東西:一方面是與機器學(xué)習(xí)和計算機科學(xué)的整合,另一方面是神經(jīng)生理學(xué),以及人類行為上的研究,”Poggio 說道。“它不僅僅能告訴我們大腦正在使用什么算法,也告訴我們大腦中的回路是如何實現(xiàn)這些算法的?!?/p>
Poggio 長期以來一直相信人腦中必然存在“恒定”表征——即與物體方位、它們與觀看者的距離、它們在視場中位置無關(guān)的表征。對人類和靈長類動物大腦的核磁共振研究結(jié)果支持這一觀點,但在 2010 年,F(xiàn)reiwald 曾發(fā)表過一項研究,詳細解釋了獼猴面部識別機制的神經(jīng)解剖學(xué)特征。
Freiwald 表明來自來自這只猴子的視神經(jīng)的信息穿過了一系列大腦位置,其中每一個位置在面部方向上都比上一個更不敏感。在第一個區(qū)域中的神經(jīng)元僅會響應(yīng)特定的面部方向而放電;而最后一個區(qū)域中的神經(jīng)元不管方向如何都會放電——這是一個恒定的表征。
但是中間區(qū)域的神經(jīng)元似乎是“鏡像對稱的(mirror symmetric)”:也就是說,它們對面部旋轉(zhuǎn)的角度是敏感的,而不會考慮方向。
在第一個區(qū)域,如果一張臉向左旋轉(zhuǎn)了 45 度就會有一個神經(jīng)元簇放電;如果其向右旋轉(zhuǎn)了 45 度就會有另一個神經(jīng)元簇放電。而對于最后一個神經(jīng)元簇,不管面部旋轉(zhuǎn)了 30 度、45 度、90 度還是其間的任何角度,它都會放電。但在中間區(qū)域,當(dāng)面部朝某個方向旋轉(zhuǎn)了 45 度時,一個特定的神經(jīng)元簇就會放電;而當(dāng)轉(zhuǎn)動度數(shù)為 30 度時,放電的又會是另一個神經(jīng)元簇。
這正是這些研究者的機器學(xué)習(xí)系統(tǒng)所再現(xiàn)出來的行為?!斑@并不是一個試圖解釋鏡像對稱的模型,”Poggio 說,“這個模型在嘗試解釋不變性,而在這個過程中,會有這樣一種其它的性質(zhì)出現(xiàn)。”
神經(jīng)訓(xùn)練
這些研究者所采用的機器學(xué)習(xí)系統(tǒng)是一個神經(jīng)網(wǎng)絡(luò),之所以這樣叫是因為它粗略地模仿了人腦的結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)基于非常簡單的按層級排布的處理單元,神經(jīng)網(wǎng)絡(luò)與處理單元或是上下層的節(jié)點之間連接緊密。數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)的最底層,在這一層神經(jīng)網(wǎng)絡(luò)會通過某種方式對這些數(shù)據(jù)進行處理,并將它們輸入到上一層,以此類推。在訓(xùn)練的過程中,最頂層的輸出會與一些分類標(biāo)準(zhǔn)密切相關(guān),比如說它能夠正確判斷一個給定的圖像是否在描述某個特定的人。
在之前的研究中,Poggio 的團隊已經(jīng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)展現(xiàn)出恒定表征,從根本上來講,是通過記憶一系列有代表性的人臉特征,Poggio 稱之為“模板”(templates)。當(dāng)神經(jīng)網(wǎng)絡(luò)看到一張新的人臉時,它會自動判斷這張臉與這些模板的不同之處。如果這張新的人臉特征與模板中人臉的特征相同,那么區(qū)別就會非常小,結(jié)果就會在最頂層分析后直接輸出。新的人臉和模板的區(qū)別也會為這張新面孔賦予可識別的特征信息。
在實驗中,這種方法得到了恒定的表征:不管其方向如何,一張臉特征信息差不多都是一樣的。但是 Poggio 說,其中的機制——記憶模板(memorizing templates)——卻并不是生物上可信的(biologically plausible)。
所以這個新網(wǎng)絡(luò)轉(zhuǎn)而使用了一種依據(jù)赫布定律(Hebb's rule)的變化——這一定律通常在神經(jīng)科學(xué)文獻被描述為“一起放電的神經(jīng)元是連接在一起的”。這意味在訓(xùn)練過程中,為了得到更準(zhǔn)確的輸出,隨著節(jié)點之間連接的權(quán)重的調(diào)整,會對特定刺激聯(lián)合做出反應(yīng)的節(jié)點最終會比獨立反應(yīng)的節(jié)點(并非所有)給最后的輸出貢獻更多。
這種方法也會產(chǎn)出恒定的表征。但該網(wǎng)絡(luò)的中間層也復(fù)制了靈長類動物大腦的中間視覺處理區(qū)域的鏡像對稱反應(yīng)。
“這是個巨大的進步,”Allen 腦科學(xué)研究所的首席科學(xué)官 Christof Koch 評論道。“現(xiàn)在的科學(xué)研究一直注重大數(shù)據(jù)和大型計算機模擬,而這一研究顯示了原理解釋的重要性。他們正在謹慎地開展研究——目前只關(guān)注前饋通道——換句話說,前 80-100 毫秒的處理。猴子張開它的眼鏡,80 到 100 毫秒內(nèi),它可以看清一張臉并按下相應(yīng)的按鈕作為表示。問題的一切都會在這一瞬間被解決,他們對這個過程的解釋看起來很棒。”
推薦閱讀:
How the brain recognizes faces
聯(lián)系客服