導(dǎo)語
本文是集智俱樂部主辦的NeuroAI(認(rèn)知智能)讀書會第一講的總結(jié)。這一期期讀書會主題是:“殊途同歸:生物視覺與人工視覺”,報告人是來自北京大學(xué)的鮑平磊研究員。鮑教授在這一期讀書會中,深入淺出地為大家介紹了機(jī)器視覺與生物視覺領(lǐng)域的相關(guān)研究進(jìn)展,并介紹了自己在這個領(lǐng)域完成的一項(xiàng)重要研究。
NCC lab 杜鵬輝 | 作者
車文心、劉泉影 | 校對
神經(jīng)計算與控制實(shí)驗(yàn)室 | 來源
鄧一雪 | 編輯
1. 報告人
鮑平磊,北京大學(xué)心理與認(rèn)知科學(xué)學(xué)院研究員,麥戈文腦研究所研究員,北京大學(xué)-清華大學(xué)生命科學(xué)聯(lián)合中心研究員。實(shí)驗(yàn)室致力于高級視覺功能認(rèn)知的神經(jīng)機(jī)制探索,采用電生理,腦功能成像,微電刺激以及心理物理的方法等多種研究手段對于人和非人靈長類的視覺系統(tǒng)進(jìn)行多層面的研究,并結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)等多種手段構(gòu)建視覺知覺的數(shù)學(xué)模型。
鮑教授相關(guān)研究的論文鏈接:
https://www.nature.com/articles/s41586-020-2350-5
2. 引入
視覺是生物極為重要的功能,其中物體識別是生物視覺最重要的任務(wù)之一。生物大腦可以高效穩(wěn)定地實(shí)現(xiàn)物體識別,而傳統(tǒng)機(jī)器學(xué)習(xí)模型很難做到。近年來,深度神經(jīng)網(wǎng)絡(luò)快速發(fā)展,在物體識別任務(wù)上實(shí)現(xiàn)了接近人類的性能表現(xiàn)。同時,深度神經(jīng)網(wǎng)絡(luò)模型如卷積神經(jīng)網(wǎng)絡(luò),也被發(fā)現(xiàn)可以很好地解釋大腦視覺識別任務(wù)中的電生理信號,為生物視覺機(jī)制,尤其是下顳葉區(qū)域的研究帶來了進(jìn)一步的啟發(fā)。
神經(jīng)系統(tǒng)是生物用于接收信息,處理信息的系統(tǒng)。它主要的作用是通過計算處理輸入信息,指導(dǎo)生物行動。視覺是動物的基礎(chǔ)功能,大部分動物都有很強(qiáng)的視覺能力。據(jù)估計,人類大約有1/3的腦區(qū)都與視覺有關(guān)。近年來,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)技術(shù)發(fā)展迅猛,其模型結(jié)構(gòu)的靈感也正是來自于生物視覺的計算機(jī)制。
在所有視覺任務(wù)中,最重要的就是物體識別任務(wù)。物體識別對人類是很容易的,只需毫秒級的時間就可以完成。但實(shí)際上,物體識別背后有著很復(fù)雜的計算機(jī)制。根據(jù)大英百科全書,生活中常見的物體大約可以被分為3-5萬個類別。人類不但可以輕松駕馭如此繁多復(fù)雜的物體種類,還可以在各種不同的條件下實(shí)現(xiàn)穩(wěn)定的視覺識別(Invariant object recognition),很少出現(xiàn)錯誤(如下圖所示)。
問題接踵而至:生物視覺系統(tǒng)究竟如何完成這樣的任務(wù)?如何構(gòu)建一個人工的系統(tǒng)實(shí)現(xiàn)這樣的效果?
3. 生物視覺的基本工作原理
首先我們要先了解生物視覺的工作機(jī)制。在生物視覺信息處理機(jī)制方面,目前一個主流的觀點(diǎn)是雙流假說。雙流假說認(rèn)為大腦中存在兩條通路:腹側(cè)視覺流(Ventral Stream)與背側(cè)視覺流(Dorsal Stream)。其中前者主要負(fù)責(zé)物體識別任務(wù),也被稱為“What 通路”;后者主要負(fù)責(zé)編碼空間位置信息,也被稱為”Where 通路”。在這次讀書會中,我們探討物體識別任務(wù),因此主要考慮腹側(cè)視覺流。腹側(cè)視覺流起始于V1腦區(qū),經(jīng)過V2腦區(qū)和V4腦區(qū)到達(dá)下顳葉腦區(qū)(Inferior Temporal,IT)。腹側(cè)視覺流的大致結(jié)構(gòu)如下圖所示。
大腦的IT區(qū)域是一個格外有趣的區(qū)域。一般認(rèn)為,相較于V1,V2等初級視覺皮層對輸入視覺刺激的簡單處理,IT區(qū)域具有更加抽象的視覺編碼。已有研究表明,IT區(qū)域的損傷會導(dǎo)致特定物體識別障礙,比如將自己的妻子識別為一頂帽子(The Man Who Mistook His Wife for a Hat - Wikipedia)。無法識別臉并不是看不到人臉,患者視力與正常人沒有差別,但就是會對人臉產(chǎn)生錯認(rèn)或失認(rèn)。
早期的物體識別研究以“貓”為研究對象,這些工作為后來機(jī)器視覺領(lǐng)域的研究提供了重要的啟發(fā)。研究者發(fā)現(xiàn)貓的初級視覺皮層存在兩類方向選擇性神經(jīng)元,對不同朝向的光bar有很強(qiáng)的選擇性。如圖,貓被記錄的特定神經(jīng)元對豎直的光bar反應(yīng)強(qiáng)烈,而對橫向光bar幾乎沒有反應(yīng)。
視覺信息初始輸入的時候都是光點(diǎn),為什么能形成不同的方向選擇性呢?David Hubel(1981 Nobel Prize)等人的早期研究認(rèn)為,如果有多個神經(jīng)元具有不同的感受野,形成特定的方位排列,并通過匯聚性連接將信息匯總到一個新的神經(jīng)元,此時新的神經(jīng)元就可以形成特定的方位選擇性,即形成特定的感受野(Receptive field)。這樣的模型在后來的電生理實(shí)驗(yàn)中也得到了進(jìn)一步驗(yàn)證。這個實(shí)驗(yàn)向我們表明,通過神經(jīng)元的特定連接,就可以從構(gòu)建出能夠探測特定特征的細(xì)胞。
也有一些更為復(fù)雜的細(xì)胞。這類細(xì)胞具有一定的位置不變性,只要在輸入圖片中具有特定的特征,它們都可以探測到,而與特征所在空間位置關(guān)聯(lián)較弱。通過匯聚性連接的理論,也可以解釋這種細(xì)胞的存在。
4. 生物視覺的計算模型
與卷積神經(jīng)網(wǎng)絡(luò)的興起
通過剛才兩個例子,我們了解到神經(jīng)元的相互連接可以實(shí)現(xiàn)非常有趣的功能。受此啟發(fā),1980年Fukushima提出了一個數(shù)學(xué)結(jié)構(gòu),被認(rèn)為是最早的卷積神經(jīng)網(wǎng)絡(luò)模型。這個模型采取了匯聚性連接的思想,使得輸入信息經(jīng)過多層神經(jīng)網(wǎng)絡(luò)逐步處理,最終實(shí)現(xiàn)簡單的數(shù)字識別任務(wù)。但是這個網(wǎng)絡(luò)所有的連接權(quán)重都是人工設(shè)計的,不具備更進(jìn)一步的學(xué)習(xí)能力。
1989年,LeCun提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)。這一模型采取類似的架構(gòu),結(jié)合梯度反向傳播(Back Propagation,BP)的方法,使用數(shù)據(jù)對模型進(jìn)行訓(xùn)練。CNN實(shí)現(xiàn)了可以從數(shù)據(jù)中學(xué)習(xí)手寫數(shù)字分類,并且做到了不錯的精度。
2012年,隨著計算機(jī)算力的大幅度提升與ImageNet大規(guī)模圖像數(shù)據(jù)集的建立,Hinton提出了AlexNet深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),在圖像分類任務(wù)上實(shí)現(xiàn)了劃時代的進(jìn)步。
下面簡單介紹CNN的原理。CNN最基本的操作就是卷積操作,而卷積操作依賴于卷積核。卷積核是一個矩陣,也可以被認(rèn)為是一種特征提取器。將卷積核在圖像上滑動,每滑到一個新的位置,就將卷積核與當(dāng)前對應(yīng)的局部圖片進(jìn)行卷積,就可以探測圖片不同位置的特征。
為什么卷積這一操作有效?因?yàn)樵谖矬w識別任務(wù)中,很多特征會出現(xiàn)在圖片不同位置,但是大體上是類似的,即特征具有一定的”平移不變性“。比如兩張鳥的圖片,其中都會出現(xiàn)鳥喙。雖然兩個鳥喙可能在圖片不同的位置,但是都可以描述“有鳥出現(xiàn)”這件事情。
CNN每一個卷積層可以有很多不同的卷積核,這樣就可以提取不同的特征。提取特征后,再逐層向后傳遞(匯聚性連接),就可以將特征組合,實(shí)現(xiàn)探測更復(fù)雜更抽象的特征,最終實(shí)現(xiàn)對物體的識別。
最大池化(Max Pooling)是一種精簡參數(shù)的操作。對于每一個小的局部區(qū)域(e.g. 2x2的局部圖片),最大池化操作只保留其最大值(也有平均池化,最小池化等方法)。為什么需要做池化操作?因?yàn)樯窠?jīng)網(wǎng)絡(luò)中的信息往往存在冗余,對圖片下采樣往往不會丟失至關(guān)重要的信息,而且會使模型訓(xùn)練變得更加輕松。
通過不斷交替重復(fù)卷積操作與最大池化操作,就獲得了一個簡單的卷積神經(jīng)網(wǎng)絡(luò)。卷積操作與最大池化使得CNN的網(wǎng)絡(luò)參數(shù)遠(yuǎn)少于全連接網(wǎng)絡(luò),更容易訓(xùn)練。CNN網(wǎng)絡(luò)的整體架構(gòu)如下圖所示。
5. IT區(qū)域已有的相關(guān)研究
大致討論了深度學(xué)習(xí)技術(shù)的發(fā)展史,我們現(xiàn)在回到神經(jīng)科學(xué)領(lǐng)域開始討論生物視覺。前面提到了IT區(qū)域?qū)μ囟ㄒ曈X刺激會做出特定響應(yīng),其實(shí)IT還有更精細(xì)的結(jié)構(gòu)。Kanwisher 1997年的一項(xiàng)研究發(fā)現(xiàn)下顳葉存在一個對人臉有特異性響應(yīng)的區(qū)域,稱之為FFA區(qū)域(Face Fusiform Area)。在這項(xiàng)研究中,被試躺在核磁共振儀器中,測量在特定任務(wù)狀態(tài)下,神經(jīng)元活動引起的大腦血氧濃度變化。發(fā)現(xiàn)人類被試觀看人臉面孔的時候,F(xiàn)FA區(qū)域?qū)γ婵椎姆磻?yīng)遠(yuǎn)高于對物體的響應(yīng)。FFA是最早發(fā)現(xiàn)的能夠表征特異物體類別的區(qū)域。
不久后研究者又發(fā)現(xiàn)了IT區(qū)域另一個有趣的腦區(qū),PPA區(qū)域,它會對房子/景觀有較強(qiáng)的反應(yīng)。除此之外,研究者還發(fā)現(xiàn)了對人類身體區(qū)域有特異性反應(yīng)的EBA腦區(qū)等。
研究者們還發(fā)現(xiàn),對某一個特定物體類別反應(yīng)的腦區(qū)往往不只有一個,如下圖所示。同時,下顳葉還有很大一部分區(qū)域還沒有被發(fā)現(xiàn)有明確的類別選擇性。
發(fā)現(xiàn)FFA區(qū)域?qū)γ婵子刑禺愡x擇性后,研究者們對FFA區(qū)域進(jìn)行了進(jìn)一步的實(shí)驗(yàn)。他們將電極放置在癲癇病人的FFA區(qū)域,并對病人施加特定電刺激,觀察發(fā)生的現(xiàn)象。結(jié)果表明,當(dāng)FFA區(qū)域受到電刺激時,病人對于面孔的認(rèn)知發(fā)生了變化,如下圖所示。
該實(shí)驗(yàn)充分說明了FFA與面孔識別有很強(qiáng)的關(guān)系。由于對人體的侵入式電極刺激實(shí)驗(yàn)受限較大,實(shí)驗(yàn)機(jī)會可遇而不可求,所以進(jìn)一步的研究主要以獼猴作為實(shí)驗(yàn)對象。Charlie Gross和Robert Desimone最早在獼猴IT區(qū)域發(fā)現(xiàn)了面孔神經(jīng)元,這些神經(jīng)元對人類面孔和猴類面孔具有很強(qiáng)的選擇性響應(yīng),如下圖所示。
2003年,Doris Tsao等人在獼猴身上開展fMRI實(shí)驗(yàn),也發(fā)現(xiàn)了6個面孔選擇性腦區(qū)。獼猴的面孔選擇性腦區(qū)和人類不盡相同,但仍然有一定的相似性。
于是更進(jìn)一步,Tsao將電極插入獼猴的面孔特異性腦區(qū)ML,并記錄了神經(jīng)元的響應(yīng)。如圖所示,圖中橫軸為不同的圖片類別,如Faces,Bodies等,縱軸為ML區(qū)的不同細(xì)胞,紅色代表細(xì)胞對特定刺激響應(yīng)強(qiáng),藍(lán)色代表細(xì)胞對特定刺激相應(yīng)弱??梢园l(fā)現(xiàn)大約90%的神經(jīng)元都具有較強(qiáng)的面孔選擇性。
而另一個腦區(qū)AL有部分神經(jīng)元對面孔沒有選擇性響應(yīng)。在AL的電生理實(shí)驗(yàn)中,研究者嘗試呈現(xiàn)了面孔的八個不同視角,發(fā)現(xiàn)先前不響應(yīng)的部分神經(jīng)元,對左右側(cè)臉有較強(qiáng)的選擇性響應(yīng)。
另一個腦區(qū)AM對正臉和側(cè)臉都沒有表現(xiàn)出顯著的選擇性。電生理記錄表明,AM的神經(jīng)元主要對特定個體選擇性響應(yīng)。
如下圖所示,研究者通過Correlation Matrix的方式,對剛才的數(shù)據(jù)進(jìn)行了再次展示。圖中的橫軸和縱軸各有8個block,代表8個不同的面孔方向。每個block中又有若干個刻度,每個刻度代表一個不同的個體。
考慮矩陣中的每一個小格,定義橫軸對應(yīng)個體為A,面孔方向?yàn)閍;縱軸對應(yīng)個體為B,面孔方向?yàn)閎。每個block對角線上的小格中,橫軸與縱軸對應(yīng)的個體相同。則小格的顏色代表“個體A的面孔以方向a呈現(xiàn)時引發(fā)的電生理反應(yīng),與個體B的面孔以方向b呈現(xiàn)時引發(fā)的電生理反應(yīng),所具有相關(guān)性的強(qiáng)度“。顏色越深,相關(guān)性越強(qiáng)。
從圖中我們可以發(fā)現(xiàn),ML/MF區(qū)域主要關(guān)心面部朝向的一致性(主對角線上block顏色最深),而AL區(qū)域主要對側(cè)臉響應(yīng),且左右側(cè)臉的響應(yīng)大致對稱。同時,AL區(qū)域的Correlation Matrix也存在深色block對角線,說明相同個體會在AL區(qū)域引發(fā)相似的電生理反應(yīng)。Block對角線的相似效應(yīng)在AM區(qū)域中體現(xiàn)得更為充分,說明AM區(qū)域的神經(jīng)元主要識別特定個體。
于是,我們可以把目前為止的發(fā)現(xiàn)總結(jié)為下圖:從ML/MF到AL再到AM,大腦對于面孔具有越來越強(qiáng)的視角不變性,即具有在不同的視角下可以識別出同一個個體的能力,逐漸接近實(shí)現(xiàn)“面孔識別“這一任務(wù)。
6. 深度學(xué)習(xí)與生物視覺研究的融合
下顳葉不僅有識別人臉的腦區(qū),還有識別bodies,scenes,color的腦區(qū)。在深度神經(jīng)網(wǎng)絡(luò)出現(xiàn)以前,電生理學(xué)家們需要通過語義定義物體。這使得研究者很難用數(shù)學(xué)的語言準(zhǔn)確描述視覺表征的本質(zhì)。但是深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),一定程度上解決了這個問題。深度神經(jīng)網(wǎng)絡(luò)可以自動學(xué)習(xí)物體識別任務(wù),并在這個過程中自動提取物體特征,提供一種可能的視覺表征。
下面這篇文章,開辟了用深度神經(jīng)網(wǎng)絡(luò)研究生物視覺的領(lǐng)域。這篇文章使用了一個類似AlexNet的HMO架構(gòu),在使用圖片數(shù)據(jù)庫訓(xùn)練深度學(xué)習(xí)模型的同時,也將部分圖片給獼猴看,并記錄其V4和IT腦區(qū)神經(jīng)元電生理響應(yīng),評估大腦表征與神經(jīng)網(wǎng)絡(luò)表征的相似性。從結(jié)構(gòu)上考慮,深度神經(jīng)網(wǎng)絡(luò)應(yīng)當(dāng)與生物視覺具有一定的相似性,因?yàn)樗鼈兌季哂卸鄬蛹壗Y(jié)構(gòu),都具有感受野,而且有一致的物體識別的計算目標(biāo)。
在這項(xiàng)研究中,Dicarlo等人首先設(shè)計了一個類似于AlexNet的HMO深度神經(jīng)網(wǎng)絡(luò)模型,并選取了一系列傳統(tǒng)機(jī)器學(xué)習(xí)模型,將這兩類模型對物體類別的預(yù)測效果和直接使用V4/IT電生理信號預(yù)測物體類別的效果比較。當(dāng)圖片變化很小的時候,這些方法都有較好的物體識別表現(xiàn)。但是當(dāng)圖片大小,朝向有較大變化時,深度學(xué)習(xí)以外的簡單模型性能明顯變差,而HMO模型和IT神經(jīng)元表現(xiàn)預(yù)測效果仍然不錯。
接下來,Dicarlo等人嘗試把圖片刺激輸入到深度學(xué)習(xí)模型,并提取神經(jīng)網(wǎng)絡(luò)的中間表征來預(yù)測神經(jīng)元的電生理信號,以預(yù)測精度評估深度神經(jīng)網(wǎng)絡(luò)與人腦表征的相似性。實(shí)驗(yàn)結(jié)果如下圖所示:HMO最深的一層對IT電生理響應(yīng)預(yù)測效果最好,而V4區(qū)域與HMO中間兩層表征更為類似。這一結(jié)果不但表明深度神經(jīng)網(wǎng)絡(luò)可以很好地解釋神經(jīng)元電生理信號,且說明深度神經(jīng)網(wǎng)絡(luò)和生物視覺皮層類似,都存在著層級結(jié)構(gòu)的表征,而且層級結(jié)構(gòu)之間有較好的相互對應(yīng)。
7. 鮑平磊教授的相關(guān)研究
目前,人類對下顳葉的理解主要集中于若干有特定功能的腦區(qū)。然而在此之外,還有很大一部分的神經(jīng)元功能沒有被探明。深度學(xué)習(xí)模型能否幫助我們更好地理解下顳葉?
首先,鮑教授的團(tuán)隊(duì)使用電生理和fMRI的方法,在IT區(qū)域發(fā)現(xiàn)了一個新的腦區(qū)(Network X)。電生理實(shí)驗(yàn)表明,Network X和另外兩個功能已知的腦區(qū)有著明確的功能連接,即這三個腦區(qū)“同樣歸屬于一個網(wǎng)絡(luò)”,但還不清楚Network X的具體功能是什么。
接下來,鮑教授的團(tuán)隊(duì)對Network X進(jìn)行電生理記錄。他們給獼猴觀看了51個物體的24個視角,記錄了Network X每一個神經(jīng)元對這些物體的反應(yīng)。結(jié)果如下圖所示:每一行是一個神經(jīng)元,每一列是一類物體,每一個小格代表觀看特定物體時,特定神經(jīng)元的活躍程度。不難看出,Network X的神經(jīng)元具有明確的物體選擇性。
如下圖所示,盡管這些神經(jīng)元有明確的物體選擇性,但它們似乎不對特定某一類別有偏好。那到底是什么樣的特征會引起Network X的選擇性響應(yīng)?
通過觀察,鮑教授團(tuán)隊(duì)提出猜想:Network X是否對較為“細(xì)長“,即Aspect ratio(長寬比)較大的區(qū)域有選擇性響應(yīng)?進(jìn)一步實(shí)驗(yàn)的結(jié)果如下圖所示,表明Network X神經(jīng)元響應(yīng)確實(shí)與物體的長寬比存在顯著的正相關(guān),對高長寬比的物體反應(yīng)強(qiáng)烈,而對低長寬比的物體反應(yīng)較弱。
能否用深度神經(jīng)網(wǎng)絡(luò)描述大腦的表征?鮑教授的團(tuán)隊(duì)受Dicarlo等人對深度神經(jīng)網(wǎng)絡(luò)和人腦表征相似性研究的啟發(fā),把呈現(xiàn)給猴子的視覺刺激也輸入到了AlexNet深度神經(jīng)網(wǎng)絡(luò)模型中,并提取fc6層(倒數(shù)第二層)的模型表征,對其進(jìn)行PCA降維。完成降維操作后,鮑教授的團(tuán)隊(duì)分別找到了投影到PC1/PC2維度上值最大和最小的幾張圖片,如下圖所示??梢钥闯?,PC1一定程度上刻畫了spiky/smooth的特征,而PC2一定程度上刻畫了animate(curve)/inanimate(square)的特征。而且容易發(fā)現(xiàn),Network X與AlexNet(fc6)在PC1維度上的表征有很強(qiáng)的相似性。
為什么Network X的表征的和AlexNet fc6的PC1有這樣的相似性?如果考慮PC1和PC2兩個維度構(gòu)成一個特征平面,那么如下圖所示,我們可以認(rèn)為第一象限對應(yīng)Network X腦區(qū),第二象限對應(yīng)(已知的)Body腦區(qū),第三象限對應(yīng)(已知的)Face腦區(qū)。會不會下顳葉整體就表征這樣一個二維空間呢?如果確實(shí)如此,就不難理解為什么會有如此的巧合存在。
為了驗(yàn)證這一想法,鮑教授的團(tuán)隊(duì)首先將所有輸入AlexNet的圖片產(chǎn)生的表征在PC1/PC2平面上的投影畫成灰色的點(diǎn),然后分別將Network X / Body / Face腦區(qū)最喜歡的100張圖片對應(yīng)的點(diǎn)??梢园l(fā)現(xiàn),這三個腦區(qū)占有了四個象限中的三個象限,和假說一致。如果大腦確實(shí)這樣表征物體,那么可以預(yù)測,還應(yīng)該存在一個腦區(qū),對方形的無曲線無凸起的物體有特定的響應(yīng)。
通過fMRI實(shí)驗(yàn),鮑教授團(tuán)隊(duì)在猴腦中找到了一個對方形的無曲線無凸起的物體選擇性響應(yīng)的區(qū)域,并將電極放置在這一區(qū)域進(jìn)行電生理記錄,進(jìn)一步驗(yàn)證了這一腦區(qū)神經(jīng)元的響應(yīng)。后續(xù)將其記為“stubby”腦區(qū)。
將stubby腦區(qū)最偏好的100張圖片也標(biāo)記在PC1/PC2平面上,發(fā)現(xiàn)它們確實(shí)分布在先前缺失的區(qū)域中。這很好地驗(yàn)證了IT區(qū)域與AlexNet fc6編碼的相似性,驗(yàn)證了將物體編碼在該二維平面上的假說。
為了排除模型架構(gòu)不同所帶來的影響,鮑教授團(tuán)隊(duì)在不同架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型上做了實(shí)驗(yàn),發(fā)現(xiàn)了類似的結(jié)果:四個腦區(qū)最感興趣的圖片分布彼此分離,且大致覆蓋整個特征空間。這揭示了一件深刻的事情:盡管網(wǎng)絡(luò)結(jié)構(gòu)差異很大,但相同的優(yōu)化目標(biāo)(優(yōu)秀的物體識別能力)使神經(jīng)網(wǎng)絡(luò)和大腦找到了類似的解決方案,即將圖片表征在上述二維空間中。物體識別任務(wù)的空間編碼特性,在很大程度上依賴于優(yōu)化目標(biāo)。
至此,前面的假說已經(jīng)被充分驗(yàn)證。這是一個非常精彩完整的工作。
接下來,鮑教授的團(tuán)隊(duì)對這一研究做了更進(jìn)一步的實(shí)驗(yàn)??梢钥吹剑琁T區(qū)域?qū)嶋H上大約只有53%區(qū)域的功能是已經(jīng)被研究的。
按照剛才提出的理論,物體被編碼在二維空間四個象限上,分別與Body / Face / Stubby / Network X四個腦區(qū)對應(yīng)。這四個區(qū)域總面積不大,并不能填滿下顳葉,但是理論上應(yīng)當(dāng)包含足夠的信息來解碼物體的形狀。鮑教授團(tuán)隊(duì)嘗試通過用神經(jīng)電生理信號重構(gòu)圖片,來進(jìn)一步驗(yàn)證:這四個腦區(qū)是否包含了足夠的關(guān)于圖片形狀的信息?
在嘗試用神經(jīng)電生理信號重構(gòu)圖像前,首先要驗(yàn)證深度神經(jīng)網(wǎng)絡(luò)隱藏層表征重構(gòu)圖片的可行性。而2016年Dosovitskiy和Brox的一項(xiàng)研究表明,對抗生成網(wǎng)絡(luò)(Generative Adversarial Network, GAN)確實(shí)可以很好地從AlexNet fc6層的特征重構(gòu)圖片。
接下來,鮑教授團(tuán)隊(duì)將下顳葉四個腦區(qū)采集的電生理信號線性映射到fc6的特征空間中,再將其輸入到GAN中進(jìn)行圖片重構(gòu),結(jié)果發(fā)現(xiàn)效果優(yōu)異。這說明這四個腦區(qū)的電生理信號包含了充分的物體形狀信息。
此處可能會被質(zhì)疑:利用V1 - V4腦區(qū)電生理信號重構(gòu)圖片的效果其實(shí)更好,這一實(shí)驗(yàn)的先進(jìn)性如何體現(xiàn)?需要注意的是,V1-V4區(qū)域信息表征較為初級,輸入的視覺刺激未經(jīng)過復(fù)雜的變換,所以重構(gòu)難度較低。而視覺信息到達(dá)IT區(qū)域時,已經(jīng)經(jīng)過了復(fù)雜的非線性變換,具有很強(qiáng)的類別特異性,利用IT的電生理信號重構(gòu)圖片要困難得多。該實(shí)驗(yàn)?zāi)軌虺浞肿C明,前面提到PC1/PC2物體表征方式假說的合理性。這也進(jìn)一步指出了:該假說所提到的四個腦區(qū)的電生理信息,對于圖片形狀的重構(gòu)任務(wù)是充分的。
最后,鮑教授對目前IT區(qū)域的整體圖景做了一個總結(jié):
NeuroAI讀書會招募中
聯(lián)系客服