我們都會(huì)直覺上知道什么是物體識(shí)別。這種能力可以讓你在很多面孔認(rèn)出自己的面孔,從許多輛車中分辨出一輛車,區(qū)分駱駝和狗,我們都可以用直覺做到。但要理解我們的大腦是如何完成這一過程則是個(gè)富有挑戰(zhàn)性的問題
JamesDiCarlo是麻省理工學(xué)院腦與認(rèn)知系的神經(jīng)學(xué)教授,研究內(nèi)容為靈長類動(dòng)物的視覺物體識(shí)別。
我得以在五月底的第79屆冷泉港計(jì)量生物學(xué)實(shí)驗(yàn)室關(guān)于認(rèn)知的重要研究座談會(huì)上采訪他。在采訪中,DiCarlo聊到了他的研究,但同時(shí)也強(qiáng)調(diào)了一些基礎(chǔ)的問題,比如什么是物體識(shí)別。下面是完整的采訪記錄。
SA:Jim(James的昵稱),你能簡單定義一下物體識(shí)別么?
J:我們都會(huì)直覺上知道什么是物體識(shí)別。這種能力可以讓你在很多面孔認(rèn)出自己的面孔,從許多輛車中分辨出一輛車,區(qū)分駱駝和狗,我們都可以用直覺做到。但要理解我們的大腦是如何完成這一過程則是個(gè)富有挑戰(zhàn)性的問題,部分問題在于,定義是或不是并不容易。我們理所當(dāng)然地覺得這個(gè)問題毫不費(fèi)力。但是,計(jì)算機(jī)視覺的人會(huì)告訴你,這個(gè)問題很有挑戰(zhàn)性,因?yàn)槊總€(gè)物體實(shí)質(zhì)上會(huì)在你的視網(wǎng)膜上投射無限多個(gè)影像,因此事實(shí)上,對(duì)于同一個(gè)物體,你也絕不會(huì)兩次看到相同的影像。
SA:似乎物體識(shí)別對(duì)于神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)的計(jì)算科學(xué)都是個(gè)重大的問
J:沒錯(cuò)。不僅僅是機(jī)器學(xué)習(xí),還有心理學(xué)或認(rèn)知科學(xué)。我們用所看到的物體來構(gòu)建更高級(jí)的認(rèn)知世界,比如記憶或是決策。我應(yīng)該爭取這個(gè)么?或者我要回避這個(gè)么?如果沒有這些我們通常認(rèn)為是理所當(dāng)然的元素,大腦是無法做出更高級(jí)的認(rèn)知的。
SA:你能談?wù)勗谶@一過程中,大腦里究竟發(fā)生了什么嗎?
J:近幾十年有一個(gè)共識(shí),如果在人類或非人類靈長動(dòng)物中大腦顳葉側(cè)下部的部分發(fā)生損傷,會(huì)導(dǎo)致認(rèn)知缺陷。所以我們了解了主管認(rèn)知的規(guī)則的腦區(qū)。但僅僅是說這一部分解決問題并不夠特異,這仍然是相當(dāng)大的一片組織。解剖學(xué)告訴我們那里存在著一套完整的工作網(wǎng)絡(luò),神經(jīng)生理學(xué)工具和更加先進(jìn)的工具深入進(jìn)去,更近距離觀察神經(jīng)活動(dòng),特別是在非人類靈長動(dòng)物中。然后我們就可以在工程水平開始解釋實(shí)際上的運(yùn)算,比如用來模擬我們的大腦中發(fā)生了什么。
SA:也許你可以再詳細(xì)講講你是如何努力發(fā)現(xiàn)這些網(wǎng)絡(luò)的組成部分的?
J:最開始我要說任何科學(xué)的基礎(chǔ)都是通過現(xiàn)象預(yù)測模型的能力。對(duì)于物體認(rèn)知領(lǐng)域來說,如果你想從工程方面進(jìn)行效仿,首先你需要定義試圖預(yù)測是什么。我們成為核心物體識(shí)別的目標(biāo)是一種能力,是指當(dāng)你注視一個(gè)圖像200毫秒,即當(dāng)你的眼睛探索周圍景象時(shí)停留的大概時(shí)間。但是對(duì)人類來說,這段短暫的時(shí)間足夠做很多事。我們可以輕松識(shí)別出一個(gè)或多個(gè)物體在這短短的200毫秒的一瞥中,雖然這僅僅有五分之一秒。你可以發(fā)現(xiàn)這不是全部的視覺,但這是限定范圍行為,我們可以從這里開始解決問題。
SA:好的,那么你已經(jīng)有了一個(gè)預(yù)測模型,然后你想要檢驗(yàn)這個(gè)模型……
J:我向你描述的是一個(gè)需要理解的工作范圍,我們將之稱為核心認(rèn)知。我們都知道影像被眼睛接收,然后經(jīng)過一系列大腦中負(fù)責(zé)視覺的區(qū)域進(jìn)一步處理。這一過程還沒有揭開面紗,但我們可以記錄到通路中的神經(jīng)活動(dòng)。已經(jīng)有其他的研究者在這方面領(lǐng)先于我們,我們現(xiàn)在所做的是在更大尺度上進(jìn)行研究,我們可以記錄神經(jīng)活動(dòng)。其中我們最感興趣的部分是顳下皮層,那里是我們之前提到的整個(gè)過程中的最高水平調(diào)控中心。我們發(fā)現(xiàn)那里神經(jīng)活動(dòng)的模式是一個(gè)非常簡單的模型,可以準(zhǔn)確預(yù)測生物的感知,包括我們自己的感知,我們?cè)诤诵膮^(qū)域進(jìn)行認(rèn)知的能力。
SA:你可以通過觀察神經(jīng)活動(dòng)預(yù)測,比如說,我從背景中分辨出一棵樹么?
J:我就是這個(gè)意思。在現(xiàn)有的粒度上我們可以做的仍然屬于活動(dòng)性研究,但是我們的確可以“辨識(shí)樹木”。從對(duì)神經(jīng)活動(dòng)的觀察中,我們可以預(yù)測被試能否描述它看到是樹還是狗,或者描述出一棵樹還是一輛車,或者區(qū)分兩棵樹。我們正在試圖努力看我們能否在瞬時(shí)性的基礎(chǔ)上完成這一工作,以及我們是否可以準(zhǔn)確預(yù)測被試描述所見時(shí)的錯(cuò)誤模式,比如展示的是一只貓但描述卻是一只狗。
SA:物體識(shí)別的問題在于我看著一棵樹,而當(dāng)我開始輕輕向左或者向右移動(dòng)時(shí),這棵樹就會(huì)變化,或者我會(huì)看到另一棵樹。這一模式是否能夠在這樣的情況下仍然認(rèn)出這是一棵樹或者判斷是否是同一棵樹?
J:我應(yīng)該說的再清楚一點(diǎn)的。這是這一模型要處理的最大的問題,而當(dāng)我說到這一模型解決了什么時(shí),我是在說顳下皮層神經(jīng)元的活動(dòng)被記錄下來了。所以我們一旦建立一套針對(duì)顳下皮層的解碼器,可以解讀那一腦區(qū)的神經(jīng)元活動(dòng),一棵樹的影像就會(huì)被解碼顯示為一棵樹。這是一個(gè)完全嶄新的影像,但模型仍然可以預(yù)測你將會(huì)看到什么而且將會(huì)非常準(zhǔn)確。
SA:這種機(jī)器學(xué)習(xí)意味著什么呢?也許某天它甚至可以幫助那些這一神經(jīng)環(huán)路有缺陷的人理解問題?
J:從機(jī)器學(xué)習(xí)這一方面來說,這些神經(jīng)活動(dòng)是被機(jī)器學(xué)習(xí)研究者稱為“特點(diǎn)”的東西。它們是圖像上可以被計(jì)算,而且非常有力的特點(diǎn)。人們會(huì)非常樂意得到這些特點(diǎn)的算法。因此大量機(jī)器學(xué)習(xí)的研究都是尋找好的特點(diǎn),而腦科學(xué)的發(fā)展已經(jīng)發(fā)現(xiàn)了一些不錯(cuò)的特點(diǎn)。實(shí)質(zhì)上,我們的報(bào)告就是:這里有一些很棒的特點(diǎn),它們?cè)谀睦铮@是我們的證據(jù)。我們現(xiàn)在正和機(jī)器學(xué)習(xí)專家合作構(gòu)建加密算法以生成特點(diǎn)。被那些本質(zhì)上由腦科學(xué)啟發(fā)的模型推動(dòng),最近今年這一領(lǐng)域出現(xiàn)了大量令人興奮的進(jìn)展。這些模型現(xiàn)在某種程度上代表了計(jì)算機(jī)視覺算法的科學(xué)水平。
SA:廣義上看待你現(xiàn)在所做的,就是將所有從編碼到神經(jīng)元活動(dòng)之間的方式模型化,然后解碼大腦知覺。
J:就是這樣的。如果我們能夠把這些全部完成,我們就可以說對(duì)這一腦區(qū)的行為有了徹底的了解了。
SA:你覺得這一切還要多久才能實(shí)現(xiàn)?
J:這取決于細(xì)節(jié)水平,但我要說就在未來10年內(nèi),我們就會(huì)對(duì)核心的基礎(chǔ)水平物體認(rèn)知有不錯(cuò)的了解,至少是許多工程師都會(huì)滿意的水平。我們不會(huì)細(xì)化到神經(jīng)元水平,但我們至少會(huì)有所了解這樣算法才能在神經(jīng)系統(tǒng)不同水平上預(yù)測神經(jīng)活動(dòng)。
SA:你認(rèn)為這會(huì)為環(huán)路偶爾會(huì)出現(xiàn)的問題提供思路么?
J:影響認(rèn)知的最常見缺陷是由電擊或損毀造成的顳下皮層嚴(yán)重?fù)p傷,問題很明顯:神經(jīng)元不見了??赡軙?huì)引起規(guī)避或代償。還有其他的顳葉損傷可能會(huì)使人們?cè)谌嗣孀R(shí)別或其他無物體的辨識(shí)能力方面出現(xiàn)缺陷。這并不常見,但我們的工作同樣應(yīng)當(dāng)考慮這些缺陷。我們希望它可以和兒童學(xué)習(xí)閱讀這樣的方向關(guān)聯(lián)起來。一天結(jié)束時(shí),無論何時(shí)你所做的視覺任務(wù),其實(shí)都是你在視覺系統(tǒng)里學(xué)習(xí)了它們的表達(dá)。我認(rèn)為這對(duì)幫助我們理解問題的更高層面,比如說社會(huì)認(rèn)知或者誦讀困難,都會(huì)有所幫助。
SA:除了人們?cè)陔娪袄锟吹降哪切?,現(xiàn)實(shí)生活中的機(jī)器人的工作性能仍然非常局限,一個(gè)大問題就是辨識(shí)及處理那些它們接受到的信息的能力。你認(rèn)為你的模型會(huì)在這方面有所助益么?
J:計(jì)算機(jī)視覺協(xié)會(huì)現(xiàn)在已經(jīng)開始使用了類腦算法,下一個(gè)突破點(diǎn)就是擴(kuò)展任務(wù)范圍,不僅僅是你在200毫秒中做的那些,更是當(dāng)你伴隨著大量眼動(dòng)探索一個(gè)場景或操縱一個(gè)場景時(shí),你將會(huì)做什么。在那樣的情況下,你必須不停地收集累積信息。系統(tǒng)將會(huì)獲得更多反饋。我不會(huì)說我們可以完成這項(xiàng)工作,然后就會(huì)有像《星際迷航》里一樣的機(jī)器人做所有的事情。但這將是我們邁向下一步的基礎(chǔ)。
SA:在過去幾年里,視網(wǎng)膜修復(fù)術(shù)有了一定的進(jìn)展,其中一項(xiàng)進(jìn)展快速的內(nèi)容就是在修復(fù)中植入神經(jīng)編碼,使他們可以向視網(wǎng)膜一樣處理進(jìn)入的光子。有沒有可能你所做的工作會(huì)和這樣的研究互相關(guān)聯(lián)?
J:這正是目前最令我們興奮的事情之一。比如對(duì)于那些失去了一個(gè)視網(wǎng)膜的人,現(xiàn)在的確有視覺修復(fù)技術(shù),也有其他的方式。但最優(yōu)的一種就是繞過視網(wǎng)膜然后重新注入一種活動(dòng)的空間模式,比如在直接接受視網(wǎng)膜信息的初期視覺區(qū)域或者稱為外側(cè)膝狀核的部分皮層下區(qū)域。從工程學(xué)意義上講,這是可行的。從我們對(duì)視覺工作原理的認(rèn)識(shí)上講,也是有意義的。缺點(diǎn)在于試圖通過許多信息單位在高緯度空間里重塑影響是類似正常視覺的,但我們正在致力于最高水平的也就是你的大腦其實(shí)是在數(shù)以百萬計(jì)的信息單位中有所縮減,形成更加抽像的,大概在100個(gè)維度左右的。我們有可能可以模擬出豐富的視覺全貌。根據(jù)我們的理解,你可能只有100中注入信號(hào)的方式,100條通路而非上百萬的信號(hào)通路來形成豐富的知覺空間,這可能是理解腦-機(jī)器互通的更佳方式。
SA:總結(jié)一下,你所做的工作是將一些非?;A(chǔ)的,我們所有人都會(huì)聯(lián)系到的東西變成基礎(chǔ)物理以及對(duì)巨大挑戰(zhàn)的理論性理解。
J:是的,我認(rèn)為這種說法很恰當(dāng)。而且根據(jù)神經(jīng)學(xué)的架構(gòu),這也的確是它的目標(biāo)所在。我們相信大腦有一系列機(jī)制可以引發(fā)神奇的精神狀態(tài)和行為,這與我們每個(gè)人都相關(guān)。物體識(shí)別只是神經(jīng)現(xiàn)象學(xué)中的一個(gè)核心例子,但我們中大多數(shù)人都與之相關(guān)。因此,如果我們能夠?qū)@一行為和它之后的神經(jīng)機(jī)制有深入了解,這將是奠定基礎(chǔ)性的成就。對(duì)于認(rèn)知的理解,這是重要的基礎(chǔ)部分。
SA:祝你好運(yùn)。
J:謝謝
(撰文:加里·斯蒂克斯(Gary Stix) 翻譯:王思策)