今日聚焦
'看見'對于人類而言,似乎是一件很簡單自然的事,我們通過眼睛從周圍環(huán)境中獲取信息,并根據(jù)這些信息指導自己的行動。然而,視覺的發(fā)展演變經(jīng)歷了極為漫長的過程,地球上第一個長出眼睛的生物三葉蟲距今已有五億四千萬年的遙遠歷史;我們?nèi)祟惸軌颢@得如今這樣強大的視覺能力,是大自然長期進化的結(jié)果。
圖片來自網(wǎng)絡(luò)
人類的視覺任務(wù),本質(zhì)上是人腦對外界視覺信號作出反應(yīng)的過程;那么,研究人腦的工作機理,能否為計算機的視覺計算提供一些啟發(fā),讓機器也能做到'看山是山、看水是水'呢?基于此,學術(shù)界展開了腦啟發(fā)視覺計算領(lǐng)域的研究,目前已取得一定成績。
今天,來自中科院自動化所的張兆翔研究員,將帶領(lǐng)大家回顧腦啟發(fā)視覺計算在2017年取得的關(guān)鍵進展。(文末附上本文所有參考文獻的下載鏈接)
腦啟發(fā)的視覺計算是從生物大腦的神經(jīng)結(jié)構(gòu)、認知機制、行為特性等多個層面尋求啟發(fā),引入神經(jīng)科學、認知科學與心理學的先進成果,提出新的視覺計算模型與方法,克服當前模型與方法局限性,提升視覺計算的性能(準確性、魯棒性、自適應(yīng)性、可泛化性、可解釋性等)。
腦科學與視覺計算可以從如下兩個方向加以結(jié)合:一是基于腦科學機制進行視覺計算的啟發(fā)建模;二是現(xiàn)有服務(wù)于視覺計算的神經(jīng)網(wǎng)絡(luò)模型為腦啟發(fā)機理提供分析與借鑒。
歷史上,計算機視覺的發(fā)展與腦啟發(fā)的引入密切相關(guān),很多腦機制的引入都為計算機視覺的突破提供了借鑒和創(chuàng)新源泉。
以Gabor為代表的局部特征描述子正是借鑒脊椎動物視覺皮層感受野的特性而設(shè)計的,在許多計算機視覺任務(wù)中展現(xiàn)出很好的性能。
顯著性注意機制是從人類視覺感知的顯著性注意機制中獲得啟發(fā),在當前計算機視覺的檢索和檢測任務(wù)中均取得了很好的性能。
從Neocognitron到HMAX、再到當前流行的深度學習方法,都借鑒了大腦中的特征分層和處理機制。當前主流的深度學習方法甚至在識別、分割、檢測等任務(wù)上取得了可以媲美人類的性能。
機器學習專家Tom Mitchell在2017年的全球互聯(lián)網(wǎng)大會上進一步強調(diào)了腦科學與機器智能相互交叉與借鑒的重要性:
'通過對人類大腦的模仿,計算機在變得越來越強。隨著機器智能和腦科學的進一步發(fā)展,未來兩個學科之間應(yīng)該有更多的交集,并互相學習和借鑒。'
——Tom Mitchell
2017年全球互聯(lián)網(wǎng)大會
下面,主要從結(jié)構(gòu)機制、功能機制和學習機制三個層面具體介紹2017年度腦啟發(fā)視覺計算的相關(guān)研究進展。
1結(jié)構(gòu)機制
在結(jié)構(gòu)層面上,Boyn等人提出了人工神經(jīng)突觸建模與硬件化方法。該方法利用神經(jīng)元突觸強度分布刻畫記憶,通過典型的STDP實現(xiàn)學習,在無監(jiān)督學習問題上驗證了人工神經(jīng)突觸的可行性和先進性。這一研究為后續(xù)開展類腦器件研究奠定了堅實基礎(chǔ)。
人腦感知物體方式
受人腦感知物體方式的啟發(fā),Hinton等提出了一種新的神經(jīng)元結(jié)構(gòu)Capsule。
我們都知道現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)方法需要maxpooling操作;該操作將圖像中不同基元間的結(jié)構(gòu)關(guān)系完全摒棄,即便同一個人的臉、鼻子、眼睛換一個奇怪的順序,maxpooling的結(jié)果也一模一樣。這與人類視覺感知物體的方式有顯著差別
為克服上述缺陷,Hinton等提出了新的Capsule網(wǎng)絡(luò)結(jié)構(gòu)。Capsule可以看成一種新的神經(jīng)元模型。 Capsule將原來神經(jīng)元結(jié)構(gòu)標量的輸入輸出轉(zhuǎn)化為向量的輸入和輸出,并利用這些向量存儲特征的不同屬性,進而通過動態(tài)路由機制實現(xiàn)從底層到頂層的學習。該種網(wǎng)絡(luò)結(jié)構(gòu)更符合人類感知物體的方式,且具有舉一反三的能力。CapsuleNet在一些視覺任務(wù)上雖然沒有取得比CNN更好的性能,但作為一個嘗試去探索有別于當前深度網(wǎng)絡(luò)的新模型與新方法具有重要的研究意義。
多種神經(jīng)元類型
在結(jié)構(gòu)層面上,我們課題組也進行了一系列探索。我們都知道現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)往往都只有一種神經(jīng)元類型,但人腦中卻包含多種;受此啟發(fā),我們引入多種神經(jīng)元類型,并通過自主學習與選擇,探索興奮型神經(jīng)元和抑制型神經(jīng)元在相關(guān)任務(wù)上的有效結(jié)合。
我們的模型在不同任務(wù)上都獲得了比單種神經(jīng)元模型更好的性能。這些結(jié)果驗證了模型中多種神經(jīng)元的有效性,是進一步挖掘人工神經(jīng)網(wǎng)絡(luò)與生物神經(jīng)網(wǎng)絡(luò)聯(lián)系的重要切入點。
2功能機制
在功能層面上,《Science》報道了一個概率生成模型,用于驗證碼識別。驗證碼識別是典型的可以測試機器視覺性能的模型,在現(xiàn)實中往往用于區(qū)分機器與人。現(xiàn)有深度神經(jīng)網(wǎng)絡(luò)往往只有前饋網(wǎng)絡(luò),而沒有推理。該工作受系統(tǒng)神經(jīng)科學的啟發(fā),引入遞歸皮試網(wǎng)絡(luò)(RCN),以統(tǒng)一的框架實現(xiàn)驗證碼的檢測、分割與識別。
RCN模型有前饋過程,有反饋過程。通過不斷迭代,使得前饋和反饋同時進行,最后很好地實現(xiàn)驗證碼的識別,即使對不同形狀以及噪聲遮擋下的驗證碼依然可以獲得很好的識別性能。RCN能夠模仿人腦中前饋和反饋同時處理的機制,具有很好的可解釋性和可泛化性,能取得舉一反三的效果。
雖然該模型在驗證碼識別特定任務(wù)上取得了比卷積神經(jīng)網(wǎng)絡(luò)更好的性能,但也存在顯著局限性。該方法往往只能用于一類對基元具有明確定義的問題,而如何將之推廣到更一般的感知問題,還有待進一步探索。
現(xiàn)有卷積網(wǎng)絡(luò)同層神經(jīng)元之間沒有連接,而人腦中神經(jīng)元之間卻相互聯(lián)系。受此啟發(fā),清華大學胡曉林等人提出了一種Recurrent Convolutional Network,實現(xiàn)了同層內(nèi)神經(jīng)元的連接。
Recurrent Convolutional Network的局限是每個神經(jīng)元的局部感受野隨時間在不斷擴大。這不符合生理學事實——人腦當中感受野一定是局部受限的。因此,作者引入一個機制來控制神經(jīng)元的有效感受野,使其尺寸隨內(nèi)容自動變化。具體做法是在反饋連接上加入一個門控單元,其開閉由前饋信息和反饋信息同時決定,這種模型已經(jīng)取得當前OCR識別任務(wù)最好的效果。
我們課題組借鑒人腦中多模態(tài)震蕩整合機制來實現(xiàn)多模態(tài)的有效融合。傳統(tǒng)多模態(tài)模型分別提取視覺模態(tài)和聽覺模態(tài)特征,通過簡單連接實現(xiàn)視聽多模態(tài)的融合。這種方式雖然簡單,但容易造成信息的混疊,往往效果不太理想。我們的研究引入了長短時記憶同步關(guān)聯(lián)與記憶共享表達,通過借鑒人腦當中類似震蕩機制的方式,實現(xiàn)視聽模態(tài)的有效整合。
我們的工作與單模態(tài)方法,其他的多模態(tài)整合方法相比具有優(yōu)越性,同時也呼應(yīng)了神經(jīng)科學中的多模態(tài)震蕩整合機制。
3學習機制
在學習機制層面上,自動化所劉成林研究員團隊提出了原型學習的思想。我們都知道卷積神經(jīng)網(wǎng)絡(luò)是通過最后的softmax層實現(xiàn)識別,而softmax層在轉(zhuǎn)換的時候已經(jīng)固定了類別的個數(shù),因此傳統(tǒng)模型處理的識別問題往往都是封閉問題,然而很多視覺計算問題都是開放的。
為實現(xiàn)開放環(huán)境下的識別,他們通過結(jié)構(gòu)模型的方法,將結(jié)構(gòu)模型識別與統(tǒng)計模型相結(jié)合,通過將softmax層替換成原型層,實現(xiàn)了概念發(fā)現(xiàn)與噪聲拒識,進而實現(xiàn)開放環(huán)境下的理解。
人腦往往可以實現(xiàn)連續(xù)學習,即人在學習一個任務(wù)以后,學習新的任務(wù)并不會降低原來任務(wù)的性能。而現(xiàn)有的計算機模型卻不能實現(xiàn)這樣的功能,它們在執(zhí)行任務(wù)1后,再執(zhí)行任務(wù)2時,會直接在任務(wù)1的參數(shù)基礎(chǔ)上進行微調(diào)來進行訓練。這樣使得任務(wù)2訓練好后,任務(wù)1的參數(shù)被遺忘。
如何實現(xiàn)連續(xù)學習呢?受哺乳動物和人類大腦固化既往獲得的技能和記憶的理論啟發(fā),Deepmind引入ProgressiveNN, PathNet, EWC來達到連續(xù)學習的目標。比如針對新的任務(wù)構(gòu)建網(wǎng)絡(luò)時,保留和舊任務(wù)相關(guān)的網(wǎng)絡(luò),path和重要參數(shù),實現(xiàn)舊的任務(wù)和新任務(wù)之間的共生,使網(wǎng)絡(luò)具有連續(xù)學習的能力。
總結(jié)
腦科學的研究包括從分子到行為多個層面,其一直以來都是視覺計算理論與方法突破的重要創(chuàng)新源泉;
現(xiàn)有視覺計算理論與方法在魯棒性、自適應(yīng)性、可泛化性、可解釋性等問題上尚存在固有缺陷,需要以腦為參照物加以對照,尋求借鑒;
向腦學習,開展腦啟發(fā)的視覺計算具有十分廣闊的創(chuàng)新空間與發(fā)展前景。
聯(lián)系客服