在2017年11月8日在北京國(guó)家會(huì)議中心舉辦的AI World 2017世界人工智能大會(huì)上,我們邀請(qǐng)到阿里巴巴副總裁、iDST副院長(zhǎng)華先勝,曠視科技Face++首席科學(xué)家、曠視研究院院長(zhǎng)孫劍博士,騰訊優(yōu)圖實(shí)驗(yàn)室杰出科學(xué)家賈佳亞教授,以及硅谷知名企業(yè)家、IEEE Fellow Chris Rowen,共論人臉識(shí)別等前沿計(jì)算機(jī)視覺技術(shù)。
搶票鏈接:http://www.huodongxing.com/event/2405852054900?td=4231978320026
大會(huì)官網(wǎng):
新智元編譯
來源:Science、academic.oup.com
編譯:常佩琦
【新智元導(dǎo)讀】研究人員開發(fā)出以人腦為模型的深度學(xué)習(xí)算法,來破解人類大腦。相關(guān)研究發(fā)表在最新一期Cerebral Cortex,研究人員構(gòu)建了一個(gè)大腦如何解碼信息的模型,根據(jù)參與者的大腦活動(dòng),該模型能夠以50%的精確度預(yù)測(cè)她所看到的東西。
人工智能讓我們離科幻小說里的“讀腦機(jī)器”更近了一步?,F(xiàn)在,研究人員開發(fā)出以人腦為模型的深度學(xué)習(xí)算法,來破解人類大腦。首先,他們建立了一個(gè)大腦如何解碼信息的模型。三名女性花費(fèi)了數(shù)小時(shí)觀看幾百條短視頻,功能性核磁共振機(jī)器測(cè)量了視覺皮層和其他地方的活動(dòng)信號(hào)。一個(gè)用于圖像處理的人工神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)了將視頻圖像和大腦活動(dòng)聯(lián)系起來。隨著這幾名女性觀看更多的視頻,經(jīng)過算法預(yù)測(cè)的活動(dòng)和一些大腦活動(dòng)相吻合。它還幫助科學(xué)家了解皮層每個(gè)區(qū)域的特征。還有一個(gè)網(wǎng)絡(luò)能夠解碼神經(jīng)信號(hào):根據(jù)參與者的大腦活動(dòng),能夠以50%的精確度預(yù)測(cè)她所看到的東西(通過選擇包括鳥類、飛機(jī)、運(yùn)動(dòng)等15個(gè)種類中的一個(gè))。據(jù)研究者本月在 Cerebral Cortex 發(fā)表的報(bào)告,如果該網(wǎng)絡(luò)從不同的女性大腦上訓(xùn)練數(shù)據(jù),仍然可以達(dá)到25%的準(zhǔn)確性。該網(wǎng)絡(luò)也可以部分重建參與者所看到的內(nèi)容,將大腦活動(dòng)轉(zhuǎn)化為像素,但產(chǎn)生的圖像只是白色斑點(diǎn)。研究人員希望他們的工作能夠重建心理圖像,它使用與視覺處理相同的腦電路。從mind’s eye轉(zhuǎn)換成二進(jìn)制數(shù)字可以讓人們對(duì)計(jì)算機(jī)或其他人表達(dá)生動(dòng)的想法(無需借助語言或鼠標(biāo)點(diǎn)擊),也可以幫助那些沒有其他方式進(jìn)行溝通的人。
Haiguang Wen, Junxing Shi等人10月20日在 Cerebral Cortex 發(fā)表了一篇題為 Neural Encoding and Decoding with Deep Learning for Dynamic Natural Vision 的論文。
摘要:
通過圖像識(shí)別驅(qū)動(dòng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)顯示能夠解釋腹側(cè)流區(qū)域?qū)o態(tài)圖像的皮層反應(yīng)。在這里,我們進(jìn)一步表明,這種CNN能夠可靠地預(yù)測(cè)和解碼人們觀看電影的功能性磁共振成像數(shù)據(jù),盡管它缺乏任何機(jī)制來解釋時(shí)間動(dòng)態(tài)或反饋處理。使用單獨(dú)的數(shù)據(jù),編碼和解碼模型被開發(fā)和評(píng)估,以描述CNN和大腦之間的雙向關(guān)系。通過編碼模型,CNN預(yù)測(cè)區(qū)域不僅覆蓋腹側(cè)流區(qū)域,而且覆蓋背部流,盡管程度較小;單體素反應(yīng)被可視化為驅(qū)動(dòng)反應(yīng)的特定像素模式,揭示單個(gè)皮質(zhì)位置的不同表示;從具有高通量的自然圖像合成皮質(zhì)激活,以繪制類別表示,對(duì)比度和選擇性。通過解碼模型,直接解碼fMRI信號(hào),以評(píng)估視覺和語義空間中的特征表示,分別用于直接視覺重建和語義分類。這些結(jié)果證實(shí),推廣和擴(kuò)展以前的發(fā)現(xiàn),并突出顯示使用深度學(xué)習(xí)作為視覺皮質(zhì)的一體化模型的價(jià)值,以了解和解碼自然視覺。
幾個(gè)世紀(jì)以來,哲學(xué)家和科學(xué)家一直在試圖揣測(cè)、觀察、理解和破譯大腦的運(yùn)作,使人們能夠感知和探索視覺環(huán)境。在這里,我們?cè)儐柎竽X如何表示來自外界的動(dòng)態(tài)視覺信息,以及大腦活動(dòng)是否可以被直接解碼,以重建和分類一個(gè)人所看到的內(nèi)容。這些關(guān)于神經(jīng)編碼和解碼的問題(Naselaris et al. 2011) 主要用靜態(tài)或人為刺激來解決(Kamitani and Tong 2005; Haynes and Rees 2006) 。然而,這種策略過于狹隘,無法揭示自然的計(jì)算視力。需要一種替代策略,涵蓋了視覺復(fù)雜性,以揭示和解碼分布式皮質(zhì)活動(dòng)的視覺表示。盡管它具有多樣性和復(fù)雜性,視覺世界由大量的視覺特征組成(Zeiler and Fergus 2014; LeCun et al. 2015; Russ and Leopold 2015)。這些功能涵蓋了許多抽象層次,例如低級(jí)別的方向和顏色,中間層的形狀和紋理,以及高級(jí)中的對(duì)象和動(dòng)作。
迄今為止,深度學(xué)習(xí)提供了最全面的計(jì)算模型來編碼,并從任意自然圖片或視頻中提取分層組織的特征(LeCun et al. 2015)?;谶@種模型的計(jì)算機(jī)視覺系統(tǒng)模擬甚至超越了人類在圖像識(shí)別和分割中的表現(xiàn)(Krizhevsky et al.2012; He et al. 2015; Russakovsky et al. 2015)。深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)被構(gòu)建和訓(xùn)練與前饋視覺皮質(zhì)網(wǎng)絡(luò)(DiCarlo et al. 2012; Yamins and DiCarlo 2016)類似的組織和編碼原理。最近的研究表明,CNN可以部分解釋大腦對(duì)(Yamins et al. 2014; Gü?lü and van Gerven 2015a; Eickenberg et al. 2016)的回應(yīng)和(Khaligh-Razavi and Kriegeskorte 2014; Cichy et al. 2016)自然圖片刺激。然而,仍然不清楚CNN是否以及在多大程度上解釋和解碼大腦對(duì)自然視頻刺激的反應(yīng)。雖然動(dòng)態(tài)自然視覺涉及前饋,反復(fù)和反饋連接(Callaway 2004),但CNN僅對(duì)前饋處理進(jìn)行建模,并對(duì)瞬時(shí)輸入進(jìn)行操作,無需考慮反復(fù)或反饋網(wǎng)絡(luò)交互(Bastos et al. 2012; Polack and Contreras 2012)。
為了解決這些問題,我們從3名人類實(shí)驗(yàn)者中獲取11.5 h的fMRI數(shù)據(jù),他們觀看了972個(gè)不同的視頻片段,包括不同的場(chǎng)景和動(dòng)作。該數(shù)據(jù)集與以前的研究不同,比之前研究樣本大,覆蓋更廣(Khaligh-Razavi and Kriegeskorte 2014; Yamins et al. 2014; Gü?lü and van Gerven,2015a; Eickenberg et al. 2016;Gü?lü and van Gerven 2015a; Cichy et al. 2016)。這使得我們可以在動(dòng)態(tài)觀察條件下能夠確認(rèn)、推廣和擴(kuò)展CNN用于預(yù)測(cè)和解碼腹側(cè)和背側(cè)兩側(cè)的皮層活動(dòng)。具體來說,我們通過不同的數(shù)據(jù)來訓(xùn)練和測(cè)試了編碼和解碼模型,用于描述大腦和CNN之間的關(guān)系,由(Krizhevsky et al. 2012)實(shí)現(xiàn)。通過CNN,編碼模型被用來預(yù)測(cè)和可視化給定電影刺激的個(gè)體皮層體素的fMRI反應(yīng);解碼模型用于重建和分類基于fMRI活動(dòng)的視覺刺激,如圖1所示。主要發(fā)現(xiàn)如下:
1.用于圖像識(shí)別的CNN解釋了對(duì)幾乎整個(gè)視皮層(包括其腹側(cè)和背部流)的復(fù)雜電影刺激的fMRI反應(yīng)的顯著變化,盡管背側(cè)流程度較小;
2.基于CNN的體素編碼模型將不同的單體素表示可視化,并顯示類別表示和選擇性;
3.CNN支持自然電影的直觀視覺重建,突出顯示模糊細(xì)節(jié)和缺失顏色的前景物體;
4.CNN還支持直接語義分類,利用CNN中嵌入的語義空間。
圖1:通過深度學(xué)習(xí)模型進(jìn)行神經(jīng)編碼和解碼。當(dāng)一個(gè)人看到電影時(shí)(a),信息通過層疊的皮質(zhì)區(qū)域(b)進(jìn)行處理,產(chǎn)生fMRI活動(dòng)模式(c)。這里使用深層CNN來建模皮質(zhì)視覺處理(d)。該模型將每個(gè)電影幀轉(zhuǎn)換成多層特征,從視覺空間(第一層)中的方向和顏色到語義空間中的對(duì)象類別(第八層)。
材料與方法 (詳見論文)
CNN與視覺皮層之間的功能定位
為了探索并建模CNN與大腦之間的關(guān)系,我們使用374個(gè)視頻剪輯來構(gòu)成一個(gè)訓(xùn)練電影。從訓(xùn)練電影中,CNN通過數(shù)十萬個(gè)單元提取視覺特征,將其組織為8層,形成可訓(xùn)練的自下而上的網(wǎng)絡(luò)架構(gòu)。
CNN中的層次結(jié)構(gòu)和計(jì)算與視覺皮層中的前饋處理(Yamins and DiCarlo 2016)相似。這促使我們?cè)儐杺€(gè)體皮層位置是否在功能上類似于CNN中的不同單位,因?yàn)榇竽X和CNN都輸入了一樣的訓(xùn)練電影。為了解決這個(gè)問題,我們首先通過評(píng)估受試者在第一次和第二次觀看訓(xùn)練電影時(shí)評(píng)估fMRI活動(dòng)的體內(nèi)再現(xiàn)性(Hasson et al. 2004; Lu et al. 2016),繪制了皮質(zhì)激活。所有皮質(zhì)激素在所有受試者的整個(gè)視覺皮質(zhì)(圖2a)上廣泛存在。然后,我們檢查了每個(gè)激活位置的fMRI信號(hào)與CNN中每個(gè)單元的輸出時(shí)間序列之間的關(guān)系。后者指出了訓(xùn)練電影每一幀中特定特征的時(shí)變表現(xiàn)。對(duì)每個(gè)單位的特征時(shí)間序列進(jìn)行對(duì)數(shù)變換,并與HRF進(jìn)行卷積,然后計(jì)算其與每個(gè)體素的fMRI時(shí)間序列的相關(guān)性。
圖2: 視覺皮層和CNN的功能定位(a)皮層激活(b)“視網(wǎng)膜定位”(c)“分層映射”(d)“大腦中的FFA和CNN中的”面部“單位的共同激活。(e)“其他4類皮層映射”。
神經(jīng)編碼
我們?cè)噲D建立一個(gè)體素編碼模型(Kay et al. 2008; Naselaris et al. 2011),通過該模型,從CNN的輸出預(yù)測(cè)了每個(gè)體素的fMRI反應(yīng)。具體來說,對(duì)于任何給定的體素,我們優(yōu)化了一個(gè)線性回歸模型,以組合CNN中單層的單位輸出,最好地預(yù)測(cè)訓(xùn)練電影中的fMRI反應(yīng)。
圖3: 給定體素編碼模型的皮層可預(yù)測(cè)性。(a)體素化編碼模型在預(yù)測(cè)新型自然電影刺激的皮層反應(yīng)中的準(zhǔn)確性。(b)3個(gè)受試者的感興趣區(qū)域(ROI)中的預(yù)測(cè)準(zhǔn)確度。(c)不同CNN層對(duì)不同ROI的預(yù)測(cè)準(zhǔn)確度。
圖4:解釋編碼模型的方差
圖5:?jiǎn)螐垐D片或類別的皮層表示。
給定自然視覺輸入的可視化單體素表示
我們開發(fā)了一種可視化每個(gè)單體素的方法。該方法是從視覺輸入中識(shí)別通像素類型。
圖6: 神經(jīng)編碼模型預(yù)測(cè)皮層反應(yīng)并可視化各個(gè)皮層位置的功能表征。
經(jīng)過圖像識(shí)別監(jiān)督學(xué)習(xí)的深度CNN,形成了一個(gè)完全可觀察的大腦前視神經(jīng)計(jì)算模型。CNN解釋在觀看自然視頻時(shí)人類皮質(zhì)活動(dòng)的重要變化。它預(yù)測(cè)和可視化了幾乎所有級(jí)別視覺處理皮層表征。它還支持皮質(zhì)活動(dòng)的直接解碼,來重構(gòu)和分類動(dòng)態(tài)視覺體驗(yàn)。因此,包括CNN及其未來變化在內(nèi)的深層神經(jīng)網(wǎng)絡(luò)預(yù)計(jì)將體現(xiàn)出豐富的計(jì)算原理,以解釋人類和動(dòng)物的自然視覺。
Science報(bào)道:http://www.sciencemag.org/news/2017/10/artificial-intelligence-learning-read-your-mind-and-display-what-it-sees
論文:https://academic.oup.com/cercor/article-abstract/doi/10.1093/cercor/bhx268/4560155?redirectedFrom=fulltext
深入了解AI 技術(shù)進(jìn)展和產(chǎn)業(yè)情況,參加新智元世界人工智能大會(huì),馬上搶票!
聯(lián)系客服