黃海平 中山大學
具有優(yōu)美數學形式的好理論比任何當下的實驗觀測更加實用,因為它作出的關于物理實在的預測可以被自洽地驗證。這一信念適用于理解包括大型語言模型,甚至生物智能在內的深度學習網絡的現狀。玩具模型提供了物理實在的象征描述,允許用數學形式來構建物理實在(即所謂的理論),而且隨著更多的猜測被證明或反駁,可以不斷更新。并不需要將所有的細節(jié)都塞入模型中,相反,我們構建更抽象的模型,因為像大腦或深層網絡這樣的復雜系統(tǒng)有許多松散的維度,但較少的可以對宏觀可觀察性產生強烈的影響的硬維度。在現代,這種自下而上的機械建模在理解自然智能或人工智能中仍然具有前景。在這里,我們探討了按照這一理論范式發(fā)展智能理論所面臨的八個挑戰(zhàn)。
理解大腦是最具挑戰(zhàn)的學科之一。像人工神經網絡一樣,大腦有廣泛的不同抽象層次,特別在理論研究方面。雖然更抽象的模型失去了對于低層次細節(jié)的預測能力,但擁有了精確解釋系統(tǒng)如何行之有效的概念上的好處,而且數學描述可以是普適的,不受具體細節(jié)影響(或稱瑣碎的變量)[1]。一個開創(chuàng)性的例子是霍普菲爾德模型[2],其精確揭示了在大腦中觀察到的聯(lián)想記憶的機制[3,4]。雖然作為物理學家的玩具模型從神經生物學上看十分不合理,但這些不合理之處被后來的研究柔和,更重要的是,從這個模型誕生了理論神經科學這門在 21 世紀十分有生命力的學科,并與當今 AI 的盛行息息相關。該模型的詳細介紹可見專著[59]或中文綜述[105]。近年來,由于大型語言模型的迅速發(fā)展,對于霍普菲爾德網絡的研究興趣被重新點燃(物理學家霍普菲爾德獲得了 2023 年在東京大學頒發(fā)的玻爾茲曼獎章)[5,6]。
馬爾(David Marr)認為[7],理解神經系統(tǒng)可以分為三個層次:計算(即大腦解決任務)、算法(即大腦如何解決任務,也是信息處理的層次)和實現(即神經回路層次)。對于人工神經網絡,研究人員將前兩個層次簡單映射到一個玩具模型層次上(特別是在理論研究中)。在深度學習[8,9]的驅動下,即使是前兩個層次,現在也變成了解決具有挑戰(zhàn)性的現實世界問題的想法。并且,生物學細節(jié)也被納入到神經網絡[10–13]模型中,甚至用于設計新的學習規(guī)則[14]。事實上,關于知覺、認知、記憶和行動的生物學機制的神經科學研究已經提供了各種富有成效的洞見,并啟發(fā)了人工神經網絡的實證/科學研究,這反過來又啟發(fā)了神經科學研究人員設計模型來理解大腦機制[15-17]。因此,將物理學、統(tǒng)計學、計算機科學、心理學、神經科學和工程學相結合起來,提供理論預測,揭示深層(生物)網絡甚至智能[18]的內部工作原理是很有希望的。人工智能可能與自然智能有不同的原理,但兩者都可以相互啟發(fā),其理解可能需要建立新的數學與物理基礎。
為神經計算提供一個統(tǒng)一的理論框架的目標是非常具有挑戰(zhàn)性的。由于人們對于神經網絡的研究興趣愈發(fā)強烈,出現了許多重要而亟待解決的科學問題。我們將在[104]下面列出其中我們認為最重要的八個問題,并提供我們對這些基本問題的背后可能構建的統(tǒng)計力學理論的個人觀點。
從旨在從原始數據中提取統(tǒng)計規(guī)律的無監(jiān)督學習的角度來看,我們可以問,什么是這些規(guī)律的好的表示,以及有意義的表示是如何實現的?目前這些問題尚未有滿意的答案。一個很有前景的論點是,在深度網絡結構中,淺層的糾纏流形隨著層數變深逐漸解糾纏并且在輸出層變成線性可分的特征[19–23]。因為可以分離神經活動的重疊模式[24],流形觀點在系統(tǒng)神經科學的研究中也很有前景。關于流形變換的完整自洽的理論仍然缺乏,這使我們仍無法充分理解哪些關鍵網絡參數控制著流形的幾何,更重要的是不知道學習如何重塑流形。例如,突觸之間的相關性(在學習過程中產生的)會減弱在網絡由淺到深時發(fā)生的去相關過程,但與正交的突觸[22,25]相比,會有利于降維。此外,還可能存在其他生物學上可信的因素,如歸一化、注意力、穩(wěn)態(tài)控制[26,27],也可以用于檢驗流形變換假設。
另一個從信息論的角度出發(fā)的論點表明,根據信息瓶頸理論[28, 29],輸入信息被最大程度地壓縮成隱層表示,其中與任務相關的信息應該在輸出層最大程度地被提取出來。從這個意義上說,信息論上的最優(yōu)表示必須在無關變量變化下保持不變,且其組成部分必須最大程度地獨立,這可能與解釋觀察結果的因果因素(潛在原因)有關(參見下面的第五個挑戰(zhàn))。用物理學的語言來說,與細粒度的表示在淺層中形成相比,更粗粒度(或更抽象)的表示在更深的層次中形成。微觀水平上突觸之間的相互作用如何決定這種表示的轉換仍然難以捉摸,因此值得未來加以研究[30, 31]。
智力在某種程度上可以被認為就是泛化的能力,特別是在學習的樣本數很少的情況下。因此,泛化也是當前深度學習研究中的一個熱點。傳統(tǒng)的統(tǒng)計學習理論認為,當樣本數量遠遠少于需要學習的參數數量時,過擬合效應應該很強,因此不能解釋目前深度學習的成功。一個很有前景的觀點是研究損失函數景觀和泛化特性[32–35]之間的因果關系。這一點在一個單層感知機的情況下,一個統(tǒng)計力學理論可以被系統(tǒng)地推導出來[36,37]。與經典的偏置-方差均衡(測試誤差隨模型復雜度增加的 U 形曲線)[38]不同,深度學習在過參數化的區(qū)域[34,39]中能達到最先進的表現。然而,對于多層感知機模型,如何提供關于過擬合效應與不同參數化機制(例如,欠量參數、過量參數化,甚至超量參數)的分析論證成為一個非平庸的任務[40]。最近的一項對單隱層網絡的研究表明,第一次相變發(fā)生在插值點,在那里完美的擬合是可能的。這種相變反映了典型解(平衡態(tài)物理)難以采樣的性質。隨著過參數量的增加,非典型解的不連續(xù)出現會發(fā)生第二次相變(非平衡或大偏差稀有事件物理)。它們是有良好泛化性質的寬極小值。這第二個相變?yōu)閷W習算法的有效性設置了一個上界[41]。
對于一個無限寬的神經網絡,存在一個懶惰學習機制,其中過量參數的神經網絡可以很好地用初始化附近的一階泰勒展開相對應的線性模型來近似,因而復雜的學習動力學僅僅是訓練一個核機器[42]。此外,闡明懶惰學習(或神經切向核極限)和特征學習(或平均場極限)哪個可以解釋深度監(jiān)督學習的成功仍然是一個未解之謎,富有挑戰(zhàn)性[43–45]。
對抗樣本是指那些在人類難以察覺的修改下,卻導致深度學習決策系統(tǒng)出現意外錯誤的輸入。深度神經網絡的這種對抗脆弱性給實際應用帶來了重大挑戰(zhàn),包括現實世界的問題和 AI4S 研究(用于科學研究的人工智能)。在物理學中,具有大量自由度的系統(tǒng)可以用低維宏觀參數來描述。從幾何角度解釋分層計算可能有助于揭示網絡對于對抗樣本的神秘的易受攻擊性質[31, 46, 47]。從這個意義上說,通過一些序參量來解釋對抗脆弱性起源的低維度理論仍然缺乏。盡管近期有一些努力致力于這個方向的工作[47–49],但在即將到來的研究中預計會有更加令人激動的結果。
即使在新任務領域中只有少數幾個示例,生物大腦仍擅長將從類似任務中獲得的知識適應到新任務的領域中。然而,穩(wěn)定適應不斷變化的環(huán)境,也就是終身學習的本質,對于現代人工智能來說仍然是一個重大挑戰(zhàn)。更準確地說,神經網絡通常在多任務學習方面表現較差,盡管近年來已經取得了令人矚目的進展。例如,在學習過程中,會計算衡量之前任務權重重要性的對角費舍爾信息項(然后對于那些重要的權重不允許快速變化)[50]。后來提出了一種改進方法,允許突觸隨著時間積累與任務相關的信息[51]。在綜述文章[52]中總結了更多減輕災難性遺忘效應的機器學習技術。然而,我們仍然不知道以一種原則性的方式緩解災難性遺忘效應的確切機制,這需要對深度學習在適應領域轉換訓練方面進行理論研究,即將一個任務的連接權重轉換為有助于在相關任務上學習的權重的解決方案。此外,假設兩個任務在隱空間中共享共同的語義,目前尚不清楚源任務中包含的相關知識如何能夠有效地轉移到目標任務中。
最近的一項理論研究使用 Franz-Parisi 勢能的統(tǒng)計力學框架解釋了持續(xù)學習的機制[53],其中來自先前任務的知識在 Franz-Parisi 勢能公式中充當參考構型[54],作為學習新知識的錨點。這個框架還與彈性權重鞏固 [50]、啟發(fā)式權重不確定性調節(jié) [55] 和受神經科學啟發(fā)的元可塑性 [56] 相關,為深度網絡在現實世界的多任務學習提供了一個基于理論基礎的方法。
深度學習被批評為僅僅是將輸入與輸出進行簡單關聯(lián)的一個精致的曲線擬合工具,換句話說,這個工具無法區(qū)分相關性和因果性。深度網絡所學到的不是概念,而僅僅是統(tǒng)計相關性,因而使網絡無法進行反事實推理(智能的標志性能力)。類似人類的人工智能必須善于從感官輸入中獲取特征組分之間的因果關系,從而從含大量無關噪聲的數據中提取相關信息[57, 58]。因此,理解深度學習系統(tǒng)中的因與果對于下一代人工智能尤為重要。目前的深度學習算法是否能夠進行因果推理仍然是一個懸而未決的問題。因此,發(fā)展分析性玩具模型成為解決這個問題的關鍵,盡管通過簡單的物理方程來確定深度學習中觀察到的效果的原因將非常具有挑戰(zhàn)性,這是由于體系的結構和學習的復雜性所致[59]。這個挑戰(zhàn)與大語言模型的驚人性能密切相關(參見下面的第七個挑戰(zhàn))。
人們認為,大腦通過自發(fā)神經活動作為計算(例如,采樣)的“蓄水池”來[60]學習構建外部世界的內部模型。自發(fā)活動與刺激引發(fā)的活動之間的一致性在發(fā)育過程中增加,尤其是對自然刺激[61],而自發(fā)活動描繪了刺激引發(fā)的神經反應的范圍[62]。研究表明刺激形成一個具有內稟層級結構的神經空間 [63, 64]。那么,一個有趣的問題就是自發(fā)神經空間的形狀是怎樣的,以及這個空間如何動態(tài)演變,特別是在適應變化的環(huán)境的時候。此外,感覺輸入如何與正在進行的皮層活動相結合來決定動物的行為仍然是一個未解之謎,并且極具挑戰(zhàn)性。另一方面,強化學習被用來構建有結構化環(huán)境的世界模型 [65]。在強化學習中,數據被用來驅動行為,這些行為根據智能體從環(huán)境中接收的獎勵信號來進行評估。因此,有趣的是智能體通過與環(huán)境的互動學習建立了什么樣的內部模型。這可以與前面表示學習和泛化的挑戰(zhàn)聯(lián)系起來。此外,最近的一項工作顯示了強化學習與統(tǒng)計物理之間的聯(lián)系 [66],其表明可以潛在地建立一個統(tǒng)計力學理論來理解強化學習,并可能對研究基于獎勵的大腦的神經計算產生深刻影響 [67]。
另一個理解大腦的內部模型的角度是從神經動力學的角度來看,這種動力學置于一個低維表面上,對于單個神經元或局部神經回路的詳細屬性的變化具有魯棒性 [68-70]。刺激、任務或條件的表示可以被提取出來,以推導實驗可驗證的假設 [71]。一個具有挑戰(zhàn)性的問題是神經活動和突觸可塑性之間如何相互作用,以產生一個低維的內部表示來實現認知功能。近期一個結合了連接概率、局部突觸噪聲和神經活動的關于突觸可塑性的進展表明,可以實現一個適應時間相關的輸入的動態(tài)網絡 [72]。這項工作將學習解釋為一種變分推斷問題,使得在一個局部神經回路中實現不確定性下的最優(yōu)學習成為可能。學習和神經活動都被置于低維子空間中。未來的工作必須包含更多符合生物學的因素來測試在神經生理實驗中的假設。
大腦的狀態(tài)可以被看作是動力學吸引子的系綜 [73]。關鍵挑戰(zhàn)是學習如何塑造穩(wěn)定的吸引子景觀??梢詫W習解釋為貝葉斯推斷問題,例如以無監(jiān)督的方式,而不是自回歸方式(見下一節(jié))。學習可以通過突觸權重的對稱性破缺來驅動 [74, 75],破缺將區(qū)分識別網絡本身和隱藏在感覺輸入中的規(guī)則分兩個不同的相??纯催@幅物理圖像是否仍然適用于支持動態(tài)吸引子的循環(huán)學習是非常有趣的,例如應該發(fā)展解釋學習的動態(tài)平均場理論 [76]。
Chat-GPT 具有令人印象深刻的解決問題的能力,正引領著第四次工業(yè)革命,其中 GPT 是生成式預訓練轉換器的一個縮寫。Chat-GPT 是基于大型語言模型(LLMs)訓練的[77],而 LLMs 將語言信息表示為高維環(huán)境空間中的向量,并以自回歸方式(類比于大腦是一個預測機器的假設)在大型文本語料庫上進行訓練,從而得到訓練數據中語言單元(tokens)之間的復雜統(tǒng)計模型[78]。因此,這種計算模型展現出強大的形式語言能力[79]。此外,LLM 還是一種少樣本提示甚至零樣本提示學習器[80, 81],即語言模型可以僅通過提示(例如,思維鏈提示[82])來執(zhí)行各種計算上具有挑戰(zhàn)性的任務。值得注意的是,LLMs 在模型復雜性和樣本復雜性的規(guī)模同時增加時顯示出質的飛躍[83],這種質變類似于熱力學系統(tǒng)中的相變。
與形式語言能力相比,LLMs 的功能語言能力被認為較弱[79]。這引發(fā)了一個根本性的問題,即智能的本質是什么,或者單一的下一個詞單元的上下文條件預測是否是人工通用智能的標準模型[84-86]?人類在實際問題中的推理能力通常也依賴于非語言信息,例如,科學家在面對一個具有挑戰(zhàn)性的問題何時會產生創(chuàng)造性的想法是不可預測的,這依賴于基于對長時間深度思考的推理過程。在生物實現中,語言模塊與涉及高級認知的其他模塊是分離的[79]。LLM 解釋了訓練語料庫中詞單元之間的層次相關性,而不是隱藏的因果依賴關系。換句話說,神經網絡沒有構建世界的心智模型,這需要異質模塊化網絡,所以與人類不同。因此,LLM 并不理解它生成的內容(作為生成模型而言)。即使在訓練數據中缺少某些關鍵的統(tǒng)計規(guī)律模式,該模型也可以在語法方面生成完美的文本。然而,這些文本可能與事實相去甚遠。知其然,知其所以然是智能系統(tǒng)的一個關鍵特征[86]。從這個意義上說,LLM 的內部工作方式在很大程度上是不透明的,需要付出巨大的努力來數學地闡述其形式語言能力,并進一步確定開發(fā)一個穩(wěn)健的世界模型所必須包括的關鍵要素。這樣,就可以揭示出當前觀察到的假陽性(例如幻覺)的機制[87]。
最重要的是,我們目前對于如何構建一個能夠將性能和意識相連接的附加網絡沒有任何了解[88],這與什么讓我們產生意識相關(參見最后一個挑戰(zhàn))。按照馬爾的框架,意識的計算和神經關聯(lián)仍然是未知的[89-91]。目前的一個物理方法是考慮到控制 LLM 的復雜神經計算的李雅普諾夫函數[5, 6]。李雅普諾夫函數的視角或將打開具有足夠多可能性的大門來思考控制信息如何通過自我注意和其他潛在的門控機制得到提煉并涌現出真正意義上的超級智能。
最具爭議的問題之一就是意識的起源——意識是否是一個由各種精心設計的區(qū)域所組成的高度異構和模塊化大腦電路的涌現行為(例如,人腦總共約有 量級的神經元連接,以及擁有許多功能特定的模塊化結構,如前額葉皮層、海馬體、小腦等[92,93])。意識體驗的主觀性與科學解釋的客觀性是相矛盾的。根據 Damasio 的[94]模型,在世界中識別自我的能力及其與世界的關系被認為是意識狀態(tài)的一個中心特征。一個機器算法能否實現自我意識仍然難以捉摸。自我監(jiān)控能力(或元認知[95])可能會讓機器(如 LLMs)知道它們生成的是什么。在一般情況下,闡明自我模型是如何與大腦的內部模型相關聯(lián)的,可能是很重要的科學任務。例如,卡爾·弗里斯頓認為,意識處理可以解釋為從感官觀察中推斷原因的統(tǒng)計推斷問題。因此,最小化“驚奇”(事件的負對數概率)可能導致自我意識[96],這與認為大腦是一個預測機器的假設一致[86]。
目前有兩種主要的意識認知理論。一種是全局工作空間框架[97],它將意識與大范圍持續(xù)傳播的皮層神經活動相關聯(lián),并認為意識是專門模塊的信息處理計算所產生的。另一種是綜合信息理論,它通過綜合信息量提供了對意識狀態(tài)的定量描述[98]。在這第二種理論中,無意識狀態(tài)被認為具有較低的信息內容,而意識狀態(tài)具有較高的信息內容。這兩種理論都采用自上而下的方法,與統(tǒng)計力學方法形成鮮明對比,后者采用自下而上的方式建立微觀相互作用與宏觀行為之間的橋梁。盡管這兩個假設能夠解釋一些認知實驗,但它們仍受到大量的批判[99]。我們指出,意識狀態(tài)可能是神經活動的涌現性質,只在比神經活動更高的層次上存在。目前尚不清楚如何連接這兩個層次,這需要一個新的統(tǒng)計力學理論。從信息論的角度來看,意識狀態(tài)可能需要大腦子網絡之間多樣化的相互作用來支撐,這與物理學中的熵概念相關聯(lián)[100]。更大的熵導致信息的最佳分離和整合[101]。從非平衡的觀點來看,最大化信息處理能力的混沌邊緣也被推測為意識與無意識大腦狀態(tài)的分界線[102]。
綜上所述,意識是否可以通過復雜神經基質內部動力學的相互作用來產生仍然未解決[103]。如果可能的話,統(tǒng)計力學理論總是具有潛力的(霍普菲爾德模型是一個典型例子),因為我們可以僅從幾個物理參數來進行理論預測,這是通過高度抽象實現的,因此可以期待存在普適原理。但創(chuàng)建這樣的理論框架絕非簡單,需要多學科知識融匯貫通。
作為總結,在這篇觀點評述中,我們對與神經網絡相關的基本重要問題提出了一些天真的想法,因而建立一個好的理論(描述和預測功能兼具)遠未完成。傳統(tǒng)的神經網絡的統(tǒng)計物理研究分為兩個主要流派:一方面是工程領域,發(fā)展以理論為基礎的算法;另一方面是神經科學領域,通過物理方法來解決描述大腦計算的數學模型。在物理學中,我們有最小作用量原理,從中可以推導出經典力學或電動力學規(guī)律。我們不確定在神經網絡(甚至大腦)的物理學中是否存在可以用簡潔的數學形式表達的普遍原理,但是十分鼓勵對物理理論與神經計算之間的相互作用感興趣的讀者癡迷于推動這些令人激動但具有風險的研究方向的進展。正如我們上面展示的八個開放問題所示,這些問題的挑戰(zhàn)性逐漸增加。在未來幾年中,我們期待有許多令人興奮的進展。
注:這是杜文康的譯文,經黃海平修改,原文在 arXiv:2306.11232 發(fā)表,點擊文末“原文”。
[1] Daniel Levenstein, Veronica A. Alvarez, Asohan Amarasingham, Habiba Azab, Zhe S. Chen, Richard C. Gerkin, Andrea Hasenstaub, Ramakrishnan Iyer, Renaud B. Jolivet, Sarah Marzen, Joseph D. Monaco, Astrid A. Prinz, Salma Quraishi, Fidel Santamaria, Sabyasachi Shivkumar, Matthew F. Singh, Roger Traub, Farzan Nadim, Horacio G. Rotstein, and A. David Redish. On the role of theory and modeling in neuroscience. Journal of Neuroscience, 43(7):1074–1088, 2023.
[2] J. J. Hopfield. Neural networks and physical systems with emergent collective computational abilities. Proc. Natl. Acad. Sci. USA, 79:2554, 1982.
[3] Daniel J Amit, Hanoch Gutfreund, and H Sompolinsky. Statistical mechanics of neural networks near saturation. Annals of Physics, 173(1):30–67, 1987.
[4] M. Griniasty, M. V. Tsodyks, and Daniel J. Amit. Conversion of temporal correlations between stimuli to spatial correlations between attractors. Neural Computation, 5(1):1–17, 1993.
[5] Hubert Ramsauer, Bernhard Sch¨afl, Johannes Lehner, Philipp Seidl, Michael Widrich, Thomas Adler, Lukas Gruber, Markus Holzleitner, Milena Pavlovi′c, Geir Kjetil Sandve, Victor Greiff, David Kreil, Michael Kopp, G¨unter Klambauer, Johannes Brandstetter, and Sepp Hochreiter. Hopfield networks is all you need. arXiv:2008.02217, 2020. in ICLR 2021.
[6] Dmitry Krotov and John Hopfield. Large associative memory problem in neurobiology and machine learning. arXiv:2008.06996, 2020. in ICLR 2021.
[7] D. Marr. Vision: A Computational Investigation into the Human Representation and Processing of Visual Information. MIT Press, Cambridge, MA, 1982.
[8] Jurgen Schmidhuber. Deep learning in neural networks: An overview. Neural Networks, 61:85–117, 2015.
[9] Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. Nature, 521(7553):436– 444, 2015.
[10] L F Abbott, Brian DePasquale, and Raoul-Martin Memmesheimer. Building functional networks of spiking model neurons. Nature Neuroscience, 19(3):350–355, 2016.
[11] Adam H. Marblestone, Greg Wayne, and Konrad P. Kording. Toward an integration of deep learning and neuroscience. Frontiers in Computational Neuroscience, 10:94, 2016. [12] Blake A Richards, Timothy P Lillicrap, Philippe Beaudoin, Yoshua Bengio, Rafal Bogacz, Amelia Christensen, Claudia Clopath, Rui Ponte Costa, Archy de Berker, Surya Ganguli, Colleen J Gillon, Danijar Hafner, Adam Kepecs, Nikolaus Kriegeskorte, Peter Latham, Grace W Lindsay, Kenneth D Miller, Richard Naud, Christopher C Pack, Panayiota Poirazi, Pieter Roelfsema, Jo?ao Sacramento, Andrew Saxe, Benjamin Scellier, Anna C Schapiro, Walter Senn, Greg Wayne, Daniel Yamins, Friedemann Zenke, Joel Zylberberg, Denis Therien, and Konrad P Kording. A deep learning framework for neuroscience. Nature Neuroscience, 22(11):1761–1770, 2019.
[13] Timothy P. Lillicrap, Adam Santoro, Luke Marris, Colin J. Akerman, and Geoffrey Hinton. Backpropagation and the brain. Nature Reviews Neuroscience, 21(6):335–346, 2020.
[14] Samuel Schmidgall, Jascha Achterberg, Thomas Miconi, Louis Kirsch, Rojin Ziaei, S. Pardis Hajiseyedrazi, and Jason Eshraghian. Brain-inspired learning in artificial neural networks: a review. arXiv:2305.11252, 2023.
[15] Yamins Daniel L K and DiCarlo James J. Using goal-driven deep learning models to understand sensory cortex. Nat Neurosci, 19(3):356–365, 2016.
[16] Andrew Saxe, Stephanie Nelli, and Christopher Summerfield. If deep learning is the answer, then what is the question? Nat. Rev. Neurosci., 22:55, 2020.
[17] Demis Hassabis, Dharshan Kumaran, Christopher Summerfield, and Matthew Botvinick. Neuroscience-inspired artificial intelligence. Neuron, 95(2):245–258, 2017.
[18] Yi Ma, Doris Tsao, and Heung-Yeung Shum. On the principles of parsimony and self?consistency for the emergence of intelligence. Frontiers of Information Technology & Electronic Engineering, 23(9):1298–1323, 2022.
[19] James J. DiCarlo and David D. Cox. Untangling invariant object recognition. Trends in Cognitive Sciences, 11(8):333–341, 2007.
[20] Yoshua Bengio, Aaron Courville, and Pascal Vincent. Representation learning: A review and new perspectives. IEEE transactions on pattern analysis and machine intelligence, 35(8):1798–1828, 2013.
[21] P. P. Brahma, D. Wu, and Y. She. Why deep learning works: A manifold disentanglement perspective. IEEE Transactions on Neural Networks and Learning Systems, 27(10):1997– 2008, 2016.
[22] Haiping Huang. Mechanisms of dimensionality reduction and decorrelation in deep neural networks. Phys. Rev. E, 98:062313, 2018.
[23] Uri Cohen, SueYeon Chung, Daniel D Lee, and Haim Sompolinsky. Separability and geometry of object manifolds in deep neural networks. Nature Communications, 11(1):1–13, 2020.
[24] N. Alex Cayco-Gajic and R. Angus Silver. Re-evaluating circuit mechanisms underlying pattern separation. Neuron, 101(4):584–602, 2019.
[25] Jianwen Zhou and Haiping Huang. Weakly-correlated synapses promote dimension reduction in deep neural networks. Phys. Rev. E, 103:012315, 2021.
[26] Gina G. Turrigiano and Sacha B. Nelson. Homeostatic plasticity in the developing nervous system. Nature Reviews Neuroscience, 5(2):97–107, 2004.
[27] John H. Reynolds and David J. Heeger. The normalization model of attention. Neuron, 61(2):168–185, 2009.
[28] Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv:1703.00810, 2017.
[29] Alessandro Achille and Stefano Soatto. A separation principle for control in the age of deep learning. arXiv:1711.03321, 2017.
[30] Chan Li and Haiping Huang. Learning credit assignment. Phys. Rev. Lett., 125:178301, 2020.
[31] Chan Li and Haiping Huang. Emergence of hierarchical modes from deep learning. Phys. Rev. Res., 5:L022011, 2023.
[32] Haiping Huang and Yoshiyuki Kabashima. Origin of the computational hardness for learning with binary synapses. Physical Review E, 90:052813, 2014.
[33] Carlo Baldassi, Christian Borgs, Jennifer T Chayes, Alessandro Ingrosso, Carlo Lucibello, Luca Saglietti, and Riccardo Zecchina. Unreasonable effectiveness of learning neural networks: From accessible states and robust ensembles to basic algorithmic schemes. Proceedings of the National Academy of Sciences, 113(48):E7655–E7662, 2016.
[34] S Spigler, M Geiger, S d’Ascoli, L Sagun, G Biroli, and M Wyart. A jamming transition from under- to over-parametrization affects generalization in deep learning. Journal of Physics A: Mathematical and Theoretical, 52:474001, 2019.
[35] Wenxuan Zou and Haiping Huang. Data-driven effective model shows a liquid-like deep learning. Phys. Rev. Res., 3:033290, 2021.
[36] G Gyorgyi. First-order transition to perfect generalization in a neural network with binary synapses. Physical Review A, 41(12):7097–7100, 1990.
[37] H. Sompolinsky, N. Tishby, and H. S. Seung. Learning from examples in large neural networks. Physical review letters, 65:1683–1686, 1990.
[38] Pankaj Mehta, Marin Bukov, Ching-Hao Wang, Alexandre G.R. Day, Clint Richardson, Charles K. Fisher, and David J. Schwab. A high-bias, low-variance introduction to machine learning for physicists. Physics Reports, 810:1–124, 2019.
[39] Mikhail Belkin, Daniel Hsu, Siyuan Ma, and Soumik Mandal. Reconciling modern machine learning practice and the classical bias-variance trade-off. Proceedings of the National Academy of Sciences of the United States of America, 116(32):15849–15854, 2019.
[40] Ben Adlam and Jeffrey Pennington. The neural tangent kernel in high dimensions: Triple descent and a multi-scale theory of generalization. In ICML 2020: 37th International Conference on Machine Learning, 2020.
[41] Carlo Baldassi, Clarissa Lauditi, Enrico M. Malatesta, Rosalba Pacelli, Gabriele Perugini, and Riccardo Zecchina. Learning through atypical phase transitions in overparameterized neural networks. Phys. Rev. E, 106:014116, 2022.
[42] Mikhail Belkin. Fit without fear: remarkable mathematical phenomena of deep learning through the prism of interpolation. arXiv:2105.14368, 2021.
[43] Arthur Jacot, Franck Gabriel, and Cl′ement Hongler. Neural tangent kernel: Convergence and generalization in neural networks. In Advances in Neural Information Processing Systems, volume 31, pages 8571–8580, 2018.
[44] Cong Fang, Hanze Dong, and Tong Zhang. Mathematical models of overparameterized neural networks. Proceedings of the IEEE, 109(5):683–703, 2021.
[45] Peter L. Bartlett, Andrea Montanari, and Alexander Rakhlin. Deep learning: a statistical viewpoint. arXiv:2103.09177, 2021.
[46] Justin Gilmer, Luke Metz, Fartash Faghri, Samuel S. Schoenholz, Maithra Raghu, Martin Wattenberg, and Ian Goodfellow. Adversarial spheres. arXiv:1801.02774, 2018.
[47] Luca Bortolussi and Guido Sanguinetti. Intrinsic geometric vulnerability of high-dimensional artificial intelligence. arXiv:1811.03571, 2018.
[48] Richard Kenway. Vulnerability of deep learning. arXiv:1803.06111, 2018.
[49] Zijian Jiang, Jianwen Zhou, and Haiping Huang. Relationship between manifold smoothness and adversarial vulnerability in deep learning with local errors. Chin. Phys. B, 30:048702, 2021.
[50] James Kirkpatrick, Razvan Pascanu, Neil C. Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A. Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, Demis Hassabis, Claudia Clopath, Dharshan Kumaran, and Raia Hadsell. Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences of the United States of America, 114(13):3521–3526, 2017.
[51] Friedemann Zenke, Ben Poole, and Surya Ganguli. Continual learning through synaptic intelligence. In Proceedings of the 34th International Conference on Machine Learning - Volume 70, volume 70, pages 3987–3995, 2017.
[52] German I. Parisi, Ronald Kemker, Jose L. Part, Christopher Kanan, and Stefan Wermter. Continual lifelong learning with neural networks: A review. Neural Networks, 113:54–71, 2019.
[53] Chan Li, Zhenye Huang, Wenxuan Zou, and Haiping Huang. Statistical mechanics of continual learning: variational principle and mean-field potential. PHYSICAL REVIEW E 108, 014309 (2023).
[54] Silvio Franz and Giorgio Parisi. Recipes for metastable states in spin glasses. Journal De Physique I, 5(11):1401–1415, 1995.
[55] Sayna Ebrahimi, Mohamed Elhoseiny, Trevor Darrell, and Marcus Rohrbach. Uncertainty guided continual learning with bayesian neural networks. In International Conference on Learning Representations, 2020.
[56] Axel Laborieux, Maxence Ernoult, Tifenn Hirtzlin, and Damien Querlioz. Synaptic metaplasticity in binarized neural networks. Nature Communications, 12(1):2549, 2021.
[57] Bernhard Sch¨olkopf. Causality for machine learning. arXiv:1911.10500, 2019.
[58] Judea Pearl and Dana Mackenzie. The Book of Why: The New Science of Cause and Effect. Basic Books, New York, NY, 2018.
[59] Haiping Huang. Statistical Mechanics of Neural Networks. Springer, Singapore, 2022.
[60] Dario L Ringach. Spontaneous and driven cortical activity: implications for computation. Current Opinion in Neurobiology, 19(4):439–444, 2009.
[61] Pietro Berkes, Gergo Orban, Mate Lengyel, and Jozsef Fiser. Spontaneous Cortical Activity Reveals Hallmarks of an Optimal Internal Model of the Environment. Science, 331:83, 2011.
[62] Luczak Artur, Bartho Peter, and Harris Kenneth D. Spontaneous Events Outline the Realm of Possible Sensory Responses in Neocortical Populations. Neuron, 62:413, 2009.
[63] Haiping Huang and Taro Toyoizumi. Clustering of neural code words revealed by a first-order phase transition. Phys. Rev. E, 93:062416, 2016.
[64] Michael J Berry and Gaˇsper Tkaˇcik. Clustering of neural activity: A design principle for population codes. Frontiers in computational neuroscience, 14:20, 2020.
[65] David Ha and Jurgen Schmidhuber. World models. arXiv: 1803.10122, 2018.
[66] Jad Rahme and Ryan P. Adams. A theoretical connection between statistical physics and reinforcement learning. arXiv:1906.10228, 2019.
[67] Emre O. Neftci and Bruno B. Averbeck. Reinforcement learning in artificial and biological systems. Nature Machine Intelligence, 1(3):133–143, 2019.
[68] David Sussillo and L.F. Abbott. Generating coherent patterns of activity from chaotic neural networks. Neuron, 63(4):544–557, 2009.
[69] Dean V. Buonomano and Wolfgang Maass. State-dependent computations: spatiotemporal processing in cortical networks. Nature Reviews Neuroscience, 10(2):113–125, 2009.
[70] Saurabh Vyas, Matthew D. Golub, David Sussillo, and Krishna V. Shenoy. Computation through neural population dynamics. Annual Review of Neuroscience, 43(1):249–275, 2020.
[71] Mehrdad Jazayeri and Srdjan Ostojic. Interpreting neural computations by examining intrinsic and embedding dimensionality of neural activity. Current Opinion in Neurobiology, 70:113–120, 2021.
[72] Wenxuan Zou, Chan Li, and Haiping Huang. Ensemble perspective for understanding temporal credit assignment. Physical Review E, 107(2):024307, 2023.
[73] Christoph von der Malsburg. Concerning the neural code. arXiv:1811.01199, 2018.
[74] Tianqi Hou, K Y Michael Wong, and Haiping Huang. Minimal model of permutation symmetry in unsupervised learning. Journal of Physics A: Mathematical and Theoretical, 52(41):414001, 2019.
[75] Tianqi Hou and Haiping Huang. Statistical physics of unsupervised learning with prior knowledge in neural networks. Phys. Rev. Lett., 124:248302, 2020.
[76] Wenxuan Zou and Haiping Huang. Introduction to dynamical mean-field theory of generic random neural networks. arXiv:2305.08459, 2023.
[77] OpenAI. Gpt-4 technical report. arXiv:2303.08774, 2023.
[78] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17, page 6000–6010, Red Hook, NY, USA, 2017. Curran Associates Inc.
[79] Kyle Mahowald, Anna A. Ivanova, Idan A. Blank, Nancy Kanwisher, Joshua B. Tenenbaum, and Evelina Fedorenko. Dissociating language and thought in large language models: a cognitive perspective. arXiv:2301.06627, 2023.
[80] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In H. Larochelle, M. Ranzato, R. Hadsell, M.F. Balcan, and H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, pages 1877–1901. Curran Associates, Inc., 2020.
[81] Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. arXiv:2205.11916, 2022. in NeurIPS 2022.
[82] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Huai hsin Chi, F. Xia, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv:2201.11903, 2022. in NeurIPS 2022.
[83] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv:2001.08361, 2020.
[84] Terrence J. Sejnowski. Large Language Models and the Reverse Turing Test. Neural Computation, 35(3):309–342, 2023.
[85] Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum, and Samuel J. Gershman. Building machines that learn and think like people. Behavioral and Brain Sciences, 40:e253, 2017.
[86] Marcel van Gerven. Computational foundations of natural intelligence. Frontiers in Computational Neuroscience, 11:112, 2017.
[87] Noam Chomsky, Ian Roberts, and Jeffrey Watumull. Noam chomsky: The false promise of chatgpt. The New York Times, 8, 2023.
[88] Axel Cleeremans. Connecting conscious and unconscious processing. Cognitive Science, 38(6):1286–1315, 2014.
[89] Francis Crick and Christof Koch. A framework for consciousness. Nature Neuroscience, 6(2):119–126, 2003.
[90] Lenore Blum and Manuel Blum. A theory of consciousness from a theoretical computer science perspective: Insights from the conscious turing machine. Proceedings of the National Academy of Sciences of the United States of America, 119(21):e2115934119, 2022.
[91] Abhilash Dwarakanath, Vishal Kapoor, Joachim Werner, Shervin Safavi, Leonid A. Fedorov, Nikos K. Logothetis, and Theofanis I. Panagiotaropoulos. Bistability of prefrontal states gates access to consciousness. Neuron, 111(10):1666–1683, 2023.
[92] K. Harris and G. Shepherd. The neocortical circuit: themes and variations. Nat Neurosci, 18:170–181, 2015.
[93] Liqun Luo. Architectures of neuronal circuits. Science, 373(6559):eabg7285, 2021.
[94] A. Damasio. Fundamental feelings. Nature, 413:781, 2001.
[95] Stanislas Dehaene, Hakwan Lau, and Sid Kouider. What is consciousness, and could machines have it? Science, 358(6362):486–492, 2017.
[96] Karl Friston. Am i self-conscious? (or does self-organization entail self-consciousness?).Frontiers in Psychology, 9:579, 2018.
[97] Stanislas Dehaene, Michel Kerszberg, and Jean-Pierre Changeux. A neuronal model of a global workspace in effortful cognitive tasks. Proceedings of the National Academy of Sciences of the United States of America, 95(24):14529–14534, 1998.
[98] Giulio Tononi. An information integration theory of consciousness. BMC Neuroscience, 5(1):42, 2004.
[99] Christof Koch, Marcello Massimini, Melanie Boly, and Giulio Tononi. Neural correlates of consciousness: progress and problems. Nature Reviews Neuroscience, 17(5):307–321, 2016.
[100] R. Guevara Erra, D. M. Mateos, R. Wennberg, and J. L. Perez Velazquez. Statistical mechanics of consciousness: Maximization of information content of network is associated with conscious awareness. Physical Review E, 94(5):52402, 2016.
[101] David W. Zhou, David D. Mowrey, Pei Tang, and Yan Xu. Percolation model of sensory transmission and loss of consciousness under general anesthesia. Phys. Rev. Lett., 115:108103, 2015.
[102] Daniel Toker, Ioannis Pappas, Janna D Lendner, Joel Frohlich, Diego M Mateos, Suresh Muthukumaraswamy, Robin Carhart-Harris, Michelle Paff, Paul M Vespa, Martin M Monti, et al. Consciousness is supported by near-critical slow cortical electrodynamics. Proceedings of the National Academy of Sciences, 119(7):e2024455119, 2022.
[103] Patrick Krauss and Andreas Maier. Will we ever have conscious machines? Frontiers in Computational Neuroscience, 14:556544, 2020.
[104] Most of them were roughly provided in the book of statistical mechanics of neural networks [59]. Here we give an expanded version.
[105] Haiping Huang, statistical physics, disordered systems and neural networks 《科學》(上??茖W技術出版社,1915 年創(chuàng)刊)2022 年 74 卷 01 期 40 頁.
聯(lián)系客服