黃海平 中山大學
理解大腦是最具挑戰(zhàn)的學科之一。像人工神經網絡一樣,大腦有廣泛的不同抽象層次,特別在理論研究方面。雖然更抽象的模型失去了對于低層次細節(jié)的預測能力,但擁有了精確解釋系統(tǒng)如何行之有效的概念上的好處,而且數學描述可以是普適的,不受具體細節(jié)影響(或稱瑣碎的變量)[1]。一個開創(chuàng)性的例子是霍普菲爾德模型[2],其精確揭示了在大腦中觀察到的聯(lián)想記憶的機制[3,4]。雖然作為物理學家的玩具模型從神經生物學上看十分不合理,但這些不合理之處被后來的研究柔和,更重要的是,從這個模型誕生了理論神經科學這門在 21 世紀十分有生命力的學科,并與當今 AI 的盛行息息相關。該模型的詳細介紹可見專著[59]或中文綜述[105]。近年來,由于大型語言模型的迅速發(fā)展,對于霍普菲爾德網絡的研究興趣被重新點燃(物理學家霍普菲爾德獲得了 2023 年在東京大學頒發(fā)的玻爾茲曼獎章)[5,6]。
馬爾(David Marr)認為[7],理解神經系統(tǒng)可以分為三個層次:計算(即大腦解決任務)、算法(即大腦如何解決任務,也是信息處理的層次)和實現(即神經回路層次)。對于人工神經網絡,研究人員將前兩個層次簡單映射到一個玩具模型層次上(特別是在理論研究中)。在深度學習[8,9]的驅動下,即使是前兩個層次,現在也變成了解決具有挑戰(zhàn)性的現實世界問題的想法。并且,生物學細節(jié)也被納入到神經網絡[10–13]模型中,甚至用于設計新的學習規(guī)則[14]。事實上,關于知覺、認知、記憶和行動的生物學機制的神經科學研究已經提供了各種富有成效的洞見,并啟發(fā)了人工神經網絡的實證/科學研究,這反過來又啟發(fā)了神經科學研究人員設計模型來理解大腦機制[15-17]。因此,將物理學、統(tǒng)計學、計算機科學、心理學、神經科學和工程學相結合起來,提供理論預測,揭示深層(生物)網絡甚至智能[18]的內部工作原理是很有希望的。人工智能可能與自然智能有不同的原理,但兩者都可以相互啟發(fā),其理解可能需要建立新的數學與物理基礎。
另一個從信息論的角度出發(fā)的論點表明,根據信息瓶頸理論[28, 29],輸入信息被最大程度地壓縮成隱層表示,其中與任務相關的信息應該在輸出層最大程度地被提取出來。從這個意義上說,信息論上的最優(yōu)表示必須在無關變量變化下保持不變,且其組成部分必須最大程度地獨立,這可能與解釋觀察結果的因果因素(潛在原因)有關(參見下面的第五個挑戰(zhàn))。用物理學的語言來說,與細粒度的表示在淺層中形成相比,更粗粒度(或更抽象)的表示在更深的層次中形成。微觀水平上突觸之間的相互作用如何決定這種表示的轉換仍然難以捉摸,因此值得未來加以研究[30, 31]。
智力在某種程度上可以被認為就是泛化的能力,特別是在學習的樣本數很少的情況下。因此,泛化也是當前深度學習研究中的一個熱點。傳統(tǒng)的統(tǒng)計學習理論認為,當樣本數量遠遠少于需要學習的參數數量時,過擬合效應應該很強,因此不能解釋目前深度學習的成功。一個很有前景的觀點是研究損失函數景觀和泛化特性[32–35]之間的因果關系。這一點在一個單層感知機的情況下,一個統(tǒng)計力學理論可以被系統(tǒng)地推導出來[36,37]。與經典的偏置-方差均衡(測試誤差隨模型復雜度增加的 U 形曲線)[38]不同,深度學習在過參數化的區(qū)域[34,39]中能達到最先進的表現。然而,對于多層感知機模型,如何提供關于過擬合效應與不同參數化機制(例如,欠量參數、過量參數化,甚至超量參數)的分析論證成為一個非平庸的任務[40]。最近的一項對單隱層網絡的研究表明,第一次相變發(fā)生在插值點,在那里完美的擬合是可能的。這種相變反映了典型解(平衡態(tài)物理)難以采樣的性質。隨著過參數量的增加,非典型解的不連續(xù)出現會發(fā)生第二次相變(非平衡或大偏差稀有事件物理)。它們是有良好泛化性質的寬極小值。這第二個相變?yōu)閷W習算法的有效性設置了一個上界[41]。
對抗樣本是指那些在人類難以察覺的修改下,卻導致深度學習決策系統(tǒng)出現意外錯誤的輸入。深度神經網絡的這種對抗脆弱性給實際應用帶來了重大挑戰(zhàn),包括現實世界的問題和 AI4S 研究(用于科學研究的人工智能)。在物理學中,具有大量自由度的系統(tǒng)可以用低維宏觀參數來描述。從幾何角度解釋分層計算可能有助于揭示網絡對于對抗樣本的神秘的易受攻擊性質[31, 46, 47]。從這個意義上說,通過一些序參量來解釋對抗脆弱性起源的低維度理論仍然缺乏。盡管近期有一些努力致力于這個方向的工作[47–49],但在即將到來的研究中預計會有更加令人激動的結果。
最近的一項理論研究使用 Franz-Parisi 勢能的統(tǒng)計力學框架解釋了持續(xù)學習的機制[53],其中來自先前任務的知識在 Franz-Parisi 勢能公式中充當參考構型[54],作為學習新知識的錨點。這個框架還與彈性權重鞏固 [50]、啟發(fā)式權重不確定性調節(jié) [55] 和受神經科學啟發(fā)的元可塑性 [56] 相關,為深度網絡在現實世界的多任務學習提供了一個基于理論基礎的方法。
深度學習被批評為僅僅是將輸入與輸出進行簡單關聯(lián)的一個精致的曲線擬合工具,換句話說,這個工具無法區(qū)分相關性和因果性。深度網絡所學到的不是概念,而僅僅是統(tǒng)計相關性,因而使網絡無法進行反事實推理(智能的標志性能力)。類似人類的人工智能必須善于從感官輸入中獲取特征組分之間的因果關系,從而從含大量無關噪聲的數據中提取相關信息[57, 58]。因此,理解深度學習系統(tǒng)中的因與果對于下一代人工智能尤為重要。目前的深度學習算法是否能夠進行因果推理仍然是一個懸而未決的問題。因此,發(fā)展分析性玩具模型成為解決這個問題的關鍵,盡管通過簡單的物理方程來確定深度學習中觀察到的效果的原因將非常具有挑戰(zhàn)性,這是由于體系的結構和學習的復雜性所致[59]。這個挑戰(zhàn)與大語言模型的驚人性能密切相關(參見下面的第七個挑戰(zhàn))。
人們認為,大腦通過自發(fā)神經活動作為計算(例如,采樣)的“蓄水池”來[60]學習構建外部世界的內部模型。自發(fā)活動與刺激引發(fā)的活動之間的一致性在發(fā)育過程中增加,尤其是對自然刺激[61],而自發(fā)活動描繪了刺激引發(fā)的神經反應的范圍[62]。研究表明刺激形成一個具有內稟層級結構的神經空間 [63, 64]。那么,一個有趣的問題就是自發(fā)神經空間的形狀是怎樣的,以及這個空間如何動態(tài)演變,特別是在適應變化的環(huán)境的時候。此外,感覺輸入如何與正在進行的皮層活動相結合來決定動物的行為仍然是一個未解之謎,并且極具挑戰(zhàn)性。另一方面,強化學習被用來構建有結構化環(huán)境的世界模型 [65]。在強化學習中,數據被用來驅動行為,這些行為根據智能體從環(huán)境中接收的獎勵信號來進行評估。因此,有趣的是智能體通過與環(huán)境的互動學習建立了什么樣的內部模型。這可以與前面表示學習和泛化的挑戰(zhàn)聯(lián)系起來。此外,最近的一項工作顯示了強化學習與統(tǒng)計物理之間的聯(lián)系 [66],其表明可以潛在地建立一個統(tǒng)計力學理論來理解強化學習,并可能對研究基于獎勵的大腦的神經計算產生深刻影響 [67]。
另一個理解大腦的內部模型的角度是從神經動力學的角度來看,這種動力學置于一個低維表面上,對于單個神經元或局部神經回路的詳細屬性的變化具有魯棒性 [68-70]。刺激、任務或條件的表示可以被提取出來,以推導實驗可驗證的假設 [71]。一個具有挑戰(zhàn)性的問題是神經活動和突觸可塑性之間如何相互作用,以產生一個低維的內部表示來實現認知功能。近期一個結合了連接概率、局部突觸噪聲和神經活動的關于突觸可塑性的進展表明,可以實現一個適應時間相關的輸入的動態(tài)網絡 [72]。這項工作將學習解釋為一種變分推斷問題,使得在一個局部神經回路中實現不確定性下的最優(yōu)學習成為可能。學習和神經活動都被置于低維子空間中。未來的工作必須包含更多符合生物學的因素來測試在神經生理實驗中的假設。
大腦的狀態(tài)可以被看作是動力學吸引子的系綜 [73]。關鍵挑戰(zhàn)是學習如何塑造穩(wěn)定的吸引子景觀??梢詫W習解釋為貝葉斯推斷問題,例如以無監(jiān)督的方式,而不是自回歸方式(見下一節(jié))。學習可以通過突觸權重的對稱性破缺來驅動 [74, 75],破缺將區(qū)分識別網絡本身和隱藏在感覺輸入中的規(guī)則分兩個不同的相??纯催@幅物理圖像是否仍然適用于支持動態(tài)吸引子的循環(huán)學習是非常有趣的,例如應該發(fā)展解釋學習的動態(tài)平均場理論 [76]。
Chat-GPT 具有令人印象深刻的解決問題的能力,正引領著第四次工業(yè)革命,其中 GPT 是生成式預訓練轉換器的一個縮寫。Chat-GPT 是基于大型語言模型(LLMs)訓練的[77],而 LLMs 將語言信息表示為高維環(huán)境空間中的向量,并以自回歸方式(類比于大腦是一個預測機器的假設)在大型文本語料庫上進行訓練,從而得到訓練數據中語言單元(tokens)之間的復雜統(tǒng)計模型[78]。因此,這種計算模型展現出強大的形式語言能力[79]。此外,LLM 還是一種少樣本提示甚至零樣本提示學習器[80, 81],即語言模型可以僅通過提示(例如,思維鏈提示[82])來執(zhí)行各種計算上具有挑戰(zhàn)性的任務。值得注意的是,LLMs 在模型復雜性和樣本復雜性的規(guī)模同時增加時顯示出質的飛躍[83],這種質變類似于熱力學系統(tǒng)中的相變。
與形式語言能力相比,LLMs 的功能語言能力被認為較弱[79]。這引發(fā)了一個根本性的問題,即智能的本質是什么,或者單一的下一個詞單元的上下文條件預測是否是人工通用智能的標準模型[84-86]?人類在實際問題中的推理能力通常也依賴于非語言信息,例如,科學家在面對一個具有挑戰(zhàn)性的問題何時會產生創(chuàng)造性的想法是不可預測的,這依賴于基于對長時間深度思考的推理過程。在生物實現中,語言模塊與涉及高級認知的其他模塊是分離的[79]。LLM 解釋了訓練語料庫中詞單元之間的層次相關性,而不是隱藏的因果依賴關系。換句話說,神經網絡沒有構建世界的心智模型,這需要異質模塊化網絡,所以與人類不同。因此,LLM 并不理解它生成的內容(作為生成模型而言)。即使在訓練數據中缺少某些關鍵的統(tǒng)計規(guī)律模式,該模型也可以在語法方面生成完美的文本。然而,這些文本可能與事實相去甚遠。知其然,知其所以然是智能系統(tǒng)的一個關鍵特征[86]。從這個意義上說,LLM 的內部工作方式在很大程度上是不透明的,需要付出巨大的努力來數學地闡述其形式語言能力,并進一步確定開發(fā)一個穩(wěn)健的世界模型所必須包括的關鍵要素。這樣,就可以揭示出當前觀察到的假陽性(例如幻覺)的機制[87]。
最重要的是,我們目前對于如何構建一個能夠將性能和意識相連接的附加網絡沒有任何了解[88],這與什么讓我們產生意識相關(參見最后一個挑戰(zhàn))。按照馬爾的框架,意識的計算和神經關聯(lián)仍然是未知的[89-91]。目前的一個物理方法是考慮到控制 LLM 的復雜神經計算的李雅普諾夫函數[5, 6]。李雅普諾夫函數的視角或將打開具有足夠多可能性的大門來思考控制信息如何通過自我注意和其他潛在的門控機制得到提煉并涌現出真正意義上的超級智能。
最具爭議的問題之一就是意識的起源——意識是否是一個由各種精心設計的區(qū)域所組成的高度異構和模塊化大腦電路的涌現行為(例如,人腦總共約有 量級的神經元連接,以及擁有許多功能特定的模塊化結構,如前額葉皮層、海馬體、小腦等[92,93])。意識體驗的主觀性與科學解釋的客觀性是相矛盾的。根據 Damasio 的[94]模型,在世界中識別自我的能力及其與世界的關系被認為是意識狀態(tài)的一個中心特征。一個機器算法能否實現自我意識仍然難以捉摸。自我監(jiān)控能力(或元認知[95])可能會讓機器(如 LLMs)知道它們生成的是什么。在一般情況下,闡明自我模型是如何與大腦的內部模型相關聯(lián)的,可能是很重要的科學任務。例如,卡爾·弗里斯頓認為,意識處理可以解釋為從感官觀察中推斷原因的統(tǒng)計推斷問題。因此,最小化“驚奇”(事件的負對數概率)可能導致自我意識[96],這與認為大腦是一個預測機器的假設一致[86]。
注:這是杜文康的譯文,經黃海平修改,原文在 arXiv:2306.11232 發(fā)表,點擊文末“原文”。
