前不久,獲得亞馬遜40億美元投資的ChatGPT主要競爭對手Anthropic在官網(wǎng)公布了一篇名為《朝向單義性:通過詞典學(xué)習(xí)分解語言模型》的論文,公布了解釋經(jīng)網(wǎng)絡(luò)行為的方法。
由于神經(jīng)網(wǎng)絡(luò)是基于海量數(shù)據(jù)訓(xùn)練而成,其開發(fā)的AI模型可以生成文本、圖片、視頻等一系列內(nèi)容。雖然一些數(shù)學(xué)題、推理我們可以看到正確結(jié)果,例如,AI模型會告訴你1+1=2這個結(jié)果,卻無法解釋這個過程是如何產(chǎn)生的。即便進行簡單解釋,也只是基于語義上的理解。
就像人類做夢一樣,可以說出做夢的內(nèi)容,卻無法解釋夢境到底是怎么形成的。
Anthropic根據(jù)Transformer模型進行了一個小型實驗,將512個神經(jīng)單元分解成4000多個特征,分別代表 DNA 序列、法律語言、HTTP 請求、營養(yǎng)說明等。研究發(fā)現(xiàn),單個特征的行為比神經(jīng)元行為更容易解釋、可控,同時每個特征在不同的AI模型中基本上都是通用的。
ChatGPT等大語言模型經(jīng)常出現(xiàn)幻覺、歧視、虛假等信息的情況,主要是人類無法控制其神經(jīng)網(wǎng)絡(luò)行為。所以,該研究對于增強大語言模型的準(zhǔn)確率、安全性,降低非法內(nèi)容輸出幫助非常大。
論文地址:
https://transformer-circuits.pub/2023/monosemantic-features/index.html#
phenomenology-feature-splitting
為了更好地理解Anthropic的研究,「AIGC開放社區(qū)」先為大家簡單解讀幾個技術(shù)概念。
什么是神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是一種模仿人腦神經(jīng)元結(jié)構(gòu)的計算模型,用于解決各種復(fù)雜的計算問題,主要用于模式識別、數(shù)據(jù)挖掘、圖像識別、自然語言處理等領(lǐng)域。
神經(jīng)網(wǎng)絡(luò)的核心組成部分是神經(jīng)元,它們通過一系列的權(quán)重連接在一起,形成一個大型網(wǎng)絡(luò)結(jié)構(gòu)。
主要包括3個層:1)輸入層,用于接收原始數(shù)據(jù),并將其傳遞給網(wǎng)絡(luò)的下一層;2)隱藏層,是網(wǎng)絡(luò)中的核心部分,包含了一系列神經(jīng)元用于處理輸入數(shù)據(jù)并產(chǎn)生輸出;3)輸出層,將隱藏層的結(jié)果匯總并產(chǎn)生最終的輸出。
簡單來說,神經(jīng)網(wǎng)絡(luò)就是模仿人類的大腦思維與思考、解讀問題。神經(jīng)元就相當(dāng)于人腦中的放電神經(jīng)元。
經(jīng)過幾十年的研究,科學(xué)家們可以大概了解人腦神經(jīng)元的運行規(guī)律,但仍然有很多謎團無法解開,例如,大腦是如何產(chǎn)生情感、夢境、獨立思想等。所以,想深度解釋神經(jīng)網(wǎng)絡(luò)的工作原理同樣不容易。
什么是神經(jīng)元
神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本組成部分,主要對數(shù)據(jù)進行輸入、計算和輸出。
神經(jīng)單元的工作原理模擬了人腦中神經(jīng)元的工作方式,接收一個或多個輸入,每個輸入都有一個對應(yīng)的權(quán)重。這些輸入和權(quán)重的乘積被加總,然后加上一個偏置項。得到的總和被送入一個激活函數(shù),激活函數(shù)的輸出就是這個神經(jīng)單元的輸出。
在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,網(wǎng)絡(luò)會不斷調(diào)整這些權(quán)重和偏置項,以便更好地預(yù)測或分類輸入數(shù)據(jù)。
這個調(diào)整過程通常通過一種叫做“反向傳播的算法”來完成,配合梯度下降或其他優(yōu)化方法來最小化預(yù)測錯誤。 神經(jīng)單元有很多種,包括線性單元、sigmoid單元、ReLU單元等,區(qū)別在于使用的激活函數(shù)不同。
Anthropic研究簡單介紹
為了解釋神經(jīng)網(wǎng)路行為,Anthropic基于Transformer模型將512個神經(jīng)元分解成4000多個特征。這些特征分別代表DNA 序列、法律語言、HTTP 請求、希伯來語文本、營養(yǎng)聲明等,然后進行一系列行為操作觀察。
研究結(jié)果表明,單個特征的行為比神經(jīng)元行為更容易解釋、可控,同時每個特征在不同的AI模型中基本上都是通用的。
為了驗證其研究,Anthropic創(chuàng)建了一個盲評系統(tǒng),來比較單個特征和神經(jīng)元的可解釋性。特征(紅色)的可解釋性得分遠高于神經(jīng)元(藍綠色)。
Anthropic還采用“自動解釋性”方法,使用大型語言模型生成小模型特征的簡短描述,根據(jù)另一個模型的描述預(yù)測特征激活的能力對其進行評分。
同樣,特征的得分高于神經(jīng)元,這表明特征的激活及其對模型行為的下游影響具有一致的解釋。
此外,還提供了有針對性的模型引導(dǎo)方式。人為激活某個功能,會導(dǎo)致模型行為以可預(yù)測的方式發(fā)生變化。
神經(jīng)網(wǎng)絡(luò)對大語言模型的重要性
神經(jīng)網(wǎng)絡(luò)是大語言模型的重要基石,例如,OpenAI的GPT系列模型是基于Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu)開發(fā)而成。
大語言模型使用神經(jīng)網(wǎng)絡(luò)來處理和生成文本。在訓(xùn)練過程中,這些模型會學(xué)習(xí)如何預(yù)測文本序列中的下一個詞,或者給定一部分文本后續(xù)的可能內(nèi)容。
為了做到這一點,模型需要理解語言的語法、語義、以及在一定程度上的上下文。簡單來說,神經(jīng)網(wǎng)絡(luò)提供了處理和生成自然語言的計算框架,而大語言模型則通過這個框架來理解和生成文本。
所以,理解神經(jīng)網(wǎng)絡(luò)行為,對增強大語言模型的安全性、準(zhǔn)確性至關(guān)重要。
本文素材來源Anthropic官網(wǎng)、論文,如有侵權(quán)請聯(lián)系刪除
END
聯(lián)系客服