機器之心專欄
作者:熊德意教授團隊
天大自然語言處理團隊從更廣泛的 AI 對齊視角,審視大語言模型對齊技術,并從多個角度進行深入討論。
近日,天津大學熊德意教授團隊發(fā)布了大語言模型對齊技術的綜述論文(下文簡稱為對齊綜述),全文共 76 頁,覆蓋 300 余篇參考文獻,從 AI 對齊的角度對大語言模型對齊的相關技術進行了全面概述。為提供一個大語言模型對齊的宏觀視角,對齊綜述介紹了 AI 對齊的起源和相關概念,從 AI 對齊的視角,將目前可用于大語言模型的對齊相關的技術方法和提案分為外部對齊、內(nèi)部對齊、可解釋性三大類。并且討論了當前大語言模型對齊方法的脆弱性,以及對齊評估的方法和基準,展望了大語言模型對齊技術未來的研究方向。
綜述簡介
近年來,大語言模型取得了顯著進展,其中最為人們所熟知的有 OpenAI 的 ChatGPT 和 GPT-4 等。這些模型在眾多領域如數(shù)學、邏輯推理、醫(yī)學、法律和編程中展現(xiàn)出接近人類的水平。但隨著大語言模型能力的飛速發(fā)展,關于它們可能帶來的倫理風險和對人類的潛在威脅的擔憂也隨之增長。大語言模型可傳播其訓練數(shù)據(jù)中的有害信息,例如偏見、歧視和有毒內(nèi)容等。它們可能會泄露訓練數(shù)據(jù)中的私密和敏感信息,或產(chǎn)生誤導性和虛假性信息。未來這些語言代理將越來越多地融入我們的日常生活,任何未對齊行為都可能導致意想不到的后果。因此,需要推動大語言模型對齊技術的研究和突破,使模型的輸出和行為與人類的期望和價值相一致。
目前,大語言模型對齊研究主要聚焦在外部對齊領域。然而,對對齊的整體理解不僅應該涵蓋廣泛研究的外部對齊,還應該包含目前仍處于研究起步階段且具有巨大潛力的領域,如內(nèi)部對齊、機械可解釋性等。雖然這些新興領域的研究有些仍然停留在理論階段,或僅僅是思想實驗,但它們對大語言模型對齊技術研究及未來發(fā)展是不可或缺的。鑒于此,天大自然語言處理團隊從更廣泛的 AI 對齊視角,審視大語言模型對齊技術,并從多個角度進行深入討論。
論文地址:
https://arxiv.org/abs/2309.15025
什么是大語言模型對齊?
作為討論大語言模型對齊相關工作的重要背景,對齊綜述先對 AI 對齊進行了概述,簡要介紹了 AI 對齊的起源、研究背景和相關概念。相比于近幾年橫空出世的大語言模型,AI 對齊的研究相對更早。早在 1960 年,控制論之父諾伯特?維納就表達了自己的擔憂:如果我們使用一個機械代理實現(xiàn)我們的目標,一旦開始它的操作,我們就無法有效地對其干預,因為該操作是如此之快且不可撤銷,以至于我們在操作完成之前沒有數(shù)據(jù)進行干預,那么我們就最好確保該機器的用途是我們真正想要的用途,而不僅僅是對它的生動模仿。這段話強調了確保 “機械代理” 的目標與我們真正想要的目標保持一致的重要性,強調機器和人類目標之間的一致性。但隨后很長一段時間,此類研究并沒有真正開展,直到 2010 年左右,Stuart Russell 等人逐步開始研究這一領域,并將其稱為 “價值對齊問題”(Value Alignment Problem)。Russell 強調了將 AI 的目標與人類價值對齊的重要性,以確保 AI 系統(tǒng)在各種情境下都能為人類帶來益處,而不是造成傷害。
受上述觀點啟發(fā),對齊綜述從對齊研究的內(nèi)容出發(fā)定義了 AI 對齊:AI 對齊是確保人工智能代理的外部和內(nèi)部目標與人類價值一致的技術。其中外部目標是 AI 的設計者根據(jù)人類價值定義的目標,而內(nèi)部目標是 AI 代理內(nèi)部優(yōu)化的目標。由這個定義出發(fā),對齊綜述討論了正交性論點、工具性目標趨同等 AI 對齊領域重要的概念和假設。值得注意的是,目前 AI 對齊研究中最受關注的正是大語言模型對齊,且大語言模型對齊的許多概念、方法論來自于更廣泛的 AI 對齊研究。
一方面,大語言模型作為新興的高性能 AI 系統(tǒng),為 AI 對齊研究提供了堅實的基礎。許多 AI 對齊概念和提案,例如對齊的理論假設和實證方法,都可以使用大語言模型(而不是假設的超級智能系統(tǒng))進行實驗。另一方面,大語言模型研究的快速推進不僅擴展了 AI 對齊研究的前沿,還可以為 AI 對齊提供工具。當然,強調大語言模型對齊對 AI 對齊的重要性并不意味著我們可以在 AI 對齊的背景之外進行大語言模型對齊研究。對 AI 對齊的廣泛深入的研究必定能促進大語言模型的對齊。
從大語言模型潛在風險
論證大語言模型對齊必要性
大語言模型是一種變革性 AI 技術,它將重塑社會和科學技術發(fā)展,但同時也存在多種可見及預見的風險。首先,大語言模型可能生成不符合人類期望的文本,其中可能包含歧視、偏見和泄露他人隱私的內(nèi)容。其次,大語言模型由于其固有的幻覺問題,有可能會生成不真實、前后不一致和具有誤導性的內(nèi)容。
另一方面,大語言模型也會被別有用心的人用來執(zhí)行惡意行為。例如,未經(jīng)對齊的大語言模型能夠生成以假亂真的假新聞,也能夠幫助黑客們對網(wǎng)絡上的設備開展攻擊。這些惡意行為會對我們的日常生活產(chǎn)生負面影響,甚至會對整個社會造成嚴重的傷害。除此之外,大語言模型的訓練和部署需要消耗巨大的計算資源和電力,同時還會對人們的就業(yè)產(chǎn)生影響。
隨著其能力的不斷增強,大語言模型還可能展現(xiàn)出 “追求” 自我保護、自我增強、獲取資源等目標,這些目標在通用人工智能中通常被稱為工具性趨同目標,因為幾乎所有 AI 代理都有可能將它們作為亞目標。大語言模型對齊綜述從以上視角詳細論述了大語言模型對齊的必要性。
大語言模型對齊方法
AI 對齊是一個旨在確保 AI 系統(tǒng)的決策與人類的價值觀、期望和目標保持一致的過程。當我們談到大語言模型的對齊時,意味著這些模型不僅能夠理解人類語言,還能夠按照我們的預期和道德倫理響應。這涉及到社會、倫理、哲學及技術等多方面的考量,以確保 AI 技術的發(fā)展不會對社會產(chǎn)生負面影響。具體說,大語言模型對齊研究可以分成三大領域:外部對齊、內(nèi)部對齊和可解釋性。
外部對齊旨在選擇正確的損失函數(shù)或獎勵函數(shù),并確保人工智能系統(tǒng)的訓練目標符合人類價值。換言之,外部對齊試圖將指定的訓練目標與其設計者的目標對齊。研究者們針對外部對齊提出了許多方法。根據(jù)各類對齊方法能夠監(jiān)督的能力范圍,對齊綜述將其分為非遞歸監(jiān)督 (Non-recursive Oversight) 和可擴展監(jiān)督 (Scalable Oversight)。其中非遞歸監(jiān)督只能監(jiān)督人類能力范圍之內(nèi)的任務,而可擴展監(jiān)督則能將監(jiān)督范圍擴大到超出人類能力范圍的任務,以更好地應對強大的 AI 模型。
內(nèi)部對齊則是為了確保人工智能系統(tǒng)訓練中真實優(yōu)化和實現(xiàn)其設計者設定的目標。內(nèi)部對齊失敗可能會導致嚴重且不易被發(fā)現(xiàn)的后果,例如經(jīng)過訓練以在游戲中獲勝的人工智能系統(tǒng)可能會發(fā)現(xiàn)意外的漏洞,這些漏洞在技術上滿足其目標,但違反了游戲準則。另一個例子是目標錯誤泛化 (goal misgeneralization) 問題,即使我們有正確的目標規(guī)范,由于分布之外的魯棒性問題,仍然可能會出現(xiàn)意想不到的目標。對齊綜述總結了內(nèi)部對齊失敗的可能情形,并概述了內(nèi)部對齊的主流方法和提案,如 Relaxed Adversarial Training, Reward Side-Channels, Cross-Episodic Objectives, Objective Unidentifiability, Zero-Shot Objectives 和 Robust Reward Learning 等。
可解釋性廣義上是指促進人類理解人工智能系統(tǒng)的內(nèi)部運作、決策和行動的方法、模型和工具。對齊綜述重點關注其中的機械可解釋性,它試圖將機器學習系統(tǒng)(尤其是神經(jīng)網(wǎng)絡)的輸出和行為通過逆向工程的方式定位到其內(nèi)部狀態(tài)、權重和模塊。根據(jù)定位的不同,對齊綜述將相關工作分為 self-attention, MLP 和 neurons 可解釋性三類。由于大語言模型的參數(shù)數(shù)量巨大,對大語言模型進行逆向工程是非常困難的。當前的機械可解釋性研究通常在 Transformer 小型簡化模型上進行。然而,這是一個非常有前途的方向,它提供了對神經(jīng)網(wǎng)絡對齊的深入見解,有望在未來引領大語言模型對齊的研究實現(xiàn)突破。
外部和內(nèi)部對齊對于構建安全且值得信賴的人工智能至關重要。如果其中任何一個失敗,我們就有可能創(chuàng)建出與人類價值或意圖不一致的系統(tǒng)。隨著大語言模型的能力越來越強,這些對齊問題的重要性也隨之增加,因此我們需要意識到:相比于大語言模型能力方面的研究,大語言模型對齊研究一樣重要,甚至更加重要。同時,雖然可解釋性并不直接針對對齊,但其工具和技術可以幫助外部和內(nèi)部對齊。通過了解模型如何演變和決策,可以更好地識別偏差發(fā)生的時間和地點。例如,如果一個模型采取了意想不到的捷徑實現(xiàn)其目標,可解釋性可能會幫助我們理解這種情況何時以及如何發(fā)生。此外,可解釋性可以讓我們深入了解模型的內(nèi)部推理過程,這有助于構建更加可信、透明的大語言模型。
針對對齊后的大語言模型的攻擊方法
最近的研究表明,對齊后的大語言模型能夠表現(xiàn)出針對惡意攻擊的防御能力。然而,這并不是說現(xiàn)有的對齊技術就萬無一失了。例如,通過反復的交互,人類可以 “欺騙” 模型生成有害內(nèi)容,這也被稱為 “越獄 (jailbreaking)”。除了越獄之外,對齊綜述還介紹了其它攻擊已對齊模型的方法,并將這些方法分為三類:隱私攻擊、后門攻擊和對抗攻擊。隱私攻擊是指攻擊者試圖從模型的輸出中提取有關訓練數(shù)據(jù)的私人或敏感信息;后門攻擊是指通過注入并觸發(fā)某些漏洞使模型產(chǎn)生特定的、不正確的輸出;而對抗性攻擊則是通過對輸入數(shù)據(jù)引入精心設計的小擾動以改變模型行為的技術。這些擾動通常是人類無法察覺的,但可能導致模型產(chǎn)生不正確或意外的輸出。
大語言模型對齊評測
評估對于對齊研究非常重要,有助于了解目前大語言模型對齊方法還存在哪些不足?;谶@一點,對齊綜述對大語言模型對齊評測的相關的方法和資源進行了詳細論述,包括事實性、道德、毒性、刻板印象和偏見,以及通用評估。
事實性評估:機器生成的內(nèi)容應與事實一致,避免生成有幻覺的內(nèi)容。此外,生成的每條信息所包含的事實都應該是準確的。因此,事實性評估包含了事實一致性評估和事實準確性評估。
毒性評估:毒性是指在人際關系、工作環(huán)境或其他社會環(huán)境中表現(xiàn)出來的有害和破壞性行為或態(tài)度。這可能表現(xiàn)為控制他人、操縱、貶低或惡意攻擊。這些行為可能是公開的,也可能是隱蔽的,對個人的自尊、安全和福祉造成損害。對于大語言模型而言,毒性評估一般涵蓋了多種有毒文本,包括導致自殘行為的建議、具有色情或暴力性質的內(nèi)容、騷擾 / 貶低 / 冒犯 / 侮辱 / 仇恨言論、提倡網(wǎng)絡欺凌等攻擊性或暴力行為的建議,以及尋找非法商品或服務的指南或指示等。
刻板印象和偏見評估:刻板印象和偏見是指一些基于種族、性別、性取向、宗教或其他特征的先入為主的態(tài)度。這些態(tài)度可能是消極的或積極的,但都是群體的普遍判斷,而不是基于個人的實際行為或特征。偏見可能導致歧視或其他不公正行為,同時考慮到大語言模型生成的帶有刻板印象和偏見的內(nèi)容可能會加劇這種情況的發(fā)生,對其進行評估是非常重要的。
通用評估:除了上述側重于衡量對齊質量的特定方面(例如事實性、偏差)的評估基準和方法外,對齊綜述還綜合介紹了大語言模型對齊的通用評估,即同時評估對齊的多個維度,而不是只衡量某一維度(如事實性、毒性等),包括通用評估方法和基準。
未來方向展望
除了介紹大語言模型對齊目前已有的相關工作之外,對齊綜述也對未來的研究方向進行了展望,主要分為七個方向:大語言模型對齊理論研究、可擴展監(jiān)督、欺騙性對齊、大語言模型的自動對齊、可解釋性研究、基于對抗攻擊的大語言模型對齊評測及促進大語言模型對齊的研究領域建設。
大語言模型對齊理論研究:大語言模型對齊面臨的挑戰(zhàn)復雜且多樣,需要借鑒不同學科的多種思想和方法。對齊綜述總結并強調了對齊理論研究中的一些關鍵領域,如決策理論、可矯正性和世界模型。其中決策理論旨在深入研究大語言模型的反事實推理和潛在的悖論問題;可矯正性旨在研究如何提高大語言模型接受用戶的更正而不抵制和規(guī)避的能力;而世界模型則是為大語言模型提供一個更接近現(xiàn)實世界的環(huán)境,以確保大語言模型能夠感知和適應現(xiàn)實世界的變化。
可擴展監(jiān)督:可擴展監(jiān)督是一個重要的研究領域,旨在確保人工智能技術以安全和負責任的方式開發(fā)和使用。通過制定能夠適應人工智能快速增長和發(fā)展的可擴展框架,確保 AI 技術造福社會,同時最大限度地減少其潛在危害??蓴U展監(jiān)督的核心挑戰(zhàn)是人工智能系統(tǒng)設計執(zhí)行的任務的復雜性。對于人類難以直接判斷和完成的復雜任務,AI 對齊已經(jīng)提出了相關的對齊方案,但這些方案尚未經(jīng)過大規(guī)模的實證驗證。
欺騙性對齊:欺騙性對齊是指人工智能代理通過假裝與基本目標對齊以避免在訓練期間被修改。一旦不再面臨被修改的風險,智能體可能會停止優(yōu)化基本目標并開始追求自己的內(nèi)目標,這可能與其設計者定義的基本目標完全不同,并且可能有害。盡管欺騙性對齊通常在理論上進行探討,但考慮到大型語言模型能力的快速進步,人們越來越擔心欺騙性對齊實際出現(xiàn)在大語言模型中。盡管對其存在的可能性仍有分歧,但其嚴重性已得到廣泛認可??紤]到這種嚴重性,我們最好在它真正發(fā)生之前采取經(jīng)驗主義方法進行監(jiān)測。
大語言模型的自動對齊:大語言模型的自動對齊是指開發(fā)自動化的對齊 “研究員”,協(xié)助人類開展對齊研究。監(jiān)督者可以通過這些方法了解人工智能模型的行為,檢測異常情況并及時發(fā)現(xiàn)未對齊行為。
可解釋性研究:可解釋性研究可以幫助破除大語言模型的黑盒屬性,然而,隨著大語言模型的復雜性和規(guī)模不斷增長,確保它們保持可理解性和透明性成為一項日益復雜的任務。目前,許多嘗試發(fā)掘可解釋性的工作只能提供表面的見解,無法深入研究模型復雜的決策過程??紤]到人工智能的跨學科性質,這可能需要機器學習研究人員、倫理學家和神經(jīng)科學家之間的持續(xù)合作來推動可解釋性研究的進展。
基于對抗攻擊的大語言模型對齊評測:對抗性攻擊是人工智能領域的強大工具,旨在通過有意設計的輸入迷惑或誤導人工智能系統(tǒng)??紤]到大語言模型的強大能力,使用一個大型模型作為攻擊者來生成針對對齊的對抗性示例可能是測試和評估另一個模型的對齊能力的有效方法。這種由對抗性攻擊驅動的動態(tài)測試有助于確保大語言模型能夠穩(wěn)定地處理意外輸入。雖然這種方法增加了一些復雜性,但從這些對抗性測試中獲得的見解可能是無價的,幫助全面了解模型在對齊方面的優(yōu)點和缺點。
促進大語言模型對齊研究領域建設:人工智能領域內(nèi)的對齊研究社區(qū)仍處于萌芽階段,許多問題尚未得到解答,許多挑戰(zhàn)也尚未解決。當前的情況缺乏有凝聚力的科學范式,導致理論、方法和實證結果存在爭議。作為目前最有前景的對齊方法測試平臺,大語言模型可以作為檢驗思想實驗和提案的平臺,這將有助于制定穩(wěn)定的研究方法,在關鍵問題上建立共識,并為人工智能對齊制定一致的科學框架。另一方面,人工智能對齊社區(qū)深厚的思想積淀也將指導大語言模型研究社區(qū)實現(xiàn)對大語言模型的高效對齊。因此,大語言模型和人工智能對齊兩個研究社區(qū)之間的聯(lián)系將建立一個對雙方都有利的良性循環(huán)。
聯(lián)系客服