大規(guī)模語言模型在自然語言處理方面展現(xiàn)出令人驚訝的推理能力,但其內(nèi)在機理尚不清晰。隨著大規(guī)模語言模型的廣泛應用,闡明模型的運行機制對應用安全性、性能局限性和可控的社會影響至關(guān)重要。近期,中美多家研究機構(gòu)(新澤西理工學院、約翰斯?霍普金斯大學、維克森林大學、佐治亞大學、上海交大、百度等)聯(lián)合發(fā)布了大模型可解釋性技術(shù)的綜述,分別對傳統(tǒng)的 fine-tuning 模型和基于 prompting 的超大模型的可解釋性技術(shù)進行了全面的梳理,并探討了模型解釋的評估標準和未來的研究挑戰(zhàn)。- 論文鏈接:https://arxiv.org/abs/2309.01029
- Github 鏈接:https://github.com/hy-zhao23/Explainability-for-Large-Language-Models
為何解釋大模型有點難?大語言模型在自然語言處理任務上的驚艷表現(xiàn)引起了社會廣泛的關(guān)注。與此同時,如何解釋大模型在跨任務中令人驚艷的表現(xiàn)是學術(shù)界面臨的迫切挑戰(zhàn)之一。不同于傳統(tǒng)的機器學習或者深度學習模型,超大的模型架構(gòu)和海量的學習資料使得大模型具備了強大的推理泛化能力。大語言模型 (LLMs) 提供可解釋性的幾個主要難點包括:- 模型復雜性高。區(qū)別于 LLM 時代之前的深度學習模型或者傳統(tǒng)的統(tǒng)計機器學習模型,LLMs 模型規(guī)模巨大,包含數(shù)十億個參數(shù),其內(nèi)部表示和推理過程非常復雜,很難針對其具體的輸出給出解釋。
- 數(shù)據(jù)依賴性強。LLMs 在訓練過程中依賴大規(guī)模文本語料,這些訓練數(shù)據(jù)中的偏見、錯誤等都可能影響模型,但很難完整判斷訓練數(shù)據(jù)的質(zhì)量對模型的影響。
- 黑箱性質(zhì)。我們通常把 LLMs 看做黑箱模型,即使是對于開源的模型來說,比如 Llama-2。我們很難顯式地判斷它的內(nèi)部推理鏈和決策過程,只能根據(jù)輸入輸出進行分析,這給可解釋性帶來困難。
- 輸出不確定性。LLMs 的輸出常常存在不確定性,對同一輸入可能產(chǎn)生不同輸出,這也增加了可解釋性的難度。
- 評估指標不足。目前對話系統(tǒng)的自動評估指標還不足以完整反映模型的可解釋性,需要更多考慮人類理解的評估指標。
為了更好的歸納總結(jié)大模型的可解釋性,我們將 BERT 及以上級別的大模型的訓練范式分為兩種:1)傳統(tǒng) fine-tuning 范式;2)基于 prompting 的范式。對于傳統(tǒng) fine-tuning 范式,首先在一個較大的未標記的文本庫上預訓練一個基礎語言模型,再通過來自特定領域的標記數(shù)據(jù)集進行 fine-tuning。常見的此類模型有 BERT, RoBERTa, ELECTRA, DeBERTa 等。基于 prompting 的范式通過使用 prompts 實現(xiàn) zero-shot 或者 few-shot learning。與傳統(tǒng) fine-tuning 范式相同,需要預訓練基礎模型。但是,基于 prompting 范式的微調(diào)通常由 instruction tuning 和 reinforcement learning from human feedback (RLHF) 實現(xiàn)。常見的此類模型包括 GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna 等。其訓練流程如下圖:基于傳統(tǒng) fine-tuning 范式的模型解釋基于傳統(tǒng) fine-tuning 范式的模型解釋包括對單個預測的解釋(局部解釋)和對模型結(jié)構(gòu)級別組分如神經(jīng)元,網(wǎng)絡層等的解釋(全局解釋)。局部解釋對單個樣本預測進行解釋。其解釋方法包括特征歸因(feature attribution)、基于注意力機制的解釋(attention-based)、基于樣本的解釋(example-based)、基于自然語言的解釋(natural language explanation)。1. 特征歸因旨在衡量每個輸入特征(例如單詞、短語、文本范圍)與模型預測的相關(guān)性。特征歸因方法可以分類為:
基于擾動的解釋,通過修改其中特定的輸入特征觀察對輸出結(jié)果的影響;
基于梯度的解釋,將輸出對輸入的偏微分作為相應輸入的重要性指標;
替代模型,使用簡單的人類可理解的模型去擬合復雜模型的單個輸出,從而獲取各輸入的重要性;
基于分解的技術(shù),旨在將特征相關(guān)性得分進行線性分解。
2. 基于注意力的解釋:注意力通常被作為一種關(guān)注輸入中最相關(guān)部分的途徑,因此注意力可能學習到可以用于解釋預測的相關(guān)性信息。常見的注意力相關(guān)的解釋方法包括:- 注意力可視化技術(shù),直觀地觀察注意力分數(shù)在不同尺度上的變化;
- 基于函數(shù)的解釋,如輸出對注意力的偏微分。然而,學術(shù)界對于將注意力作為一個研究角度依然充滿爭議。
3. 基于樣本的解釋從個例的角度對模型進行探測和解釋,主要分為:對抗樣本和反事實樣本。- 對抗樣本是針對模型對微小變動非常敏感的特性而生成的數(shù)據(jù),自然語言處理中通常通過修改文本得到,人類難以區(qū)別的文本變換通常會導致模型產(chǎn)生不同的預測。
- 反事實樣本則是通過將文本進行如否定的變形,通常也是對模型因果推斷能力的檢測。
4. 自然語言解釋使用原始文本和人工標記的解釋進行模型訓練,使得模型可以生成自然語言解釋模型的決策過程。全局解釋旨在從模型構(gòu)成的層面包括如神經(jīng)元,隱藏層和更大的組塊,為大模型的工作機制提供更高階的解釋。主要探究在不同網(wǎng)絡構(gòu)成部分學習到的語義知識。- 基于探針的解釋 探針解釋技術(shù)主要基于分類器進行探測,通過在預訓練模型或者微調(diào)模型上訓練一個淺層分類器,然后在一個 holdout 數(shù)據(jù)集上進行評估,使得分類器能夠識別語言特征或推理能力。
- 神經(jīng)元激活 傳統(tǒng)神經(jīng)元激活分析只考慮一部分重要的神經(jīng)元,再學習神經(jīng)元與語義特性之間的關(guān)系。近來,GPT-4 也被用于解釋神經(jīng)元,不同于選取部分神經(jīng)元進行解釋,GPT-4 可以用于解釋所有的神經(jīng)元。
- 基于概念的解釋 將輸入先映射到一組概念中,再通過測量概念對預測的重要性來對模型進行解釋。
基于 prompting 范式的模型解釋,需要對基礎模型和助手模型分別解釋以區(qū)別兩種模型的能力,并探究模型學習的路徑。其探究的問題主要包括:為模型提供解釋對 few-shot learning 的益處;理解 few-shot learning 和思維鏈能力的來源。- 解釋對模型學習的好處 探究在 few-shot learning 的情況下解釋是否對模型學習有幫助。
- 情境學習 探究情境學習在大模型中的作用機制,以及區(qū)分情境學習在大模型中和中等模型中的區(qū)別。
- 思維鏈 prompting 探究思維鏈 prompting 提高模型的表現(xiàn)的原因。
- Fine-tuning 的角色 助手模型通常先經(jīng)過預訓練獲得通用語義知識,在通過監(jiān)督學習和強化學習獲取領域內(nèi)知識。而助手模型的知識主要來源于哪個階段依然有待研究。
- 幻覺與不確定性 大模型預測的準確性和可信度依然是目前研究的重要課題。盡管大模型的推理能力強大,但其結(jié)果常常出現(xiàn)錯誤信息和幻覺。這種預測的不確定性為其廣泛應用帶來了巨大的挑戰(zhàn)。
模型解釋的評估指標包含合理性 (plausibility),忠實度 (faithfulness),穩(wěn)定性 (stability),魯棒性 (robustness) 等。論文主要講述了兩個被廣泛關(guān)注的圍度:1)對人類的合理性;2)對模型內(nèi)在邏輯的忠實度。對傳統(tǒng) fine-tuning 模型解釋的評估主要集中在局部解釋上。合理性通常需要將模型解釋與人工標注的解釋按照設計的標準進行測量評估。而忠實性更注重量化指標的表現(xiàn),由于不同的指標關(guān)注模型或數(shù)據(jù)的方面不同,對于忠實性的度量依然缺乏統(tǒng)一的標準?;?prompting 模型解釋的評估則有待進一步的研究。1. 缺乏有效的正確解釋。其挑戰(zhàn)來源于兩個方面:1)缺乏設計有效解釋的標準;2)有效解釋的缺乏導致對解釋的評估同樣缺乏支撐。2. 涌現(xiàn)現(xiàn)象的根源未知。對大模型涌現(xiàn)能力的探究可以分別從模型和數(shù)據(jù)的角度進行,從模型的角度,1)引起涌現(xiàn)現(xiàn)象的模型結(jié)構(gòu);2)具備跨語言任務超強表現(xiàn)的最小模型尺度和復雜度。從數(shù)據(jù)的角度,1)決定特定預測的數(shù)據(jù)子集;2)涌現(xiàn)能力與模型訓練和數(shù)據(jù)污染的關(guān)系;3)訓練數(shù)據(jù)的質(zhì)量和數(shù)量對預訓練和微調(diào)各自的影響。3. Fine-tuning 范式與 prompting 范式的區(qū)別。兩者在 in-distribution 和 out-of-distribution 的不同表現(xiàn)意味著不同的推理方式。1)在數(shù)據(jù)同分布(in-distribution)之下,其推理范式的不同之處;2)在數(shù)據(jù)不同分布的情況下,模型魯棒性的差異根源。4. 大模型的捷徑學習問題。兩種范式之下,模型的捷徑學習問題存在于不同的方面。盡管大模型由于數(shù)據(jù)來源豐富,捷徑學習的問題相對緩和。闡明捷徑學習形成的機理并提出解決辦法對模型的泛化依然重要。5. 注意力冗余。注意力模塊的冗余問題在兩種范式之中廣泛存在,對注意力冗余的研究可以為模型壓縮技術(shù)提供一種解決方式。6. 安全性和道德性。大模型的可解釋性對控制模型并限制模型的負面影響至關(guān)重要。如偏差、不公平、信息污染、社會操控等問題。建立可解釋的 AI 模型可以有效地避免上述問題,并形成符合道德規(guī)范的人工智能系統(tǒng)。
本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。