摘要:近期,由于人工智能(AI)和機器學習,尤其是深度學習的進步,可解釋人工智能(XAI)研究領域受到了廣泛的關注。XAI這一研究領域的重點在于確保AI系統(tǒng)的推理和決策可被人類用戶理解。在軍事領域,可解釋性通常要保證以下幾點:人類用戶運行的AI系統(tǒng)擁有恰當?shù)男睦砟P?;專家可從AI系統(tǒng)及其隱性戰(zhàn)術和戰(zhàn)略行為中獲得見解和知識;AI系統(tǒng)遵循國際和國家法律;開發(fā)者能夠在部署前確定AI系統(tǒng)的缺陷或錯誤。本文依據(jù)瑞典國防研究所報告《探索軍事深度學習應用程序中的可解釋人工智能技術》認為,這類AI系統(tǒng)由于建模過程過于復雜,無法使用其他可解釋的替代方案,因此本質上難以理解。盡管深度學習的XAI領域仍處于發(fā)展初期,但已出現(xiàn)不少解釋技術。當前的XAI技術主要用于開發(fā)用途,如確定錯誤等。不過,如果這些技術可為用戶使用的AI系統(tǒng)打造合適的心理模型、進行戰(zhàn)術開發(fā)并確保未來軍事AI系統(tǒng)遵循國家和國際法律,那么就應對其進行更多的研究。本文將依據(jù)該報告,介紹XAI技術及其在軍事中的應用。
關鍵詞:人工智能,可解釋人工智能,深度學習
當今人工智能(AI)成功的主要原因是機器學習(ML)的突破,更確切的說,是深度學習(DL)的突破。深度學習是一項具有顛覆性潛力的技術,人們使用深度神經(jīng)網(wǎng)絡可實現(xiàn)傳統(tǒng)技術無法完成的復雜建模。如,深度學習可以用于準確的轉寫(言語到文本)、翻譯(文本到文本)、進行即時戰(zhàn)略游戲(影像到動作)、讀唇語(影像到文本)、面部識別(圖片到識別)以及控制自動駕駛車輛(影像到行動)等。
然而,由于深度學習仍處于發(fā)展初期,且不存在能夠保證模型準確性的數(shù)學框架,因此,在開發(fā)、部署、運用和維護軍用神經(jīng)網(wǎng)絡模型時,勢必會遇到很多挑戰(zhàn)和問題,需要人們不斷思考并找出解決方案。
在作戰(zhàn)人員、數(shù)據(jù)分析師等軍事人員看來,最大的挑戰(zhàn)或許在于可解釋性。根據(jù)經(jīng)驗,如果行動會影響到人類生活,則對可解釋性的需求將大大提高??山忉屝灾灾匾且驗樗鼤绊懹脩魧ο到y(tǒng)的信任和依賴。信任關系必須保持一定的平衡,信任程度過高會導致對系統(tǒng)的誤用,信任程度過低,則系統(tǒng)無法發(fā)揮作用。歸根結底,解釋旨在幫助用戶為系統(tǒng)建立合適的心理模型,以保證系統(tǒng)得到有效的利用。
深度學習有提升戰(zhàn)斗機、潛艇、無人機、衛(wèi)星監(jiān)視系統(tǒng)等復雜軍事系統(tǒng)的自主性的潛力,但它也可能使這些系統(tǒng)變得更加復雜、更加難以解釋。主要原因在于,深度學習是“端到端”的機器學習技術,即機器通過學習從輸入數(shù)據(jù)中提取最重要的特征從而獲得高性能。這一過程區(qū)別于人工通過直覺提取特征的傳統(tǒng)技術,被稱作表征學習。表征學習常常能夠帶來高性能,但它同樣要求模型具有高度表達力和非線性特征。因此,使用深度學習訓練而成的深度神經(jīng)網(wǎng)絡可能包含數(shù)百萬甚至數(shù)十億個參數(shù),就算人們已經(jīng)對算法、模型架構、訓練數(shù)據(jù)等有了深入的了解,也難以解釋這些模型。
美國國防部先進研究計劃局(DARPA)于2016年啟動了可解釋人工智能(XAI)項目,項目旨在:一、生成可解釋性更高的模型,同時維持高水平的學習性能(預測準確度);二、使人類用戶能夠理解、適度信任和有效管理新一代AI工具。該項目啟動后,取得了多項技術進步。一些XAI技術已被打包到軟件庫并進行運行。軍事人員可利用這些軟件庫來深入了解深度神經(jīng)網(wǎng)絡,同時消除其錯誤并對其進行校驗。這一步在大方向上沒有錯,但從軍事角度出發(fā),為軍事用戶量身定制XAI技術和工具同樣關鍵,這要求其具備高解釋水平。
在任何會對人類生活產(chǎn)生影響的軍用高風險決策AI系統(tǒng)中,XAI都是一個關鍵組成部分。以關注短期決策的戰(zhàn)術級AI應用為例,這類AI的功能包括對無人車輛的自主控制以及武器和監(jiān)視系統(tǒng)的目標識別、跟蹤和打擊能力。在戰(zhàn)爭的作戰(zhàn)和戰(zhàn)略層面,XAI也同樣重要,而這一層面的長期決策和規(guī)劃活動可能會影響全人類。在作戰(zhàn)和戰(zhàn)略層,AI系統(tǒng)通常被用于信息分析,同時也會通過模擬來提出計劃或行動方案。XAI在軍事系統(tǒng)中的主要作用包括:
XAI技術主要有:全局解釋技術,如大型高維數(shù)據(jù)集的可視化技術、模型評估;局部解釋技術,如梯度顯著性、相關性分數(shù)逐層傳播技術、沙普利值附件解釋、局部可理解的與模型無關的解釋、用于解釋黑盒模型的隨機輸入采樣;混合解釋技術,如譜相關性分析。
XAI領域一個常被忽視但又至關重要的環(huán)節(jié)是對提出的XAI技術進行評估。本節(jié)將從人為因素出發(fā),引入評估標準。人為因素評估中,作戰(zhàn)人員、分析師等用戶是衡量AI系統(tǒng)中XAI效果的核心。本節(jié)還將介紹可用于比較局部XAI技術的測試方法。
1.人為因素評估
對XAI技術的人為因素評估將測試各解釋是否考慮了全部重要因素,以便用戶充分利用AI系統(tǒng)。比如,用戶可能有不同的目的、需求、知識、經(jīng)驗、任務背景、使用案例等。和開發(fā)各類系統(tǒng)一樣,在從系統(tǒng)規(guī)格到用戶測試的AI系統(tǒng)開發(fā)全流程中,將以上因素納入考量十分重要。由于深度學習的XAI技術是一個新興的研究領域,因此該技術的初始用戶通常是對模型性能評估感興趣的系統(tǒng)開發(fā)人員。然而,目前還無法確定這些XAI技術是否對軍事用戶有用。《可解釋AI指標:挑戰(zhàn)與前景》一文給出了6個用于評估解釋的指標:
未來將會有更多研究進一步探索如何在評估AI系統(tǒng)的XAI技術時理解這些指標。
2.評估局部解釋技術
模型處理的數(shù)據(jù)類型不同,則顯著性圖的視覺效果也不同。如,熱圖通常用于處理圖像,而彩色編碼字符和單詞則通常用于處理文本。圖1展現(xiàn)了使用熱圖制作顯著性圖的視覺效果。這一案例使用梯度顯著性(1.b)和相關性分數(shù)逐層傳播技術(1.c)來為數(shù)字0(1.a)生成熱圖。圖片中的像素等重要維度用紅、橙、黃等暖色表示,不重要的維度則用暗藍、藍、淺藍等冷色表示。兩種技術顯著的不同點通過高亮維度的位置可得到直觀的展示。本節(jié)將繼續(xù)介紹用于定量比較和評估局部解釋的技術,以找出能夠給出最準確解釋的技術。
圖1. MNIST圖像及其對應的熱圖;熱圖使用梯度顯著性和相關性分數(shù)逐層傳播技術來生成。圖中的重要維度或像素用紅、橙、黃等暖色表示
①刪除
在改變或刪去輸入的過程中,通過測量模型的準確預測能力可計算出刪除指標。需要注意的是,在這種情況下,刪去意味著將輸入的值轉換為中性的事物,如圖像背景等。刪除過程由XAI技術生成的顯著性圖引導,以便在刪除相對不重要的維度中的值前,刪除相對更重要維度中的值。在刪除過程中,如果解釋較優(yōu),則性能快速下降,反之則性能緩慢下降。
圖2使用圖1.b梯度顯著性圖說明了刪除過程。圖2.b刪除了50個最重要的像素,此時,人們依舊可以輕松地看出該圖展示的是數(shù)字0。圖2.f刪除了過半的像素(400個像素),此時,人們很難認出圖片展示的是數(shù)字0。
圖2. 從MNIST圖像的刪除過程中導出的6張圖片,這些圖片分別刪除了0、50、100、200、300和400像素
②插入
插入指標是刪除的互補方法。圖3用刪除過程中使用的MNIST圖像展示了插入過程。圖3.a的全黑圖像為初始輸入,隨著越來越多的輸入維度按照顯著性圖的優(yōu)先順序插入,可以檢測到準確性不斷提高。插入過程中,在輸入中插入的信息越多,模型預測的準確度應隨之提高,也就是說,解釋較優(yōu)時,準確性提高的速度會更快,反之則更慢。
圖3. 從MNIST圖像的插入過程中導出的6張圖片,這些圖片分別插入了0、50、100、200、300、400像素
③評估指標
本報告為演示刪除和插入過程,使用了梯度顯著性和相關性分數(shù)逐層傳播技術。演示中使用了分類器以及從MINST數(shù)據(jù)集中隨機抽取的100張采樣圖像來評估XAI技術。
圖4和圖5分別展示了插入和刪除過程的結果。曲線下面積(AUC)這一測量值可用于對多個XAI技術進行定量比較。在刪除過程中,較小的AUC值優(yōu)于較大的AUC值,而在插入過程中則相反,為較大的AUC值優(yōu)于較小的AUC值。
從圖4可以看出,相關性分數(shù)逐層傳播技術的性能曲線降幅更大,并且在刪除過程中收斂到較低的平均概率值。這一點與熱圖一致,與梯度顯著性的熱圖相比,相關性分數(shù)逐層傳播技術的熱圖中暖色更少(見圖1.b和圖1.c),這說明,與梯度顯著性相比,相關性分數(shù)逐層傳播技術能夠用更少的特征更快地找到解釋。從圖5中也可以得出同樣的結論。從圖5.b中可以看出,在插入僅幾十個特征后,平均概率急速上升,并在插入約100個特征后達到高性能水平。
圖4. 梯度顯著性和相關性分數(shù)逐層傳播技術的刪除曲線
圖5. 梯度顯著性和相關性分數(shù)逐層傳播技術的插入曲線
深度學習將用于補充和替代軍事系統(tǒng)中的部分功能。事實上,用于從海量圖像數(shù)據(jù)中自主探測和跟蹤興趣目標的軍用監(jiān)視系統(tǒng)已經(jīng)開始評估深度學習技術。與傳統(tǒng)的軟件技術相比,深度學習技術擁有多項優(yōu)勢,其中最重要的一項優(yōu)勢是,深度學習可用于傳統(tǒng)軟件技術無法完成的復雜建模流程。此外,深度學習還可以促進主動學習,通過AI系統(tǒng)與用戶的互動來獲得用于增強作戰(zhàn)系統(tǒng)模型的高質量數(shù)據(jù)。
然而,這些優(yōu)勢也在技術和作戰(zhàn)層面帶來了挑戰(zhàn)。報告就重點關注了可解釋性帶來的挑戰(zhàn)。深度學習的劣勢在于,盡管學習算法、模型架構和訓練數(shù)據(jù)都不算陌生且易于理解,但模型本身的行為卻難以解釋。通常情況下,這一點在音樂推送、廣告推薦等民用應用中不是問題,但在軍事領域,理解和解釋AI系統(tǒng)的行為卻是至關重要。這是因為,無論是在作戰(zhàn)層面,還是在需要軍方領導和政治決策者進行長期決策的戰(zhàn)略層面,AI系統(tǒng)提供的決策和建議都可能會對全人類的生活造成深遠影響。
雖然戰(zhàn)斗機、潛艇、坦克和指控決策支持工具等復雜軍事系統(tǒng)同樣難以掌握,但構建這些系統(tǒng)的技術本質上是可解釋的,因此這些系統(tǒng)如果出現(xiàn)錯誤,可以通過對整個系統(tǒng)的排查來找出問題并加以解決。然而,這在深度學習領域是難以實現(xiàn)的?,F(xiàn)實應用中的深度神經(jīng)網(wǎng)絡通常由幾百萬甚至幾十億參數(shù)組成,即使是模型的制造者也無法系統(tǒng)地解決模型中出現(xiàn)的錯誤。
報告提出了多個用于解決可解釋性挑戰(zhàn)的前沿XAI技術。值得注意的是,盡管本報告在這方面獲得了部分進展,但用于軍用深度學習應用的AI技術依舊處于發(fā)展初期。并且,報告提出的這些XAI技術尚未經(jīng)過軍事環(huán)境的檢驗,因此無法保證現(xiàn)有XAI技術能夠賦能高風險軍事AI系統(tǒng)對深度學習的使用。
聯(lián)系客服