摘要：近期，由于人工智能（AI）和機器學習，尤其是深度學習的進步，可解釋人工智能（XAI）研究領域受到了廣泛的關注。XAI這一研究領域的重點在于確保AI系統(tǒng)的推理和決策可被人類用戶理解。在軍事領域，可解釋性通常要保證以下幾點：人類用戶運行的AI系統(tǒng)擁有恰當?shù)男睦砟Ｐ?；專家可從AI系統(tǒng)及其隱性戰(zhàn)術和戰(zhàn)略行為中獲得見解和知識；AI系統(tǒng)遵循國際和國家法律；開發(fā)者能夠在部署前確定AI系統(tǒng)的缺陷或錯誤。本文依據(jù)瑞典國防研究所報告《探索軍事深度學習應用程序中的可解釋人工智能技術》認為，這類AI系統(tǒng)由于建模過程過于復雜，無法使用其他可解釋的替代方案，因此本質上難以理解。盡管深度學習的XAI領域仍處于發(fā)展初期，但已出現(xiàn)不少解釋技術。當前的XAI技術主要用于開發(fā)用途，如確定錯誤等。不過，如果這些技術可為用戶使用的AI系統(tǒng)打造合適的心理模型、進行戰(zhàn)術開發(fā)并確保未來軍事AI系統(tǒng)遵循國家和國際法律，那么就應對其進行更多的研究。本文將依據(jù)該報告，介紹XAI技術及其在軍事中的應用。
關鍵詞：人工智能，可解釋人工智能，深度學習

當今人工智能（AI）成功的主要原因是機器學習（ML）的突破，更確切的說，是深度學習（DL）的突破。深度學習是一項具有顛覆性潛力的技術，人們使用深度神經(jīng)網(wǎng)絡可實現(xiàn)傳統(tǒng)技術無法完成的復雜建模。如，深度學習可以用于準確的轉寫（言語到文本）、翻譯（文本到文本）、進行即時戰(zhàn)略游戲（影像到動作）、讀唇語（影像到文本）、面部識別（圖片到識別）以及控制自動駕駛車輛（影像到行動）等。

然而，由于深度學習仍處于發(fā)展初期，且不存在能夠保證模型準確性的數(shù)學框架，因此，在開發(fā)、部署、運用和維護軍用神經(jīng)網(wǎng)絡模型時，勢必會遇到很多挑戰(zhàn)和問題，需要人們不斷思考并找出解決方案。

在作戰(zhàn)人員、數(shù)據(jù)分析師等軍事人員看來，最大的挑戰(zhàn)或許在于可解釋性。根據(jù)經(jīng)驗，如果行動會影響到人類生活，則對可解釋性的需求將大大提高?？山忉屝灾灾匾且驗樗鼤绊懹脩魧ο到y(tǒng)的信任和依賴。信任關系必須保持一定的平衡，信任程度過高會導致對系統(tǒng)的誤用，信任程度過低，則系統(tǒng)無法發(fā)揮作用。歸根結底，解釋旨在幫助用戶為系統(tǒng)建立合適的心理模型，以保證系統(tǒng)得到有效的利用。

深度學習有提升戰(zhàn)斗機、潛艇、無人機、衛(wèi)星監(jiān)視系統(tǒng)等復雜軍事系統(tǒng)的自主性的潛力，但它也可能使這些系統(tǒng)變得更加復雜、更加難以解釋。主要原因在于，深度學習是“端到端”的機器學習技術，即機器通過學習從輸入數(shù)據(jù)中提取最重要的特征從而獲得高性能。這一過程區(qū)別于人工通過直覺提取特征的傳統(tǒng)技術，被稱作表征學習。表征學習常常能夠帶來高性能，但它同樣要求模型具有高度表達力和非線性特征。因此，使用深度學習訓練而成的深度神經(jīng)網(wǎng)絡可能包含數(shù)百萬甚至數(shù)十億個參數(shù)，就算人們已經(jīng)對算法、模型架構、訓練數(shù)據(jù)等有了深入的了解，也難以解釋這些模型。

美國國防部先進研究計劃局（DARPA）于2016年啟動了可解釋人工智能（XAI）項目，項目旨在：一、生成可解釋性更高的模型，同時維持高水平的學習性能（預測準確度）；二、使人類用戶能夠理解、適度信任和有效管理新一代AI工具。該項目啟動后，取得了多項技術進步。一些XAI技術已被打包到軟件庫并進行運行。軍事人員可利用這些軟件庫來深入了解深度神經(jīng)網(wǎng)絡，同時消除其錯誤并對其進行校驗。這一步在大方向上沒有錯，但從軍事角度出發(fā)，為軍事用戶量身定制XAI技術和工具同樣關鍵，這要求其具備高解釋水平。

XAI技術

在任何會對人類生活產(chǎn)生影響的軍用高風險決策AI系統(tǒng)中，XAI都是一個關鍵組成部分。以關注短期決策的戰(zhàn)術級AI應用為例，這類AI的功能包括對無人車輛的自主控制以及武器和監(jiān)視系統(tǒng)的目標識別、跟蹤和打擊能力。在戰(zhàn)爭的作戰(zhàn)和戰(zhàn)略層面，XAI也同樣重要，而這一層面的長期決策和規(guī)劃活動可能會影響全人類。在作戰(zhàn)和戰(zhàn)略層，AI系統(tǒng)通常被用于信息分析，同時也會通過模擬來提出計劃或行動方案。XAI在軍事系統(tǒng)中的主要作用包括：

心理模型：XAI可支持用戶為AI系統(tǒng)創(chuàng)建合適的心理模型。無論軍事系統(tǒng)是否啟用了AI，用戶都必須對系統(tǒng)的運行邊界有清晰的認識，以保證對系統(tǒng)合理有效的使用。
見解：深度神經(jīng)網(wǎng)絡可用于獲取知識和識別復雜程序中人類未知的模型。通過使用XAI技術，人們可以發(fā)現(xiàn)并學習這些知識。使用強化學習開發(fā)戰(zhàn)術和戰(zhàn)略就是對XAI的一次典型運用。開發(fā)過程中，XAI可能會生成對軍事領域更深刻的見解。
法律法規(guī)：XAI可用于確保AI系統(tǒng)遵循國家和國際法律。致命自主武器系統(tǒng)（LAWS）可能是最有爭議的AI應用。有人希望禁止此類應用，也有人認為，只要LAWS能改進精度并將附帶損傷降至最小，就可以存在。瑞典國防研究所報告認為，在開發(fā)用于規(guī)定LAWS這類AI系統(tǒng)啟動的時間、地點的規(guī)則方面，XAI可發(fā)揮重要作用。
消除錯誤：文獻中有無數(shù)個將XAI用于識別深度神經(jīng)網(wǎng)絡錯誤的案例。通常情況下，如果圖片中的版權水印、模擬器虛假數(shù)據(jù)或非現(xiàn)實的游戲數(shù)據(jù)出現(xiàn)在訓練數(shù)據(jù)中，深度神經(jīng)網(wǎng)絡就會出現(xiàn)錯誤，在運行測試數(shù)據(jù)時表現(xiàn)良好，而在運行真實數(shù)據(jù)時失誤頻頻。如果能夠把XAI技術集成到開發(fā)程序中，這類問題就能夠在部署前被檢測和解決。

XAI技術主要有：全局解釋技術，如大型高維數(shù)據(jù)集的可視化技術、模型評估；局部解釋技術，如梯度顯著性、相關性分數(shù)逐層傳播技術、沙普利值附件解釋、局部可理解的與模型無關的解釋、用于解釋黑盒模型的隨機輸入采樣；混合解釋技術，如譜相關性分析。

評估XAI技術

XAI領域一個常被忽視但又至關重要的環(huán)節(jié)是對提出的XAI技術進行評估。本節(jié)將從人為因素出發(fā)，引入評估標準。人為因素評估中，作戰(zhàn)人員、分析師等用戶是衡量AI系統(tǒng)中XAI效果的核心。本節(jié)還將介紹可用于比較局部XAI技術的測試方法。

1.人為因素評估

對XAI技術的人為因素評估將測試各解釋是否考慮了全部重要因素，以便用戶充分利用AI系統(tǒng)。比如，用戶可能有不同的目的、需求、知識、經(jīng)驗、任務背景、使用案例等。和開發(fā)各類系統(tǒng)一樣，在從系統(tǒng)規(guī)格到用戶測試的AI系統(tǒng)開發(fā)全流程中，將以上因素納入考量十分重要。由于深度學習的XAI技術是一個新興的研究領域，因此該技術的初始用戶通常是對模型性能評估感興趣的系統(tǒng)開發(fā)人員。然而，目前還無法確定這些XAI技術是否對軍事用戶有用。《可解釋AI指標：挑戰(zhàn)與前景》一文給出了6個用于評估解釋的指標：

解釋優(yōu)度：在XAI技術開發(fā)過程中，從用戶的角度出發(fā)，列出一份清單。該清單以解釋方面的現(xiàn)有文獻為基礎，從解釋的7個方面進行評估，如解釋能否幫助用戶理解AI系統(tǒng)的工作方式、解釋能否使用戶滿意、解釋是否足夠詳細和全面等。
解釋滿意度：從解釋優(yōu)度出發(fā)，衡量用戶對解釋的體驗的測量量表。該量表包括8個以陳述形式表現(xiàn)的項目（7個優(yōu)度項目和1個關于解釋是否對用戶目標有用的項目）。一項效度分析顯示，該量表十分可靠，可用于區(qū)分解釋的好壞。
心理模型引導度：好的解釋可加深用戶對AI系統(tǒng)工作方式和決策原理的理解。在認知心理學中，這被稱為AI系統(tǒng)的用戶心理模型。文章建議用4個任務來衡量人工智能系統(tǒng)的用戶心理模型，如提示回顧任務，即用戶在運用AI系統(tǒng)完成一項任務后，描述其推理過程；又如預測任務，即用戶對AI系統(tǒng)后續(xù)的行為做出預測。一項對比了用戶心理模型和專家心理模型的研究顯示了用戶心理模型的完整度。
好奇心驅動度：好的解釋可以驅動用戶研究和解決心理模型中存在的知識缺口。文章建議通過要求客戶確定促使其尋求解釋的因素來衡量好奇心驅動度這一指標?？赡艿尿寗右蛩厝鏏I系統(tǒng)行動的合理性、其他選項被排除的原因、AI系統(tǒng)的運行與預期不符的原因等。
解釋信任度：好的心理模型可使用戶對AI系統(tǒng)保持適度的信任并在其運行范圍內進行操作。文章建議使用涵蓋8個項目的測量量表來衡量用戶對AI系統(tǒng)的信任度。這些項目包括用戶對使用系統(tǒng)的信心、系統(tǒng)的可預測性和可靠性等。
系統(tǒng)性能：XAI的最終目的是提升系統(tǒng)的整體性能，使其優(yōu)于未啟用XAI技術時的AI系統(tǒng)。衡量性能的指標包括主要任務目標完成度、用戶對AI系統(tǒng)響應的預測能力、用戶接受度等。

未來將會有更多研究進一步探索如何在評估AI系統(tǒng)的XAI技術時理解這些指標。

2.評估局部解釋技術

模型處理的數(shù)據(jù)類型不同，則顯著性圖的視覺效果也不同。如，熱圖通常用于處理圖像，而彩色編碼字符和單詞則通常用于處理文本。圖1展現(xiàn)了使用熱圖制作顯著性圖的視覺效果。這一案例使用梯度顯著性（1.b）和相關性分數(shù)逐層傳播技術（1.c）來為數(shù)字0（1.a）生成熱圖。圖片中的像素等重要維度用紅、橙、黃等暖色表示，不重要的維度則用暗藍、藍、淺藍等冷色表示。兩種技術顯著的不同點通過高亮維度的位置可得到直觀的展示。本節(jié)將繼續(xù)介紹用于定量比較和評估局部解釋的技術，以找出能夠給出最準確解釋的技術。

圖1. MNIST圖像及其對應的熱圖；熱圖使用梯度顯著性和相關性分數(shù)逐層傳播技術來生成。圖中的重要維度或像素用紅、橙、黃等暖色表示

①刪除

在改變或刪去輸入的過程中，通過測量模型的準確預測能力可計算出刪除指標。需要注意的是，在這種情況下，刪去意味著將輸入的值轉換為中性的事物，如圖像背景等。刪除過程由XAI技術生成的顯著性圖引導，以便在刪除相對不重要的維度中的值前，刪除相對更重要維度中的值。在刪除過程中，如果解釋較優(yōu)，則性能快速下降，反之則性能緩慢下降。

圖2使用圖1.b梯度顯著性圖說明了刪除過程。圖2.b刪除了50個最重要的像素，此時，人們依舊可以輕松地看出該圖展示的是數(shù)字0。圖2.f刪除了過半的像素（400個像素），此時，人們很難認出圖片展示的是數(shù)字0。

圖2. 從MNIST圖像的刪除過程中導出的6張圖片，這些圖片分別刪除了0、50、100、200、300和400像素

②插入

插入指標是刪除的互補方法。圖3用刪除過程中使用的MNIST圖像展示了插入過程。圖3.a的全黑圖像為初始輸入，隨著越來越多的輸入維度按照顯著性圖的優(yōu)先順序插入，可以檢測到準確性不斷提高。插入過程中，在輸入中插入的信息越多，模型預測的準確度應隨之提高，也就是說，解釋較優(yōu)時，準確性提高的速度會更快，反之則更慢。

圖3. 從MNIST圖像的插入過程中導出的6張圖片，這些圖片分別插入了0、50、100、200、300、400像素

③評估指標

本報告為演示刪除和插入過程，使用了梯度顯著性和相關性分數(shù)逐層傳播技術。演示中使用了分類器以及從MINST數(shù)據(jù)集中隨機抽取的100張采樣圖像來評估XAI技術。

圖4和圖5分別展示了插入和刪除過程的結果。曲線下面積（AUC）這一測量值可用于對多個XAI技術進行定量比較。在刪除過程中，較小的AUC值優(yōu)于較大的AUC值，而在插入過程中則相反，為較大的AUC值優(yōu)于較小的AUC值。

從圖4可以看出，相關性分數(shù)逐層傳播技術的性能曲線降幅更大，并且在刪除過程中收斂到較低的平均概率值。這一點與熱圖一致，與梯度顯著性的熱圖相比，相關性分數(shù)逐層傳播技術的熱圖中暖色更少（見圖1.b和圖1.c），這說明，與梯度顯著性相比，相關性分數(shù)逐層傳播技術能夠用更少的特征更快地找到解釋。從圖5中也可以得出同樣的結論。從圖5.b中可以看出，在插入僅幾十個特征后，平均概率急速上升，并在插入約100個特征后達到高性能水平。

圖4. 梯度顯著性和相關性分數(shù)逐層傳播技術的刪除曲線

圖5. 梯度顯著性和相關性分數(shù)逐層傳播技術的插入曲線

結論

深度學習將用于補充和替代軍事系統(tǒng)中的部分功能。事實上，用于從海量圖像數(shù)據(jù)中自主探測和跟蹤興趣目標的軍用監(jiān)視系統(tǒng)已經(jīng)開始評估深度學習技術。與傳統(tǒng)的軟件技術相比，深度學習技術擁有多項優(yōu)勢，其中最重要的一項優(yōu)勢是，深度學習可用于傳統(tǒng)軟件技術無法完成的復雜建模流程。此外，深度學習還可以促進主動學習，通過AI系統(tǒng)與用戶的互動來獲得用于增強作戰(zhàn)系統(tǒng)模型的高質量數(shù)據(jù)。

然而，這些優(yōu)勢也在技術和作戰(zhàn)層面帶來了挑戰(zhàn)。報告就重點關注了可解釋性帶來的挑戰(zhàn)。深度學習的劣勢在于，盡管學習算法、模型架構和訓練數(shù)據(jù)都不算陌生且易于理解，但模型本身的行為卻難以解釋。通常情況下，這一點在音樂推送、廣告推薦等民用應用中不是問題，但在軍事領域，理解和解釋AI系統(tǒng)的行為卻是至關重要。這是因為，無論是在作戰(zhàn)層面，還是在需要軍方領導和政治決策者進行長期決策的戰(zhàn)略層面，AI系統(tǒng)提供的決策和建議都可能會對全人類的生活造成深遠影響。

雖然戰(zhàn)斗機、潛艇、坦克和指控決策支持工具等復雜軍事系統(tǒng)同樣難以掌握，但構建這些系統(tǒng)的技術本質上是可解釋的，因此這些系統(tǒng)如果出現(xiàn)錯誤，可以通過對整個系統(tǒng)的排查來找出問題并加以解決。然而，這在深度學習領域是難以實現(xiàn)的?，F(xiàn)實應用中的深度神經(jīng)網(wǎng)絡通常由幾百萬甚至幾十億參數(shù)組成，即使是模型的制造者也無法系統(tǒng)地解決模型中出現(xiàn)的錯誤。

報告提出了多個用于解決可解釋性挑戰(zhàn)的前沿XAI技術。值得注意的是，盡管本報告在這方面獲得了部分進展，但用于軍用深度學習應用的AI技術依舊處于發(fā)展初期。并且，報告提出的這些XAI技術尚未經(jīng)過軍事環(huán)境的檢驗，因此無法保證現(xiàn)有XAI技術能夠賦能高風險軍事AI系統(tǒng)對深度學習的使用。

本站僅提供存儲服務，所有內容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內容，請點擊舉報。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

XAI技術

評估XAI技術

結論