【導(dǎo)讀】可解釋人工智能(Explainable Artificial Intelligence)旨在于具備可為人類所理解的功能或運(yùn)作機(jī)制,擁有透明度, 是當(dāng)前AI研究的熱點(diǎn),是構(gòu)建和諧人機(jī)協(xié)作世界必要的條件,是構(gòu)建負(fù)責(zé)任人工智能的基礎(chǔ)。最近來自法國西班牙等8家機(jī)構(gòu)12位學(xué)者共同發(fā)表了關(guān)于可解釋人工智能XAI最新進(jìn)展的綜述論文《Explainable Artificial Intelligence (XAI): Concepts, Taxonomies,Opportunities and Challenges toward Responsible AI》,共67頁pdf調(diào)研了402篇文獻(xiàn),講解了最新可解釋人工智能的進(jìn)展,集大成者,梳理了XAI的體系,并提出構(gòu)建負(fù)責(zé)任人工智能的內(nèi)涵,非常具有指引性。
摘要
在過去的幾年里,人工智能(AI)取得了顯著的發(fā)展勢頭,在不同領(lǐng)域的許多應(yīng)用中它可能會帶來最好的預(yù)期。當(dāng)這種情況發(fā)生時,整個社區(qū)都面臨可解釋性的障礙,這是人工智能技術(shù)的一個內(nèi)在問題,它是由次象征主義(模型例如集成算法或深層神經(jīng)網(wǎng)絡(luò))帶來的,而這些在人工智能的最上一次高潮中是不存在的。這個問題背后的范例屬于所謂的可解釋AI (XAI)領(lǐng)域,它被認(rèn)為是AI模型實際部署的一個關(guān)鍵特性。本文綜述了XAI領(lǐng)域的現(xiàn)有文獻(xiàn),并對未來的研究方向進(jìn)行了展望。我們總結(jié)了在機(jī)器學(xué)習(xí)中定義可解釋性的前期工作,建立了一個新的定義,它涵蓋了先前的概念命題,主要關(guān)注可解釋性所關(guān)心的受眾。然后,我們提出并討論了與不同機(jī)器學(xué)習(xí)模型的可解釋性相關(guān)的最近貢獻(xiàn)的分類,包括那些旨在建立第二種體系的深度學(xué)習(xí)方法。這篇文獻(xiàn)分析為XAI面臨的一系列挑戰(zhàn)提供了背景,比如數(shù)據(jù)融合和可解釋性之間的十字路口。我們構(gòu)建了負(fù)責(zé)任的人工智能的概念,即一種以公平、模型可解釋性和問責(zé)性為核心的在真實組織中大規(guī)模實施人工智能方法的方法。最終目標(biāo)是為XAI的新來者提供參考資料,以促進(jìn)未來的研究進(jìn)展,同時也鼓勵其他學(xué)科的專家和專業(yè)人員在他們的活動領(lǐng)域擁抱AI的好處,而不是因為它缺乏可解釋性而事先有任何偏見。
關(guān)鍵詞: 可解釋人工智能,機(jī)器學(xué)習(xí),深度學(xué)習(xí),數(shù)據(jù)融合,可解釋性,可理解性,透明性,隱私,公平性,可問責(zé)性,負(fù)責(zé)任的人工智能。
目錄
1. 引言
2. 可解釋性: 是什么,為什么,什么目標(biāo),怎么做?
3. 透明機(jī)器學(xué)習(xí)模型
4. 機(jī)器學(xué)習(xí)模型的后解釋技術(shù):分類法、淺層模型和深度學(xué)習(xí)
5. XAI:機(jī)遇、挑戰(zhàn)和研究需求
6. 走向負(fù)責(zé)任的人工智能:人工智能、公平、隱私和數(shù)據(jù)融合的原則
7. 結(jié)論和展望
1. 引言
人工智能(AI)是許多采用新信息技術(shù)的活動領(lǐng)域的核心。人工智能的起源可以追溯到幾十年前,人們對于智能機(jī)器具有學(xué)習(xí)、推理和適應(yīng)能力的重要性有著明確的共識。正是憑借這些能力,人工智能方法在學(xué)習(xí)解決日益復(fù)雜的計算任務(wù)時達(dá)到了前所未有的性能水平,這對人類社會[2]的未來發(fā)展至關(guān)重要。近來,人工智能系統(tǒng)的復(fù)雜程度已經(jīng)提高到幾乎不需要人為干預(yù)來設(shè)計和部署它們。當(dāng)來自這些系統(tǒng)的決策最終影響到人類的生活(例如,醫(yī)學(xué)、法律或國防)時,就有必要了解這些決策是如何由人工智能方法[3]提供的。
最早的人工智能系統(tǒng)是很容易解釋的,過去的幾年見證了不透明的決策系統(tǒng)的興起,比如深度神經(jīng)網(wǎng)絡(luò)(DNNs)。深度學(xué)習(xí)(DL)模型(如DNNs)的經(jīng)驗成功源于高效的學(xué)習(xí)算法及其巨大的參數(shù)空間的結(jié)合。后一個空間由數(shù)百層和數(shù)百萬個參數(shù)組成,這使得DNNs被認(rèn)為是復(fù)雜的黑盒模型[4]。black-box-ness的反義詞是透明性,即以尋求對模型工作機(jī)理的直接理解。
隨著黑箱機(jī)器學(xué)習(xí)(ML)模型越來越多地被用于在關(guān)鍵環(huán)境中進(jìn)行重要的預(yù)測,人工智能[6]的各個利益相關(guān)者對透明度的要求也越來越高。危險在于做出和使用的決策不合理、不合法,或者不允許對其行為進(jìn)行詳細(xì)的解釋。支持模型輸出的解釋是至關(guān)重要的,例如,在精準(zhǔn)醫(yī)療中,為了支持診斷[8],專家需要從模型中獲得遠(yuǎn)比簡單的二進(jìn)制預(yù)測多得多的信息。其他例子包括交通、安全、金融等領(lǐng)域的自動駕駛汽車。
一般來說,考慮到對合乎道德的人工智能[3]日益增長的需求,人類不愿采用不能直接解釋、處理和信任的[9]技術(shù)。習(xí)慣上認(rèn)為,如果只關(guān)注性能,系統(tǒng)將變得越來越不透明。從模型的性能和它的透明性[10]之間的權(quán)衡來看,這是正確的。然而,對一個系統(tǒng)理解的提高可以導(dǎo)致對其缺陷的修正。在開發(fā)ML模型時,將可解釋性考慮為額外的設(shè)計驅(qū)動程序可以提高其可實現(xiàn)性,原因有三:
可解釋性有助于確保決策的公正性,即檢測并糾正訓(xùn)練數(shù)據(jù)集中的偏差。
可解釋性通過強(qiáng)調(diào)可能改變預(yù)測的潛在對抗性擾動,促進(jìn)了穩(wěn)健性的提供。
可解釋性可以作為一種保證,即只有有意義的變量才能推斷出輸出,即,以確保模型推理中存在真實的因果關(guān)系。
這意味著,為了考慮實際,系統(tǒng)的解釋應(yīng)該要么提供對模型機(jī)制和預(yù)測的理解,要么提供模型識別規(guī)則的可視化,要么提供可能擾亂模型[11]的提示。
為了避免限制當(dāng)前一代人工智能系統(tǒng)的有效性,可解釋人工智能(XAI)[7]建議創(chuàng)建一套ML技術(shù),1) 產(chǎn)生更多可解釋的模型,同時保持高水平的學(xué)習(xí)性能(如預(yù)測準(zhǔn)確性),2) 使人類能夠理解、適當(dāng)信任和有效管理新一代人工智能伙伴。XAI還借鑒了社會科學(xué)的[12],并考慮了解釋心理學(xué)。
圖1: 過去幾年中,標(biāo)題、摘要和/或關(guān)鍵詞涉及XAI領(lǐng)域的出版物總數(shù)的變化。通過提交圖中所示的查詢從Scopus R數(shù)據(jù)庫檢索到的數(shù)據(jù)(2019年10月14日)。值得注意的是,隨著時間的推移,對可解釋的AI模型的潛在需求(這符合直覺,因為在許多場景中,可解釋性是一種要求),但直到2017年,解釋AI模型的技術(shù)興趣才滲透到整個研究領(lǐng)域。
這篇綜述的其余部分的結(jié)構(gòu)如下:首先,第2節(jié)和其中的子節(jié)圍繞AI中的可解釋性和可解釋性展開了關(guān)于術(shù)語和概念的討論,最后得出前面提到的可解釋性的新定義(第2.1和2.2小節(jié)),以及從XAI的角度對ML模型進(jìn)行分類和分析的一般標(biāo)準(zhǔn)。第3節(jié)和第4節(jié)回顧了ML模型(分別是透明模型和事后技術(shù))的XAI的最新發(fā)現(xiàn),它們構(gòu)成了上述分類中的主要部分。同時,我們也回顧了這兩種方法的混合,以達(dá)到XAI。在第5節(jié)中討論了各種方法之間的協(xié)同作用的好處和注意事項,在這里,我們提出了對一般挑戰(zhàn)的展望和需要謹(jǐn)慎對待的一些后果。最后,第6節(jié)闡述了負(fù)責(zé)任的人工智能的概念。第7節(jié)總結(jié)了調(diào)查,目的是讓社區(qū)參與到這一充滿活力的研究領(lǐng)域中來,這一領(lǐng)域有可能影響社會,特別是那些逐漸將ML作為其活動核心技術(shù)的部門。
2. 可解釋性: 是什么,為什么,怎么做?
在繼續(xù)我們的文獻(xiàn)研究之前,我們可以先建立一個共同的觀點(diǎn)來理解在AI的可解釋性這個術(shù)語,更具體地說是ML中的含義。這確實是本節(jié)的目的,即暫停對這個概念的大量定義(什么?),討論為什么可解釋性在AI和ML中是一個重要的問題(為什么?目的何在?),并介紹XAI方法的一般分類,這將推動此后的文獻(xiàn)研究(如何?)。
2.1 術(shù)語說明
Understandability(或等同地,intelligibility)指的是一個模型的特征,使人理解其功能——模型如何工作——而不需要解釋其內(nèi)部結(jié)構(gòu)或模型內(nèi)部處理數(shù)據(jù)[18]的算法方法。
Comprehensibility: 在ML模型中,可理解性是指學(xué)習(xí)算法以人類可理解的方式表示其已學(xué)知識的能力[19,20,21]。這種模型可理解性的概念源于Michalski[22]的假設(shè),即“計算機(jī)歸納的結(jié)果應(yīng)該是對給定實體的符號描述,在語義和結(jié)構(gòu)上類似于人類專家可能產(chǎn)生的觀察相同實體的結(jié)果。”這些描述的組成部分應(yīng)作為單一的‘信息塊’可理解,可直接用自然語言解釋,并應(yīng)以綜合方式將定量和定性概念聯(lián)系起來”。由于難以量化,可理解性通常與模型復(fù)雜度[17]的評估聯(lián)系在一起。
Interpretability可解釋性是指以可理解的語言向人類解釋或提供意義的能力。
Explainability可解釋性與作為人類和決策者之間的接口的解釋概念相關(guān),同時,這也是決策者的準(zhǔn)確代理,也是人類可以理解的[17]。
Transparency 透明度:如果一個模型本身是可以理解的,那么它就被認(rèn)為是透明的。由于模型具有不同程度的可理解性,因此第3節(jié)中的透明模型分為三類: 可模擬模型、可分解模型和算法透明模型[5]。
2.2 什么?
雖然這可能被認(rèn)為超出了本文的范圍,但值得注意的是在哲學(xué)領(lǐng)域[23]中圍繞一般解釋理論展開的討論。在這方面已經(jīng)提出了許多建議,建議需要一種普遍的、統(tǒng)一的理論來近似解釋的結(jié)構(gòu)和意圖。然而,在提出這樣一個普遍的理論時,沒有人經(jīng)得起批評。就目前而言,最一致的想法是將不同的解釋方法從不同的知識學(xué)科中融合在一起。在處理人工智能的可解釋性時也發(fā)現(xiàn)了類似的問題。從文獻(xiàn)中似乎還沒有一個共同的觀點(diǎn)來理解什么是可解釋性或可解釋性。然而,許多貢獻(xiàn)聲稱是可解釋(interpretable)模型和技術(shù)的成就增強(qiáng)了可解釋性(explainability).
為了闡明這種缺乏共識的情況,我們不妨以D. Gunning在[7]中給出的可解釋人工智能(XAI)的定義作為參考起點(diǎn):
“XAI將創(chuàng)造一套機(jī)器學(xué)習(xí)技術(shù),使人類用戶能夠理解、適當(dāng)信任并有效管理新一代人工智能合作伙伴。
這個定義結(jié)合了兩個需要提前處理的概念(理解和信任)。然而,它忽略了其他目的,如因果關(guān)系、可轉(zhuǎn)移性、信息性、公平性和信心等,從而激發(fā)了對可解釋AI模型的需求[5,24,25,26]。
進(jìn)一步修正,我們給出explainable AI的定義:
給定一個受眾,一個可解釋的人工智能是一個產(chǎn)生細(xì)節(jié)或理由使其功能清晰或容易理解的人工智能。
這個定義在這里作為當(dāng)前概述的第一個貢獻(xiàn),隱含地假設(shè)XAI技術(shù)針對當(dāng)前模型的易用性和清晰性在不同的應(yīng)用目的上有所恢復(fù),比如更好地讓用戶信任模型的輸出。
2.3 為什么?
如引言所述,可解釋性是人工智能在實際應(yīng)用中面臨的主要障礙之一。無法解釋或完全理解最先進(jìn)的ML算法表現(xiàn)得如此出色的原因是一個問題,它的根源有兩個不同的原因,如圖2所示。
圖2: 圖中顯示了在ML模型中由不同的用戶配置文件尋找的可解釋性的不同目的。它們有兩個目標(biāo):模型理解的需要和法規(guī)遵從性。
2.4 什么目標(biāo)?
到目前為止,圍繞XAI的研究已經(jīng)揭示出了不同的目標(biāo),以便從一個可解釋的模型的實現(xiàn)中得出結(jié)論。幾乎沒有一篇被調(diào)研的論文在描述一個可解釋的模型所要求的目標(biāo)上是完全一致的。盡管如此,所有這些不同的目標(biāo)都可能有助于區(qū)分特定的ML可解釋性的目的。不幸的是,很少有人試圖從概念的角度來界定這些目標(biāo)[5、13、24、30]。我們現(xiàn)在綜合并列舉這些XAI目標(biāo)的定義,以便為這篇綜述涵蓋的所有論文確定第一個分類標(biāo)準(zhǔn):
圖3. 可解釋AI不同的度量維度
可信賴性Trustworthiness:一些作者同意將可信賴性作為可解釋AI模型的主要目標(biāo)[31,32]。然而,根據(jù)模型誘導(dǎo)信任的能力將模型聲明為可解釋的可能并不完全符合模型可解釋性的要求。可信度可以被認(rèn)為是一個模型在面對給定問題時是否會按預(yù)期行事的信心。雖然它肯定是任何可解釋模型的一個屬性,但它并不意味著每一個值得信任的模型都可以被認(rèn)為是可解釋的,可信度也不是一個容易量化的屬性。信任可能遠(yuǎn)遠(yuǎn)不是可解釋模型的唯一目的,因為兩者之間的關(guān)系,如果達(dá)成一致,并不是相互的。在綜述的論文中,有一部分提到了信任的概念。但是,如表1所示,它們在最近與XAI相關(guān)的貢獻(xiàn)中所占的份額并不大。
因果關(guān)系Causality:可解釋性的另一個常見目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)變量之間的因果關(guān)系。一些作者認(rèn)為,可解釋的模型可能簡化了尋找關(guān)系的任務(wù),如果它們發(fā)生,可以進(jìn)一步測試所涉及的變量之間更強(qiáng)的因果關(guān)系[159,160]。從觀測數(shù)據(jù)推斷因果關(guān)系是一個隨著時間的推移已經(jīng)被廣泛研究的領(lǐng)域[161]。正如從事這一主題的社區(qū)所廣泛承認(rèn)的那樣,因果關(guān)系需要一個廣泛的先驗知識框架來證明所觀察到的影響是因果關(guān)系。ML模型只發(fā)現(xiàn)它所學(xué)習(xí)的數(shù)據(jù)之間的相關(guān)性,因此可能不足以揭示因果關(guān)系。然而,因果關(guān)系涉及到相關(guān)性,所以一個可解釋的ML模型可以驗證因果推理技術(shù)提供的結(jié)果,或者在現(xiàn)有數(shù)據(jù)中提供可能的因果關(guān)系的第一直覺。同樣,表1顯示,如果我們關(guān)注那些將因果關(guān)系明確表述為目標(biāo)的論文數(shù)量,因果關(guān)系就不是最重要的目標(biāo)之一。
可轉(zhuǎn)移性Transferability: 模型總是受到一些約束,這些約束應(yīng)該考慮到模型的無縫可轉(zhuǎn)移性。這就是為什么在處理ML問題時使用訓(xùn)練-測試方法的主要原因[162,163]??山忉屝砸彩强赊D(zhuǎn)移性的倡導(dǎo)者,因為它可以簡化闡明可能影響模型的邊界的任務(wù),從而更好地理解和實現(xiàn)。類似地,僅僅理解模型中發(fā)生的內(nèi)部關(guān)系有助于用戶在另一個問題中重用這些知識。在某些情況下,缺乏對模型的正確理解可能會將用戶推向錯誤的假設(shè)和致命的后果[44,164]。可轉(zhuǎn)移性也應(yīng)該落在可解釋模型的結(jié)果屬性之間,但同樣,不是每個可轉(zhuǎn)讓性模型都應(yīng)該被認(rèn)為是可解釋的。正如在表1中所觀察到的,大量的論文指出,將一個模型描述為可解釋的是為了更好地理解復(fù)用它或提高它的性能所需要的概念,這是追求模型可解釋性的第二個最常用的理由。
信息性Informativeness: ML模型的最終目的是支持決策[92]。然而,不應(yīng)該忘記的是,模型所解決的問題并不等于它的人類對手所面臨的問題。因此,為了能夠?qū)⒂脩舻臎Q策與模型給出的解決方案聯(lián)系起來,并避免陷入誤解的陷阱,需要大量的信息。為此,可解釋的ML模型應(yīng)該提供有關(guān)正在處理的問題的信息。在文獻(xiàn)綜述中發(fā)現(xiàn)的主要原因是為了提取模型內(nèi)部關(guān)系的信息。幾乎所有的規(guī)則提取技術(shù)都證實了它們在尋找模型內(nèi)部功能的更簡單理解方面的方法,說明知識(信息)可以用這些更簡單的代理來表示,它們認(rèn)為這些代理可以解釋先行詞。這是在綜述的論文中發(fā)現(xiàn)的最常用的論點(diǎn),用來支持他們所期望的可解釋模型。
置信度Confidence: 作為穩(wěn)健性和穩(wěn)定性的概括,置信度的評估應(yīng)該始終基于一個預(yù)期可靠性的模型。在控制下保持信心的方法因模型的不同而不同。正如在[165,166,167]中所述,當(dāng)從某個模型中提取解釋時,穩(wěn)定性是必須具備的??煽康慕忉尣粦?yīng)該由不穩(wěn)定的模型產(chǎn)生。因此,一個可解釋的模型應(yīng)該包含關(guān)于其工作機(jī)制可信度的信息。
公平性Fairness:從社會的角度來看,在ML模型中,可解釋性可以被認(rèn)為是達(dá)到和保證公平性的能力。在一個特定的文獻(xiàn)鏈中,一個可解釋的ML模型建議對影響結(jié)果的關(guān)系進(jìn)行清晰的可視化,允許對手頭的模型進(jìn)行公平或倫理分析[3,100]。同樣,XAI的一個相關(guān)目標(biāo)是強(qiáng)調(diào)模型所暴露的數(shù)據(jù)中的偏差[168,169]。在涉及人類生活的領(lǐng)域,對算法和模型的支持正在迅速增長,因此,可解釋性應(yīng)被視為避免不公平或不道德地使用算法輸出的橋梁。
Accessibility可訪問性: 評審貢獻(xiàn)的認(rèn)為可解釋性是允許最終用戶更多地參與改進(jìn)和開發(fā)某個ML模型的過程的屬性[37,86]。顯然,可解釋的模型將減輕非技術(shù)或非專業(yè)用戶在處理乍一看似乎不可理解的算法時的負(fù)擔(dān)。這一概念在被調(diào)查的文獻(xiàn)中被認(rèn)為是第三個最重要的目標(biāo)。
交互性Interactivity: 一些貢獻(xiàn)[50,59]包括模型與用戶交互的能力,這是可解釋的ML模型的目標(biāo)之一。同樣,這個目標(biāo)與最終用戶非常重要的領(lǐng)域相關(guān),他們調(diào)整模型并與之交互的能力是確保成功的關(guān)鍵。
隱私意識Privacy awareness: 在回顧的文獻(xiàn)中,幾乎被遺忘的是,ML模型中可解釋性的副產(chǎn)品之一是它評估隱私的能力。ML模型可能具有其所學(xué)習(xí)模式的復(fù)雜表示。無法理解模型[4]捕獲并存儲在其內(nèi)部表示中的內(nèi)容可能會導(dǎo)致隱私被破壞。相反,由未經(jīng)授權(quán)的第三方解釋訓(xùn)練過的模型的內(nèi)部關(guān)系的能力也可能會損害數(shù)據(jù)來源的差異隱私。由于其在XAI預(yù)計將發(fā)揮關(guān)鍵作用的行業(yè)中的重要性,機(jī)密性和隱私問題將分別在第5.4和6.3小節(jié)中進(jìn)一步討論。
本小節(jié)回顧了所調(diào)研論文的廣泛范圍內(nèi)所涉及的目標(biāo)。所有這些目標(biāo)都清楚地隱藏在本節(jié)前面介紹的可解釋性概念的表面之下。為了總結(jié)之前對可解釋性概念的分析,最后一小節(jié)討論了社區(qū)為解決ML模型中的可解釋性所采取的不同策略。
2.5 怎么樣?
文獻(xiàn)明確區(qū)分了可以通過設(shè)計解釋的模型和可以通過外部XAI技術(shù)解釋的模型。這種雙重性也可以看作是可解釋模型與模型可解釋技術(shù)的區(qū)別;更廣泛接受的分類是透明模型和事后可解釋性。同樣的對偶性也出現(xiàn)在[17]的論文中,作者所做的區(qū)分是指解決透明盒設(shè)計問題的方法,而不是解釋黑盒子問題的方法。這項工作進(jìn)一步擴(kuò)展了透明模型之間的區(qū)別,包括考慮的不同透明度級別。
在透明性中,考慮了三個層次: 算法透明性、可分解性和可模擬性。在后設(shè)技術(shù)中,我們可以區(qū)分文本解釋、可視化、局部解釋、實例解釋、簡化解釋和特征關(guān)聯(lián)。在這種情況下,[24] 提出了一個更廣泛的區(qū)別: 1)區(qū)分不透明的系統(tǒng),其中從輸入到輸出的映射對用戶來說是不可見的; 2)可解釋系統(tǒng),用戶可以對映射進(jìn)行數(shù)學(xué)分析; 3)可理解的系統(tǒng),在這個系統(tǒng)中,模型應(yīng)該輸出符號或規(guī)則以及它們的特定輸出,以幫助理解映射背后的基本原理。最后一個分類標(biāo)準(zhǔn)可以被認(rèn)為包含在前面提出的分類標(biāo)準(zhǔn)中,因此本文將嘗試遵循更具體的分類標(biāo)準(zhǔn)。
圖4. 概念圖舉例透明度的不同層次描述M?毫升模型,與?表示模型的參數(shù)集的手:(一)可模擬性;(b)可分解性;(c)算法的透明度。
圖5. 概念圖顯示了不同的因果explainability方法可供M?毫升模型
3. 透明機(jī)器學(xué)習(xí)模型
前一節(jié)介紹了透明模型的概念。如果一個模型本身是可以理解的,那么它就被認(rèn)為是透明的。本節(jié)調(diào)查的模型是一套透明模型,它可以屬于前面描述的模型透明性的一個或所有級別(即可模擬性、可分解性和算法透明性)。在接下來的部分中,我們提供了該語句的理由,并提供了圖6與圖7中所示支持。
圖6:ML模型可解釋性分類的總體情況
圖7: 本綜述中所考慮的不同ML模型的透明度水平的圖形說明:(a)線性回歸;(b)決策樹;(c)再鄰居;(d)基于規(guī)則的學(xué)習(xí)者;(e)廣義可加模型;(f)貝葉斯模型。
4. 機(jī)器學(xué)習(xí)模型的后解釋技術(shù):分類法、淺層模型和深度學(xué)習(xí)
當(dāng)ML模型不滿足宣布它們透明的任何標(biāo)準(zhǔn)時,必須設(shè)計一個單獨(dú)的方法并應(yīng)用于模型來解釋它的決策。這就是事后可解釋性技術(shù)(也稱為建模后可解釋性)的目的,它的目的是交流關(guān)于已經(jīng)開發(fā)的模型如何對任何給定輸入產(chǎn)生預(yù)測的可理解信息。在本節(jié)中,我們將對不同的算法方法進(jìn)行分類和回顧,這些算法方法用于事后可解釋性,區(qū)別于1) 那些為應(yīng)用于任何類型的ML模型而設(shè)計的算法方法; 2) 那些是為特定的ML模型設(shè)計的,因此,不能直接推斷到任何其他學(xué)習(xí)者?,F(xiàn)在,我們詳細(xì)闡述了不同ML模型的事后可解釋性方面的趨勢,這些趨勢在圖8中以分層目錄的形式進(jìn)行了說明,并在下面進(jìn)行了總結(jié):
用于事后解釋的模型無關(guān)技術(shù)(4.1小節(jié)),可以無縫地應(yīng)用于任何ML模型,而不考慮其內(nèi)部處理或內(nèi)部表示。
專為解釋某些ML模型而定制或?qū)iT設(shè)計的事后解釋能力。我們將我們的文獻(xiàn)分析分為兩個主要的分支:淺層ML模型的事后可解釋性的貢獻(xiàn),這些貢獻(xiàn)統(tǒng)稱為所有不依賴于神經(jīng)處理單元的分層結(jié)構(gòu)的ML模型(第4.2小節(jié));以及為深度學(xué)習(xí)模型設(shè)計的技術(shù),這些技術(shù)相應(yīng)地表示神經(jīng)網(wǎng)絡(luò)家族和相關(guān)變體,如卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)(4.3小節(jié))和包含深度神經(jīng)網(wǎng)絡(luò)和透明模型的混合方案。對于每一個模型,我們都對研究界提出的最新的事后方法進(jìn)行了徹底的審查,并確定了這些貢獻(xiàn)所遵循的趨勢。
我們以4.4小節(jié)結(jié)束了我們的文獻(xiàn)分析,在4.4小節(jié)中,我們提出了第二種分類法,通過對處理深度學(xué)習(xí)模型的事后解釋的貢獻(xiàn)進(jìn)行分類,對圖6中更一般的分類進(jìn)行了補(bǔ)充。為此,我們將重點(diǎn)關(guān)注與這類黑盒ML方法相關(guān)的特定方面,并展示它們?nèi)绾捂溄拥降谝环N分類法中使用的分類標(biāo)準(zhǔn)。
圖8. 綜述文獻(xiàn)的分類和與不同ML模型相關(guān)的可解釋性技術(shù)的趨勢。用藍(lán)色、綠色和紅色框起來的引用分別對應(yīng)于使用圖像、文本或表格數(shù)據(jù)的XAI技術(shù)。為了建立這種分類法,對文獻(xiàn)進(jìn)行了深入分析,以區(qū)分是否可以將后適應(yīng)技術(shù)無縫地應(yīng)用于任何ML模型,即使在其標(biāo)題和/或摘要中明確提到了深度學(xué)習(xí)。
4.1 用于事后可解釋性的模型不可知技術(shù)
用于事后可解釋性的模型無關(guān)技術(shù)被設(shè)計成插入到任何模型,目的是從其預(yù)測過程中提取一些信息。有時,使用簡化技術(shù)來生成模仿其前身的代理,目的是為了獲得易于處理和降低復(fù)雜性的東西。其他時候,意圖集中在直接從模型中提取知識,或者簡單地將它們可視化,以簡化對其行為的解釋。根據(jù)第2節(jié)中介紹的分類法,與模型無關(guān)的技術(shù)可能依賴于模型簡化、特征相關(guān)性估計和可視化技術(shù)。
4.2 淺ML模型的事后解釋能力
Shallow ML覆蓋了多種監(jiān)督學(xué)習(xí)模型。在這些模型中,有一些嚴(yán)格可解釋的(透明的)方法(如KNN和決策樹,已經(jīng)在第3節(jié)中討論過)??紤]到它們在預(yù)測任務(wù)中的突出地位和顯著性能,本節(jié)將集中討論兩種流行的淺ML模型(樹集成和支持向量機(jī),SVMs),它們需要采用事后可解釋性技術(shù)來解釋它們的決策
4.3 深度學(xué)習(xí)的可解釋性
事后局部解釋和特征相關(guān)技術(shù)正日益成為解釋DNNs的主要方法。本節(jié)回顧了最常用的DL模型,即多層神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的可解釋性研究。
圖9: 混合模型的圖示。一個被認(rèn)為是黑箱的神經(jīng)網(wǎng)絡(luò)可以通過將其與一個更具解釋性的模型相關(guān)聯(lián)來解釋,如決策樹[298]、一個(模糊的)基于規(guī)則的系統(tǒng)[19]或KNN[259]。
圖10:(a) 可選的深度學(xué)習(xí)特定分類擴(kuò)展自[13]的分類;(b)它與圖6中的分類法的聯(lián)系。
5. XAI:機(jī)遇、挑戰(zhàn)和研究需求
現(xiàn)在,我們利用已完成的文獻(xiàn)回顧,對ML和數(shù)據(jù)融合模型的可解釋性領(lǐng)域的成就、趨勢和挑戰(zhàn)提出了批評。實際上,我們在討論到目前為止在這一領(lǐng)域取得的進(jìn)展時,已經(jīng)預(yù)見到了其中的一些挑戰(zhàn)。在本節(jié)中,我們將重新審視這些問題,并為XAI探索新的研究機(jī)會,找出可能的研究路徑,以便在未來幾年有效地解決這些問題:
在可解釋性和性能之間的權(quán)衡
可解釋性與性能的問題是一個隨著時間不斷重復(fù)的問題,但就像任何其他大命題一樣,它的周圍充滿了神話和誤解。
圖11: 模型可解釋性和性能之間的權(quán)衡,以及XAI技術(shù)和工具潛力所在的改進(jìn)領(lǐng)域的表示
6. 走向負(fù)責(zé)任的人工智能:人工智能、公平、隱私和數(shù)據(jù)融合的原則
多年來,許多組織,無論是私人的還是公共的,都發(fā)布了指導(dǎo)方針,指出人工智能應(yīng)該如何開發(fā)和使用。這些指導(dǎo)方針通常被稱為人工智能原則,它們處理與個人和整個社會潛在的人工智能威脅相關(guān)的問題。本節(jié)將介紹一些最重要和被廣泛認(rèn)可的原則,以便將XAI(通常出現(xiàn)在它自己的原則中)與所有這些原則聯(lián)系起來。如果在實踐中尋求一個負(fù)責(zé)任的AI模型的實現(xiàn)和使用,我們公司聲稱XAI本身是不夠的。其他重要的人工智能原則,如隱私和公平,在實踐中必須謹(jǐn)慎處理。在接下來的章節(jié)中,我們將詳細(xì)闡述負(fù)責(zé)任人工智能的概念,以及XAI和數(shù)據(jù)融合在實現(xiàn)其假設(shè)原則中的含義。
6.1 人工智能原則 Principles of Artificial Intelligence
使用人工智能系統(tǒng)后的輸出不應(yīng)導(dǎo)致在種族、宗教、性別、性取向、殘疾、種族、出身或任何其他個人條件方面對個人或集體產(chǎn)生任何形式的歧視。因此,在優(yōu)化人工智能系統(tǒng)的結(jié)果時要考慮的一個基本標(biāo)準(zhǔn)不僅是它們在錯誤優(yōu)化方面的輸出,而且是系統(tǒng)如何處理這些狀況。這定義了公平AI的原則。
人們應(yīng)該知道什么時候與人交流,什么時候與人工智能系統(tǒng)交流。人們還應(yīng)該知道他們的個人信息是否被人工智能系統(tǒng)使用,以及用于什么目的。確保對人工智能系統(tǒng)的決策有一定程度的理解是至關(guān)重要的。這可以通過使用XAI技術(shù)來實現(xiàn)。重要的是,生成的解釋要考慮將接收這些解釋的用戶的配置文件(根據(jù)小節(jié)2.2中給出的定義,所謂的受眾),以便調(diào)整透明度級別,如[45]中所示。這定義了透明和可解釋AI的原則。
人工智能產(chǎn)品和服務(wù)應(yīng)始終與聯(lián)合國的可持續(xù)發(fā)展目標(biāo)保持一致[375],并以積極和切實的方式為之做出貢獻(xiàn)。因此,人工智能應(yīng)該總是為人類和公共利益帶來好處。這定義了以人為中心的人工智能的原則(也稱為社會公益的人工智能[376])。
人工智能系統(tǒng),尤其是當(dāng)它們由數(shù)據(jù)提供信息時,應(yīng)該在其整個生命周期中始終考慮隱私和安全標(biāo)準(zhǔn)。這一原則并不排斥人工智能系統(tǒng),因為它與許多其他軟件產(chǎn)品共享。因此,它可以從公司內(nèi)部已經(jīng)存在的流程中繼承。這通過設(shè)計定義了隱私和安全的原則,這也被認(rèn)為是負(fù)責(zé)任的研究和創(chuàng)新范式下智能信息系統(tǒng)面臨的核心倫理和社會挑戰(zhàn)之一(RRI,[377])。RRI指的是一套方法學(xué)指南和建議,旨在從實驗室的角度考慮更廣泛的科學(xué)研究背景,以應(yīng)對全球社會挑戰(zhàn),如可持續(xù)性、公眾參與、倫理、科學(xué)教育、性別平等、開放獲取和治理。有趣的是,RRI還要求在遵循其原則的項目中確保開放性和透明度,這與前面提到的透明和可解釋的AI原則直接相關(guān)。
作者強(qiáng)調(diào),所有這些原則都應(yīng)該擴(kuò)展到任何第三方(供應(yīng)商、顧問、合作伙伴……)
6.2 公平和責(zé)任
如前一節(jié)所述,除了XAI之外,在過去十年中發(fā)布的不同AI原則指導(dǎo)方針中還包括許多關(guān)鍵方面。然而,這些方面并不是完全脫離了XAI;事實上,它們是交織在一起的。本節(jié)介紹了與人工智能原則指導(dǎo)具有巨大相關(guān)性的兩個關(guān)鍵組成部分,即公平性和可說明性。這也突出了它們與XAI的聯(lián)系。
6.3 隱私與數(shù)據(jù)融合
如今,幾乎所有領(lǐng)域的活動中都存在著越來越多的信息源,這就要求采用數(shù)據(jù)融合方法,同時利用這些信息源來解決學(xué)習(xí)任務(wù)。通過合并異構(gòu)信息,數(shù)據(jù)融合已被證明可以在許多應(yīng)用程序中提高M(jìn)L模型的性能。本節(jié)通過數(shù)據(jù)融合技術(shù)的潛力進(jìn)行推測,以豐富ML模型的可解釋性,并對從中學(xué)習(xí)ML模型的數(shù)據(jù)的私密性做出妥協(xié)。為此,我們簡要概述了不同的數(shù)據(jù)融合范式,并從數(shù)據(jù)隱私的角度進(jìn)行了分析。我們稍后會講到,盡管XAI與負(fù)責(zé)任的人工智能相關(guān),但在當(dāng)前的研究主流中,XAI與數(shù)據(jù)融合是一個未知的研究領(lǐng)域。
圖12: 顯示可以執(zhí)行數(shù)據(jù)融合的不同級別的關(guān)系圖:(a)數(shù)據(jù)級別;(b)模型;(c)知識水平;(d)大數(shù)據(jù)融合;(e)聯(lián)邦學(xué)習(xí)和(f)多視圖學(xué)習(xí)。
7. 結(jié)論和展望
這篇綜述圍繞著可解釋的人工智能(XAI)展開,它最近被認(rèn)為是在現(xiàn)實應(yīng)用中采用ML方法的最大需求。我們的研究首先闡明了模型可解釋性背后的不同概念,并展示了激發(fā)人們尋找更多可解釋的ML方法的各種目的。這些概念性的評注已經(jīng)成為一個堅實的基礎(chǔ),系統(tǒng)地回顧最近關(guān)于可解釋性的文獻(xiàn),這些文獻(xiàn)從兩個不同的角度進(jìn)行了探討:1) ML模型具有一定程度的透明性,因此可以在一定程度上自行解釋; 2) 后特設(shè)XAI技術(shù)的設(shè)計,使ML模型更容易解釋。這個文獻(xiàn)分析已經(jīng)產(chǎn)生了一個由社區(qū)報告的不同提案的全球分類,在統(tǒng)一的標(biāo)準(zhǔn)下對它們進(jìn)行分類。在深入研究深度學(xué)習(xí)模型可解釋性的貢獻(xiàn)越來越普遍的情況下,我們深入研究了有關(guān)這類模型的文獻(xiàn),提出了一種可選擇的分類方法,可以更緊密地連接深度學(xué)習(xí)模型可解釋性的具體領(lǐng)域。
我們的討論已經(jīng)超越了XAI領(lǐng)域目前所取得的成果,轉(zhuǎn)向了負(fù)責(zé)任的AI概念,即在實踐中實現(xiàn)AI模型時必須遵循的一系列AI原則,包括公平、透明和隱私。我們還討論了在數(shù)據(jù)融合的背景下采用XAI技術(shù)的含義,揭示了XAI在融合過程中可能會損害受保護(hù)數(shù)據(jù)的隱私。對XAI在公平方面的含義也進(jìn)行了詳細(xì)的討論。
我們對XAI未來的思考,通過在整個論文中進(jìn)行的討論,一致認(rèn)為有必要對XAI技術(shù)的潛力和警告進(jìn)行適當(dāng)?shù)睦斫?/strong>。我們的設(shè)想是,模型的可解釋性必須與數(shù)據(jù)隱私、模型保密性、公平性和可靠性相關(guān)的需求和約束一起解決。只有聯(lián)合研究所有這些人工智能原則,才能保證在全世界的組織和機(jī)構(gòu)中負(fù)責(zé)任地實施和使用人工智能方法。
參考文獻(xiàn)
S. J. Russell, P. Norvig, Artificial intelligence: a modern approach, Malaysia; Pearson Education Limited,, 2016.
D. M. West, The future of work: robots, AI, and automation, Brookings Institution Press, 2018.
S. J. Russell, P. Norvig, Artificial intelligence: a modern approach,Malaysia; Pearson Education Limited,, 2016.
D. M. West,The future of work: robots, AI, and automation, Brookings Institution Press,2018.
B. Goodman,S. Flaxman, European union regulations on algorithmic decision-making and aright
to explanation, AI Magazine 38 (3) (2017) 50–57.
D. Castelvecchi, Can we open the black box of AI?, Nature News 538(7623) (2016) 20.
Z. C. Lipton, The mythos of model interpretability, Queue 16 (3)(2018) 30:31–30:57.
A. Preece, D. Harborne, D. Braines, R. Tomsett, S. Chakraborty,Stakeholders in Explainable AI (2018). arXiv:1810.00184.
D. Gunning, Explainable artificial intelligence (xAI), Tech. rep.,Defense Advanced Research Projects Agency (DARPA) (2017).
E. Tjoa, C. Guan, A survey on explainable artificial intelligence(XAI): Towards medical XAI (2019). arXiv:1907.07374.
J. Zhu, A. Liapis, S. Risi, R. Bidarra, G. M. Youngblood, ExplainableAI for designers: A humancentered perspective on mixed-initiative co-creation,2018 IEEE Conference on Computational
Intelligence and Games (CIG) (2018) 1–8.
F. K. Do?silovi′c, M. Br?ci′c, N. Hlupi′c, Explainable artificialintelligence: A survey, in: 41st International Convention onInformation and Communication Technology, Electronics and Microelectronics (MIPRO),2018, pp. 210–215.
聯(lián)系客服