關(guān)注并標(biāo)星索信達(dá)
每天打卡閱讀
更快走進(jìn)金融人工智能世界
━━━━━━
我們是索信達(dá)集團(tuán)旗下的金融人工智能實(shí)驗(yàn)室團(tuán)隊,微信公眾號(datamargin)將不定期推送原創(chuàng)AI科學(xué)文章。我們的作品都是由實(shí)戰(zhàn)經(jīng)驗(yàn)豐富的AI科學(xué)技術(shù)人員或資深顧問精心準(zhǔn)備,志在分享結(jié)合實(shí)際業(yè)務(wù)的理論應(yīng)用和心得體會。
文 | 索 信 達(dá) 張 舵
自1943年心理學(xué)家McCulloch和數(shù)學(xué)家Pitts發(fā)表了神經(jīng)元模型MP之后,神經(jīng)網(wǎng)絡(luò)歷經(jīng)了兩次高潮和低谷,終于在2010年前后迎來了第三次高潮。在語音識別和圖像識別領(lǐng)域,神經(jīng)網(wǎng)絡(luò)有著傳統(tǒng)統(tǒng)計學(xué)模型不可替代的優(yōu)勢。
1.關(guān)于模型的可解釋性
在2012年的ImageNet競賽中,Hinton教授與他的學(xué)生用多層的卷積神經(jīng)網(wǎng)絡(luò)成功地對包含一千類別的一百萬張圖片進(jìn)行了訓(xùn)練,取得了分類錯誤率15%的好成績,這個成績比第二名高了近11個百分點(diǎn),充分證明了多層神經(jīng)網(wǎng)絡(luò)識別效果的優(yōu)越性。2016年橫空出世的深度學(xué)習(xí)模型AlphaGo更是在圍棋領(lǐng)域大放異彩,擊敗了人類最強(qiáng)選手。
但是神經(jīng)網(wǎng)絡(luò)是把雙刃劍,在其高效、高正確率的背后,是模型的不可解釋性,即“黑箱子”問題。神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖片分類、圍棋等領(lǐng)域尚可,但是當(dāng)涉及到金融、醫(yī)療、無人駕駛等領(lǐng)域時,人們更加需要一個可信賴的模型。即從輸入到輸出的全部過程都是透明的、可解釋的。
在銀行業(yè),人們有權(quán)詢問為什么自己的信用評分比較低,而業(yè)務(wù)人員不能僅僅解釋為因?yàn)槟哪P驮u分低。而在醫(yī)療這一及負(fù)“責(zé)任”的領(lǐng)域,使用模型來診斷疾病更加需要可解釋性。但諷刺的是,即使神經(jīng)網(wǎng)絡(luò)可解釋性差,在乳腺癌切片的圖像診斷上,機(jī)器學(xué)習(xí)模型可以達(dá)到89%的準(zhǔn)確性,而訓(xùn)練過的病理學(xué)家只有73%的平均準(zhǔn)確率。由此可見,我們既無法因?yàn)槠淇山忉屝圆疃艞壥褂眠@一高效模型,亦不能完全依賴這個“黑箱子”來幫助人類做出重大決策。
模型的可解釋性,即判別過程是否可以轉(zhuǎn)化成具備邏輯關(guān)系的規(guī)則,簡單來說,就是為什么輸入可以得到這樣的輸出。那么為什么神經(jīng)網(wǎng)絡(luò)模型不可解釋呢?一個重要因素是神經(jīng)網(wǎng)絡(luò)模型的高復(fù)雜度。例如谷歌的圖片分類神經(jīng)網(wǎng)絡(luò)ResNet,它包含152層網(wǎng)絡(luò)及個參數(shù),幾乎不可能解釋清楚每個層級的功能和每個參數(shù)的意義。
本文將圍繞模型的可解釋性來對比和介紹傳統(tǒng)統(tǒng)計學(xué)模型和神經(jīng)網(wǎng)絡(luò)模型的特點(diǎn)。第二章介紹常用的統(tǒng)計學(xué)回歸和分類模型,以及各模型中參數(shù)的意義和如何通過模型來解釋輸入與輸出的關(guān)系。第三章介紹神經(jīng)網(wǎng)絡(luò)模型原理及其與統(tǒng)計學(xué)模型的關(guān)系。最后第四章介紹關(guān)于神經(jīng)網(wǎng)絡(luò)可解釋性的發(fā)展與研究方向。
2.傳統(tǒng)統(tǒng)計學(xué)模型
本章將從線性回歸、邏輯回歸以及決策樹模型的角度,闡述傳統(tǒng)統(tǒng)計學(xué)模型在分析問題時對模型參數(shù)和輸入輸出關(guān)系的解釋。
2.1、線性回歸模型。在最直觀的線性回歸模型
中,我們已知其參數(shù)含義:
為直線斜率而
為直線在
軸的截距。當(dāng)自變量
時,響應(yīng)變量
每增加一個單位,
增加個
單位。類似地,在多元線性回歸模型
中,
可理解為當(dāng)其他所有變量保持不變時,
每增加一個單位,
增加個單位。
2.2、邏輯回歸模型:對于二分類的響應(yīng)變量
或0(對應(yīng)YES or NO),
關(guān)于解釋變量
的邏輯回歸模型為:
其中
概率,而參數(shù)
亦很容易理解,下面舉例說明。
例如
表示罹患肺癌而
表示煙齡(月份),假設(shè)他們之間服從邏輯回歸模型且
時,
表示不抽煙患肺癌的幾率為0.15%。煙齡每增加一個月,優(yōu)勢比
即患肺癌的概率比不患肺癌的概率增加了1.013倍。當(dāng)
,即抽煙500個月(40年左右),有一半的概率會患肺癌。對于任意給定的
,通過上述模型我們可以測算出他的患癌概率
。
我們可以看到邏輯回歸類似于線性回歸,對于模型的每一個參數(shù)都可以給出合理解釋,對于每一個輸入
都可以清楚解釋為什么會得到輸出
。多元邏輯回歸模型
的參數(shù)意義類似于多元線性回歸,即當(dāng)其他變量不變時,
對
的影響。
2.3、決策樹與隨機(jī)森林模型。決策樹是一種非參數(shù)的分類模型,利用樣本節(jié)點(diǎn)對樣本進(jìn)行劃分子集,會使得各子集中不同類別樣本的混合程度最低,在各子集中對樣本劃分所需的信息(熵)最少。下例中通過對不同人群的年齡特征、資產(chǎn)特征、身份特征進(jìn)行分類,最后可以劃分為四個重疊度較小的人群,然后可以針對不同人群推薦相應(yīng)的產(chǎn)品。
我們可以看到,決策樹簡單直觀,對于任何結(jié)果我們都可以追根溯源的解釋為什么得到這個輸出。當(dāng)我們采用bootstrap的方式對樣本有放回的進(jìn)行抽樣,并且針對每次的抽樣訓(xùn)練多顆決策樹共同決策時,就形成了隨機(jī)森林模型,最終結(jié)果是采用Bagging的策略來獲得,即多數(shù)投票機(jī)制。隨機(jī)森林模型相對于決策樹模型在高維數(shù)據(jù)中有更高的準(zhǔn)確度,但是利用多顆決策樹模型投票決策也使得他的可解釋性大為降低。
3.神經(jīng)網(wǎng)絡(luò)模型
3.1、神經(jīng)網(wǎng)絡(luò)模型簡介。神經(jīng)網(wǎng)絡(luò)模型由許多的神經(jīng)元模型組成,下圖為單個神經(jīng)元的結(jié)構(gòu):
每一個輸入都有一個權(quán)重配比,之后通過加權(quán)求和及非線性函數(shù)得到輸出:
這里的非線性函數(shù)通常為sigmoid(邏輯回歸)函數(shù)。單個神經(jīng)元可理解為一個結(jié)合了線性及非線性的簡單數(shù)學(xué)模型。對于單個神經(jīng)元,我們知道它的函數(shù)表達(dá)式,知道輸入是通過什么規(guī)則得到的輸出,所以單個神經(jīng)元模型是可解釋的。
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示,最左邊的是輸入層,最右邊的是輸出層,中間是多個隱含層,隱含層和輸出層的每個神經(jīng)節(jié)點(diǎn)都是一個神經(jīng)元模型。其中隱藏層的層數(shù)和每層的神經(jīng)元數(shù)均不確定,往往通過實(shí)驗(yàn)得到最優(yōu)的層數(shù)和神經(jīng)節(jié)點(diǎn)數(shù)。更深的網(wǎng)絡(luò)往往具有比淺層的網(wǎng)絡(luò)更好的識別效率。這點(diǎn)也在ImageNet的多次大賽中得到了證實(shí)。從2012年起,每年獲得ImageNet冠軍的深度神經(jīng)網(wǎng)絡(luò)的層數(shù)逐年增加,2015年最好的方法GoogleNet是一個多達(dá)22層的神經(jīng)網(wǎng)絡(luò)。
多層的神經(jīng)網(wǎng)絡(luò)可以大大提高模型的識別準(zhǔn)確率,同時卻降低了模型的可解釋性。一個復(fù)雜度如上圖的神經(jīng)網(wǎng)絡(luò),它的輸入/輸出關(guān)系已經(jīng)很難寫出顯性表達(dá)式,對于輸入,我們并不可能知道為什么會得到這樣的輸出,模型基本上已經(jīng)完全不可解釋了。對于生產(chǎn)生活中的重大不可逆性決策,我們很難完全放心并依賴神經(jīng)網(wǎng)絡(luò)來做出決策。
3.2、神經(jīng)網(wǎng)絡(luò)模型與統(tǒng)計學(xué)模型關(guān)系。神經(jīng)網(wǎng)絡(luò)模型在本質(zhì)上是多層統(tǒng)計學(xué)模型的疊加。例如下圖中的單層感知機(jī),當(dāng)其激活函數(shù)為線性時
,均為的線性組合,即多元線性回歸。當(dāng)激活函數(shù)為sigmoid時,模型變?yōu)槎嘣壿嫽貧w。
當(dāng)我們加了隱藏層時,如果隱藏層的激活函數(shù)為非線性函數(shù),則多層感知機(jī)實(shí)質(zhì)上是非線性回歸模型(如下圖)。當(dāng)神經(jīng)網(wǎng)絡(luò)的層數(shù)和神經(jīng)元數(shù)逐漸增多時,我們的模型會越來越復(fù)雜,以至于很難找到一個顯性表達(dá)式來完整描述模型和其輸入輸出關(guān)系,這是導(dǎo)致模型不可解釋性的根本原因。
對于傳統(tǒng)的統(tǒng)計學(xué)模型,我們往往需要通過相關(guān)性分析、主成分分析(PCA)等變量選擇方法,甄選出主要的特征變量,其次根據(jù)數(shù)據(jù)類型及問題選擇諸如線性或者非線性模型來擬合數(shù)據(jù),它是簡單高效且緊致的(parsimonious)。而神經(jīng)網(wǎng)絡(luò)更像是一個萬金油模型,尤其適用于多特征變量的高維數(shù)據(jù),它無需變量選擇,將所有特征變量輸入模型通過反向傳播算法(Backpropagation algorithm)計算出每個層級的參數(shù),它是復(fù)雜且準(zhǔn)確的。
4.可解釋神經(jīng)網(wǎng)絡(luò)模型(xNN)
我們不能因噎廢食,由于神經(jīng)網(wǎng)絡(luò)優(yōu)秀的預(yù)測能力,我們希望可以在其可解釋性上有所突破。如下圖,機(jī)器學(xué)習(xí)算法的預(yù)測精度總是和可解釋性成反比,預(yù)測精度最高的深度學(xué)習(xí)算法的可解釋性最差,而解釋性最好的決策樹算法的預(yù)測精度也最低。
可解釋神經(jīng)網(wǎng)絡(luò)模型(xNN) (Vaughan, 2018)是在簡單的統(tǒng)計學(xué)模型和過于復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型之間,選擇了一個解釋性和預(yù)測性都較好的加性指數(shù)模型(AIM),并通過改進(jìn)AIM來近似神經(jīng)網(wǎng)絡(luò)模型,它有一個顯性表達(dá)式,可以解釋輸入/輸出關(guān)系,函數(shù)表達(dá)式如下:
其中,為均值,為特征變量的參數(shù),為嶺函數(shù),為嶺函數(shù)的權(quán)重。xNN模型的結(jié)構(gòu)如下:
xNN模型含有三個層級:(1)映射層(the projection layer)為特征變量的不同線性組合,即至。(2)子網(wǎng)絡(luò)(Subnetwork)為中間的非線性函數(shù)至,它將輸入1對1的轉(zhuǎn)化成輸出。(3)綜合層(combination layer)將子網(wǎng)絡(luò)的輸出加權(quán)求和,輸出最后結(jié)果。
在計算層面上,對于龐大的數(shù)據(jù)樣本,我們依然可以使用梯度下降算法(Gradient Descent)來求解參數(shù),并通過反向傳播(Backpropagation)算法來進(jìn)行優(yōu)化。另外,當(dāng)數(shù)據(jù)樣本量不大時,由于我們模型的簡潔性,我們還可以通過對損失函數(shù)(loss function)求偏導(dǎo)來直接計算每個參數(shù),這就避免了神經(jīng)網(wǎng)絡(luò)參數(shù)計算中的梯度爆炸和梯度消失等問題。
張愛軍教授等 (Zebin Y., 2019)在此基礎(chǔ)上提出了基于網(wǎng)絡(luò)結(jié)構(gòu)約束的可解釋性神經(jīng)網(wǎng)絡(luò)(SOSxNN)模型。通過三種網(wǎng)絡(luò)結(jié)構(gòu)化約束:a)稀疏可加子網(wǎng)絡(luò); b) 正交投影; c) 光滑函數(shù);提升了模型的可解釋性及預(yù)測精準(zhǔn)度。其中條件(a)保證了子網(wǎng)絡(luò)中嶺函數(shù)的稀疏性,即使得模型盡量簡潔、緊致,用最少的嶺函數(shù)來構(gòu)建模型。條件(b)為數(shù)據(jù)旋轉(zhuǎn)提供了正交基,使得模型可辨識性增強(qiáng)。(c)使得嶺函數(shù)更加光滑。簡單的說,就是通過對(1)中的參數(shù)、及嶺函數(shù)施加約束來構(gòu)架出最緊致、函數(shù)性質(zhì)最好的xNN模型。同時在 SOSxNN模型與其他機(jī)器學(xué)習(xí)模型,如多層感知機(jī)(MLP)、支持向量機(jī)(SVM)、 隨機(jī)森林(Random Forests)、 Lasso 算法以及原始的 xNN 模型比較時,SOSxNN的預(yù)測精度被證明不低于這些模型。所以這是一種更簡化、預(yù)測精度高的新型可解釋神經(jīng)網(wǎng)絡(luò)模型。
xNN模型的結(jié)構(gòu)和設(shè)計方式使其具有輸入/輸出的過程解釋,打破了神經(jīng)網(wǎng)絡(luò)“黑箱子”的局限性。這項(xiàng)技術(shù)將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于其他行業(yè)如醫(yī)學(xué)、銀行業(yè)提供了極大便利。它構(gòu)建了一個可以被人們理解、信賴的模型。未來xNN模型必然在可解釋性及預(yù)測準(zhǔn)確度上有所提升,我們期待它在各個領(lǐng)域的廣泛應(yīng)用。
參考文獻(xiàn):
Vaughan, J., Sudjianto, A., Brahimi, E., Chen, J., and Nair, V. N. (2018). Explainable neural networks based on additive index models. The RMA Journal.
Zebin Y., Aijun Z., and Agus S.(2019). Enhancing Explainability of Neural Networksthrough Architecture Constraints. arXiv:1901.03838v1 [stat.ML].
聯(lián)系客服