風(fēng)控說(shuō) 由上海新金融風(fēng)險(xiǎn)實(shí)驗(yàn)室出品
來(lái)源:金融科技實(shí)戰(zhàn)
作者:田江
近年來(lái),伴隨移動(dòng)互聯(lián)網(wǎng)、虛擬現(xiàn)實(shí)等技術(shù)的飛速發(fā)展,銀行服務(wù)模式日趨多樣化。在客戶享受靈活便捷服務(wù)的同時(shí),銀行欺詐風(fēng)險(xiǎn)呈現(xiàn)出更加隱蔽、專業(yè)的特點(diǎn),發(fā)展出更多的作案手法和表現(xiàn)形式。傳統(tǒng)欺詐檢測(cè)通常依賴專家規(guī)則、黑名單庫(kù)等方法,已經(jīng)不能適應(yīng)新的欺詐挑戰(zhàn)。銀行亟需研究并應(yīng)用先進(jìn)的機(jī)器學(xué)習(xí)算法,以數(shù)據(jù)價(jià)值為驅(qū)動(dòng)建立智能化的風(fēng)險(xiǎn)預(yù)測(cè)模型,以此作為欺詐風(fēng)險(xiǎn)防范的強(qiáng)力手段。
銀行反欺詐發(fā)展趨勢(shì)
國(guó)內(nèi)外銀行在傳統(tǒng)反欺詐管理中主要依賴專家經(jīng)驗(yàn),通過(guò)人工方式制定檢測(cè)規(guī)則,當(dāng)申請(qǐng)或交易信息與反欺詐規(guī)則匹配后即執(zhí)行相應(yīng)的業(yè)務(wù)策略。這種管理模式得出的反欺詐規(guī)則存在一定的局限性,不能枚舉所有業(yè)務(wù)場(chǎng)景,無(wú)法對(duì)各類欺詐行為進(jìn)行全面覆蓋。與此對(duì)應(yīng),欺詐者會(huì)針對(duì)性的對(duì)已有規(guī)則進(jìn)行回避,導(dǎo)致專家規(guī)則處于被動(dòng)調(diào)整的位置,無(wú)法跟上欺詐手段的更新?lián)Q代[1, 2]。另外,當(dāng)專家規(guī)則積累達(dá)到一定數(shù)量后誤報(bào)率通常會(huì)比較高,能夠影響到實(shí)際風(fēng)險(xiǎn)決策制定和實(shí)際業(yè)務(wù)開展。
機(jī)器學(xué)習(xí)是一種重要的金融科技創(chuàng)新手段,近年來(lái)在國(guó)內(nèi)外金融機(jī)構(gòu)和金融科技企業(yè)中被嘗試應(yīng)用到風(fēng)險(xiǎn)防范、反欺詐等領(lǐng)域。例如花旗銀行、美國(guó)銀行、匯豐銀行等機(jī)構(gòu)廣泛應(yīng)用邏輯回歸、神經(jīng)網(wǎng)絡(luò)等技術(shù)以提升欺詐識(shí)別能力;京東金融與ZestFinance組建的合資公司以數(shù)據(jù)挖掘建模為核心競(jìng)爭(zhēng)力,在反欺詐領(lǐng)域深入應(yīng)用機(jī)器學(xué)習(xí)技術(shù)以發(fā)揮大數(shù)據(jù)價(jià)值。機(jī)器學(xué)習(xí)是一種研究機(jī)器獲取新知識(shí)和新技能,并識(shí)別現(xiàn)有知識(shí)的方法[3];通常針對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行全方位綜合考量,挖掘深層次業(yè)務(wù)場(chǎng)景特征進(jìn)而建立監(jiān)督、無(wú)監(jiān)督等類型的學(xué)習(xí)模型,在大量應(yīng)用中模型的準(zhǔn)確性、穩(wěn)定性也得到了充分驗(yàn)證[4]。
為此,我們針對(duì)信用卡申請(qǐng)審批這一典型業(yè)務(wù)場(chǎng)景,應(yīng)用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行欺詐風(fēng)險(xiǎn)管理并設(shè)計(jì)數(shù)據(jù)產(chǎn)品對(duì)異??蛻暨M(jìn)行監(jiān)控預(yù)警。區(qū)別于將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到單一反欺詐規(guī)則制定的典型做法,我們嘗試從整體視角對(duì)欺詐風(fēng)險(xiǎn)進(jìn)行評(píng)估,實(shí)現(xiàn)精準(zhǔn)量化預(yù)測(cè)并以此作為應(yīng)對(duì)欺詐風(fēng)險(xiǎn)的強(qiáng)有力手段。建模思路及方法具有一定的可遷移性,可以被廣泛應(yīng)用到銀行風(fēng)險(xiǎn)防范、反欺詐等業(yè)務(wù)領(lǐng)域。
“會(huì)思考”的風(fēng)控模型
在應(yīng)用大數(shù)據(jù)支持業(yè)務(wù)發(fā)展轉(zhuǎn)型的過(guò)程中,我們提出構(gòu)建增強(qiáng)智能(Augumented Intelligence)系統(tǒng)[5]的創(chuàng)新思路。一個(gè)務(wù)實(shí)的增強(qiáng)智能系統(tǒng)包括客戶畫像、數(shù)據(jù)挖掘模型和決策引擎三個(gè)組成部分。數(shù)據(jù)挖掘模型是智能化的核心,客戶畫像為建模過(guò)程持續(xù)提供特征輸入,決策引擎將模型輸出成果轉(zhuǎn)換為實(shí)際業(yè)務(wù)行動(dòng)。增強(qiáng)智能系統(tǒng)的一個(gè)重要目標(biāo)是提升傳統(tǒng)業(yè)務(wù)流程的自動(dòng)化水平,過(guò)程中的大數(shù)據(jù)能力主要體現(xiàn)在三個(gè)方面,也就是下圖中的三個(gè)組成部分:更好的客戶認(rèn)知、更智能化的算法、更快速的決策支持。
圖1:增強(qiáng)智能系統(tǒng)組成模塊
數(shù)據(jù)挖掘模型發(fā)揮動(dòng)力引擎作用,吸收學(xué)術(shù)界和產(chǎn)業(yè)界先進(jìn)機(jī)器學(xué)習(xí)知識(shí)成果并應(yīng)用于銀行實(shí)踐。客戶畫像重點(diǎn)體現(xiàn)大數(shù)據(jù)背景下的客戶多維度刻畫,在靜態(tài)信息和交易行為信息之外可以補(bǔ)充社交網(wǎng)絡(luò)維度特征信息。伴隨大數(shù)據(jù)的持續(xù)采集、生產(chǎn)和交換,客戶畫像能夠進(jìn)一步補(bǔ)充情緒屬性、價(jià)值觀屬性乃至道德屬性等信息,為數(shù)據(jù)挖掘建模提供源源不斷的能源輸入。決策引擎能夠面對(duì)業(yè)務(wù)場(chǎng)景進(jìn)行快速響應(yīng),通過(guò)可視化等手段提供自助式業(yè)務(wù)分析能力,促進(jìn)數(shù)據(jù)價(jià)值轉(zhuǎn)化為業(yè)務(wù)行動(dòng)。
踐行上述思路,我們結(jié)合傳統(tǒng)風(fēng)險(xiǎn)管控和社交網(wǎng)絡(luò)分析技術(shù),加工基礎(chǔ)維度信息和社交維度信息特征指標(biāo)組成反欺詐客戶畫像,并應(yīng)用隨機(jī)森林等分布式機(jī)器學(xué)習(xí)算法建立欺詐風(fēng)險(xiǎn)預(yù)測(cè)模型。不同于傳統(tǒng)風(fēng)控模型以年為單位的更新優(yōu)化周期,智能化預(yù)測(cè)模型每天都能夠進(jìn)行“思考”,通過(guò)更新網(wǎng)絡(luò)關(guān)系并重新訓(xùn)練模型確定最新的欺詐預(yù)測(cè)思維模式。模型在研發(fā)和使用的過(guò)程中靈活運(yùn)用機(jī)器學(xué)習(xí)和社交網(wǎng)絡(luò)分析技術(shù),催生新型數(shù)據(jù)產(chǎn)品的開發(fā)與應(yīng)用從而帶動(dòng)傳統(tǒng)業(yè)務(wù)流程的優(yōu)化。
模型構(gòu)建與結(jié)果分析
以銀行信用卡申請(qǐng)反欺詐為應(yīng)用場(chǎng)景,詳細(xì)描述社交網(wǎng)絡(luò)構(gòu)建、特征處理、算法實(shí)現(xiàn)、運(yùn)行結(jié)果分析等階段過(guò)程。
1、結(jié)合社交視角構(gòu)造客戶特征信息
社交網(wǎng)絡(luò)分析是融合多學(xué)科理論和方法,為理解各種社交關(guān)系的形成、行為特點(diǎn)分析以及信息傳播的規(guī)律提供的一種可計(jì)算的分析方法[6]。社交網(wǎng)絡(luò)分析方法旨在建立一個(gè)網(wǎng)絡(luò)與真實(shí)世界的實(shí)體與關(guān)系映射,在銀行應(yīng)用中的典型實(shí)體包括客戶、賬戶、員工等。社交網(wǎng)絡(luò)分析通常關(guān)注靜態(tài)和動(dòng)態(tài)兩個(gè)層面的網(wǎng)絡(luò)特征,靜態(tài)特征包括提取網(wǎng)絡(luò)指標(biāo)、對(duì)網(wǎng)絡(luò)特征刻畫、識(shí)別網(wǎng)絡(luò)群組等;動(dòng)態(tài)特征主要包括描述網(wǎng)絡(luò)如何隨時(shí)間推移進(jìn)行擴(kuò)散、如何影響其他節(jié)點(diǎn)等。
分析信用卡進(jìn)件審批數(shù)據(jù),確定數(shù)據(jù)中包含四種角色,分別是申請(qǐng)人、申請(qǐng)人親屬、聯(lián)系人和推廣人。在建模實(shí)施過(guò)程中將申請(qǐng)人角色作為社交網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn),把申請(qǐng)人、申請(qǐng)人親屬、聯(lián)系人及推廣人這四種角色的移動(dòng)電話、家庭電話、辦公電話的相同作為關(guān)系類型。建模過(guò)程中構(gòu)建的社交網(wǎng)絡(luò)包括780萬(wàn)節(jié)點(diǎn),2.33億條關(guān)系。
在構(gòu)建完成社交網(wǎng)絡(luò)后,設(shè)計(jì)并計(jì)算一二階度、一二階欺詐數(shù)、一二階欺詐占比、最短路徑等網(wǎng)絡(luò)指標(biāo)。從網(wǎng)絡(luò)視角衡量欺詐風(fēng)險(xiǎn)的傳播,度反映節(jié)點(diǎn)關(guān)聯(lián)好友數(shù)量,最短路徑反映網(wǎng)絡(luò)中節(jié)點(diǎn)間親密程度。此外,建模中的客戶基礎(chǔ)信息包括申請(qǐng)人年齡、手機(jī)號(hào)、單位電話、電子郵箱、學(xué)歷、年收入、職位等,針對(duì)這些信息需要進(jìn)行結(jié)構(gòu)化分解、離散化、頻度計(jì)算等數(shù)據(jù)預(yù)處理操作,共同構(gòu)建特征以用于后續(xù)模型的訓(xùn)練和驗(yàn)證。
圖2:反欺詐模型特征構(gòu)造過(guò)程
2、建模方案設(shè)計(jì)
對(duì)進(jìn)行特征工程化處理的數(shù)據(jù)進(jìn)行拆分,設(shè)置三組建模數(shù)據(jù)集,分別是基礎(chǔ)信息的數(shù)據(jù)集(base)、社交信息的數(shù)據(jù)集(social),以及組合在一起的數(shù)據(jù)集(combine)。建模過(guò)程中采用3折交叉驗(yàn)證的方式完成欺詐風(fēng)險(xiǎn)預(yù)測(cè)模型建立和訓(xùn)練,并比較多組模型輸出的計(jì)算結(jié)果。
算法選擇方面,分別選擇邏輯回歸(LogisticsRegression, LR),隨機(jī)森林[7](Random Forests, RF)和深度學(xué)習(xí)[8](Deep Learning, DL)。邏輯回歸是銀行風(fēng)控領(lǐng)域的經(jīng)典算法,以此作為模型結(jié)果的標(biāo)桿參考。隨機(jī)森林是一種集成學(xué)習(xí)算法,利用多棵決策樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè);通常單棵樹性能表現(xiàn)較弱,但進(jìn)行組合之后能夠提供較好的分類性能,同時(shí)算法穩(wěn)定性較好。深度學(xué)習(xí)(DL)模型是包含多隱層的多層感知器系統(tǒng),通過(guò)應(yīng)用綜合復(fù)雜結(jié)構(gòu)和多重非線性變換構(gòu)成的多個(gè)處理層及對(duì)數(shù)據(jù)進(jìn)行高層抽象的一系列算法,建立具有數(shù)個(gè)隱層的多層感知網(wǎng)絡(luò)并實(shí)現(xiàn)各種模式的識(shí)別和認(rèn)知。
模型評(píng)價(jià)方面,選用AUC、Precision、Recall、Accuracy、F1-measure等指標(biāo)。其中AUC[9](Area under Curve)是ROC曲線下的面積,介于0和1之間;AUC值表示將兩樣本正確分類的概率,AUC值越大說(shuō)明模型分類性能越好。其他指標(biāo)均是從不同角度衡量模型性能,這里不再詳細(xì)說(shuō)明。
3、建模結(jié)果分析
如下表所示,前三列數(shù)據(jù)為應(yīng)用隨機(jī)森林(RF)算法在不同數(shù)據(jù)集上進(jìn)行的三組模型輸出結(jié)果。比較結(jié)果數(shù)據(jù)可以發(fā)現(xiàn),通過(guò)整合社交屬性信息模型各項(xiàng)評(píng)價(jià)指標(biāo)較基礎(chǔ)信息模型結(jié)果均有大幅度提升。不同于基礎(chǔ)信息,社交維度重在刻畫實(shí)體在網(wǎng)絡(luò)中的關(guān)系,其加工指標(biāo)在建模后呈現(xiàn)出與欺詐風(fēng)險(xiǎn)相關(guān)的強(qiáng)特征關(guān)系。建模結(jié)果中AUC提升7個(gè)百分點(diǎn),F(xiàn)1-measure提升2個(gè)百分點(diǎn),充分驗(yàn)證了建立多維度視角對(duì)于提升客戶欺詐風(fēng)險(xiǎn)識(shí)別能力的有效性。更重要的是,伴隨大數(shù)據(jù)的采集和處理,可以從深度和廣度上對(duì)客戶欺詐風(fēng)險(xiǎn)認(rèn)知進(jìn)一步補(bǔ)強(qiáng),進(jìn)而持續(xù)優(yōu)化模型的底層數(shù)據(jù)源。
后面三組數(shù)據(jù)是在整合數(shù)據(jù)集上應(yīng)用三種不同算法,整體表現(xiàn)邏輯回歸算法較弱,深度學(xué)習(xí)居中,隨機(jī)森林表現(xiàn)最優(yōu)。結(jié)果表明目前模型輸入特征與預(yù)測(cè)目標(biāo)關(guān)聯(lián)性較好,并且總體特征數(shù)量為數(shù)十個(gè)的量級(jí),還不足以發(fā)揮深度學(xué)習(xí)海量特征無(wú)監(jiān)督優(yōu)化選擇的特性,相比之下隨機(jī)森林、GBDT[10]等集成學(xué)習(xí)算法表現(xiàn)更為突出。
表1:欺詐風(fēng)險(xiǎn)預(yù)測(cè)模型結(jié)果比較
欺詐監(jiān)控?cái)?shù)據(jù)產(chǎn)品
大數(shù)據(jù)在實(shí)際應(yīng)用中體現(xiàn)出強(qiáng)產(chǎn)品化的特點(diǎn),通過(guò)構(gòu)建反欺詐數(shù)據(jù)產(chǎn)品能夠快速實(shí)現(xiàn)決策引擎的功能;同時(shí)原始數(shù)據(jù)從積累到建模均與該數(shù)據(jù)產(chǎn)品關(guān)聯(lián),用戶畫像建立和持續(xù)豐富也與反欺詐業(yè)務(wù)場(chǎng)景相結(jié)合。數(shù)據(jù)產(chǎn)品通過(guò)可視化技術(shù)實(shí)現(xiàn)自助式分析能力,在數(shù)據(jù)價(jià)值轉(zhuǎn)化為業(yè)務(wù)行動(dòng)過(guò)程中發(fā)揮橋梁作用。
針對(duì)信用卡申請(qǐng)反欺詐場(chǎng)景,設(shè)計(jì)專項(xiàng)數(shù)據(jù)產(chǎn)品對(duì)接相關(guān)業(yè)務(wù)系統(tǒng)。數(shù)據(jù)產(chǎn)品提供全國(guó)進(jìn)件審批疑似欺詐情況分布圖,實(shí)時(shí)獲得所關(guān)注區(qū)域的欺詐進(jìn)件分布、欺詐發(fā)展趨勢(shì)、欺詐比重等動(dòng)態(tài)。另外,提供分地區(qū)信息概要、進(jìn)件詳情、明細(xì)檢索和社交網(wǎng)絡(luò)檢索等功能,能夠在系統(tǒng)頁(yè)面查詢基礎(chǔ)指標(biāo)統(tǒng)計(jì)圖(手機(jī)和電話特征分布)、不同模型輸出的欺詐風(fēng)險(xiǎn)概率值、進(jìn)件基本信息、進(jìn)件網(wǎng)絡(luò)特征、社交指標(biāo)統(tǒng)計(jì)(一度、二度、最短路徑)等內(nèi)容。
圖3 審批疑似欺詐情況分布圖
總結(jié)與展望
新形勢(shì)下銀行業(yè)務(wù)面臨的欺詐風(fēng)險(xiǎn)演化出更多的表現(xiàn)形式和作案手法,亟需對(duì)傳統(tǒng)的欺詐風(fēng)險(xiǎn)防控手段進(jìn)行“智能化”升級(jí)改造。我們基于大數(shù)據(jù)挖掘方法,綜合應(yīng)用社交網(wǎng)絡(luò)分析和機(jī)器學(xué)習(xí)算法進(jìn)行風(fēng)險(xiǎn)量化預(yù)測(cè);客戶識(shí)別角度綜合基礎(chǔ)維度和社交維度信息,技術(shù)角度應(yīng)用隨機(jī)森林、深度學(xué)習(xí)等算法大幅提升預(yù)測(cè)準(zhǔn)確性,共同構(gòu)成“會(huì)思考“的風(fēng)控模型。模型能夠進(jìn)一步區(qū)分欺詐特征,提升信用卡申請(qǐng)欺詐偵測(cè)能力,該模型構(gòu)建在銀行風(fēng)險(xiǎn)防范和反欺詐領(lǐng)域具有一定的推廣價(jià)值。
在下一步研究與實(shí)踐過(guò)程中,我們將結(jié)合更多銀行內(nèi)外部數(shù)據(jù)以完善社交網(wǎng)絡(luò)特征,對(duì)客戶進(jìn)行更加全面的特征刻畫將有助于復(fù)雜機(jī)器學(xué)習(xí)算法發(fā)揮威力;同時(shí),將在業(yè)務(wù)系統(tǒng)部署智能化反欺詐監(jiān)控模塊,通過(guò)數(shù)據(jù)產(chǎn)品提供欺詐進(jìn)件分布、欺詐發(fā)展趨勢(shì)、欺詐比重等動(dòng)態(tài)場(chǎng)景以輔助決策,利用數(shù)據(jù)價(jià)值驅(qū)動(dòng)支持業(yè)務(wù)的發(fā)展與轉(zhuǎn)型。
參考文獻(xiàn):
[1] 何毅勇, 余挈. 關(guān)于銀行業(yè)反欺詐的思考[J]. 銀行家, 2013, 32(4): 32-6.
[2] 陳世知. 美國(guó)信用卡產(chǎn)業(yè)中的反欺詐管理 [J]. 中國(guó)信用卡, 2008, 12(4): 64-7.
[3] ALPAYDIN E. Introduction to Machine Learning (AdaptiveComputation and Machine Learning) [M]. MIT Press, 2004.
[4] DELAMAIRE L, ABDOU H, POINTON J, et al. Credit card fraud anddetection techniques: a review [J]. Banks & Bank Systems, 2009,
[5] VON AHN L. Augmented intelligence: the Web and human intelligence[J]. Philosophical Transactions of the Royal Society of London A: Mathematical,Physical and Engineering Sciences, 2013, 371(1987): 20120383.
[6] MATTBEWA.RUSSELL, 拉塞爾. 挖掘社交網(wǎng)絡(luò) [M]. 東南大學(xué)出版社, 2011.
[7] LIAW A, WIENER M. Classification and regression by randomForest[J]. R news, 2002, 2(3): 18-22.
[8] LECUN Y, BENGIO Y, HINTON G. Deep learning [J]. Nature, 2015,521(7553): 436-44.
[9] BRADLEY A P. The use of the area under the roc curve in theevaluation of machine learning algorithms [J]. Pattern Recognition, 1997,30(7): 1145-59.
[10] FRIEDMAN J H. Stochastic gradient boosting [J]. ComputationalStatistics & Data Analysis, 2002, 38(4): 367-78.
聯(lián)系客服