近年來,大數(shù)據(jù)、人工智能等熱門關(guān)鍵字多次被寫入中央文件與國務(wù)院政府工作報告,目前已上升為國家戰(zhàn)略,并將深刻地改變現(xiàn)有行業(yè)的游戲規(guī)則。金融行業(yè)是當(dāng)今大數(shù)據(jù)、人工智能應(yīng)用最廣、最深的領(lǐng)域之一。隨著數(shù)據(jù)倉庫和數(shù)據(jù)科學(xué)的發(fā)展,金融行業(yè)中的企業(yè)(如銀行、基金公司、保險公司、互聯(lián)網(wǎng)電商企業(yè)等)擁有了海量數(shù)據(jù),應(yīng)運(yùn)而生了金融領(lǐng)域的大數(shù)據(jù)分析、智能風(fēng)控等大數(shù)據(jù)和人工智能的應(yīng)用。而信用評分則是大數(shù)據(jù)分析在金融領(lǐng)域最早、最成功的應(yīng)用。當(dāng)銀行等信貸機(jī)構(gòu)面對著海量客戶時,如果沒有準(zhǔn)確而且自動化的風(fēng)險評估工具,信貸機(jī)構(gòu)就不可能放出那么多貸款并進(jìn)行有效的管理,我們的生活也不可能像今天這么便利。信用評分是在信貸場景中輔助銀行等信貸機(jī)構(gòu)發(fā)放貸款的一整套決策支持技術(shù),這些技術(shù)將決定誰或哪些公司將會獲得貸款、貸款的多少、利息的高低,以及設(shè)定哪些合適的經(jīng)營策略來提高業(yè)務(wù)利潤率。去商場購物刷信用卡、京東白條、螞蟻花唄日常消費(fèi)等等,這些背后都是涉及到信貸機(jī)構(gòu)對我們的信用評分,可以說信用評分影響著我們每個人的生活,與我們息息相關(guān),無處不在。Python作為一種科學(xué)語言,隨著人工智能的興起其流行程度急劇上升。它最早是由荷蘭人Guido van Rossum于1989年在圣誕節(jié)期間設(shè)計的,其設(shè)計理念是“優(yōu)雅”、“明確”、“簡 單”。正是基于這一理念,Python語言具有結(jié)構(gòu)簡單、語法清晰、易于學(xué)習(xí)、可移植性和可擴(kuò)展性強(qiáng)等特點。目前,Python擁有豐富的數(shù)據(jù)分析庫和機(jī)器學(xué)習(xí)(即人工智能算法)庫,成為數(shù)據(jù)科學(xué)領(lǐng)域的不二之選。本案例是基于Python語言開發(fā)的信用評分卡,向讀者展示了這些前沿技術(shù)在金融領(lǐng)域中的應(yīng)用。 信貸業(yè)務(wù),又稱貸款業(yè)務(wù),是商業(yè)銀行等信貸機(jī)構(gòu)最重要的資產(chǎn)業(yè)務(wù)和主要贏利手段。機(jī)構(gòu)通過放款收回本金和利息,扣除成本后獲得利潤。對有貸款需求的用戶,信貸機(jī)構(gòu)首先要對其未來的還款表現(xiàn)進(jìn)行預(yù)測,然后將本金借貸給還款概率大的用戶。但這種借貸關(guān)系,可能發(fā)生信貸機(jī)構(gòu)(通常是銀行)無法收回所欠本金和利息而導(dǎo)致現(xiàn)金流中斷和回款成本增加的可能性風(fēng)險,這就是信用風(fēng)險,它是金融風(fēng)險的主要類型。 在信貸管理領(lǐng)域,關(guān)于客戶信用風(fēng)險的預(yù)測,目前使用最普遍的工具為信用評分卡,它源于20世紀(jì)的銀行與信用卡中心。在最開始的審批過程中,用戶的信用等級由銀行聘用的專家進(jìn)行主觀評判。而隨著數(shù)據(jù)分析工具的發(fā)展、量化手段的進(jìn)步,各大銀行機(jī)構(gòu)逐漸使用統(tǒng)計模型將專家的評判標(biāo)準(zhǔn)轉(zhuǎn)化為評分卡模型。如今,風(fēng)險量化手段早已不局限于銀行等傳統(tǒng)借貸機(jī)構(gòu),持牌互聯(lián)網(wǎng)公司的金融部門、持牌消費(fèi)金融公司等均有成體系的風(fēng)險量化手段。其應(yīng)用的范圍包括進(jìn)件、貸后管理及催收等。信用評分不但可以篩選高風(fēng)險客戶,減少損失發(fā)生,也可以找出相對優(yōu)質(zhì)的客戶群,發(fā)掘潛在商機(jī)。 顧名思義,評分卡是一張有分?jǐn)?shù)刻度和相應(yīng)閾值的表。對于任何一個用戶,總能根據(jù)其信息找到對應(yīng)的分?jǐn)?shù)。將不同類別的分?jǐn)?shù)進(jìn)行匯總,就可以得到用戶的總分?jǐn)?shù)。信用評分卡,即專門用來評估用戶信用的一張刻度表,這里我們舉一個簡單的例子:假設(shè)我們有一個評分卡,包含四個變量(特征),即居住條件、年齡、貸款目的和現(xiàn)址居住時長(見表2- 1)表2-1 簡單評分卡
用表2-1這張簡單的評分卡,我們能輕而易舉地計算得分。一個47歲、租房、在當(dāng)前住址住了10年、想借錢度假的申請者得到53分(20+17+16+0=53),另一個25歲、有自己的房產(chǎn)、在當(dāng)前住址住了2年、想借錢買二手車的人也同樣得到53分(5+30+9+9=53)。同樣地,一個38歲、與父母同住、在當(dāng)前住址住了18個月、想借錢裝修的人也得到53分 (15+20+4+14=53)。事實上,我們一共有七個組合可以得到53分,他們雖然各自情況都不一樣,但對貸款機(jī)構(gòu)來說代表了同樣的風(fēng)險水平。該評分系統(tǒng)采用了補(bǔ)償機(jī)制,即借款人的缺點可以用優(yōu)點去彌補(bǔ)。 總的來說,信用評分卡就是通過用數(shù)據(jù)對客戶還款能力和還款意愿進(jìn)行定量評估的系統(tǒng)。從20世紀(jì)發(fā)展至今,其種類已非常多,目前應(yīng)用最廣泛最多的主要分為以下四種:申請評分卡(ApplicationCard):申請評分卡通常用于貸前客戶的進(jìn)件審批。在沒有歷史平臺表現(xiàn)的客群中,外部征信數(shù)據(jù)及用戶的資產(chǎn)質(zhì)量數(shù)據(jù)通常是影響客戶申請評分的主要因素。行為評分卡(BehaviorCard):行為評分卡用于貸中客戶的升降額度管理,主要目的是預(yù)測客戶的動態(tài)風(fēng)險。由于客戶在平臺上已有歷史數(shù)據(jù),通??蛻粼谠撈脚_的歷史表現(xiàn)對行為評分卡的影響最大。催收評分卡(CollectionCard):催收評分卡一般用于貸后管理,主要使用催收記錄作為數(shù)據(jù)進(jìn)行建模。通過催收評分對用戶制定不同的貸后管理策略,從而實現(xiàn)催收人員的合理配置。反欺詐評分卡(Anti-fraudCard):反欺詐評分卡通常用于貸前新客戶可能存在的欺詐行為的預(yù)測管理,適用于個人和機(jī)構(gòu)融資主體。 其中前三種就是我們俗稱的“ABC”卡。A卡一般可做貸款0-1年的信用分析;B卡則是在申請人一定行為后,有了較大消費(fèi)行為數(shù)據(jù)后的分析,一般為3-5年;C卡則對數(shù)據(jù)要求更大,需加入催收后客戶反應(yīng)等屬性數(shù)據(jù)。 四種評分卡中,最重要的就是申請評分卡,目的是把風(fēng)險控制在貸前的狀態(tài);也就是減少交易對手未能履行約定契約中的義務(wù)而造成經(jīng)濟(jì)損失的風(fēng)險。違約風(fēng)險包括了個人違約、公司違約、主權(quán)違約,本案例只講個人違約。賬齡(Month Of Book,MOB):資產(chǎn)放款月份。MOB0表示放款日至當(dāng)月月底,MOB1表示放款后第一個完整的月份,MOB2表示放款后第二個完整的月份。其最大值取決于當(dāng)前產(chǎn)品的周期,如12期產(chǎn)品最多存在MOB12,24期產(chǎn)品最多存在MOB24。逾期天數(shù) (Days Past Due, DPD):已逾契約書約定繳款日的延滯天數(shù)。貸放型產(chǎn)品自到期當(dāng)天開始計算,如DPD0為到期當(dāng)日,DPD1為逾期一日,DPD7為逾期一周。逾期期數(shù)(Bucket):逾期的月份數(shù)。逾期1個月記為M1,逾期2個月為M2,逾期3個月以上可以記作M3+。逾期階段(Stage):分為前期、中期、后期和轉(zhuǎn)呆賬。一般將M1(1~29)列為前期,M2~M3(30~89)列為中期,M4(90+)以上列為后期,已轉(zhuǎn)呆賬者則列入轉(zhuǎn)呆賬。呆賬:是指已過償付期限,經(jīng)催討尚不能收回,長期處于呆滯狀態(tài)。2. 時間窗口設(shè)計
時間窗口分為表現(xiàn)窗口和觀測窗口,表現(xiàn)窗口中的時間稱為表現(xiàn)期,觀察窗口中的時間稱為觀察期。如圖2-1所示。
圖2-1 觀察期與表現(xiàn)期
其中,觀察期,即為變量計算的歷史期間,比如,有一變量為“近6個月延滯一期以上的次數(shù)”,其觀察期即等于6個月。觀察期設(shè)定太長,可能無法反映近期狀況,設(shè)定太短則穩(wěn)定性不高,因此多半為6~24個月。表現(xiàn)期則是準(zhǔn)備預(yù)測的時間長度。例如,若欲預(yù)測客戶未來12個月內(nèi)出現(xiàn)違約的概率,則表現(xiàn)期等于12個月。依各種產(chǎn)品特性不同,表現(xiàn)期也可能不同,通常設(shè)定為12~24個月。評分模型的任務(wù)在于區(qū)隔好壞客戶(Good/Bad Account),因此,必須定義違約(Bad)的條件,這些條件并不限定為逾期,只要銀行認(rèn)定此情況為“非目標(biāo)客戶”。例如,未來一年內(nèi)出現(xiàn)M2以上逾期、催收、呆賬、強(qiáng)停、拒往和協(xié)商等,皆可作為評分模型中的違約條件。 我們要制作評分卡,最終想要得到的結(jié)果是要給各個特征進(jìn)?分檔,以便業(yè)務(wù)?員能夠根據(jù)新客戶填寫的信息為客戶打分。我們知道變量(即特征)的形態(tài)可分為離散型和連續(xù)型,離散型天然就是分檔的,因此,我們需要重點如何使連續(xù)變量分檔,即連續(xù)變量離散化。 連續(xù)變量離散化,我們也常稱為分箱或者分組操作。它是評分卡制作過程中?個非常重要的步驟,是評分卡最難,也是最核?的思路。目的就是使擁有不同屬性的客戶被分成不同的類別,進(jìn)而評上不同的分?jǐn)?shù)。在評分卡建模流程中,我們常用WOE(Weight of Evidence,跡象權(quán)數(shù))方法對變量進(jìn)行分箱。用與之相關(guān)的另一個重要概念,IV值 (Information Value,信息值)則用來衡量該變量(特征)對好壞客戶的預(yù)測能力。避免變量值中出現(xiàn)極端值(Outliers)的情形,減少模型過度配適(Overfitting)的現(xiàn)象。下面我們以某數(shù)據(jù)集中“年收入”變量為例,計算其對應(yīng)WOE值和IV值,見表2-2。表2-2 WOE和IV值的計算
表2-2首先對“年收入”變量排序,然后依變量值大小切分較細(xì)的組別(Fine Classing)。分組的原則為:組間差異?:每個箱?之間需要有差異性,保證不同檔位評分的差異性;組內(nèi)差異?:每個箱?內(nèi)部的?群的相似性程度?夠?;WOE (Weight Of Evidence),計算公式為WOE與分組對應(yīng),即每個分組對應(yīng)一個WOE值。IV值(Information Value),計算公式為 其中, 表示數(shù)據(jù)的分組數(shù)。注意,IV值與變量對應(yīng),即每個變量對應(yīng)一個IV值。而不是像WOE那樣和分組對應(yīng)。 結(jié)合表2-2中數(shù)據(jù),我們來計算其對應(yīng)的WOE和IV值。首先,最重要的是計算每個分組中“違約件占比”和“正常件占比”。其中,“違約件占比”等于該組中對應(yīng)的“違約件/總的違約件”;“正常件占比”等于該組中對應(yīng)的“正常件/總的正常件”。以表中第一組“0~20”為例,違約件占比=143/909=16%,正常件占比=258/4091=6%,其他組類似。然后根據(jù)WOE的計算公式計算出每個分組對應(yīng)的WOE值。最后再根據(jù)計算的WOE值,計算右下角紅框圈出的IV 值=0.422,即該數(shù)據(jù)中,“年收入”變量對應(yīng)的IV值為0.422。 表2-3展示了IV值常用的判斷標(biāo)準(zhǔn)。由此可知,表2-2中,“年收入”變量對于區(qū)別好壞客戶的具有良好的預(yù)測能力。表2-3 IV值的判斷標(biāo)準(zhǔn)
實際中,為了提高IV值,常常需要調(diào)整合并WOE相近的組別,最后得到的分組結(jié)果稱為粗分類(Coarse Classing)。當(dāng)所有變量的IV值都計算完成后,即可從中挑選變量,優(yōu)先排除高度相關(guān)、趨勢異常、解釋不易及容易偏移者。由此可見,IV值也是模型變量篩選的一種方法。 最后,關(guān)于OWE和IV值還有如下幾點需要補(bǔ)充說明的地方:- 根據(jù)定義,違約件占比高于正常件占比時,WOE為負(fù)數(shù)。WOE絕對值越 高,表示該組別好壞客戶的區(qū)隔程度越高。各組之間WOE值差距應(yīng)盡可 能拉開并呈現(xiàn)由低至高的合理趨勢。
- 需要指出的是,變量在進(jìn)行WOE分箱后,常常用WOE值來取代原來的變 量值作為特征投入模型訓(xùn)練,因此,WOE分箱也可以稱作WOE特征變 換。
- 信息值可用來表示變量預(yù)測能力的強(qiáng)度。因此,可以協(xié)助模型開發(fā)人員了 解各變量對于目標(biāo)事件的單一預(yù)測能力的高低,借以挑選出高預(yù)測能力的 變量進(jìn)行開發(fā)。
由于篇幅太長,明日更新第二部內(nèi)容
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。