中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
信用評(píng)分:第五部分

作者:Natasha Mashanovich,

基本原理

計(jì)算機(jī)算法

假設(shè)數(shù)據(jù)準(zhǔn)備和初始變量選擇過(guò)程(過(guò)濾)已經(jīng)完成,并且過(guò)濾的訓(xùn)練數(shù)據(jù)集可用于模型構(gòu)建過(guò)程,評(píng)分卡開(kāi)發(fā)描述了如何將數(shù)據(jù)轉(zhuǎn)換為評(píng)分卡模型。開(kāi)發(fā)過(guò)程包括四個(gè)主要部分:變量轉(zhuǎn)換,使用邏輯回歸的模型訓(xùn)練,模型驗(yàn)證和尺度。

圖1.標(biāo)準(zhǔn)評(píng)分卡開(kāi)發(fā)過(guò)程

變量轉(zhuǎn)換

“如果你對(duì)數(shù)據(jù)進(jìn)行足夠長(zhǎng)時(shí)間的折磨,它就會(huì)承認(rèn)任何事情?!?(羅納德科斯,經(jīng)濟(jì)學(xué)家) - 基于邏輯回歸的標(biāo)準(zhǔn)記分卡模型是一個(gè)加法模型; 因此,需要特殊的變量轉(zhuǎn)換。通常采用的轉(zhuǎn)換 - 精細(xì)分類,粗略分類,以及啞編碼或證據(jù)權(quán)重(WOE)轉(zhuǎn)換 - 形成一個(gè)順序過(guò)程,提供易于實(shí)現(xiàn)和向業(yè)務(wù)解釋的模型結(jié)果。此外,這些轉(zhuǎn)換有助于將自變量和因變量之間的非線性關(guān)系轉(zhuǎn)換為線性關(guān)系 - 業(yè)務(wù)經(jīng)常要求的客戶行為。

精細(xì)的分類
適用于所有連續(xù)變量和具有高基數(shù)的離散變量。這是通常在20到50個(gè)細(xì)粒度箱之間進(jìn)行初始分箱的過(guò)程。

粗略分類
將分箱過(guò)程應(yīng)用于細(xì)粒度箱以合并具有相似風(fēng)險(xiǎn)的箱并創(chuàng)建更少的箱,通常最多10個(gè)箱。目的是通過(guò)創(chuàng)建更少的箱子來(lái)實(shí)現(xiàn)簡(jiǎn)化,每個(gè)箱箱具有明顯不同的風(fēng)險(xiǎn)因素,同時(shí)最小化信息損失。但是,為了創(chuàng)建一個(gè)對(duì)過(guò)度擬合具有彈性的健壯模型,每個(gè)箱應(yīng)該包含來(lái)自總帳戶的足夠數(shù)量的觀察結(jié)果(大多數(shù)從業(yè)者建議的最小值為5%)。這些相反的目標(biāo)可以通過(guò)最優(yōu)分箱形式的優(yōu)化來(lái)實(shí)現(xiàn),該分級(jí)在粗分類過(guò)程期間使變量的預(yù)測(cè)能力最大化。最佳分箱利用變量選擇期間使用的相同統(tǒng)計(jì)度量,例如信息值,基尼和卡方統(tǒng)計(jì)量。最受歡迎的措施是:信息價(jià)值,盡管兩種或更多種措施的組合通常是有益的。缺失值(如果它們包含預(yù)測(cè)信息)應(yīng)該分為單獨(dú)的類或者合并到具有類似風(fēng)險(xiǎn)因素的分箱。

啞編碼
為引用類之外的所有粗類創(chuàng)建二元(?。┳兞康倪^(guò)程。這種方法可能存在問(wèn)題,因?yàn)轭~外的變量需要更多的存儲(chǔ)器和處理資源,并且由于自由度降低,偶爾會(huì)出現(xiàn)過(guò)度擬合。

證據(jù)權(quán)重(WOE)轉(zhuǎn)換
另一種更有利的虛擬編碼方法,用風(fēng)險(xiǎn)值替換每個(gè)粗類,然后將風(fēng)險(xiǎn)值折疊成單個(gè)數(shù)字變量。數(shù)值變量描述了自變量和因變量之間的關(guān)系。WOE框架非常適合于邏輯回歸建模,因?yàn)閮烧叨蓟趯?duì)數(shù)概率計(jì)算。此外,WOE變換標(biāo)準(zhǔn)化所有自變量,因此,可以直接比較后續(xù)邏輯回歸中的參數(shù)。這種方法的主要缺點(diǎn)是只考慮每個(gè)箱的相對(duì)風(fēng)險(xiǎn),而不考慮每個(gè)箱中的帳戶比例。可以使用信息值來(lái)評(píng)估每個(gè)箱的相對(duì)貢獻(xiàn)。
啞編碼和WOE變換都給出了類似的結(jié)果。選擇哪一個(gè)主要取決于數(shù)據(jù)科學(xué)家的偏好。

但是要注意,當(dāng)手動(dòng)執(zhí)行時(shí),最佳分箱,虛擬編碼和證據(jù)變換權(quán)重是耗時(shí)的過(guò)程。因此,用于分箱,優(yōu)化和WOE轉(zhuǎn)換的軟件包非常有用并且非常值得推薦。

圖2.使用World Programming Software進(jìn)行自動(dòng)最佳分箱和WOE轉(zhuǎn)換

模型訓(xùn)練和比例

Logistic回歸是信用評(píng)分中用于解決二元分類問(wèn)題的常用技術(shù)。在模型擬合之前,變量選擇的再一次迭代對(duì)于檢查新的WOE變換變量是否仍然是良好的模型候選變量是有價(jià)值的。優(yōu)選的候選變量是具有較高信息值(通常在0.1和0.5之間)的變量,與因變量具有線性關(guān)系,在所有類別中具有良好的覆蓋率,具有正態(tài)分布,包含顯著的總體貢獻(xiàn),并且與業(yè)務(wù)相關(guān)。

許多分析供應(yīng)商在其軟件產(chǎn)品中包含邏輯回歸模型,通常具有廣泛的統(tǒng)計(jì)和圖形功能。例如,WPS中SAS語(yǔ)言PROC LOGISTIC的實(shí)現(xiàn)為自動(dòng)變量選擇,模型參數(shù)限制,加權(quán)變量,不同段的單獨(dú)分析,不同數(shù)據(jù)集評(píng)分,生成自動(dòng)部署代碼提供了一整套選項(xiàng)。

模型一旦對(duì)齊,下一步就是將模型調(diào)整到業(yè)務(wù)所需的比例。這稱為縮放??s放作為一種測(cè)量工具,可以在不同的評(píng)分卡中提供分?jǐn)?shù)的一致性和標(biāo)準(zhǔn)化。最低和最高分?jǐn)?shù)值以及分?jǐn)?shù)范圍有助于風(fēng)險(xiǎn)解釋,并應(yīng)向業(yè)務(wù)部門報(bào)告。通常,業(yè)務(wù)要求是對(duì)多個(gè)評(píng)分卡使用相同的分?jǐn)?shù)范圍,因此它們都具有相同的風(fēng)險(xiǎn)解釋。

一種流行的評(píng)分方法以對(duì)數(shù)方式創(chuàng)建離散分?jǐn)?shù),其中幾率在預(yù)??定數(shù)量的點(diǎn)處加倍。這需要指定三個(gè)參數(shù):基點(diǎn),例如600點(diǎn),基準(zhǔn)賠率,例如50:1,并指出賠率加倍,例如20。分?jǐn)?shù)點(diǎn)對(duì)應(yīng)于模型變量的每個(gè)區(qū)間,而模型截距是翻譯成基點(diǎn)。具有表格分配點(diǎn)的縮放輸出表示實(shí)際評(píng)分卡模型。

圖3.評(píng)分卡縮放

模型表現(xiàn)

模型評(píng)估是模型構(gòu)建過(guò)程的最后一步。它由三個(gè)不同的階段組成:評(píng)估,驗(yàn)證和接受。

評(píng)估準(zhǔn)確性 - 我是否構(gòu)建了正確的模型? - 是第一個(gè)要求測(cè)試模型的問(wèn)題。評(píng)估的關(guān)鍵指標(biāo)是統(tǒng)計(jì)測(cè)量,包括模型準(zhǔn)確性,復(fù)雜性,錯(cuò)誤率,模型擬合統(tǒng)計(jì),變量統(tǒng)計(jì),顯著性值和優(yōu)勢(shì)比。

驗(yàn)證穩(wěn)健性 - 我是否構(gòu)建了正確的模型? - 從分類準(zhǔn)確性和統(tǒng)計(jì)評(píng)估轉(zhuǎn)向排名能力和業(yè)務(wù)評(píng)估時(shí),是下一個(gè)要問(wèn)的問(wèn)題。

驗(yàn)證度量的選擇取決于模型分類器的類型。二元分類問(wèn)題最常見(jiàn)的指標(biāo)是增益圖,提升圖,ROC曲線和Kolmogorov-Smirnov圖。ROC曲線是可視化模型性能的最常用工具。它是一個(gè)多用途工具,用于:

  • 冠軍挑戰(zhàn)者選擇最佳表現(xiàn)模式的方法;
  • 在看不見(jiàn)的數(shù)據(jù)上測(cè)試模型性能并將其與訓(xùn)練數(shù)據(jù)進(jìn)行比較;
  • 選擇最佳閾值,最大化真陽(yáng)性率,同時(shí)最小化假陽(yáng)性率。

通過(guò)繪制靈敏度與不同閾值的誤報(bào)概率(誤報(bào)率)來(lái)創(chuàng)建ROC曲線。評(píng)估不同閾值下的性能指標(biāo)是ROC曲線的理想特征。根據(jù)業(yè)務(wù)策略,不同類型的業(yè)務(wù)問(wèn)題將具有不同的閾值。

ROC曲線下面積(AUC)是指示分類器預(yù)測(cè)能力的有用度量。在信用風(fēng)險(xiǎn)中,0.75或更高的AUC是行業(yè)認(rèn)可的標(biāo)準(zhǔn)和模型驗(yàn)收的先決條件。

圖4.模型性能指標(biāo)

接受有用性 - 模型是否會(huì)被接受? - 是最后一個(gè)問(wèn)題,以便測(cè)試該模型是否對(duì)商業(yè)前景有價(jià)值。這是數(shù)據(jù)科學(xué)家必須將模型結(jié)果回放給業(yè)務(wù)并“捍衛(wèi)”其模型的關(guān)鍵階段。關(guān)鍵評(píng)估標(biāo)準(zhǔn)是模型的商業(yè)利益,因此,效益分析是呈現(xiàn)結(jié)果的核心部分。數(shù)據(jù)科學(xué)家應(yīng)該盡一切努力以簡(jiǎn)潔的方式呈現(xiàn)結(jié)果,因此結(jié)果和發(fā)現(xiàn)很容易理解。如果不能實(shí)現(xiàn)這一點(diǎn),可能會(huì)導(dǎo)致模型拒絕,從而導(dǎo)致項(xiàng)目失敗。

 

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
信用評(píng)分的簡(jiǎn)單小結(jié)(ROC,IV,WOE)
WOE:信用評(píng)分卡模型中的變量離散化方法
數(shù)據(jù)建模:個(gè)人信用分是如何計(jì)算出來(lái)的?
人工智能助力某銀行提高放貸效率—基于Python語(yǔ)言開(kāi)發(fā)信用評(píng)分卡(一)
使用SASEnterpriseMiner進(jìn)行數(shù)據(jù)挖掘:信用評(píng)分構(gòu)建記分卡模型
同盾咨詢 | 業(yè)務(wù)人員如何快速理解模型指標(biāo)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服