原文鏈接:使用SAS代寫EnterpriseMiner進行數(shù)據(jù)挖掘:信用評分構(gòu)建記分卡模型
標簽:
數(shù)據(jù)挖掘
風險管理
技巧和竅門
信用記分卡一直是信用評分的標準模型,因為它們易于理解,使您能夠輕松評分新數(shù)據(jù)-即計算新客戶的信用評分。本文將指導您完成使用Credit Scoring for SAS? EnterpriseMiner?開發(fā)的信用記分卡的基本步驟,這是我將在信用評分中發(fā)布的一系列技巧中的第一個。
建立記分卡用于構(gòu)建信用記分卡的基本流程圖中的節(jié)點包括:輸入數(shù)據(jù)源,數(shù)據(jù)分區(qū),交互式分組和記分卡。在本例中,您可以使用SAS Enterprise Miner的“幫助”菜單中提供的德語信用數(shù)據(jù)集。單擊Help-> Generate Sample Data Source - > German Credit。該數(shù)據(jù)集具有二元目標good_bad,其指示客戶是否默認其每月付款(指定為值'BAD'),以及與作為輸入或特征的人口統(tǒng)計和信用局相關(guān)的若干其他變量。
交互式分組節(jié)點簡而言之,交互式分組節(jié)點是一個非常靈活的工具,用于對變量進行分箱或分組。這個節(jié)點:
使用您可以輕松調(diào)整的選項來分類輸入變量
計算每個輸入變量的箱的證據(jù)權(quán)重
計算基尼和信息值,并拒絕具有這些統(tǒng)計值的低值的輸入變量
在幕后運行的過程可以根據(jù)您可以輕松定制的某些約束找到相對于目標的輸入的最佳分級。確保使用節(jié)點的交互式應用程序直觀地確認事件計數(shù)和證據(jù)權(quán)重趨勢對您的分箱有意義。如有必要,您可以合并箱,創(chuàng)建新組或手動調(diào)整證據(jù)權(quán)重。
手動調(diào)整證據(jù)權(quán)重
對于某些變量輸入,您可能需要手動調(diào)整證據(jù)權(quán)重(WOE)。例如,可變采用總結(jié)了信用申請人在當前工作中受雇的年數(shù)。一般而言,當前工作的年數(shù)往往與信用違約成反比。對于該數(shù)據(jù)集,證據(jù)權(quán)重不會因第1組至第5組單調(diào)減少這一事實可能是由于多種原因。例如,這個數(shù)據(jù)集可能是樣本偏向的,因為許多使用<2的應用程序是手動選擇或“挑選”,并且它們的良好行為反映在低事件數(shù)和低權(quán)重證據(jù)中。要防止此樣本偏差影響您的記分卡,您可以使用交互式應用程序中“分組”選項卡的“粗略詳細信息”視圖上的“手動WOE”列。對于組1,將WOE從0.1283更改為0.7,對于組2,將WOE從-0.13131更改為-0.5。新的WOE和信息值被重新計算為新信息值。
記分卡節(jié)點對使用“交互式分組”節(jié)點找到的箱或組感到滿意后,運行“記分卡”節(jié)點以使用分組輸入對邏輯回歸進行建模。然后,它將創(chuàng)建每個輸入組或?qū)傩缘馁r率的預測日志的線性變換,使其更易于解釋。
默認情況下,每增加20個得分點,事件的幾率就會翻倍。您正在建模的事件是付款默認值,這意味著例如,與得分為150的應用程序相比,得分為130分的應用程序的違約幾率要高一倍。
在結(jié)果中,有幾個有用的圖表和表格,包括記分卡,分數(shù)分布,KS圖,權(quán)衡圖和許多其他。
輸出變量和不利特征請注意,從導出的數(shù)據(jù)集中,記分卡節(jié)點會創(chuàng)建多個變量。帶有前綴SCR_的變量是記分卡中每個變量的記分卡點,SCORECARD_POINTS是每個應用程序的總點數(shù)。
當您指定記分卡屬性生成報告=是以輸出不良特征時,您的結(jié)果還將包括每個觀察結(jié)果降低得分最多的變量。您最多可以選擇5種不利特征。作為如何解釋此列的示例,對于下面數(shù)據(jù)集的第一次觀察,扣除了14個得分點,因為貸款的目的標記為1,3,8,缺失或未知。
聯(lián)系客服