在信息爆炸時代,“信用”已成為越來越重要的無形財產(chǎn)。 ”數(shù)據(jù)風(fēng)控“的實際意義是用DT(Data Technology)識別欺詐,將欺詐防患于未然,然后凈化信用體系。
信貸風(fēng)險和欺詐風(fēng)險是消費金融業(yè)務(wù)發(fā)展中最重要的兩種風(fēng)險,信息不對稱是導(dǎo)致這些風(fēng)險的主要原因。
“數(shù)據(jù)防欺詐”是數(shù)據(jù)風(fēng)控武器之一。這種武器的力量的重要保證是數(shù)據(jù)和信息收集的完整性和準(zhǔn)確性。通過這些有價值的數(shù)據(jù),找到欺詐者留下的線索,以防止發(fā)生欺詐。
tecdat深入分析用戶的基本屬性、社會屬性、消費者行為、興趣偏好、社會偏好、資產(chǎn)特征、信用特征等數(shù)據(jù),通過數(shù)據(jù)挖掘,使用戶更加立體化地實時呈現(xiàn)。
一方面,基于機構(gòu)的存量數(shù)據(jù),運營商等數(shù)據(jù)構(gòu)建復(fù)雜的網(wǎng)絡(luò)。 同時,采用社區(qū)挖掘算法實現(xiàn)風(fēng)險分組。 在此基礎(chǔ)上,我們訓(xùn)練機器學(xué)習(xí)模型。
建模的第一步是特征工程,眾所周知,特征是機器學(xué)習(xí)建模的原材料,對最終模型的影響至關(guān)重要。數(shù)據(jù)和特征比模型更重要,數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法逼近這個上限。特征加工和衍生工作越完備,那么構(gòu)建的機器學(xué)習(xí)模型效果越好。但是,面對不同數(shù)據(jù),不同業(yè)務(wù)場景,特征加工衍生往往是最耗時間與資源的工作。
尤其在弱數(shù)據(jù)方面,充斥著大量文本、時序類數(shù)據(jù),人工特征定義的方法天然存在較大局限性。
tecdat引入基于機器學(xué)習(xí)的特征提取框架(如 random forest,SVM,CNN)來適應(yīng)不同的數(shù)據(jù)類型,自動從大量復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)中產(chǎn)生高質(zhì)量的特征,完成模型訓(xùn)練后可以輸出特征的重要性,結(jié)合多種方法進(jìn)行特征選擇和解釋。
具體的模型,我們知道在弱勢數(shù)據(jù)的基礎(chǔ)上加工和衍生的特點,機構(gòu)往往面臨很多特征維度,從數(shù)千到數(shù)萬以上,非常稀疏。 超出了傳統(tǒng)風(fēng)控的基于評分卡系統(tǒng)的建模能力。
能夠使整體模型的準(zhǔn)確度和防止過擬合的能力達(dá)到協(xié)調(diào),從而達(dá)到在總體上的最佳準(zhǔn)確度。
復(fù)雜的集成模式框架除了當(dāng)前場景和業(yè)務(wù)建模具有很好的表現(xiàn),其另一個重要價值在于可以快速應(yīng)用于新業(yè)務(wù)應(yīng)用,對“冷啟動“階段有非常重要的作用。
最后,在線上信用貸場景實踐下來,經(jīng)過多批次多個跨時間段的驗證,可以看到,效果上還是有非常直接的提升,模型性能相比傳統(tǒng)模型提升了大約30%。
版權(quán)聲明:為拓端數(shù)據(jù)原創(chuàng)文章,未經(jīng)允許不得轉(zhuǎn)載!
聯(lián)系客服