數(shù)據(jù)的抽取要正確反應業(yè)務需求
數(shù)據(jù)抽樣:抽樣方法多種多樣,視具體場景使用。
分析數(shù)據(jù)的規(guī)模有哪些具體的要求
重點是考量目標變量所對應的目標事件的數(shù)量。訓練集的數(shù)據(jù)量大概應該占到樣本總數(shù)據(jù)量的40%-70%。1000個以上。自變量一般控制在8-20個以上。
如何處理缺失值和異常值
缺失值的常見處理方法
異常值的判斷和處理:連續(xù)值和離散值的異常值的處理方式不盡相同。
異常值有時也有比較好的應用價值。
數(shù)據(jù)轉(zhuǎn)換
產(chǎn)生衍生變量
改變分布
分箱
標準化
篩選有效的輸入變量
為什么
結(jié)合業(yè)務經(jīng)驗進行先行篩選
用線性相關性指標進行初步篩選
R平方
卡方檢驗
WOE、IV、基尼系數(shù)
部分建模算法自身的篩選功能
降維的方法
最后的準則
既要貫徹落實上述種種有效的篩選輸入變量的方法和原理,又要在數(shù)據(jù)挖掘商業(yè)實戰(zhàn)中綜合考慮諸多環(huán)境因素和制約條件,并加以權(quán)衡和折中。
共線性問題
如何識別共線性
如何處理共線性
聚類
聚類的場景:
主要聚類算法的分類:
注意事項:
擴展應用:
聚類分析在實際應用中的優(yōu)勢和缺點:
聚類分析結(jié)果的評價體系和評價指標:
預測響應(分類)模型
神經(jīng)網(wǎng)絡的應用優(yōu)勢:
神經(jīng)網(wǎng)絡的缺點和注意事項:
決策樹
常見算法:CHAID、CART、ID3
應用優(yōu)勢:
缺點和注意事項:
除此之外,還有邏輯回歸、多元線性回歸、過擬合的處理等技術
聯(lián)系客服