中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數(shù)據(jù)分析和數(shù)據(jù)挖掘的具體方法

常見的數(shù)據(jù)處理技巧

數(shù)據(jù)的抽取要正確反應業(yè)務需求

  • 真正熟悉業(yè)務背景
  • 確保抽取的數(shù)據(jù)所對應的當時業(yè)務背景,與現(xiàn)在的業(yè)務需求即將應用的業(yè)務背景沒有明顯的重大改變

數(shù)據(jù)抽樣:抽樣方法多種多樣,視具體場景使用。

分析數(shù)據(jù)的規(guī)模有哪些具體的要求

重點是考量目標變量所對應的目標事件的數(shù)量。訓練集的數(shù)據(jù)量大概應該占到樣本總數(shù)據(jù)量的40%-70%。1000個以上。自變量一般控制在8-20個以上。

如何處理缺失值和異常值

缺失值的常見處理方法

  • 數(shù)據(jù)分析師首先應該知道數(shù)據(jù)缺失的原因
  • 對于數(shù)據(jù)的缺失進行判斷
  • 直接刪除帶有缺失值的數(shù)據(jù)元組(或觀察對象)
  • 直接刪除有大量缺失值的變量
  • 對缺失值進行替換
  • 對缺失值進行賦值

異常值的判斷和處理:連續(xù)值和離散值的異常值的處理方式不盡相同。

異常值有時也有比較好的應用價值。

數(shù)據(jù)轉(zhuǎn)換

產(chǎn)生衍生變量

改變分布

分箱

標準化

篩選有效的輸入變量

為什么

  • 提高模型穩(wěn)定型
  • 提高模型預測能力
  • 提高運算速度和運算效率的需要

結(jié)合業(yè)務經(jīng)驗進行先行篩選

用線性相關性指標進行初步篩選

R平方

卡方檢驗

WOE、IV、基尼系數(shù)

  • 通過WOE的變化來調(diào)整出最佳的分箱閾值
  • 通過IV或者Gini篩選出有較高預測價值的自變量

部分建模算法自身的篩選功能

降維的方法

最后的準則

既要貫徹落實上述種種有效的篩選輸入變量的方法和原理,又要在數(shù)據(jù)挖掘商業(yè)實戰(zhàn)中綜合考慮諸多環(huán)境因素和制約條件,并加以權(quán)衡和折中。

共線性問題

如何識別共線性

  • 相關系數(shù)
  • 模型結(jié)論
  • 主成分分析
  • 違背業(yè)務經(jīng)驗
  • 聚類

如何處理共線性

  • 變量取舍
  • 變量組合
  • 變量轉(zhuǎn)換

常見的數(shù)據(jù)挖掘技術

聚類

聚類的場景:

  • 目標用戶的群體分類
  • 不同產(chǎn)品的價值組合
  • 探測、發(fā)現(xiàn)孤立點、異常值

主要聚類算法的分類:

  • 劃分方法
  • 層次方法
  • 基于密度的方法
  • 基于網(wǎng)格的方法

注意事項:

  • 處理數(shù)據(jù)噪聲和異常值
  • 數(shù)據(jù)標準化
  • 聚類變量的少而精

擴展應用:

  • 聚類的核心指標與非聚類的業(yè)務指標相輔相成
  • 數(shù)據(jù)的探索和清理工具
  • 個性化推薦的應用

聚類分析在實際應用中的優(yōu)勢和缺點:

  • 優(yōu)點:聚類算法成熟;聚類業(yè)務解釋度好;簡潔、高效;不依賴順序
  • 缺點:需要提前指定k;異常值敏感

聚類分析結(jié)果的評價體系和評價指標:

  • 業(yè)務專家評估
  • 指標:RMSSTD、R-Square、SPR、Distance Between Clusters

預測響應(分類)模型

神經(jīng)網(wǎng)絡的應用優(yōu)勢:

神經(jīng)網(wǎng)絡的缺點和注意事項:

決策樹

常見算法:CHAID、CART、ID3

應用優(yōu)勢:

缺點和注意事項:

除此之外,還有邏輯回歸、多元線性回歸、過擬合的處理等技術

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【Friday BI Fly】2016年05月13日 大數(shù)據(jù)挖掘與違約欺詐分析、違約欺詐分析模型評估...
淺談數(shù)據(jù)分析和數(shù)據(jù)建模
轉(zhuǎn)行數(shù)據(jù)分析師必學技能
數(shù)據(jù)分析能力對商業(yè)銀行的重要性
數(shù)據(jù)挖掘技術概述
數(shù)據(jù)挖掘:基于R語言的實戰(zhàn) | 第5章:聚類分析
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服