中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
一文看懂隨機(jī)森林 - Random Forest(4個(gè)構(gòu)造步驟 10個(gè)優(yōu)缺點(diǎn))

隨機(jī)森林是一種由決策樹構(gòu)成的集成算法,他在很多情況下都能有不錯的表現(xiàn)。

本文將介紹隨機(jī)森林的基本概念、4 個(gè)構(gòu)造步驟、4 種方式的對比評測、10 個(gè)優(yōu)缺點(diǎn)和 4 個(gè)應(yīng)用方向。

什么是隨機(jī)森林?

隨機(jī)森林屬于 集成學(xué)習(xí) 中的 Bagging(Bootstrap AGgregation 的簡稱) 方法。如果用圖來表示他們之間的關(guān)系如下:

決策樹 – Decision Tree

在解釋隨機(jī)森林前,需要先提一下決策樹。決策樹是一種很簡單的算法,他的解釋性強(qiáng),也符合人類的直觀思維。這是一種基于if-then-else規(guī)則的有監(jiān)督學(xué)習(xí)算法,上面的圖片可以直觀的表達(dá)決策樹的邏輯。

詳細(xì)了解決策樹,可以看看《一文看懂決策樹 – Decision tree(3個(gè)步驟+3種典型算法+10個(gè)優(yōu)缺點(diǎn))》

隨機(jī)森林 – Random Forest | RF

隨機(jī)森林是由很多決策樹構(gòu)成的,不同決策樹之間沒有關(guān)聯(lián)。

當(dāng)我們進(jìn)行分類任務(wù)時(shí),新的輸入樣本進(jìn)入,就讓森林中的每一棵決策樹分別進(jìn)行判斷和分類,每個(gè)決策樹會得到一個(gè)自己的分類結(jié)果,決策樹的分類結(jié)果中哪一個(gè)分類最多,那么隨機(jī)森林就會把這個(gè)結(jié)果當(dāng)做最終的結(jié)果。

構(gòu)造隨機(jī)森林的 4 個(gè)步驟

  1. 假如有N個(gè)樣本,則有放回的隨機(jī)選擇N個(gè)樣本(每次隨機(jī)選擇一個(gè)樣本,然后返回繼續(xù)選擇)。這選擇好了的N個(gè)樣本用來訓(xùn)練一個(gè)決策樹,作為決策樹根節(jié)點(diǎn)處的樣本。
  2. 當(dāng)每個(gè)樣本有M個(gè)屬性時(shí),在決策樹的每個(gè)節(jié)點(diǎn)需要分裂時(shí),隨機(jī)從這M個(gè)屬性中選取出m個(gè)屬性,滿足條件m << M。然后從這m個(gè)屬性中采用某種策略(比如說信息增益)來選擇1個(gè)屬性作為該節(jié)點(diǎn)的分裂屬性。
  3. 決策樹形成過程中每個(gè)節(jié)點(diǎn)都要按照步驟2來分裂(很容易理解,如果下一次該節(jié)點(diǎn)選出來的那一個(gè)屬性是剛剛其父節(jié)點(diǎn)分裂時(shí)用過的屬性,則該節(jié)點(diǎn)已經(jīng)達(dá)到了葉子節(jié)點(diǎn),無須繼續(xù)分裂了)。一直到不能夠再分裂為止。注意整個(gè)決策樹形成過程中沒有進(jìn)行剪枝。
  4. 按照步驟1~3建立大量的決策樹,這樣就構(gòu)成了隨機(jī)森林了。

隨機(jī)森林的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

  1. 它可以出來很高維度(特征很多)的數(shù)據(jù),并且不用降維,無需做特征選擇
  2. 它可以判斷特征的重要程度
  3. 可以判斷出不同特征之間的相互影響
  4. 不容易過擬合
  5. 訓(xùn)練速度比較快,容易做成并行方法
  6. 實(shí)現(xiàn)起來比較簡單
  7. 對于不平衡的數(shù)據(jù)集來說,它可以平衡誤差。
  8. 如果有很大一部分的特征遺失,仍可以維持準(zhǔn)確度。

缺點(diǎn)

  1. 隨機(jī)森林已經(jīng)被證明在某些噪音較大的分類或回歸問題上會過擬合。
  2. 對于有不同取值的屬性的數(shù)據(jù),取值劃分較多的屬性會對隨機(jī)森林產(chǎn)生更大的影響,所以隨機(jī)森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的

隨機(jī)森林 4 種實(shí)現(xiàn)方法對比測試

隨機(jī)森林是常用的機(jī)器學(xué)習(xí)算法,既可以用于分類問題,也可用于回歸問題。本文對 scikit-learn、Spark MLlib、DolphinDB、XGBoost 四個(gè)平臺的隨機(jī)森林算法實(shí)現(xiàn)進(jìn)行對比測試。評價(jià)指標(biāo)包括內(nèi)存占用、運(yùn)行速度和分類準(zhǔn)確性。

測試結(jié)果如下:

測試過程及說明忽略,感興趣的可以查看原文《隨機(jī)森林算法 4 種實(shí)現(xiàn)方法對比測試:DolphinDB 速度最快,XGBoost 表現(xiàn)最差》

隨機(jī)森林的 4 個(gè)應(yīng)用方向

隨機(jī)森林可以在很多地方使用:

  1. 對離散值的分類
  2. 對連續(xù)值的回歸
  3. 無監(jiān)督學(xué)習(xí)聚類
  4. 異常點(diǎn)檢測
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
決策樹與隨機(jī)森林
隨機(jī)森林
技術(shù)向:隨機(jī)森林算法在人體識別中的應(yīng)用
人工智能基礎(chǔ)課堂紀(jì)要7
機(jī)器學(xué)習(xí)開放課程(五):Bagging與隨機(jī)森林
算法基礎(chǔ)(17)| 隨機(jī)森林算法基礎(chǔ)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服