隨機(jī)森林是一種由決策樹構(gòu)成的集成算法,他在很多情況下都能有不錯的表現(xiàn)。
本文將介紹隨機(jī)森林的基本概念、4 個(gè)構(gòu)造步驟、4 種方式的對比評測、10 個(gè)優(yōu)缺點(diǎn)和 4 個(gè)應(yīng)用方向。
什么是隨機(jī)森林?
隨機(jī)森林屬于 集成學(xué)習(xí) 中的 Bagging(Bootstrap AGgregation 的簡稱) 方法。如果用圖來表示他們之間的關(guān)系如下:
決策樹 – Decision Tree
在解釋隨機(jī)森林前,需要先提一下決策樹。決策樹是一種很簡單的算法,他的解釋性強(qiáng),也符合人類的直觀思維。這是一種基于if-then-else規(guī)則的有監(jiān)督學(xué)習(xí)算法,上面的圖片可以直觀的表達(dá)決策樹的邏輯。
詳細(xì)了解決策樹,可以看看《一文看懂決策樹 – Decision tree(3個(gè)步驟+3種典型算法+10個(gè)優(yōu)缺點(diǎn))》
隨機(jī)森林 – Random Forest | RF
隨機(jī)森林是由很多決策樹構(gòu)成的,不同決策樹之間沒有關(guān)聯(lián)。
當(dāng)我們進(jìn)行分類任務(wù)時(shí),新的輸入樣本進(jìn)入,就讓森林中的每一棵決策樹分別進(jìn)行判斷和分類,每個(gè)決策樹會得到一個(gè)自己的分類結(jié)果,決策樹的分類結(jié)果中哪一個(gè)分類最多,那么隨機(jī)森林就會把這個(gè)結(jié)果當(dāng)做最終的結(jié)果。
構(gòu)造隨機(jī)森林的 4 個(gè)步驟
隨機(jī)森林的優(yōu)缺點(diǎn)
優(yōu)點(diǎn)
缺點(diǎn)
隨機(jī)森林 4 種實(shí)現(xiàn)方法對比測試
隨機(jī)森林是常用的機(jī)器學(xué)習(xí)算法,既可以用于分類問題,也可用于回歸問題。本文對 scikit-learn、Spark MLlib、DolphinDB、XGBoost 四個(gè)平臺的隨機(jī)森林算法實(shí)現(xiàn)進(jìn)行對比測試。評價(jià)指標(biāo)包括內(nèi)存占用、運(yùn)行速度和分類準(zhǔn)確性。
測試結(jié)果如下:
測試過程及說明忽略,感興趣的可以查看原文《隨機(jī)森林算法 4 種實(shí)現(xiàn)方法對比測試:DolphinDB 速度最快,XGBoost 表現(xiàn)最差》
隨機(jī)森林的 4 個(gè)應(yīng)用方向
隨機(jī)森林可以在很多地方使用:
聯(lián)系客服