中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
統(tǒng)計界的一股清流:能屈能伸,不做鋼鐵直男!

大家好,我是Leopard。

對于大部分同學來說,線性回歸是我們的老朋友了,它的身影經(jīng)常出現(xiàn)在我們的論文當中,無論是多元線性回歸還是logistic回歸。

但是不知道大家是否還記得Leopard在之前的推文中講解過兩篇來自于NEJM的文章,其中一篇中涉及了非線性回歸。

圖形如下:

對于非線性回歸,很多童鞋可能覺得比較陌生。第一是不知道什么樣的回歸屬于非線性回歸;第二是不知道如何去實現(xiàn)這種看起來很酷的回歸。

那么,在接下來的兩期推文中,Leopard將帶領(lǐng)大家一起揭開非線性回歸的面紗,讓大家看的明明白白。

1什么是非線性回歸


簡單來說,非線性回歸是相對于線性回歸的一個概念,廣義上說,我們可以把所有不能歸類為線性回歸的回歸方法都叫做非線性回歸。

那不少同學可能就又有新的問題了,那線性回歸中的這個“線性”(linear)到底是啥意思?其實很簡單,說白了就是表明自變量X和因變量Y之間的關(guān)系是直線性的(我認為國人在翻譯liner的時候不準確,更準確的翻譯應該是直線,而非簡單的線性,因為線性應該也包括非直線的情形,即曲線,但是這里我們不深究文字了,大家明白背后的道理就行了),如下圖所示:

上圖展示的單個X與Y之間的線性相關(guān)關(guān)系(Y = α+βX+ε,雖然紅色的點(真實數(shù)據(jù))并非完全落在藍色的擬合直線上,但這并不妨礙我們判斷X和Y之間的線性關(guān)系(體現(xiàn)在Y = α+βX上,其中,α為截距,β為斜率),這恰好體現(xiàn)了統(tǒng)計世界的不確定性(體現(xiàn)在ε上)(統(tǒng)計不是完全的數(shù)學,數(shù)學研究的是確定性,所有關(guān)系都是唯一確定的,而統(tǒng)計研究的是不確定性,沒有絕對確定的關(guān)系)。

進一步擴展一下,當自變量X有多個時,同樣可以與因變量Y存在線性關(guān)系。比如:

上圖展示的是兩個X與Y之間的線性關(guān)系(Y = α + βX1 + βX2 + ε),由于存在三個變量,因此數(shù)據(jù)的展示也由二維平面坐標系變成了三維坐標系。更高維的情況我們就不展示了。

總之,上面展示的兩種情形就是線性回歸的情形,當然,此處我們僅僅展示了Y是連續(xù)性變量的情形,當Y是分類變量時,大家可以查看我們之前的推文《一文讀懂logistic回歸的前世今生。

明白了線性關(guān)系,那么非線性關(guān)系就簡單了,說白了,對于僅有一個X的情形,就是表示X和Y之間的曲線關(guān)系,比如:

對于有兩個X的情形,就是表示X和Y之間的曲面關(guān)系,比如:

更多維的情形我們就不展示了,其中的道理是相同的。


線性回歸的方法有多種,同樣的,非線性回歸的方法也很多。不同的方法適用于不同的場景,且結(jié)果可能不同。

在實際的科研工作中,我們在很多時候會遇到非線性回歸的應用場景。與線性回歸的方法相比,非線性的方法由于其靈活度更高(曲線可以任意扭動,而直線不行),所以對一些復雜數(shù)據(jù)的擬合度可能更好,從而預測效果更佳;但同時也是因為其靈活度高,導致模型結(jié)果比線性回歸的結(jié)果更加難以解釋。

比如對于一個扭動的非常厲害的回歸曲線,我們很難準確描述X和Y之間的具體關(guān)系。

總之,方法沒有優(yōu)劣之分,只有合適與不合適的區(qū)別,針對不同的場景采用不同的方法,才能達到最佳的效果。

接下來的幾期推文中,我會給大家介紹幾種最常見的非線性回歸的原理及其在R語言中實現(xiàn)的方法,包括多項式回歸、回歸樣條、光滑樣條、局部回歸,和廣義加性模型,幫助大家知其然也知其所以然。

2多項式回歸

簡單來說,多項式回歸是將線性回歸轉(zhuǎn)成非線性回歸最常用的一種方法。假設我們的線性回歸模型如下:

其中,

表示殘差。將上式轉(zhuǎn)成多項式回歸,即在回歸方程中添加X的多次項,比如:

在式(2)中,我們添加了X的多次項,比如X2,X3等,以此來達到構(gòu)建非線性回歸模型的目的。當然,式(2)中的最高次項d到底選擇多少,并沒有統(tǒng)一確定的答案。實際經(jīng)驗告訴我們,對于一個數(shù)據(jù),一般d=4足以擬合出足夠光滑的線條出來(即,曲線扭動的很厲害)。假如d大于4,往往會發(fā)生過擬合的現(xiàn)象,使模型變得異常復雜,得不償失。

3多項式回歸實戰(zhàn)

多項式回歸的原理就是這么簡單,下面我們利用簡單的示例來進一步熟悉它。

篇幅有限,推文中不展示代碼了,所有的代碼請在后臺回復“非線性回歸1”獲取

1、在醫(yī)學方公眾號輸入“非線性回歸1”,獲取提取碼

2、打開鏈接: 

https://pan.baidu.com/s/1A_jCyy_f6e6ABl_qnH0trg 

3、輸入提取碼即可下載

本示例的數(shù)據(jù)集來自于ISLR包中的Wage數(shù)據(jù)集,大家在使用之前請先下載和加載ISLR包。Wage數(shù)據(jù)集展示的是不同因素對于雇員工資的影響。方便起見,我們此處僅僅選擇兩個變量進行擬合,其中,因變量即工資(wage),是連續(xù)型變量,自變量為雇員的年齡(age),同樣是連續(xù)型變量。開始之前,請大家務必熟悉你的數(shù)據(jù),如何判斷兩個變量之間的關(guān)系是線性的還是非線性的,最好的辦法是作圖。此處我們將age和wage變量進行作圖,如下圖所示:

從上面的散點圖至少可以看出一點,age和wage不是線性關(guān)系。在30-60年齡段,散點出現(xiàn)了一定程度的彎曲。而過了60歲后,散點呈現(xiàn)下降趨勢。為了擬合二者的關(guān)系,我們采用多項式回歸,將x的最高次設置為4,即d=4。在R語言中,我們可以使用poly()函數(shù)構(gòu)建多項式,也可以使用傳統(tǒng)的方法構(gòu)建多項式,比如I(x^2)表示x2。兩種方式最后獲得的結(jié)果是一致的。此處僅展示其中一種,更詳細的內(nèi)容讀者可以參考代碼。

下圖中,藍色曲線就是我們利用多項式回歸擬合出的曲線,藍色虛線為預測值的95%可信區(qū)間。雖然難以具體解釋age和wage之間的關(guān)系,但是我們可以得到結(jié)論,即在40歲之前,隨著年齡增加,工資呈上升趨勢,在40-60歲之間,工資不隨年齡增加而增加,而在60歲之后,工資隨著年齡的增加而下降。

上面的結(jié)果展示的是連續(xù)型變量的情形,當因變量為分類變量時,多項式回歸同樣適用。我們依然使用wage和age 的數(shù)據(jù),只不過此處我們將wage切分成分類變量,即wage>250和wage≤250兩個類別。結(jié)果如下:

上圖中橫軸依然是age,縱軸不再是wage了,而是wage大于250的概率了,舉例來說,當年齡在60歲時,wage大于250的可能性最大,而隨著年齡增加,概率也逐漸下降。

上述是多項式回歸,在下期,我會給大家介紹回歸樣條和光滑樣條。

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【視頻】什么是非線性模型與R語言多項式回歸、局部平滑樣條、 廣義相加GAM分析工資數(shù)據(jù)|數(shù)據(jù)分享
回歸分析的各種變體【一覽】
數(shù)據(jù)科學家需要掌握的10個基本統(tǒng)計技術(shù)
回歸預測分析
§119 回歸分析(二)
函數(shù)與線性回歸分析
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服