中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
【典藏】Logistic 回歸:從入門到進(jìn)階

 


(一)如何理解Logistic回歸


我們在做統(tǒng)計(jì)分析之前,往往會做個(gè)散點(diǎn)圖,以對數(shù)據(jù)有直觀的了解。今天,我們就從散點(diǎn)圖入手,來探究Logistic回歸的奧秘。


如下,分別是連續(xù)型因變量和二分類因變量的散點(diǎn)圖。很直觀的,我們會想到用一條直線來代表左圖中兩個(gè)變量的關(guān)系。那么右圖中,用一條什么樣的線來代表呢?


如下,左圖可以完美地?cái)M合出一條直線;而右圖如果繪制成S型曲線,意義就與左圖有所不同了。


右圖的縱軸已經(jīng)換成了P值。所以右圖曲線上的點(diǎn),代表的就是在對應(yīng)x位置,Y取到1的概率(即取到二分類變量中上方變量值的概率),Y軸label順理成章?lián)Q為了P-概率值。


有了擬合曲線,另一個(gè)問題就產(chǎn)生了。代表P值的曲線與自變量并非線性關(guān)系!那如何轉(zhuǎn)化為線性關(guān)系,以方便我們寫成y=ax+b的形式進(jìn)行參數(shù)估計(jì)呢?


因此,就需要我們引入logit函數(shù)的概念。


如下左圖中,β+βX與p的關(guān)系,是一條S曲線的關(guān)系;而我們引入logit函數(shù),p與log(p/(1-p))的關(guān)系,恰好是一條反S曲線的關(guān)系。把二者一整合,負(fù)負(fù)為正,就得到了我們所期望的直線關(guān)系,即log(p/(1-p))=β+βX,就是所謂的Logistic回歸方程。


這個(gè)logit函數(shù),在廣義線性模型中,就被成為連接函數(shù)。


我們實(shí)際上有很多種類的連接函數(shù),可以構(gòu)造很多種的回歸。因?yàn)檫@里的函數(shù)恰好被叫做logit函數(shù),所以,理所當(dāng)然地,這個(gè)回歸也就被稱為Logistic回歸。





(二)回歸模型建立


上一部分,我們談了對Logistic回歸的直觀理解。就是將兩分類的結(jié)局變量用概率的形式重構(gòu),之后通過logit函數(shù)將概率轉(zhuǎn)化成線性結(jié)構(gòu),通過線性擬合的方式來構(gòu)造回歸方程。


今天,我們在已經(jīng)對Logistic回歸有初步理解的前提下,談一下如何構(gòu)造一個(gè)比較優(yōu)秀的Logistic回歸模型。


這一部分的幻燈片比較亂,轉(zhuǎn)換成圖片之后,又少了動畫的引導(dǎo)和作者的講解,所以在這一部分,我對盡量多補(bǔ)充一點(diǎn)文字信息。


首先,對于回歸陌生的同學(xué),可能要先介紹一下多重回歸的概念。簡單回歸呢,就像上次圖片中的線性回歸那樣,將眾多的散點(diǎn)擬合成一條直線。多重回歸呢,就是把自變量變成多個(gè),在一個(gè)高維空間中擬合這條直線。


下面,我們來看一下,為何要做多重回歸?單變量回歸存在什么問題呢?

我們說,把眾多盲者的信息整合到一起,就可以更好的擬合一頭大象,所以,如果我們把性別年齡癥狀體征一起放進(jìn)回歸模型,就可以更好的來表達(dá)一種疾病狀態(tài)。


那我們說更好地?cái)M合,更好的表達(dá),有什么評價(jià)指標(biāo),說明其好與不好呢?這就是我們常說的R方,決定系數(shù)。

像上面盲人摸象的例子,把眾多盲者摸象的結(jié)論合并起來,是不是就會八九不離十???(R方為0.8~0.9)。


除了更多的解釋我們的因變量,其實(shí)多重回歸還有一個(gè)更重要的特征,混雜校正!那么什么是混雜校正呢?我們來看一個(gè)小孩身高與樹的高度的例子:

時(shí)間可能會完美地替代掉樹高這個(gè)因素,也可能只有在共存時(shí)才能取得一個(gè)更大的R方,但是呢,我們常常會需要根據(jù)專業(yè)知識,進(jìn)一步地對變量進(jìn)行取舍。如果你已經(jīng)很清楚樹高只是一個(gè)混雜因素,那么,即使只用時(shí)間變量會取得一個(gè)稍小的R方,也不應(yīng)當(dāng)保留樹高這一因素。


那么如果不了解背后的混雜機(jī)制,單純在統(tǒng)計(jì)模型中,是如何校正這多變量之間的關(guān)系呢?


我們來看一個(gè)例子,例子中,把蘆菔根牙(蘿卜一樣的牙)也補(bǔ)充入模型之后,直接搶占掉了繩尾的位置。那如果把繩尾看成混雜因素的話,蘆菔根牙就很好的校正了這一混雜。


但這樣的校正真的靠譜嘛?請看幻燈:

從表象上看,我們看到了回歸模型對變量的選擇,那么,背后是如何的一個(gè)選擇過程,模型的參數(shù)又是如何估計(jì)出來的呢?


在Logistic回歸中,我們采用了最大似然法的估計(jì)方法,與普通線性回歸的最小二乘法有一定的區(qū)別。但具體的區(qū)別,不是本文探討的范疇,我們的統(tǒng)計(jì)軟件自會在后臺幫我們實(shí)現(xiàn)掉,對此有興趣的朋友可以查閱相關(guān)資料。

剛才我們已經(jīng)講過R方,偽R方。除此之外,我們還有很多的模型評價(jià)指標(biāo),用來評價(jià)模型的好壞。


這樣,我們就有了全模型的評價(jià)指標(biāo),和單變量的評價(jià)指標(biāo),后者就是大家最最常用到的P值!


另外注意一點(diǎn),我們使用這些指標(biāo)進(jìn)行比較時(shí),一般都只對相似的模型進(jìn)行比較,如果兩個(gè)模型間變量數(shù)、變量類別差別太多,往往就失去了比較的意義。

下面,我們來探討模型構(gòu)建中常常會遇到的幾個(gè)細(xì)節(jié)問題:


首先,就是多重共線性:

其實(shí)無論存在不存在多重共線性,只要我們構(gòu)建模型稍有復(fù)雜,都會使用一個(gè)變量篩選的機(jī)制。就是我們常說的,逐步法。


變量篩選,大概就是一個(gè)去糟取精的過程。

特別值得強(qiáng)調(diào)的是,我們的變量篩選不能夠完全依賴統(tǒng)計(jì)軟件,完全根據(jù)P值,我們一定要進(jìn)行充分的文獻(xiàn)回顧,根據(jù)自己的專業(yè)知識來決定最后的模型。


有時(shí)候,專業(yè)知識會與統(tǒng)計(jì)模型不太相一致,此時(shí),我們就要通過一種手動調(diào)整的方式,來確定最終的模型。

另一個(gè)細(xì)節(jié),就是交互作用:

其次,當(dāng)我們的自變量里存在無序分類變量時(shí),我們就要使用啞變量的方式來處理這些變量。

還有另一點(diǎn),就是不少人關(guān)心的樣本量問題:


其實(shí)大家記好了,在經(jīng)費(fèi)最大允許的條件下,在合理抽樣的基礎(chǔ)上,樣本量越多越好!

回歸模型建立這一部分,暫時(shí)就這些內(nèi)容。


上述模型篩選、啞變量設(shè)置、交互作用等等,都可以在SPSS軟件中實(shí)現(xiàn)。添加本微信號biostat,并回復(fù)“l(fā)ogistic”或“l(fā)ogistic回歸”,即可得到軟件操作的文章。




(三)Logistic回歸的輸出,OR值,和結(jié)果解讀


我們提一個(gè)問題,“你為什么會選擇Logistic回歸”?

很多人都會回答:因?yàn)樘幚淼氖恰耙蜃兞繛槎诸愖兞康那樾巍薄?/p>

但實(shí)際上,Logistic回歸如此流行,根源卻并不僅僅在于因變量是二分類變量這一點(diǎn),其實(shí)是Logistic回歸的產(chǎn)出--OR值,給了Logistic回歸如此高大上的江湖地位。


那么什么是OR值呢?這個(gè),恐怕要從RR值說起。

我知道不少人都對公式比較恐懼的,但有時(shí)候必須要克服一下,才能夠真正理解一個(gè)定義的內(nèi)涵。如下,很簡單的:

是的,大概就如您理解的,RR值,就是相對危險(xiǎn)度,某個(gè)人群發(fā)病率是另一個(gè)人群發(fā)病率的多少倍。例,吸煙者患肺癌的機(jī)率是不吸煙者的多少倍。


而OR值卻沒有這么好解釋,。。。怎么辦呢?

好在,我們可以得到一個(gè)結(jié)論,在發(fā)病率較小時(shí),OR值與RR值是極為近似的!那我們就可以用OR來模糊代替RR值。


另一點(diǎn),在Logistic回歸結(jié)果匯報(bào)時(shí),往往會遇到這樣一個(gè)問題:

是應(yīng)該匯報(bào)OR值,還是β值,還是兩個(gè)都要匯報(bào)?

這個(gè)決定權(quán)最終當(dāng)然還是作者您的了,但有一點(diǎn)需要進(jìn)一步了解:


OR值和β值其實(shí)是等價(jià)的。如下所示, 又是很簡單的公式推導(dǎo),要不要挑戰(zhàn)一下?

如上,便可得到一個(gè)結(jié)論,OR值和β值其實(shí)是等價(jià)的!


很多朋友都很關(guān)心meta分析的寫作,在回顧文獻(xiàn)時(shí),如果部分研究只匯報(bào)了β值,卻沒有報(bào)告OR值,那這篇文章還能采用嗎?當(dāng)然可以,前面說過,兩者其實(shí)是等價(jià)的,只需要做一個(gè)對數(shù)轉(zhuǎn)換!

同樣,如果你遇到的是生存分析中的HR,跟本文的OR其實(shí)是一回事。


下表是一張典型的論文中的Logistic回歸結(jié)果報(bào)告表。

試試能否找到以下幾點(diǎn):

  1. 上一次模型選擇,我們提到過啞變量,能否在圖中找出哪里進(jìn)行了啞變量處理?

  2. 紅框中的2.105,如何解讀?

  3. 同一行中,95%CI與P-value有什么特別的關(guān)系?

上面題目的答案:

  1. The reason for的兩行,都是啞變量,兩個(gè)啞變量,實(shí)際上是對應(yīng)了三個(gè)變量(分別為a,b,c)。

  2. 2.105,解釋成危險(xiǎn)因素或者保護(hù)因素,方向根據(jù)Y的方向設(shè)定來確定。大于1,說明Y中賦值大的容易發(fā)生。如果0是患病1是不患病,那這個(gè)2.105,就是說這個(gè)自變量發(fā)生,患病的可能性為2.105倍。

  3. 如果P小于0.05,那么95%CI上下限全部大于1,或者全部小于1。不會包含1的。




史上最簡logistic回歸操作教程


小編題為《Logistic回歸:從入門到進(jìn)階》貢獻(xiàn)給大家,其中操作演示部分,做了如下兩幅圖,以輕松呈現(xiàn)SPSS中的logistic回歸操作。


圖中箭頭動畫是有編號的,恰好依次說明:

  1. 點(diǎn)擊分析(Analyze)菜單,選擇其中的回歸(Regression)子菜單。

  2. 在回歸(Regression)子菜單中,選擇雙變量logistic回歸(Binary Logistic)命令。

3. 在彈出的Logistic Regression對話框中,將因變量(Y)放入因變量(Dependent)框中。

4. 將自變量(X)放入?yún)f(xié)變量(Covariates)框中。

5. 對于分類變量(如,城市等)點(diǎn)選分類變量(Categorical)按鈕,在彈窗中將分類變量導(dǎo)入。

6. 添加交互作用項(xiàng),應(yīng)在左側(cè)同時(shí)選好相交互的兩個(gè)或以上變量,點(diǎn)選箭頭起始處'a*b>'按鈕,引入交互作用項(xiàng)。

7. 選擇是否對變量進(jìn)行篩選:Enter法(進(jìn)入法),選入的所有變量同時(shí)進(jìn)入最終模型;其余選項(xiàng),會自動對變量進(jìn)行篩選,僅有意義的變量會進(jìn)入模型。

8. 點(diǎn)擊確定(OK)按鈕,等待結(jié)果!

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
醫(yī)學(xué)研究中的Logistic回歸分析及R實(shí)現(xiàn)
logistic回歸、probit回歸與poission回歸
因變量是定性變量的回歸分析—Logistic回歸分析
二分類logistic回歸,更新幾個(gè)常見問題的解決方法
logistic模型(logit和logistic模型的區(qū)別?)
一文搞懂logistic回歸分析
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服