中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
二分類logistic回歸,更新幾個(gè)常見問題的解決方法

醫(yī)咖會(huì)之前推送過二分類logistic回歸的SPSS教程,不過有些問題未詳細(xì)闡述,例如,如何驗(yàn)證:連續(xù)自變量與因變量的logit轉(zhuǎn)換值之間存在線性關(guān)系;自變量之間無多重共線性等。經(jīng)常有伙伴問到這些問題,為此,我們對(duì)二分類logistic回歸的教程做了更新,希望能對(duì)大家有所幫助。

一、問題與數(shù)據(jù)

某研究者想了解年齡、體重、性別和最大攝氧量(VO2max)預(yù)測(cè)患心臟病的能力,招募了100例研究對(duì)象完成最大攝氧量試驗(yàn),登記年齡(age)、體重(weight)和性別(gender),并評(píng)估研究對(duì)象目前是否患有心臟?。╤eart_disease)。


二、對(duì)問題的分析

使用二分類Logistic模型前,需判斷是否滿足以下7項(xiàng)假設(shè)。


  • 假設(shè)1:因變量(結(jié)局)是二分類變量。


  • 假設(shè)2:有至少1個(gè)自變量,自變量可以是連續(xù)變量,也可以是分類變量。


  • 假設(shè)3:每條觀測(cè)間相互獨(dú)立。分類變量(包括因變量和自變量)的分類必須全面且每一個(gè)分類間互斥。


  • 假設(shè)4:最小樣本量要求為自變量數(shù)目的15倍,但一些研究者認(rèn)為樣本量應(yīng)達(dá)到自變量數(shù)目的50倍。


  • 假設(shè)5:連續(xù)的自變量與因變量的logit轉(zhuǎn)換值之間存在線性關(guān)系。


  • 假設(shè)6:自變量之間無多重共線性。


  • 假設(shè)7:沒有明顯的離群點(diǎn)、杠桿點(diǎn)和強(qiáng)影響點(diǎn)。


假設(shè)1-4取決于研究設(shè)計(jì)和數(shù)據(jù)類型,本研究數(shù)據(jù)滿足假設(shè)1-4。那么應(yīng)該如何檢驗(yàn)假設(shè)5-7,并進(jìn)行Logistics回歸呢?

三、SPSS操作

檢驗(yàn)假設(shè)5:連續(xù)的自變量與因變量的logit轉(zhuǎn)換值之間存在線性關(guān)系


連續(xù)的自變量與因變量的logit轉(zhuǎn)換值之間是否存在線性關(guān)系,可以通過多種方法檢驗(yàn)。這里主要介紹Box-Tidwell方法,即將連續(xù)自變量與其自然對(duì)數(shù)值的交互項(xiàng)納入回歸方程。


本研究中,連續(xù)的自變量包括年齡(age)、體重(weight)、最大攝氧量(VO2max)。使用Box-Tidwell方法時(shí),需要先計(jì)算age、weight和VO2max的自然對(duì)數(shù)值,并命名為ln_age、ln_weight、ln_VO2max。


(1) 計(jì)算連續(xù)自變量的自然對(duì)數(shù)值


以age為例,計(jì)算age的自然對(duì)數(shù)值ln_age的SPSS操作如下。


在主界面點(diǎn)擊 Transform→Compute Variable,出現(xiàn)Compute Variable對(duì)話框中。在Target Variable框中輸入即將生成自然對(duì)數(shù)值的變量名稱(如輸入ln_age表示age的自然對(duì)數(shù)值)。


選擇Function group菜單下的Arithmetic,選擇Functions and special variables菜單下的Ln,雙擊Ln將該公式選入Numeric Expression框中,最后雙擊age將該變量選入“LN()”公式中。點(diǎn)擊OK生成新變量ln_age(即age的自然對(duì)數(shù)值)。

 


此時(shí)新變量會(huì)同時(shí)出現(xiàn)在Variable View和Data View窗口中。在Data View窗口中,新生成的ln_age變量如下圖。


 

重復(fù)以上過程,將本研究中的所有連續(xù)自變量的自然對(duì)數(shù)值全部生成。在Data View中,新生成的ln_age,ln_weight,ln_VO2max變量如下圖。

 


(2) Box-Tidwell法


Box-Tidwell法檢驗(yàn)連續(xù)的自變量與因變量的logit轉(zhuǎn)換值之間是否存在線性關(guān)系的SPSS操作如下。


在主界面中點(diǎn)擊 Analyze→Regression→Binary Logistic。在Logistic Regression對(duì)話框中將變量heart_disease選入Dependent框中,將變量age、weight、gender和VO2max選入Covariates框中。Methods選項(xiàng)選擇默認(rèn)值,即Enter。如果目前未選擇Enter,應(yīng)修改為Enter。

 


點(diǎn)擊Categorical,在Logistic Regression:Define Categorical Variables對(duì)話框中,將gender選入Categorical Covariates框中。在Change Contrast區(qū)域,將Reference Category從Last改為First后,點(diǎn)擊Change→Continue。

 


對(duì)于二分類變量(如本研究的gender),也可以不通過Categorical選項(xiàng)指定參照,SPSS將默認(rèn)以賦值較低的變量為參照。


Categorical選項(xiàng)可將多分類變量(包括有序多分類和無序多分類)變換成啞變量,指定某一分類為參照。比如,某研究中COPD是多分類變量(分為無COPD病史、輕/中度、中度),如果指定“無COPD病史”的研究對(duì)象為參照組,可以分別比較“輕/中度”和“重度”組相對(duì)于參照組發(fā)生結(jié)局的風(fēng)險(xiǎn)。


Contrast右側(cè)的下拉菜單中(該下拉菜單內(nèi)的選項(xiàng)是幾種與參照比較的方式),Indicator方式最常用,其比較方法為:第一類或最后一類為參照類,每一類與參照類比較。在Reference Category的右側(cè)選擇First,表示本研究以女性為對(duì)照組(賦值為0)。


回到Logistic Regression對(duì)話框后,可見gender已顯示為gender(Cat)。分類變量后顯示“(Cat)”說明已正確定義分類變量。



設(shè)置好分類自變量后,開始生成交互項(xiàng)。以age和ln_age為例,同時(shí)選中age和ln_age(使用Ctrl鍵+鼠標(biāo)點(diǎn)擊),點(diǎn)擊>a*b>鍵,將ln_age*age交互項(xiàng)選入Covariates框中。



重復(fù)以上過程,將所有交互項(xiàng)都選入Covariates框中,點(diǎn)擊OK。



(3) 假設(shè)5的檢驗(yàn)結(jié)果


查看Variables in the Equation表格中,有交互作用的行及行內(nèi)“Sig”值,本研究中為age by ln_age、ln_weight by weight和VO2max by ln_VO2max”所在的行及行內(nèi)“Sig”值。

 


如果交互作用有統(tǒng)計(jì)學(xué)意義(P<>


本研究中,共有8項(xiàng)納入模型分析,包括三個(gè)連續(xù)自變量age、weight、VO2max,分類自變量gender,三個(gè)交互作用項(xiàng)age*ln_age、ln_weight*weight、VO2max*ln_VO2max和截距項(xiàng)(Constant)。


因此本研究中,建議選擇顯著性水平應(yīng)為α=0.00625(即0.05 ÷ 8)。根據(jù)該顯著性水平,本研究所有交互項(xiàng)的P值均高于0.00625,因此所有連續(xù)自變量與因變量logit轉(zhuǎn)換值之間存在線性關(guān)系。


假設(shè)5檢驗(yàn)完之后,有兩種情況:① 所有連續(xù)自變量與因變量的logit轉(zhuǎn)換值間存在線性關(guān)系,則直接進(jìn)行下一步;② 如果一個(gè)及以上連續(xù)自變量與因變量的logit轉(zhuǎn)換值間不存在線性關(guān)系,建議將該變量轉(zhuǎn)換為有序分類變量。


(關(guān)于Box-Tidwell法,我們主要參考了外文的一些資料,小咖手上有兩個(gè)PDF,有需要的伙伴,請(qǐng)?jiān)谙路搅粞浴?


檢驗(yàn)假設(shè)6:自變量之間無多重共線性


與線性回歸一樣,Logistic回歸模型也需要檢驗(yàn)自變量之間是否存在多重共線性。自變量之間的簡單相關(guān)或多重相關(guān)都會(huì)產(chǎn)生多重共線性。


容忍度(Tolerance)或方差膨脹因子(VIF)可以用來診斷自變量之間的多重共線性。遺憾的是,SPSS的Binary Logistic模塊并不能提供容忍度或方差膨脹因子,但是我們可以通過線性回歸來獲得。


由于我們關(guān)心的是自變量之間的關(guān)系,因此容忍度或方差膨脹因子與模型中因變量的函數(shù)形式無關(guān)。也就是說,我們可以將Logistic回歸的因變量(二分類變量)、自變量(二分類、多分類或連續(xù)變量)直接帶入線性回歸模型,從而獲得容忍度或方差膨脹因子。


在主界面點(diǎn)擊Analyze→Regression→Linear,將heart_disease選入Dependent,將age、weight、gender和VO2max選入Independent(s)。



點(diǎn)擊Statistics,出現(xiàn)Linear Regression:Statistics對(duì)話框,點(diǎn)擊Collinearity diagnostics→Continue→OK。



結(jié)果如下圖:



如果容忍度(Tolerance)小于0.1或方差膨脹因子(VIF)大于10,則表示有共線性存在。本例中,容忍度均遠(yuǎn)大于0.1,方差膨脹因子均小于10,所以不存在多重共線性。如果數(shù)據(jù)存在多重共線性,則需要用復(fù)雜的方法進(jìn)行處理,其中最簡單的方法是剔除引起共線性的因素之一,剔除哪一個(gè)因素可以基于理論依據(jù)。


檢驗(yàn)假設(shè)7:沒有明顯的離群點(diǎn)、杠桿點(diǎn)和強(qiáng)影響點(diǎn)


該假設(shè)的SPSS操作可見后面的“Logistic 回歸”部分,此處僅展示如何解讀結(jié)果。結(jié)果中Casewise List表格顯示學(xué)生化殘差大于2倍標(biāo)準(zhǔn)差的觀測(cè)。學(xué)生化殘差大于2.5倍標(biāo)準(zhǔn)差的觀測(cè)需要研究者進(jìn)一步觀察決定這些觀測(cè)是否是離群點(diǎn),如有必要甚至可以從分析中剔除這些觀測(cè)。


本例中,第70個(gè)觀測(cè)(Case Number)的學(xué)生化殘差為3.349,符合上述判斷離群點(diǎn)的標(biāo)準(zhǔn)。


 

需要注意的是:


① 如果所有觀測(cè)的學(xué)生化殘差小于2倍標(biāo)準(zhǔn)差,SPSS不會(huì)輸出Casewise List表格。如果已經(jīng)剔除離群點(diǎn),則第一次分析得到的Casewise Diagnostics表格不會(huì)再顯示。


② 觀測(cè)數(shù)(Case Number)指SPSS系統(tǒng)內(nèi)自動(dòng)編碼(Data View窗口中最左側(cè)藍(lán)色一列中的編碼),而非研究者賦值的編碼。


③ 研究者需要查看該觀測(cè)為離群點(diǎn)的原因,決定是否刪除該觀測(cè)并報(bào)告。本研究考慮不刪除該觀測(cè),并在結(jié)果中報(bào)告“納入分析的觀測(cè)中有一項(xiàng)觀測(cè)的學(xué)生化殘差為3.349”。


Logistic 回歸


在主界面點(diǎn)擊Analyze→Regression→Binary Logistic,在Logistic Regression對(duì)話框中,將heart_disease選入Dependent,將age、weight、gender和VO2max選入Covariates。并按照前述操作,通過Categorical將gender變換為啞變量。


注意:如果是按本文中指導(dǎo)的步驟依次進(jìn)行的分析,此時(shí)Logistic Regression對(duì)話框下為因變量heart_disease,Covariates框中為4個(gè)自變量age、weight、gender(Cat)、VO2max和3個(gè)交互項(xiàng)ln_age*age、ln_weight*weight、ln_VO2max* VO2max。


此時(shí)僅需要將交互項(xiàng)ln_age*age、ln_weight*weight、ln_VO2max* VO2max從Covariates框中刪除即可。



對(duì)于自變量篩選的方法(Method對(duì)話框),SPSS提供了7種選擇,使用各種方法的結(jié)果略有不同,讀者可相互印證。各種方法之間的差別在于變量篩選方法不同,其中Forward: LR法(基于最大似然估計(jì)的向前逐步回歸法)的結(jié)果相對(duì)可靠,但最終模型的選擇還需要獲得專業(yè)理論的支持。本文以Enter法為例進(jìn)行展示(其它方法得到的結(jié)果,解釋方法一樣)。


點(diǎn)擊Options,在Logistic Regression:Options對(duì)話框中,選中Classification plots,Hosmer-Lemeshow goodness-of-fit,Casewise listing of residuals和CI for exp(B)這4個(gè)選項(xiàng)。在Display區(qū)域,選中At last step選項(xiàng)。點(diǎn)擊Continue→OK。


四、結(jié)果解釋

1. 檢查變量和數(shù)據(jù)


首先檢查是否存在缺失觀測(cè),納入分析的觀測(cè)數(shù)是否和數(shù)據(jù)庫中觀測(cè)數(shù)一致。Case Processing Summary表格如下圖。



確認(rèn)因變量的編碼是否正確。Dependent Variable Encoding表格如下圖。

 


觀察分類自變量是否存在某一類觀測(cè)數(shù)過少的情況,如果某項(xiàng)分類較少,可能不利于二項(xiàng)Logistic回歸分析。本研究中,定義的分類自變量只有g(shù)ender,因此Categorical Variables Codings表格只給出了gender的信息。



2. 基本分析


此部分結(jié)果的標(biāo)題為“Block 0:Beginning Block”,指的是所有自變量不納入模型、只包括常數(shù)項(xiàng)時(shí)的結(jié)果。此部分可以跳過。


3. Logistic回歸


此部分結(jié)果的標(biāo)題為“Block 1:Method=Enter”(Enter指前述SPSS操作部分所述的自變量篩選方法)。


(1) 模型整體評(píng)價(jià)


Omnibus Tests of Model Coefficients是模型系數(shù)的綜合檢驗(yàn)。其中Model一行輸出了Logistic回歸模型中所有參數(shù)是否均為0的似然比檢驗(yàn)結(jié)果。P<>


 

Hosmer and Lemeshow Test是檢驗(yàn)?zāi)P偷臄M合優(yōu)度。當(dāng)P值不小于檢驗(yàn)水準(zhǔn)時(shí)(即P>0.05),認(rèn)為當(dāng)前數(shù)據(jù)中的信息已經(jīng)被充分提取,模型擬合優(yōu)度較高。

 


Model Summary表格中,提供了因變量的變異能夠被擬合的模型解釋的比例。該表格包含Cox & Snell R Square和Nagelkerke R Square,這兩種R2有時(shí)被稱為偽R2,在Logistic回歸中意義不大(與線性回歸中的不同),可以不予關(guān)注。


(2) 模型預(yù)測(cè)能力


擬合Logistic回歸模型后,對(duì)于每一個(gè)自變量組合,均可以得到結(jié)局事件(本例中為患心臟病)發(fā)生的概率。如果事件發(fā)生的概率大于或等于0.5,Logistic回歸判斷為事件發(fā)生(患心臟病);如果可能性小于0.5,則判斷為事件未發(fā)生(未患心臟?。R虼?,與真實(shí)情況相比,就可以評(píng)價(jià)Logistic回歸模型的預(yù)測(cè)效果。



Logistic回歸模型能夠?qū)?1.0%的觀測(cè)正確分類(Overall Percentage一行),該指標(biāo)常被稱作percentage accuracy in classification(正確分類百分比),即診斷試驗(yàn)中的一致率。


預(yù)測(cè)為“是”的觀測(cè)數(shù)占實(shí)際為“是”的觀測(cè)數(shù)的比例即靈敏度。本研究中,45.7%患有心臟病的研究對(duì)象被模型預(yù)測(cè)患有心臟病。預(yù)測(cè)為“否”的觀測(cè)數(shù)占實(shí)際為“否”的觀測(cè)數(shù)的比例即特異度。本研究中,84.6%未患心臟病的研究對(duì)象被模型預(yù)測(cè)未患心臟病。


同理,還可以計(jì)算得到陽性預(yù)測(cè)值(61.5%)和陰性預(yù)測(cè)值(74.3%)。


(3) 方程中的自變量


由于本次統(tǒng)計(jì)過程中篩選變量的方式是Enter法,因此所有自變量均進(jìn)入了模型,Variables in the Equation表格中也列出了所有自變量及其參數(shù)。其中Sig.一列表示相應(yīng)變量在模型中的P值,Exp (B)和95% CI for EXP (B)表示相應(yīng)變量的OR值和其95%可信區(qū)間。

 


結(jié)果顯示,age(P=0.003),gender(P=0.021)和VO2max(P=0.039)有統(tǒng)計(jì)學(xué)意義,但weight(P=0.799)沒有統(tǒng)計(jì)學(xué)意義。


對(duì)于分類變量,OR值的含義為:相對(duì)于賦值較低的研究對(duì)象(gender賦值為“0”的為女性),賦值較高的研究對(duì)象(男性)患心臟病的風(fēng)險(xiǎn)是多少(7.026倍)。對(duì)于連續(xù)變量,OR值的含義為:自變量每增加一個(gè)單位(年齡每增加1歲),發(fā)生結(jié)局的風(fēng)險(xiǎn)增加的倍數(shù)(1.089倍)。

五、撰寫結(jié)論

本研究采用二分類Logistic回歸評(píng)估年齡、體重、性別和最大攝氧量對(duì)研究對(duì)象患心臟病的影響。使用Box-Tidwell方法檢驗(yàn)連續(xù)自變量與因變量logit轉(zhuǎn)換值間是否為線性。線性檢驗(yàn)?zāi)P蜁r(shí)共納入8項(xiàng),Bonferroni校正后顯著性水平為0.00625。線性檢驗(yàn)結(jié)果得到所有連續(xù)自變量與因變量logit轉(zhuǎn)換值間存在線性關(guān)系。一個(gè)觀測(cè)的學(xué)生化殘差為標(biāo)準(zhǔn)差的3.349倍,但保留在分析中。


最終,得到的Logistic模型具有統(tǒng)計(jì)學(xué)意義,χ2=27.402,P<>


模型納入的五個(gè)自變量中,年齡、性別和最大攝氧量有統(tǒng)計(jì)學(xué)意義。男性患心臟病的風(fēng)險(xiǎn)是女性的7.026倍。年齡每增加1歲,患心臟病的風(fēng)險(xiǎn)增加8.9%。最大攝氧量每增加一個(gè)單位,患心臟病的風(fēng)險(xiǎn)降低9.4%。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
logistic回歸、probit回歸與poission回歸
一文搞定臨床科研統(tǒng)計(jì)(下)
邏輯回歸算法的原理及實(shí)現(xiàn)(LR)
掌握多元logistic回歸分析,看這篇就夠了
【典藏】Logistic 回歸:從入門到進(jìn)階
干貨 | 手把手帶你入門回歸分析,兩個(gè)實(shí)例一學(xué)就會(huì)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服