數(shù)據(jù)分析簡單一點
論文問卷 快人一步
回歸分析相關說明
SPSSAU出品 · 必屬精品 · 建議收藏
↓↓↓↓↓↓↓↓
SPSSAU
1、回歸分析方法
回歸分析簡單來講就是用于分析自變量X與因變量Y之間的影響關系的方法?;貧w分析主要基于自變量X的值預測因變量Y的值,通過構(gòu)造回歸模型,幫助理解自變量如何影響因變量,以及各個自變量對因變量的影響程度。
SPSSAU中回歸分析方法可分為以下二十種:
那么面對如此多種類回歸分析方法,該如何快速選擇最合適的方法進行回歸分析呢?
2、回歸模型選擇
論文寫作用中回歸模型的選擇,一般需要結(jié)合自變量和因變量的個數(shù)以及數(shù)據(jù)類型進行判斷。
(1)?數(shù)據(jù)類型
數(shù)據(jù)分為兩類:定類數(shù)據(jù)和定量數(shù)據(jù)
簡單進行區(qū)分:看數(shù)字大小是否具有比較意義
定量數(shù)據(jù):數(shù)字大小具有比較意義
例如:GDP、身高、體重、工資、量表題選項(1,2,3,4,5)等等
定類數(shù)據(jù):數(shù)字大小僅代表分類,不具有比較意義
例如:性別(1和0分別代表男和女,不具有比較意義)、學歷、職位等
(2)回歸分析方法初步判斷
回歸分析方法初步判斷方法如下:
第一步:首先判斷因變量類型
當因變量為定量數(shù)據(jù)且只有1個時,一般使用線性回歸進行分析;
當因變量為定量數(shù)據(jù)且有多個時,可以使用PLS回歸進行分析;
當因變量為定類數(shù)據(jù)時,一般常用logistic回歸進行分析。
第二步:若判定為線性回歸,看自變量個數(shù)
自變量為1個時,選擇一元線性回歸分析;
自變量為多個時,選擇多元線性回歸分析。
第三步:若判定為logistic回歸,看因變量
因變量為2類,比如男&女、蘋果&安卓、陽性&陰性,選擇二元logistic回歸分析;
因變量為多類,比如學科數(shù)學、語文、英語、物理,選擇多分類logistic回歸分析;
因變量為多類且有序,比如不滿意、一般、滿意,選擇有序logistic回歸分析。
以上為比較常見的回歸分析方法選擇的一般步驟,其中提到的回歸方法都是在實際研究中使用頻率較高的。
(3)深入分析線性回歸模型
線性回歸模型是當前使用最為成熟,研究最多的回歸分析方法之一。線性回歸模型會有很多假定,或者需要滿足的條件,如果不滿足這些假定或者條件可能會導致模型使用出錯,分析結(jié)果存在偏差等問題出現(xiàn),那么此時就有對應的其它回歸模型出來解決這些問題,因而跟著線性回歸后面又出來很多其他回歸分析方法,如下圖:
1、自動找出影響關系
多元線性回歸研究多個自變量X對因變量Y的影響,當希望讓模型自動找出對Y有意義的X時,此時可以使用逐步回歸進行分析。逐步回歸分析可以查看下方幫助手冊說明:
逐步回歸幫助手冊
2、線性回歸分組/分層
在進行中介作用或者調(diào)節(jié)作用分析時,可能會用到分層回歸或者分組回歸。分層回歸可以得出:分層a到分層b(b=a+1)時R方變化和F值變化,便于觀察加入新的X時回歸模型的變化信息等。分組回歸的實質(zhì)目的在于查看不同組別時,X對于Y的影響差異。
分層回歸幫助手冊
分組回歸幫助手冊
3、共線性問題時
在進行線性回歸時,如果出現(xiàn)共線性問題時,可以使用嶺回歸、逐步回歸進行分析。lasso回歸和PLS回歸也可以在一定程度上解決共線性問題,但是用較少,通常嶺回歸使用比較廣泛。
嶺回歸幫助手冊
逐步回歸幫助手冊
laasso回歸幫助手冊
PLS回歸幫助手冊
4、異常值問題時
當數(shù)據(jù)中存在異常值時,通常需要將異常值剔除后再進行回歸分析,但是當不能將異常值剔除,需要將異常值考慮在模型中時,此時可以使用穩(wěn)健回歸(Robust回歸)進行分析。穩(wěn)健回歸會對不同點的殘差給予不同權(quán)重,異常點的殘差值會比較大,因為其對應的權(quán)重會很小,最終擬合出的結(jié)果也更加穩(wěn)健可靠。
穩(wěn)健回歸幫助手冊
5、非線性關系時
線性回歸模型使用的前提條件是X與Y之間存在線性關系(可在分析前通過散點圖查看),但是有時二者并不是線性關系,此時可以選擇使用曲線回歸、非線性回歸、廣義線性回歸三類回歸分析進行研究。
曲線回歸:
曲線回歸在關系形式上是非線性關系,但可通過各類轉(zhuǎn)換變成線性關系,最終建立回歸模型。比如建立二次曲線擬合,最終模型表達式為:y = β0+β1*x+β2*x2 ;SPSSAU當前提供7類曲線擬合模型,詳情請查看下方幫助手冊說明。
曲線回歸幫助手冊
非線性回歸
如果數(shù)學模型為非線性模型,需要使用非線性回歸進行分析。比如人口學增長模型Logistic(S模型),其模式公式為:y = b1 / (1 + exp(b2 + b3 * x)),此數(shù)學表達式并非線性表達式,因此不能使用SPSSAU的線性回歸進行擬合。
SPSSAU當前提供約50類非線性函數(shù)表達式,涵蓋絕大多數(shù)非線性函數(shù)表達式。
非線性回歸幫助手冊
廣義線性模型
廣義線性模型是對一般線性模型的擴展。將因變量分布由正態(tài)分布推廣到指數(shù)一族分布,應用范圍更廣了。常見的廣義線性模型有Possion回歸、負二項回歸、logistic回歸、Probit回歸等。
Possion回歸幫助手冊
負二項回歸幫助手冊
二元logistic回歸
多分類logistic回歸
有序logistic回歸
二元Probit回歸
3、回歸分析操作和分析
以多元線性回歸分析為例,使用SPSSAU進行操作和分析演示。
(1)操作
選擇分析方法->拖拽數(shù)據(jù)至右側(cè)分析框->點擊開始分析
(2)分析
SPSSAU輸出結(jié)果線性回歸分析結(jié)果如下:
多元線性回歸模型分析一般可分為以下幾步:
① 對模型基本情況進行分析
模型總體顯著性—F檢驗:用于判定是否X中至少有一個對Y產(chǎn)生影響,如果呈現(xiàn)出顯著性,則說明所有X中至少一個會對Y產(chǎn)生影響關系。
從上表來看,F(xiàn)檢驗對應p值=0.000<0.01,說明呈現(xiàn)出顯著性,即模型構(gòu)建是有意義的,至少有1個X會對Y產(chǎn)生影響關系。
模型擬合情況—R方:R方的值介于0~1之間,代表模型的擬合程度,一般認為越大越好。R方為0.3,則說明所有X可以解釋Y30%的變化原因。
從上表來看,R方為0.973,說明所有X可以解釋Y97.3%的變換原因,模型擬合較好。
模型共線性問題—VIF值:共線性是指在線性回歸分析時,出現(xiàn)的自變量之間彼此相關的現(xiàn)象。一般VIF值大于10(嚴格大于5),則認為存在嚴重的共線性。
從上表來看,VIF值均小于10,可以認為不存在共線性問題。
② 分析自變量X的顯著性
自變量X的顯著性通過t檢驗進行判斷,如果X對應t檢驗的p值小于0.05說明具有顯著性,即該自變量會對因變量產(chǎn)生顯著影響。
從上表來看,“初始工資”、“教育程度”、“工作經(jīng)驗”對應t檢驗的p值均小于0.05,說明這3個自變量均會對因變量“工資”產(chǎn)生顯著影響。
③ 判斷自變量對因變量的影響大小和影響方向
自變量對因變量影響大小的比較是通過標準化回歸系數(shù)進行比較的。標準化回歸系數(shù)的絕對值越大,說明該自變量對因變量的影響越大;回歸系數(shù)的正負代表影響方向。
從上表來看,“初始工資”、“教育程度”、“工作經(jīng)驗”的標準化回歸系數(shù)分別是:0.168、-0.046、0.881;所以工作經(jīng)驗對工資的影響最大,其次是初始工資,影響最小的是教育程度,且初始工資與工作經(jīng)驗對工資的影響是顯著正向的,而教育程度對工資的影響是顯著負向的。
④ 回歸模型公式
構(gòu)建回歸模型使用非標準化回歸系數(shù),它是方程中不同自變量對應的原始回歸系數(shù),反映了在其他自變量不變的情況下,該自變量每變化一個單位對因變量作用的大小。通過非標準化回歸系數(shù)構(gòu)建的回歸方程,才可以對因變量進行預測。
從上表來看,回歸模型公式為:工資=18326.101 + 0.353*初始工資-280.300*教育程度 + 144.955*工作經(jīng)驗。
若要了解回歸分析方法相關的更詳細知識,可進入SPSSAU官網(wǎng)查看幫助手冊or聯(lián)系智能客服or人工客服為您解答。
以上就是今天的全部內(nèi)容啦~
若您想看其他干貨內(nèi)容
請在評論區(qū)告訴SPSSAU
聯(lián)系客服