Excel數(shù)據(jù)分析工具庫是個(gè)很強(qiáng)大的工具,可以滿足基本的統(tǒng)計(jì)分析,這里介紹用Excel數(shù)據(jù)分析工具庫中的回歸做回歸分析。
本節(jié)知識點(diǎn):
Excel數(shù)據(jù)分析工具庫—回歸
線性回歸和非線性回歸
簡單線性回歸和多重線性回歸
邏輯斯蒂回歸
一、什么是回歸分析(Regression)
1、定義
確定兩種或兩種以上變量間相關(guān)關(guān)系的一種統(tǒng)計(jì)分析方法。通過數(shù)據(jù)間相關(guān)性分析的研究,進(jìn)一步建立自變量(i=1,2,3,…)與因變量Y之間的回歸函數(shù)關(guān)系,即回歸分析模型,從而預(yù)測數(shù)據(jù)的發(fā)展趨勢。
2、分類
按照涉及的變量的多少,分為一元回歸和多元回歸分析;
按照因變量的多少,可分為簡單回歸分析和多重回歸分析;
按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。
二、線性回歸
1、簡單線性回歸
簡單線性回歸又叫一元線性回歸,即回歸模型中只有一個(gè)自變量和一個(gè)因變量,其回歸方程可以表示為:
Y=a+bx+
其中,Y表示因變量,x表示自變量,a是 常數(shù),b是斜率,
是隨機(jī)誤差。2、最小二乘法:
如何確定參數(shù)a和b,則要用最小二乘法來實(shí)現(xiàn)。通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配,即使得觀測點(diǎn)和估計(jì)點(diǎn)的距離的平方和最小。
3、線性回歸分析的步驟:
確定自變量和因變量
繪制散點(diǎn)圖,確定回歸模型類型
估計(jì)模型參數(shù),建立回歸模型:最小二乘法進(jìn)行模型參數(shù)估計(jì)
對回歸模型進(jìn)行檢驗(yàn)
利用回歸模型進(jìn)行預(yù)測
4、多重線性回歸
定義:一個(gè)因變量與多個(gè)自變量的線性回歸問題,是一元線性回歸的推廣。其回歸方程可以寫為:
多重線性回歸方程中回歸系數(shù)的估計(jì)也是用到最小二乘法
三、用Excel做回歸分析
我們研究銷售額Y和推廣費(fèi)用X1之間的關(guān)系,數(shù)據(jù)如下:
首先我們用數(shù)據(jù)分析—相關(guān)系數(shù)分析計(jì)算一下自變量和因變量之間的相關(guān)系數(shù)為0.95157,為強(qiáng)相關(guān)。
繪制散點(diǎn)圖如下:
然后,我們用數(shù)據(jù)分析庫里的回歸來做分析
注意Y值和X值輸入?yún)^(qū)域,X值是自變量,Y是因變量。
四、線性回歸方程的檢驗(yàn)
評價(jià)回歸擬合程度好壞(重要):
1、 先看回歸統(tǒng)計(jì)表,Multiple R即相關(guān)系數(shù)R的值,和我們之前做相關(guān)分析得到的值一樣,大于0.8表示強(qiáng)正相關(guān)。
2、 回歸統(tǒng)計(jì)表中的R Square是R平方值,R平方即R的平方,又可以叫判定系數(shù)、擬合優(yōu)度,取值范圍是[0,1],R平方值越大,表示模型擬合的越好。一般大于70%就算擬合的不錯(cuò),60%以下的就需要修正模型了。這個(gè)案例里R平方0.9054,相當(dāng)不錯(cuò)。
3、 Adjusted R是調(diào)整后的R方,這個(gè)值是用來修正因自變量個(gè)數(shù)增加而導(dǎo)致模型擬合效果過高的情況,多用于衡量多重線性回歸。
4、 第二張表,方差分析表,df是自由度,SS是平方和,MS是均方,F(xiàn)是F統(tǒng)計(jì)量,Significance F是回歸方程總體的顯著性檢驗(yàn),其中我們主要關(guān)注F檢驗(yàn)的結(jié)果,即Significance F值,F(xiàn)檢驗(yàn)主要是檢驗(yàn)因變量與自變量之間的線性關(guān)系是否顯著,用線性模型來描述他們之間的關(guān)系是否恰當(dāng),越小越顯著。這個(gè)案例里F值很小,說明因變量與自變量之間顯著。
5、 殘差是實(shí)際值與預(yù)測值之間的差,殘差圖用于回歸診斷,回歸模型在理想條件下的殘差圖是服從正態(tài)分布的。
6、 第三張表我們重點(diǎn)關(guān)注P-value,也就是P值,用來檢驗(yàn)回歸方程系數(shù)的顯著性,又叫T檢驗(yàn),T檢驗(yàn)看P值,是在顯著性水平α(常用取值0.01或0.05)下F的臨界值,一般以此來衡量檢驗(yàn)結(jié)果是否具有顯著性,如果P值>0.05,則結(jié)果不具有顯著的統(tǒng)計(jì)學(xué)意義,如果0.01<P值<0.05,則結(jié)果具有顯著的統(tǒng)計(jì)學(xué)意義,如果P<=0.01,則結(jié)果具有極其顯著的統(tǒng)計(jì)學(xué)意義。T檢驗(yàn)是看某一個(gè)自變量對于因變量的線性顯著性,如果該自變量不顯著,則可以從模型中剔除。
7、 從第三張表的第一列我們可以得到這個(gè)回歸模型的方程:y=4361.486+1.198017x,此后對于每一個(gè)輸入的自變量x,都可以根據(jù)這個(gè)回歸方程來預(yù)測出因變量Y。
這里簡單總結(jié)了一下什么是回歸分析,如何用excel做線性回歸分析,以及如何評價(jià)回歸方程擬合程度的好壞。入門很簡單,精通還很遙遠(yuǎn),我們都在學(xué)習(xí)中。
下一節(jié)內(nèi)容:用Excel做直方圖(2):頻率分布直方圖
注:本文首發(fā)于CSDN,原文見原文鏈接
@文章屬原創(chuàng),轉(zhuǎn)載請聯(lián)系作者
@作者:蝦殼,在數(shù)據(jù)分析的道路上努力奔跑
聯(lián)系客服