中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
回歸分析 | 統(tǒng)計之都 (中國統(tǒng)計學(xué)門戶網(wǎng)站,免費(fèi)統(tǒng)計學(xué)服務(wù)平臺)

分類目錄歸檔:回歸分析

回歸分析、線性模型、非線性模型、廣義線性模型

R 中大型數(shù)據(jù)集的回歸

眾所周知,R 是一個依賴于內(nèi)存的軟件,就是說一般情況下,數(shù)據(jù)集都會被整個地復(fù)制到內(nèi)存之中再被處理。對于小型或者中型的數(shù)據(jù)集,這樣處理當(dāng)然沒有什么問題。但是對于大型的數(shù)據(jù)集,例如網(wǎng)上抓取的金融類型時間序列數(shù)據(jù)或者一些日志數(shù)據(jù),這樣做就有很多因?yàn)閮?nèi)存不足導(dǎo)致的問題了。
繼續(xù)閱讀R 中大型數(shù)據(jù)集的回歸 →

分組最小角回歸算法(group LARS)

繼續(xù)前兩篇博文中對于最小角回歸(LARS)和lasso的介紹。在這篇文章中,我打算介紹一下分組最小角回歸算法(Group LARS)。本文的主要觀點(diǎn)均來自Ming Yuan和Yi Lin二人2006合作發(fā)表在JRSSB上的論文Model selection and estimation in regression with grouped variables.

首先,我想說明一下,為何要引入分組變量(grouped variable)的概念。舉一個簡單的例子,在可加的多項(xiàng)式模型中,每一項(xiàng)都是多項(xiàng)式。這個多項(xiàng)式有可能可以通過最初的變量的線性組合來表達(dá)。在進(jìn)行這種類型的回歸中,挑選重要的變量其實(shí)質(zhì)是挑選重要的因子(factor),而因子則是最初的那些變量的線性組合。分組變量的回歸問題,實(shí)際上就是我們一般所說的回歸問題的推廣。如果我們把每一個單獨(dú)的變量都看成一個因子,那么這種情況下的回歸就是一般意義下的回歸。下面用公式更加直白的說明這個問題:

Y=Jj=1Xjβj+e

其中Y是個n維向量,e\~Nn(0,σ2I).Xjn×pj矩陣,代表的是第j個因子(factor,是變量variables的線性組合)。βjpj維的系數(shù)向量。依然假定Y是中心化的,Xj是中心化并且正交化的(XjXj=I)。這個就是分組變量的回歸模型。

在小弟之前的文章中介紹過最小角回歸(LARS)算法,對于變量選擇來說,這種算法是比較易于計算機(jī)實(shí)現(xiàn)的,而且比傳統(tǒng)的向前逐步回歸(forward selection)更加謹(jǐn)慎,但是沒有逐段回歸(stagewise)那么謹(jǐn)小慎微。對于分組變量的回歸模型選擇問題來說,直接套用LARS算法可能會挑選出一些不必要的因子進(jìn)入回歸模型中。因此在文章中,作者提出了分組最小角回歸(group LARS).這種算法對最小角回歸進(jìn)行了推廣,下面簡單介紹一下這種算法。

推廣是循序漸進(jìn)的,因此,我們先來看看pj均相等的情況(注意這里pj未必等于1)。在傳統(tǒng)的LARS算法中,我們是要保證入選變量和當(dāng)前殘差的角度都相同。如今,我們就需要保證入選的因子們(再次強(qiáng)調(diào),這里是因子,是原始變量的線性組合)與當(dāng)前殘差的角度相同。直觀地來定義一個角度θ(r,Xj),這個角度就是向量rXj中的變量所構(gòu)成的空間的夾角,也就是r與它在Xj中的變量所構(gòu)成空間的投影的夾角。(再廢話兩句,這個夾角越小,就意味著rXj中的變量構(gòu)成的空間中的相關(guān)系數(shù)越大。)當(dāng)r是當(dāng)前殘差的時候,我們就可以確定求解路徑(solution path)為當(dāng)前殘差在Xj中的變量所構(gòu)成的空間上的投影的方向。

上面說的可能還不夠清楚,下面我分步驟具體介紹每一步的做法。

  1. 最開始時,回歸變量集依然是空集,此時的殘差就是Y,我們尋找和Y夾角最小的Xj.記它為Xj1.(這里要插一句,就是如何度量這個角度。用這個角的余弦值的平方即可:cos2(θ(r,Xj))=Xjr2r2,角度越小,這個值越大。)
  2. 確定求解路徑為YXj1中的變量所構(gòu)成的空間上的投影的方向。然后在這個路徑上前進(jìn),直到出現(xiàn)第二個因子Xj2,使得當(dāng)前殘差r與這兩個因子的夾角同樣小。也就是Xj1r2=Xj2r2。
  3. 計算新的求解路徑,這個路徑其實(shí)就是當(dāng)前殘差在Xj1Xj2的變量所構(gòu)成的空間中投影的方向。然后再沿著這條路徑前進(jìn),直到第三個因子出現(xiàn),使得當(dāng)前殘差和這三個因子的夾角都是同樣小。

然后繼續(xù)按照上面的步驟,計算出求解路徑,然后繼續(xù)前進(jìn)。直到找到第四個滿足條件的因子。

這些步驟和原始的LARS的進(jìn)程是同樣的。只不過在確定求解方向時有了變化。

上面介紹的都是pj相同的情況,當(dāng)pj不同的時候,只要對上面的過程做一個小的改動即可。用Xjr2pj代替Xjr2,其他過程都不變。這種對于LARS算法的推廣是比較直觀的。而且M.Yuan和Y.Lin在文章中還指出,這種算法相對于正交化Xj的過程是穩(wěn)定的,通過Gram-Schmidt方法進(jìn)行正交化本來是依賴于選擇的參數(shù)的,但是分組LARS確定的求解方向并不依賴該參數(shù)。

修正的LARS算法和lasso

在小弟的上一篇文章中,簡單的介紹了LARS算法是怎么回事。主要參考的是Efron等人的經(jīng)典文章least angle regression。在這篇文章中,還提到了一些有趣的看法,比如如何用LARS算法來求解lasso estimate和forward stagewise estimate。這種看法將我對于模型選擇的認(rèn)識提升了一個層次。在這個更高的層次下看回歸的變量選擇過程,似乎能有一些更加創(chuàng)新的想法。

lasso estimate的提出是Tibshirani在1996年JRSSB上的一篇文章Regression shrinkage and selection via lasso。所謂lasso,其全稱是least absolute shrinkage and selection operator。其想法可以用如下的最優(yōu)化問題來表述:

在限制了Jj=1|βj^|t的情況下,求使得殘差平和y?Xβ^2達(dá)到最小的回歸系數(shù)的估值。

我們熟悉如何求解限制條件為等號時,回歸方程的求解。也就是用lagrange乘子法求解。但是對于這種,限制條件是不等號的情況,該如何求解,則有兩種想法。第一種,也是我比較傾向于的方法,是利用計算機(jī)程序,對t0開始,不斷慢慢增加它的值,然后對每個t,求限制條件為等號時候的回歸系數(shù)的估計,從而可以以t的值為橫軸,作出一系列的回歸系數(shù)向量的估計值,這一系列的回歸系數(shù)的估計值就是lasso estimation。另外一種想法,是借助與最優(yōu)化問題中的KKT條件,用某個黑箱式的算法,求解。(本人對于最優(yōu)化方面的東西實(shí)在是不很熟悉,故不在此弄斧,只求拋磚引玉,能有高手給出這種想法的具體介紹。)

lasso estimate具有shrinkage和selection兩種功能,shrinkage這個不用多講,本科期間學(xué)過回歸分析的同學(xué)應(yīng)該都知道嶺估計會有shrinkage的功效,lasso也同樣。關(guān)于selection功能,Tibshirani提出,當(dāng)t值小到一定程度的時候,lasso estimate會使得某些回歸系數(shù)的估值是0,這確實(shí)是起到了變量選擇的作用。當(dāng)t不斷增大時,選入回歸模型的變量會逐漸增多,當(dāng)t增大到某個值時,所有變量都入選了回歸模型,這個時候得到的回歸模型的系數(shù)是通常意義下的最小二乘估計。從這個角度上來看,lasso也可以看做是一種逐步回歸的過程。

在我的上一篇文章中,提到了Efron對于逐步回歸的一種看法,就是在某個標(biāo)準(zhǔn)之下(比如LARS的標(biāo)準(zhǔn)就是要保證當(dāng)前殘差和已入選變量之間的相關(guān)系數(shù)相等,也就是當(dāng)前殘差在已入選變量的構(gòu)成空間中的投影,是那些變量的角平分線)選擇一條solution path,在這個solution path上proceed,不斷吸收新的變量進(jìn)入,然后調(diào)整solution path 繼續(xù)proceed。那么對于求解lasso的算法,也有一個相應(yīng)的對應(yīng)。Efron提出了一種修正的LARS算法,可以用修正的LARS算法來求解所有的lasso estimates。下面我介紹一下這種修正的LARS算法。

首先假設(shè)我們已經(jīng)完成了幾步LARS steps。這時候,我們已經(jīng)有了一個回歸變量集,我們記這個回歸變量集為XA。這個集合就對應(yīng)著一個對于Y的估計,我們記為μ^A。這個估值對應(yīng)著一個lasso方法對于響應(yīng)的估值(這里我認(rèn)為LARS估值和lasso估值應(yīng)該是一樣的),lasso的估值,對應(yīng)著回歸系數(shù)的lasso估值,回歸系數(shù)向量的lasso估值我們記為β^。

為了繼續(xù)進(jìn)行下一步,我們先給出一個向量的表達(dá)式,然后再解釋一下它

wA=(1A(XAXA)?11A)?12(XAXA)?11A.

XAwA就是LARS算法的在當(dāng)前回歸變量集下的solution path。那么我們可以把wA作為β的proceed的path。Efron定義了一個向量d^,這個向量的元素是sjwj,其中sj是入選變量xj與當(dāng)前殘差的相關(guān)系數(shù)的符號,也是βj^的符號。對于沒有入選的變量,他們對應(yīng)在d^中的元素為0。也就是對應(yīng)著μ(r)=Xβ(r),我們有

βj(r)=βj^+rdj^

將LARS的solution path對應(yīng)到lasso estimate的path上,這種對應(yīng)的想法非常值得借鑒。

很顯然,βj(r)會在rj=?βj^/dj^處變號。那么對于我們已經(jīng)有的lasso estimateβ(r),它中的元素會在最小的的那個大于0rj處變號。我們記之為rˉ。如果沒有rj大于0,那么rˉ就記為無窮大。

對于LARS本身而言,在已經(jīng)有了如今的回歸變量集和當(dāng)前殘差的基礎(chǔ)上,我們就會有條solution path,在這個solution path上proceed的最大步記為r^.通過比較r^rˉ就會有進(jìn)一步的想法。Efron的文章證明了如果rˉ小于r^,則對應(yīng)于LARS估計的那個βj(r)不會成為一個lasso estimation。(這個是因?yàn)楫?dāng)前殘差和對應(yīng)變量的相關(guān)系數(shù)的符號一定是和該變量的系數(shù)符號一致才行)。在這種情況下,我們就不能繼續(xù)在LARS的solution path上繼續(xù)前進(jìn)了,為了利用LARS算法求得lasso estimate,Efron提出把rˉ所對應(yīng)的那個rj所對應(yīng)的xj從回歸變量中去掉。去掉之后再計算當(dāng)前殘差和當(dāng)前這些變量集之間的相關(guān)系數(shù),從而確定一條新的solution path,繼續(xù)進(jìn)行LARS step。這樣進(jìn)行下去,可以通過LARS算法得到所有的lasso estimate。

這個對于LARS的lasso修正算法,被Efron稱作“one at a time”條件,也就是每一步都要增加或刪掉一個變量。下圖顯示了用修正了的LARS算法求lasso estimate的過程。

這個圖是Efron等人的文章中,對于一個實(shí)際數(shù)據(jù)進(jìn)行回歸得到的。該數(shù)據(jù)一共有10個變量。圖的橫軸,是所有回歸系數(shù)估值的絕對值之和,這個值從0增加。左側(cè)的縱軸,是回歸系數(shù)的估值,右側(cè)縱軸是這些回歸系數(shù)對應(yīng)的變量的下標(biāo)。這個圖中,我們可以看到每一個回歸系數(shù)的path??梢钥吹降谄邆€變量對應(yīng)的回歸系數(shù)在橫軸快到3000的時候變?yōu)榱?,說明到這一步時,該變量被刪除掉,之后又被重新添加到了回歸變量集中。

下面通過一個簡單的模擬,對lars和lasso以及forward stagewise做一個簡單的實(shí)現(xiàn)。其實(shí)在R中已經(jīng)有了一個名為lars的包,可以實(shí)現(xiàn)上述三種回歸。

首先,我要模擬的方程為

y=x31+x21+x1+13x32?x22+23x2+e

其中x1x2是服從二維聯(lián)合正態(tài)分布,均值為零向量,cov(x1,x2)=0.5,var(x1)=var(x2)=1e服從N(0,9)。我取了50次觀測,然后分別通過lasso,lars,以及forward stagewise三種算法進(jìn)行了回歸,其變量的回歸路徑如下圖。

簡單的代碼我直接貼在本文的最后。從這三個算法的圖中,我們并看不出有特別的區(qū)別,只能看出一些細(xì)小的差別。至于要判斷哪種算法更好,則應(yīng)該因問題而異。也不是本文能夠論述的問題了。

對于LARS算法的修正,還可以應(yīng)用到計算forward stagewise的estimate中,在Efron的文章中也有介紹。他的這種看法,好似凌駕在整個回歸變量選擇過程之上,從一個更高的角度觀察之,給出一種更為一般性的視角。這也就是大牛和一般人之間的差別。讀Efron的文章,總有一種讓人想要膜拜的沖動。對于模型選擇方面的東西,值得挖掘的還很多。Tibshirani在最新的一篇綜述性的文章中,給出了lasso的誕生到現(xiàn)今發(fā)展的一系列流程。感興趣的讀者,可以去看看這篇文章,在cos論壇上有。鏈接如下:

http://cos.name/cn/topic/104104

用lars算法做模擬的代碼:

利用lars模擬

 

LARS算法簡介

最近臨時抱佛腳,為了討論班報告Group Regression方面的文章,研究了Efron等人于2004年發(fā)表在Annals of Statistics里一篇被討論的文章LEAST ANGLE REGRESSION。這篇文章很長,有45頁。加上后面一些模型方面大牛的討論的文章,一共有93頁。對于這種超長論文,我向來敬畏。后來因?yàn)橐獔蟾娴奈恼吕锖芏鄸|西都看不懂,才回過頭來研讀這篇基石性的文章。

所謂大牛,就是他能提出一種別人從來沒有提出過的想法。大牛們看待問題的角度和常人不同。比如在回歸中常用的逐步回歸法。我們小輩們只知道向前回歸,向后回歸還有二者結(jié)合的一些最基本的想法。比如向前回歸,就是先選擇和響應(yīng)最相關(guān)的變量,進(jìn)行最小二乘回歸。然后在這個模型的基礎(chǔ)上,再選擇和此時殘差相關(guān)度最高的(也就是相關(guān)度次高)的變量,加入模型重新最小二乘回歸。之后再如法繼續(xù),直到在某些度量模型的最優(yōu)性準(zhǔn)則之下達(dá)到最優(yōu),從而選取一個最優(yōu)的變量子集進(jìn)行回歸分析,得到的模型是相比原模型更加簡便,更易于解釋的。這種方法,犧牲了模型準(zhǔn)確性(預(yù)測有偏),但是提高了模型的精確度(方差變?。4蠖鄶?shù)本科生對逐步回歸的理解也就如此了。Efron看待這個問題時,比起常人更高了一個層次。他首先指出,逐步向前回歸,有可能在第二步挑選變量的時候去掉和X1相關(guān)的,但是也很重要的解釋變量。這是因?yàn)樗看握业阶兞?,前進(jìn)的步伐都太大了,侵略性太強(qiáng)。

因此在這個基礎(chǔ)上,Efron提出了Forward stagewise。也就是先找出和響應(yīng)最相關(guān)的一個變量,找到第一個變量后不急于做最小二乘回歸,而是在變量的solution path上一點(diǎn)一點(diǎn)的前進(jìn)(所謂solution path是指一個方向,逐步回歸是在這個方向上進(jìn)行),每前進(jìn)一點(diǎn),都要計算一下當(dāng)前的殘差和原有的所有變量的相關(guān)系數(shù),找出絕對值最大的相關(guān)系數(shù)對應(yīng)的變量。我們可以想像,剛開始,前進(jìn)的步伐很小,相關(guān)系數(shù)絕對值最大的對應(yīng)的變量一定還是第一步選入的變量。但是隨著前進(jìn)的進(jìn)程不斷向前,這個相關(guān)系數(shù)的絕對值是在慢慢減小的,直到找到另外一個變量X2,它和當(dāng)前前殘差的相關(guān)系數(shù)和第一個入選變量X1的相關(guān)系數(shù)絕對值相同,并列第一。此時把X2也加入回歸模型中,此時回歸模型在X1上的系數(shù)已經(jīng)確定了,如果在X1的solution path上繼續(xù)前進(jìn),則得到的與當(dāng)前殘差相關(guān)系數(shù)最大的變量一定是X2,所以不再前進(jìn),而是改為在X2的solution path上前進(jìn),直到找到第三個變量X3,使得X3的與當(dāng)前殘差的相關(guān)系數(shù)絕對值最大。這樣一步一步進(jìn)行下去。每一步都是很多小步組成。直到某個模型判定準(zhǔn)則生效,停止這個步驟。在每一個solution path上的計算都是線性的。總體的solution path是分段線性的。這種算法是一種自動進(jìn)行模型構(gòu)建的方法。它和傳統(tǒng)的Forward selection在本質(zhì)上是一樣的,都是選擇一個變量,然后選擇一個繼續(xù)進(jìn)行的solution path,在該方向上前進(jìn)。這兩種方法的solution path的選擇方法是一樣的,唯一的區(qū)別就是前進(jìn)的步伐不一樣,F(xiàn)orward selection的前進(jìn)步伐很大,一次到頭,而stagewise則是一小步一小步前進(jìn)。這樣比Forward selection要謹(jǐn)慎一些,會免于漏掉一些重要的變量。

從這個視角來看,我們可以選擇另外一種solution path。Efron等人在這篇文章中,就提出了一種新的solution path。在已經(jīng)入選的變量中,尋找一個新的路徑,使得在這個路徑上前進(jìn)時,當(dāng)前殘差與已入選變量的相關(guān)系數(shù)都是相同的。直到找出新的與當(dāng)前殘差相關(guān)系數(shù)最大的變量。從幾何上來看,當(dāng)前殘差在那些已選入回歸集的變量們所構(gòu)成的空間中的投影,是這些變量的角平分線。下面我簡單的描述一下這個算法:

  • 第一步,我們初始的估計模型為0,那么當(dāng)前的殘差就是Y,我們找出X’Y中絕對值最大的那個對應(yīng)的變量,記為X1,把它加入回歸模型。這一步中X’Y是當(dāng)前殘差和所有變量的相關(guān)系數(shù)向量。(注意這里Y都已經(jīng)中心化,X中心標(biāo)準(zhǔn)化過了)。
  • 第二步,在已選的變量的solution path上前進(jìn),solution path就是s1*X1,s1是X1與當(dāng)前殘差的相關(guān)系數(shù)的符號。在這個path上前進(jìn),直到另外一個變量出現(xiàn),使得X1與當(dāng)前殘差的相關(guān)系數(shù)與它和當(dāng)前殘差的相關(guān)系數(shù)相同。記這個變量為X2,把它加入回歸模型中。
  • 第三步,找到新的solution path。Efron在文章中提出了一種找出滿足LARS條件的solution path的解法。solution path需要使得已選入模型變量和當(dāng)前殘差的相關(guān)系數(shù)均相等。因此這樣的路徑選擇它的方向很顯然就是Xk(XkXk)?11的指向(因?yàn)?span style="color: inherit;">Xk(Xk(XkXk)?1)1的元素都相同,保證了LARS的要求,當(dāng)然這里或許會有一些其他的解,也能滿足LARS的要求,有沒有達(dá)人能想到或許證明這個解是唯一的)。只要再標(biāo)準(zhǔn)化這個向量,我們便就找到了solution path的方向。在這個方向上前進(jìn),直到下一個滿足與當(dāng)前殘差相關(guān)系數(shù)絕對值最大的變量出現(xiàn)。如此繼續(xù)下去。

LARS算法,保證了所有入選回歸模型的變量在solution path上前進(jìn)的時候,與當(dāng)前殘差的相關(guān)系數(shù)都是一樣的。這一點(diǎn),比起Forward stagewise要捷徑一些,走得更快一些。

LARS算法已經(jīng)在SAS和R中實(shí)現(xiàn)了。作為回歸模型選擇的一種重要的算法,LARS相比起傳統(tǒng)的Forward selection和Forward stagewise,既不那么富于侵略性,又比較走捷徑。LARS算法在lasso 估計的求解中也有非常好的應(yīng)用。在Efron等人的同篇論文中有詳細(xì)的討論。關(guān)于lasso和它的LARS算法,筆者將在今后的文章中介紹。

 

從線性模型到廣義線性模型(2)——參數(shù)估計、假設(shè)檢驗(yàn)

1.GLM參數(shù)估計——極大似然法

為了理論上簡化,這里把GLM的分布限定在指數(shù)分布族。事實(shí)上,實(shí)際應(yīng)用中使用最多的分布就是指數(shù)分布族,所以這樣的簡化可以節(jié)省很多理論上的冗長論述,也不會限制實(shí)際應(yīng)用。
如前文如述,指數(shù)分布族的概率密度函數(shù)可以統(tǒng)一地寫為:

fY(y;θ,Ψ)=exp[(yθb(θ))/Ψ+c(y;Ψ)]

這里為了在模型中體現(xiàn)散布參數(shù)(dispersion parameter)?,把上述密度函數(shù)中的Ψ記做
Ψ=ai(?)=?/wi
從而響應(yīng)變量的單個觀測值的(加權(quán))對數(shù)似然函數(shù)可以表示為:

logL(θi,?;yi)=wi[(yiθi?b(θi))/?]+c(yi,?)

再結(jié)合觀測值之間的獨(dú)立性,全體觀測值的對數(shù)似然函數(shù)可記做:ilogL(θi,?;yi)
一般情況下最大化上述的對數(shù)似然函數(shù)很難找到解析解(正態(tài)分布是特例之一),因而必須使用數(shù)值方法求解。McCullagh和Nelder(1989)證明了使用Newton-Raphson方法,結(jié)合Fisher scoring算法,上述對數(shù)似然函數(shù)的最大化等價于連續(xù)迭代的加權(quán)最小二乘法(iteratively weighted least squares, or IRWLS)。

廣義線性模型的IRWLS算法如下:
1.設(shè)置線性估計量和響應(yīng)變量的均值的初始估計值: η^0μ^0
這里μ^0是根據(jù)經(jīng)驗(yàn)或是專家意見等信息對μ=E(Y)的一個估計值,而η^0可以利用模型建立時選用的聯(lián)接函數(shù)來獲得,即η^0=g(μ^0)。這一函數(shù)關(guān)系也用于計算步驟2和3中ημ一階導(dǎo)數(shù)。
2.構(gòu)造調(diào)整的因變量(adjusted dependent variable):z0=η^0+(y?μ^0)dηdμ|η^0
3.構(gòu)造權(quán)重:w?10=(dηdμ)2|η^0V(μ^0)
這里V(μ^0)是利用方差函數(shù)(variance function)和μ^0構(gòu)造的Var(Y)的估計值。
4.利用步驟2和3構(gòu)造的調(diào)整的因變量和權(quán)重,擬合普通線性模型(ordinary linear model),預(yù)測/擬合(predict)新的線性估計量和均值: η^1μ^1
5.重復(fù)步驟2-4直到收斂(滿足一定的迭代步數(shù)或是精度要求)。
此時得到的模型就是極大似然估計方法下的廣義線性模型。IRWLS的算法思路也從另一個方面說明了廣義線性模型是普通線性模型的推廣。在廣義線性模型的實(shí)際應(yīng)用中,IRWLS算法是最常用的極大似然估計求解方法。對于特殊的案例,也有其他的特殊的參數(shù)估計方法。比如對于在精算學(xué)科中最常用的列聯(lián)表(contigency table)數(shù)據(jù)或案例就有Bailey-Simon法、邊際總和法(marginal totals)、最小二乘法(least squares)、直接法(direct method)等。

2.假設(shè)檢驗(yàn)

2.1 空模型和全模型

一個極端的情況,所有自變量xi對于響應(yīng)變量Y都沒有影響,也即是為所有的響應(yīng)變量Y擬合一個共同的均值,即只有一個參數(shù)。這樣的模型稱為空模型(null model)。對于普通線性模型(正態(tài)分布下的GLM)而言,空模型的具體形式就是y=μ+?。對于特殊的數(shù)據(jù)或案例類型,可能存在著其他的限制條件(constraints)從而空模型的參數(shù)個數(shù)大于1。比如非壽險精算中經(jīng)常用到的列聯(lián)表(contigency table)數(shù)據(jù),其空模型就可能包含了行號、列號、對角線序號等限制。

相反的一個極端情況就是,所有自變量xi的每一個觀測值或稱為數(shù)據(jù)的樣本點(diǎn)(data points)對于響應(yīng)變量Y都有影響,這樣的模型稱為全模型(full or saturated model)。一般可以通過構(gòu)造階數(shù)足夠高的多項(xiàng)式或者把所有的量化觀測值(quantitative)視為質(zhì)化觀測值(qualitive),并且引入適當(dāng)數(shù)量的交叉項(xiàng)(interactions)來構(gòu)造全模型。

統(tǒng)計建模的目的之一就是把樣本數(shù)據(jù)劃分為隨機(jī)成分和系統(tǒng)成分兩大部分。在這一點(diǎn)上,空模型認(rèn)為響應(yīng)變量的變動(variation)完全由隨機(jī)性(random variation)造成,而全模型則認(rèn)為響應(yīng)變量的變動完全來自于系統(tǒng)成分(systematic)。一個直觀地理解就是全模型是在現(xiàn)有的數(shù)據(jù)或樣本的條件下,針對某一種分布所能擬合的最優(yōu)模型,因而可以做為檢驗(yàn)?zāi)繕?biāo)模型擬合優(yōu)度的一個標(biāo)準(zhǔn)(measure)。

2.2 偏差(Deviance)

如果把全模型的對數(shù)似然函數(shù)記為l(y,?|y),把目標(biāo)模型的對數(shù)似然函數(shù)記為l(μ^,?|y),那么目標(biāo)模型與全模型在擬合優(yōu)度上的偏離的定義可寫成2(l(y,?|y)?l(μ^,?|y))。再結(jié)合觀測值的獨(dú)立性假設(shè)和指數(shù)散布族的假設(shè),那么上述偏離的定義可以簡化為:

i2wi(yi(θ^iθ~i)b(θ~i)+b(θ^i))/?

其中ai(?)=?/wi,θ~是全模型下的參數(shù)估計值,θ^是目標(biāo)模型下的參數(shù)估計值。如果把上式寫成D(y,μ^)/?,那么D(y,μ^)稱為偏差(Deviance),D(y,μ^)/?則稱為標(biāo)準(zhǔn)化偏差(scaled deviace)。
此外,皮爾遜卡方統(tǒng)計量(Pearson’s chi-square statistics):

X2=i(yiμ^i)2Var(μ^i)

也是衡量模型偏離程度(discrepancy)的統(tǒng)計量之一,在一些場合可以做為偏差的替代選擇。

2.3 擬合優(yōu)度檢驗(yàn)

廣義線性模型的假設(shè)檢驗(yàn)可以分為兩種:一是檢驗(yàn)?zāi)繕?biāo)模型相對于數(shù)據(jù)或預(yù)測值的擬合有效性的檢驗(yàn)(goodness of fit test);另外一種則是對“大”模型以及對“大”模型的參數(shù)施加一定的線性約束(linear restrictions)之后得到的“小”模型之間的擬合優(yōu)度比較檢驗(yàn)。直觀上的理解就是,“大”模型具有更多的參數(shù),即從參數(shù)的線性約束總可把一個或多個參數(shù)用其他參數(shù)的線性組合來表示,然后代入“大”模型,從而參數(shù)的個數(shù)減少,派生出所謂的“小”模型,也就是說“大”和“小”并非任意的,而是具有一種派生關(guān)系(nested models)。如果把全模型認(rèn)為是“大”模型,而目標(biāo)模型是“小”模型,那么上述兩種檢驗(yàn)的本質(zhì)是相同的。因而假設(shè)檢驗(yàn)的零假設(shè)(null hypothsis)可以統(tǒng)一且直觀地設(shè)定為:“小”模型(目標(biāo)模型)是正確的模型。

如果把大模型記做Ω,把小模型記做ω,其標(biāo)準(zhǔn)化偏差之差記做DωDΩ,其自由度之差記做dfω?dfΩ,則構(gòu)造如下的統(tǒng)計量:(DωDΩ)/(dfω?dfΩ)?。

當(dāng)?是已知常數(shù)時,比如泊松和二項(xiàng)分布的情況下?=1,上述統(tǒng)計量在零假設(shè)下漸近地(asymptotically)服從卡方分布(正態(tài)分布時正好是卡方分布)。當(dāng)?未知時,通常需要用估計值代替。最常用的估計值是?^=X2/(n?p)這里n是數(shù)據(jù)中觀測值的數(shù)量,p是目標(biāo)模型的參數(shù)個數(shù)。此時上述的統(tǒng)計量在零假設(shè)下近似地(approximately)服從F分布(正態(tài)分布時嚴(yán)格服從F分布)。注意上述兩種情況下,漸近和近似的區(qū)別。

對于某一個參數(shù),可以使用其估計值的標(biāo)準(zhǔn)誤(standard error)來構(gòu)造一個z統(tǒng)計量來檢驗(yàn)其顯著性,即z=β^/se(β^)。在零假設(shè)下,z統(tǒng)計量在普通線性模型,也就是正態(tài)分布下的廣義線性模型中就是我們熟知的t統(tǒng)計量,嚴(yán)格服從t分布。在其他分布下的廣義線性模型中,漸近地服從正態(tài)分布。z檢驗(yàn)也稱為Wald檢驗(yàn),在廣義線性模型中效果不如上述的偏差檢驗(yàn),因而較少使用。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
文獻(xiàn)匯報||Lasso方法在腫瘤基因位點(diǎn)篩選中的應(yīng)用
轉(zhuǎn)載:統(tǒng)計學(xué)習(xí)那些事
Least Angle Regression
Lasso回歸算法:坐標(biāo)軸下降法與最小角回歸法小結(jié)
Python中的Lasso回歸之最小角算法LARS
Lasso思想及算法 - 人過留名的日志 - 網(wǎng)易博客
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服