主要內(nèi)容
最小二乘回歸
子集選擇法(subset selection)
收縮方法(shrinkage)
LARS
LARS 與 Lasso、前向逐階段回歸
LARS 與 Boosting
高斯-馬爾可夫定理
最小二乘解在線性模型的所有無偏估計量中方差最小
然而,𝑏 ?這一估計量雖然無偏,方差卻未必小
例:如果從某分布中獨立抽取3個樣本,該分布的期望和方差未知,只知道期望不大于1、方差不大于4,那么如何估計其期望?
比如這個問題,設(shè)估計量為a(x1+x2+x3)/3,那么可以轉(zhuǎn)化為a^2/9+(a-1)^2的極值問題,對a求導(dǎo),可知a=0.9時是最好的。
同時,如果我們只知道期望的值,那么我們可以知道在某個有偏估計量下,在方差大于多少時比無偏估計量要好。只知道方差不知道期望亦同。這個問題可以想出很多變體,我想。
另外,值得注意的是,方差的分母是n的平方,那么n很大的時候,方差自然就趨近于0了,所以很多情況下,這個平衡只在小樣本下成立。當(dāng)然,對于線性模型來說,其中必定存在很多方差較大的變量,這時小樣本是相對于變量的個數(shù)也就是維度而言的。我們就可以考慮舍棄那些大方差的變量。這就衍生出兩種方法:子集選擇和收縮。
子集選擇法
什么是子集選擇?
-從所有變量組成的集合中,選出一個子集,僅用該子集中的變量而不是所有變量來建立線性模型
為什么采用子集選擇法?
-泛化性更好
-解釋性更強
如何選擇?
-投影后殘差最小
-相關(guān)度最大
-夾角最小
主要的子集選擇方法
最佳子集選擇法(Best-Subset Selection)
前向逐步選擇法(Forward-Stepwise Selection)
前向逐階段回歸(Forward-Stagewise Regression)
最佳子集選擇法
即遍歷元素個數(shù)為k的所有子集,選擇其中殘差最小的子集
若變量集合為{1, 2,…, p},則對于k個元素的子集,需要計算 C(p, k) 次最小二乘,總共需計算2^𝑘次
顯然,這種選擇策略的計算代價極為昂貴
而且在實踐中,這種方法似乎也不夠出色(泛化性能不佳?)
前向逐步選擇法
貪心(greedy)選擇策略
若變量集合為A={1, 2,…, p},已選子集K包含k個元素,y在K上殘差為r,則若想選k+1個元素的子集,僅需在K的基礎(chǔ)上,從A/K中選一個元素x,使得x與r相關(guān)度最大
因此這些子集具有嵌套結(jié)構(gòu):較小子集包含在較大子集中
為什么說這種方法比最佳子集選擇的方差會更低?為什么限制選擇的自由度會減小方差?
計算代價大大降低:選擇k-子集僅需在(k-1)-子集基礎(chǔ)上,計算p-k+1次相關(guān)
因為限制了變量的選擇范圍,所以方差有所減少,但偏差可能增加(forward stepwise is a more constrained search, and will have lower variance, but perhaps more bias)(why?)
可能在某些變量上系數(shù)很大,而在其他變量上系數(shù)很小
假如有一個三維空間,有三個基向量,但其中兩個分得很開,比如(1,0,0)和(0,1,0),而另一個在該平面上抬起來一點,比如(2/3,2/3,1/3),現(xiàn)在有一個向量(2/3,2/3,1/4),那么只選一個向量的話,顯然抬起來那個更近,但如果選兩個,則會是兩個坐標(biāo)軸更近(是否因為抬起來那個和坐標(biāo)軸都很相關(guān),重復(fù)了?而且如果頭兩個基向量負(fù)相關(guān),是不是更容易出現(xiàn)此現(xiàn)象?)。
后向逐步選擇是類似的思想,只不是逐步刪去最差的變量(也是貪心)。
這種現(xiàn)象因為貪心策略導(dǎo)致的——只注重眼前。不過如果基向量正交,那么貪心策略是最優(yōu)的?這類似于特征選擇(也有這樣的算法)、mp和omp(omp最優(yōu)?其后的改進(jìn)是什么?)、甚至波段選擇等組合優(yōu)化問題。可以看出算法背后其實是有思想的,比如貪心,其實是一種元算法。
另外擬陣和次模是和貪心以及組合優(yōu)化緊密相關(guān)的。
前向逐階段回歸
前向逐步選擇法的保守版本
同樣是在A/K中,選一個元素x,使得x與當(dāng)前殘差具有最大相關(guān)度
但并非直接計算投影后的系數(shù),而是將投影乘一個小于1的常數(shù)a(比如0.1),使其以較小的步長前進(jìn)
子集選擇法比較
為什么說這種方法比最佳子集選擇的方差會更低?為什么限制選擇的自由度會減小方差?
收縮方法
嶺回歸(ridge regression)
Lasso
和子集選擇相比,收縮方法相當(dāng)于對變量系數(shù)進(jìn)行連續(xù)處理,而不是離散處理(非0即1)。所以子集選擇本質(zhì)上是組合優(yōu)化問題,一般需要近似求解,而收縮方法是連續(xù)優(yōu)化問題,一般可采用凸優(yōu)化方法求解。
嶺回歸
相關(guān)度可從系數(shù)(1,0)和(0.5,0.5)的2范看出,前者2范為1,后者2范為0.7071,顯然后者的范數(shù)約束更小,所以隨著lambda增大,有相關(guān)變量的變量縮減更大。
另外就是可以看出哪些變量相關(guān):同時增減且幅度差不多的,則為相關(guān)。二者都為正則為負(fù)相關(guān),二者一正一負(fù)則為正相關(guān)。
Lasso
首先lasso和嶺回歸對比,右邊的嶺回歸是一下全都不為0了,而左邊是一個一個地不為0。這樣就有一個先后順序:對重要性進(jìn)行排序。比如BMI、S5較重要,S4、S2較不重要等等。(重要性是否也可以從嶺回歸的圖中,根據(jù)某一階段比如0剛開始時的斜率也就是導(dǎo)數(shù)或者變化率來看?變化率越大越重要?這和gradient boosting有關(guān)系嗎?)
另外可以看出變量之間的關(guān)系。比如到后面的階段,其他變量的變化都比較平緩了,但S1和S2卻變化仍然很大,而且變化的方向相反,這說明它們之間有較強的相關(guān)性,而且是正相關(guān)。另外請看S3,一開始它的發(fā)展趨勢是往下的,但S4出現(xiàn)后,S3方向馬上改變向上,而且之后它們的方向是相同的,說明它們之間也有較強的相關(guān)性,而且是負(fù)相關(guān)。
這種相關(guān)性較強的變量對解的穩(wěn)定性是有較大影響的,樣本在這些變量上的較小變化,可能產(chǎn)生較大的預(yù)測誤差。
LARS
前向逐步選擇法過于貪心
前向逐階段回歸又過于謹(jǐn)慎
需要一種折中的方法
注意到前向逐階段回歸時,會出現(xiàn)多個變量之間相關(guān)度幾乎相同的情況,那么,我們?yōu)槭裁匆〔角斑M(jìn),而不是算出相關(guān)度相同的坐標(biāo),然后直接移到該處?
Least Angle 指的就是變量與y之間的夾角
LARS 與前向逐階段回歸、Lasso的關(guān)系
Lasso 和前向逐階段回歸,都可看作LARS的變形,或者說移動受限版本
LARS、前向逐階段回歸和 Lasso 的 KKT 條件,決定了它們解的性質(zhì)以及幾何性質(zhì)
Lasso 要求變量一旦到達(dá)0點,則刪掉該變量
前向逐階段回歸要求正相關(guān)(所以移動路徑在一個凸錐之內(nèi))
前向逐階段回歸也稱作最小二乘 boosting(least squares boosting)
實際上,boosting 的思想是把很多較弱的線性可加分類函數(shù)或回歸函數(shù)組合在一起,而變量選擇的逐步添加變量就是這樣的思想
boosting 會不斷改變樣本的權(quán)重和分類函數(shù)或回歸函數(shù)的權(quán)重,這相當(dāng)于計算與殘差r的相關(guān)度
boosting 也容易變?yōu)榉蔷€性版本,比如結(jié)合CART
(不錯的slides)lars_Lasso_boost.pdf
999.41 KB, 下載次數(shù): 139
Least angle and 1 penalized regression - A review 0802.0964.pdf
451.79 KB, 下載次數(shù): 95
presentation for reading group - LARS (final).pptx
1.3 MB, 下載次數(shù): 138