一、定義
二乘其實(shí)是指平方的意思,為什么用平方呢?
因?yàn)槠椒娇梢韵`差正負(fù)方向上的差異,單純的只比較長(zhǎng)度。
另一種通俗的說法叫距離(學(xué)術(shù)一點(diǎn)叫歐式距離),距離不分上下、左右,只有大小,所以可以用來衡量目標(biāo)與估計(jì)的所有方向偏差累積。
最小二乘法(Least Squares Method)是用來求解過度定參數(shù)模型的一種方法。它是找出一個(gè)函數(shù),使得這個(gè)函數(shù)代表的數(shù)據(jù)點(diǎn)與實(shí)際觀測(cè)的數(shù)據(jù)點(diǎn)之間的差的平方和最小。
最小二乘法的優(yōu)點(diǎn)是:
1. 當(dāng)樣本量較大時(shí),它可以獲得較為準(zhǔn)確的統(tǒng)計(jì)參數(shù)估計(jì)。
2. 它具有線性和非偏性的特點(diǎn),能夠得到統(tǒng)一的最優(yōu)解。
3. 該方法易于理解和實(shí)現(xiàn)。
但是,最小二乘法也有一些局限性,當(dāng)離群點(diǎn)較多時(shí),容易產(chǎn)生較大誤差。同時(shí),它要求自變量的隨機(jī)誤差服從正態(tài)分布。
如上圖所示:藍(lán)點(diǎn)是真實(shí)數(shù)據(jù),黃點(diǎn)是每個(gè)真實(shí)數(shù)據(jù)的估計(jì)值,紅線的長(zhǎng)短即代表真實(shí)與估計(jì)距離,目標(biāo)就是找到一條直線(模型)使得所有紅線累和最短,推廣到多維空間,就是找到一個(gè)超平面,而這個(gè)超平面是有數(shù)學(xué)公式解的!
二、公式
之前我們提到最小二乘法的幾何解釋就是所有點(diǎn)(觀測(cè)數(shù)據(jù))到直線的距離(y的差值)的差的平方和,其實(shí)我們還可以換一種角度來看,把看成是p個(gè)n維空間的向量(每個(gè)都對(duì)應(yīng)不同的方向),而不是之前n個(gè)p維的向量
也就是說,我們要找到一個(gè)并且使到上面的距離最小(誤差距離最低)即?,而這個(gè)最小距離的直線方向和中的每個(gè)都是垂直的,所以點(diǎn)積為0:
最小二乘法 通用數(shù)學(xué)公式解
誤差方程為:
其最優(yōu)解為:
其中X由m*n樣本輸入矩陣:
y為m×1列向量,一般稱為標(biāo)簽, 對(duì)應(yīng)于簡(jiǎn)單函數(shù),其實(shí)就是指函數(shù)值f(x)。
w為n×1 列向量,就是待求的擬和權(quán)重參數(shù)。
三、應(yīng)用
最小二乘法有很廣泛的應(yīng)用,主要包括:
回歸分析:最小二乘法是回歸分析的基礎(chǔ),用來估計(jì)回歸模型中的參數(shù)。如一元線性回歸,多元線性回歸等。
趨勢(shì)分析:可以用最小二乘法來擬合時(shí)間序列數(shù)據(jù),分析數(shù)據(jù)的趨勢(shì)和周期性變化。如指數(shù)趨勢(shì)模型,對(duì)數(shù)線性模型等。
預(yù)測(cè)分析:最小二乘法得到的回歸模型可以用來進(jìn)行預(yù)測(cè)分析,預(yù)測(cè)因變量未來的狀況。
插補(bǔ)缺失值:可以用最小二乘法構(gòu)建的回歸模型來預(yù)測(cè)缺失數(shù)據(jù)的值。
去趨勢(shì)化:通過最小二乘法分析時(shí)間序列數(shù)據(jù)的長(zhǎng)期趨勢(shì),可以將原始數(shù)據(jù)進(jìn)行去趨勢(shì)化,用于其他時(shí)間序列分析。
模型選擇:可以根據(jù)最小二乘法得到的不同模型的誤差平方和大小來進(jìn)行模型選擇,選擇最優(yōu)的預(yù)測(cè)模型。
參數(shù)估計(jì):不僅僅是一元線性回歸,在許多其他模型中也會(huì)使用最小二乘法來估計(jì)模型參數(shù),如ARMA模型、ARIMA模型等。
機(jī)器學(xué)習(xí):在機(jī)器學(xué)習(xí)中的回歸問題中,最小二乘法是最常用的方法之一,用來訓(xùn)練回歸模型并預(yù)測(cè)結(jié)果。如線性回歸、邏輯回歸等。
信號(hào)處理:在信號(hào)處理中,最小二乘法也有很重要的應(yīng)用,如用來構(gòu)建一個(gè)信號(hào)的最小二乘估計(jì),用于濾波和預(yù)測(cè)等。
聯(lián)系客服