定義
主成分分析又稱主分量分析或主軸分析,是將多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種多元統(tǒng)計(jì)分析方法.從數(shù)學(xué)角度來(lái)看,這是一種降維處理技術(shù)。通常把轉(zhuǎn)化生成的綜合指標(biāo)稱之為主成分。
在實(shí)證數(shù)據(jù)分析研究中,人們?yōu)榱吮M可能完整地搜集信息,對(duì)于每個(gè)樣本往往要觀測(cè)它的很多指標(biāo),少到四、五項(xiàng),多則幾十項(xiàng)。例如:人口普查往往要調(diào)查每個(gè)人的姓名、年齡、性別、文化程度、職業(yè)、住房等幾十項(xiàng)指標(biāo)。從搜集資料的角度看,多記錄幾項(xiàng)可以避免重要信息的遺漏,但是由于這些指標(biāo)從統(tǒng)計(jì)角度來(lái)看相互之間有一定的依賴關(guān)系,因而使得所觀測(cè)的數(shù)據(jù)在一定程度上反映的信息有所重疊。因此,從統(tǒng)計(jì)分析或推斷的角度來(lái)說(shuō),人們總是希望能把大量的原始指標(biāo)組合成較少的幾個(gè)綜合指標(biāo),從而使分析簡(jiǎn)化。這些綜合指標(biāo)的變化要能大體上反映樣本全部指標(biāo)的變化,而不喪失或者只喪失很少一部分原始指標(biāo)所提供的信息。
例如:一個(gè)人的身材需要用好多項(xiàng)指標(biāo)才能完整地描述,諸如身高、臂長(zhǎng)、腿長(zhǎng)、肩寬、胸圍、腰圍、臀圍等等,但人們購(gòu)買(mǎi)衣服時(shí)一般只用長(zhǎng)度和肥瘦兩個(gè)指標(biāo)就夠了,這里長(zhǎng)度和肥瘦就是描述人體形狀的多項(xiàng)指標(biāo)組合而成的兩個(gè)綜合指標(biāo)。
1、通常,一些變量具有不同的量綱,有的變量值數(shù)量級(jí)上也有很大差異,在應(yīng)用主成分分析研究實(shí)際問(wèn)題時(shí),不同的量綱和數(shù)量級(jí)會(huì)引出新的問(wèn)題;為了消除由于量綱的不同可能帶來(lái)的一些不合理的影響,在進(jìn)行主成分分析之前先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
2、為了方便,將數(shù)據(jù)標(biāo)準(zhǔn)化后的矩陣仍用原來(lái)的x記,考慮它的線性變換——新的綜合變量由原來(lái)的變量x1,x2,…,xP線性表示,即:
由于可以任意地對(duì)原始變量進(jìn)行上述線性變換,由不同的線性變換得到的綜合變量y的統(tǒng)計(jì)特性也不盡相同。
假如我們希望用y1來(lái)代替原來(lái)的p個(gè)變量x1,x2,…,xP,這就要求y1盡可能多地反映原來(lái)p個(gè)變量的信息,即希望y1是x1,x2,…,xP的一切線性函數(shù)中方差最大的。
舉例說(shuō):反映城鎮(zhèn)居民生活消費(fèi)狀況的指標(biāo)通常有8個(gè)(食品、衣著、日用品、…),我們希望由這8個(gè)指標(biāo)線性組合成一個(gè)新指標(biāo),亦即一個(gè)可以幫助我們衡量各地城鎮(zhèn)居民總體生活消費(fèi)狀況的綜合性指標(biāo),當(dāng)然也希望此指標(biāo)能真正顯出消費(fèi)程度的差異(富裕的、貧窮的),所以此指標(biāo)方差越大,便代表它對(duì)居民消費(fèi)程度差異擁有越大的反映及解釋能力。
因此,p個(gè)原始觀測(cè)變量的第一主成分就應(yīng)該是這p個(gè)原始觀測(cè)變量的所有線性組合中方差最大的那個(gè)綜合指標(biāo),第二主成分就應(yīng)該是這p個(gè)原始觀測(cè)變量的所有線性組合中方差次大的那個(gè)綜合指標(biāo),???,第p個(gè)主成分就應(yīng)該是這p個(gè)原始觀測(cè)變量的所有線性組合中方差第p大的那個(gè)綜合指標(biāo)。
如果第一主成分不足以代表原來(lái)p個(gè)變量的絕大部分信息,則往往還要計(jì)算p個(gè)原始指標(biāo)的第二主成分y2。為了有效地代表原變量的信息,第一主成分(y1)已反映(體現(xiàn))的信息不希望在第二主成分(y2)中出現(xiàn),用統(tǒng)計(jì)語(yǔ)言來(lái)講,就是要求
。于是求第二主成分(y2),就是在約束條件
和cov (y2,y1)=0下,求a2使Var(y2)達(dá)到最大,所求之y2稱為第二主成分。類(lèi)似地可求得第三主成分、第四主成分等等。綜上所述,我們將線性變換約束在下面的原則之下:
(1)
即(2)yi與yj(i≠j;i,j=1,2,…,p)相互無(wú)關(guān);
(3)y1是x1,x2,…,xp的一切滿足原則(1)的線性組合中方差最大者;y2是與y1不相關(guān)的 x1,x2,…,xp的所有線性組合中方差最大者;…;yp是與y1,y2,……yp-1都不相關(guān)的x1,x2,…,xp的所有線性組合中方差最大者。
基于以上三條原則決定的新(綜合)變量y1,y2,…,yp分別稱為原始變量x1,x2,…,xp的第一,第二,…,第p個(gè)主成分。其中,y1在總方差中占的比例最大,y2,y3,…,yp的方差依次遞減。
在商務(wù)與經(jīng)濟(jì)中,常常需要將很復(fù)雜的數(shù)據(jù)集綜合成商業(yè)指數(shù)形式,也就是說(shuō)將p個(gè)指標(biāo)所構(gòu)成的p維系統(tǒng)簡(jiǎn)化為一維系統(tǒng),一些熟悉的例子如物價(jià)指數(shù)、生活費(fèi)用指數(shù)等,這些指數(shù)是由各種加權(quán)成分所組成的,在某種意義上,這些權(quán)數(shù)反映了各種成分相對(duì)重要性的數(shù)量,從主成分的觀點(diǎn)來(lái)探討這個(gè)問(wèn)題,主成分分析所構(gòu)成的第一主成分正是這一問(wèn)題的答案,它提供了自身的權(quán)重系數(shù)。)
完
下節(jié)我們介紹主成分分析的幾個(gè)意義,敬請(qǐng)期待。
聯(lián)系客服