導讀:
EFA的目標是通過發(fā)掘隱藏在數(shù)據(jù)下的一組較少的、更為基本的無法觀測的變量,來解釋一組可觀測變量的相關性。這些虛擬的、無法觀測的變量稱作因子。(每個因子被認為可解釋多個觀測變量間共有的方差,因此準確來說,它們應該稱作公共因子。)
探索性因子分析
模型的形式為:
其中Xi是第i個可觀測變量(i = 1…k), Fj是公共因子(j = 1…p),并且p<k。 Ui是Xi變量獨有的部分(無法被公共因子解釋)。 ai可認為是每個因子對復合而成的可觀測變量的貢獻值?;氐奖菊麻_頭的Harman74.cor的例子,我們認為每個個體在24個心理學測驗上的觀測得分,是根據(jù)四個潛在心理學因素的加權能力值組合而成。
雖然PCA和EFA存在差異,但是它們的許多分析步驟都是相似的。為闡述EFA的分析過程,我們用它來對六個心理學測驗間的相關性進行分析。 112個人參與了六個測驗,包括非語言的普通智力測驗(general)、畫圖測驗(picture)、積木圖案測驗(blocks)、迷津測驗(maze)、閱讀測驗(reading)和詞匯測驗(vocab) 。我們?nèi)绾斡靡唤M較少的、潛在的心理學因素來解釋參與者的測驗得分呢?
數(shù)據(jù)集ability.cov提供了變量的協(xié)方差矩陣,你可用cov2cor()函數(shù)將其轉(zhuǎn)化為相關系數(shù)矩陣。數(shù)據(jù)集沒有缺失值。
因為要尋求用來解釋數(shù)據(jù)的潛在結構,可使用EFA方法。與使用PCA相同,下一步工作為判斷需要提取幾個因子。
判斷需提取的公共因子數(shù)
用fa.parallel()函數(shù)可判斷需提取的因子數(shù):
結果見圖14-4。注意,代碼中使用了fa = "both",因子圖形將會同時展示主成分和公共因子分析的結果。
圖形中有幾個值得注意的地方。如果使用PCA方法,你可能會選擇一個成分(碎石檢驗和平行分析)或者兩個成分(特征值大于1)。當搖擺不定時,高估因子數(shù)通常比低估因子數(shù)的結果好,因為高估因子數(shù)一般較少曲解“真實”情況。觀察EFA的結果,顯然需提取兩個因子。碎石檢驗的前兩個特征值(三角形)都在拐角處之上,并且大于基于100次模擬數(shù)據(jù)矩陣的特征值均值。對于EFA, Kaiser-Harris準則的特征值數(shù)大于0,而不是1。(大部分人都沒有意識到這一點。)圖形中該準則也建議選擇兩個因子。
提取公共因子
現(xiàn)在你決定提取兩個因子,可以使用fa()函數(shù)獲得相應的結果。 fa()函數(shù)的格式如下:
其中:
? r是相關系數(shù)矩陣或者原始數(shù)據(jù)矩陣;
? nfactors設定提取的因子數(shù)(默認為1);
? n.obs是觀測數(shù)(輸入相關系數(shù)矩陣時需要填寫);
? rotate設定旋轉(zhuǎn)的方法(默認互變異數(shù)最小法);
? scores設定是否計算因子得分(默認不計算);
? fm設定因子化方法(默認極小殘差法)。
與PCA不同,提取公共因子的方法很多,包括最大似然法(ml) 、主軸迭代法(pa) 、加權最小二乘法(wls)、廣義加權最小二乘法(gls)和最小殘差法(minres)。統(tǒng)計學家青睞使用最大似然法,因為它有良好的統(tǒng)計性質(zhì)。不過有時候最大似然法不會收斂,此時使用主軸迭代法效果會很好。欲了解更多提取公共因子的方法,可參閱Mulaik(2009)和Corsuch(1983)。
本例使用主軸迭代法(fm = "pa")提取未旋轉(zhuǎn)的因子。結果見代碼清單14-6。
可以看到,兩個因子解釋了六個心理學測驗60%的方差。不過因子載荷陣的意義并不太好解釋,此時使用因子旋轉(zhuǎn)將有助于因子的解釋。
14.3.3 因子旋轉(zhuǎn)
你可以使用正交旋轉(zhuǎn)或者斜交旋轉(zhuǎn)來旋轉(zhuǎn)14.3.4節(jié)中兩個因子的結果?,F(xiàn)在我們同時嘗試下兩種方法,看看它們的異同。首先使用正交旋轉(zhuǎn)(見代碼清單14-7)。
結果顯示因子變得更好解釋了。閱讀和詞匯在第一因子上載荷較大,畫圖、積木圖案和迷宮在第二因子上載荷較大,非語言的普通智力測量在兩個因子上載荷較為平均,這表明存在一個語言智力因子和一個非語言智力因子。
使用正交旋轉(zhuǎn)將人為地強制兩個因子不相關。如果想允許兩個因子相關該怎么辦呢?此時可以使用斜交轉(zhuǎn)軸法,比如promax(見代碼清單14-8)。
根據(jù)以上結果,你可以看出正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)的不同之處。對于正交旋轉(zhuǎn),因子分析的重點在于因子結構矩陣(變量與因子的相關系數(shù)),而對于斜交旋轉(zhuǎn),因子分析會考慮三個矩陣:
因子結構矩陣、因子模式矩陣和因子關聯(lián)矩陣。
因子模式矩陣即標準化的回歸系數(shù)矩陣。它列出了因子預測變量的權重。 因子關聯(lián)矩陣即因子相關系數(shù)矩陣。
在代碼清單14-8中, PA1和PA2欄中的值組成了因子模式矩陣。它們是標準化的回歸系數(shù),而不是相關系數(shù)。注意,矩陣的列仍用來對因子進行命名(雖然此處存在一些爭論)。你同樣可以得到一個語言因子和一個非語言因子。
因子關聯(lián)矩陣顯示兩個因子的相關系數(shù)為0.57,相關性很大。如果因子間的關聯(lián)性很低,你可能需要重新使用正交旋轉(zhuǎn)來簡化問題。
剩余內(nèi)容,請點擊此處查看原文。該文章由微信公眾號“臨床科研那些事”原創(chuàng)。ID:“Bridge_the_gap” 。本訂閱轉(zhuǎn)載目的在于傳遞更多信息,第三方轉(zhuǎn)載請與原賬號聯(lián)系。
聯(lián)系客服