在上一期,我們羅列了各種各樣的因子,接下來是多因子選股必不可缺的一個(gè)步驟,那就是判斷因子的有效性。我們將在這探討如何找到有邏輯意義并且能夠有效的區(qū)分個(gè)股的因子,也就是因子值對于個(gè)股未來收益有一定的預(yù)測能力。
多因子的有效性檢驗(yàn)一般基于兩個(gè)方法:
1、相關(guān)性檢驗(yàn):計(jì)算同一時(shí)刻的個(gè)股的指標(biāo)值和未來一段時(shí)間收益的相關(guān)性,再進(jìn)行顯著性檢驗(yàn),相關(guān)性越強(qiáng),說明選股能力越強(qiáng);
2、單調(diào)性檢驗(yàn):按照指標(biāo)值大小對股票進(jìn)行分組,從時(shí)間序列的角度觀察各組的歷史累計(jì)收益、信息比率、最大回撤以及勝率等。各組表現(xiàn)的優(yōu)勢組的勝率越高,單調(diào)性越強(qiáng),說明指標(biāo)的區(qū)分能力和選股能力越強(qiáng)。
但在使用這兩個(gè)方法檢驗(yàn)因子有效性的時(shí)候,需要注意以下幾點(diǎn):
1、盡量把整體區(qū)間分為幾個(gè)區(qū)間(分為每月或者每季度)進(jìn)行回歸。以往有的研究會(huì)將幾年的數(shù)據(jù)放在一起,整體進(jìn)行回歸,但我們更建議每月或者每季度進(jìn)行一次回歸,好處有兩個(gè): 1)減少單次回歸的樣本數(shù)量;
2)有利于觀察指標(biāo)的歷史表現(xiàn)。
2、有些指標(biāo)排序盡量做到按照行業(yè)內(nèi)分組,而不單單是全市場分組。有一些基本面因子,如總市值、市盈率、ROE和ROA等,不同行業(yè)間有著天然的差異,可能不具有可比性,而且如果全市場分組,可能存在行業(yè)的顯著偏離,因此全市場分組有效與指標(biāo)在行業(yè)中性的情況下有效不是等同的概念。通過因子的考察,同時(shí)采用了行業(yè)內(nèi)分組和全市場分組兩種方式進(jìn)行對比,會(huì)發(fā)現(xiàn)有的指標(biāo)在行業(yè)內(nèi)分組的效果更好。
3、采用加權(quán)最小二乘法回歸,而不是簡單使用最小二乘法回歸。為了得到回歸系數(shù)值,最常用的方法是采用最小二乘法進(jìn)行參數(shù)擬合。傳統(tǒng)的最小二乘法方便估計(jì)出一個(gè)線性回歸系數(shù),但其目標(biāo)函數(shù)并不是一個(gè)穩(wěn)健的統(tǒng)計(jì)量,容易受到異常樣本值的影響。在多因子模型中,一些選股因子很可能會(huì)出現(xiàn)一些異常值,而這些異常值會(huì)對回歸的模型參數(shù)產(chǎn)生較大影響。為了降低異常值的影響,我們可以使用加權(quán)最小二乘法(穩(wěn)健回歸)估計(jì)模型。穩(wěn)健回歸的主要思路是將對異常值十分敏感的經(jīng)典最小二乘回歸中的目標(biāo)函數(shù)進(jìn)行修改;例如,剔除一些異常值,或者降低其在目標(biāo)函數(shù)中的權(quán)重。穩(wěn)健回歸就能夠克服最小二乘回歸因異常值而失真的缺陷,得出更為接近實(shí)際值的估計(jì)
4、在指標(biāo)值回歸的基礎(chǔ)上納入秩相關(guān)系數(shù)。這是因?yàn)橹笜?biāo)與收益之間往往并不是線性相關(guān)的,而使用Pearson線性相關(guān)系數(shù)需要滿足兩個(gè)假設(shè):
1)數(shù)據(jù)是成對地從正態(tài)分布中取得的;
2)數(shù)據(jù)至少在邏輯范疇內(nèi)必須是等間距的數(shù)據(jù)。
如果這兩條件不符合,一種選擇就是采用Spearman秩相關(guān)系數(shù)來代替Pearson線性相關(guān)系數(shù)。秩相關(guān)系數(shù)是一個(gè)非參數(shù)性質(zhì)(與分布無關(guān))的秩統(tǒng)計(jì)參數(shù),由Spearman在1904年提出,用來度量兩個(gè)變量之間聯(lián)系的強(qiáng)弱。秩相關(guān)系數(shù)又稱順序相關(guān)系數(shù),是將兩要素的樣本值按數(shù)據(jù)的大小順序排列位次,以各要素樣本值的位次代替實(shí)際數(shù)據(jù)而求得的一種統(tǒng)計(jì)量。不管變量之間的關(guān)系是不是線性的,只要變量之間具有嚴(yán)格的單調(diào)增加的函數(shù)關(guān)系,變量之間的秩相關(guān)系數(shù)就是1,相同情況下,Pearson相關(guān)性在變量不是線性函數(shù)關(guān)系時(shí),并不是完全相關(guān)的。
5、注意回歸分析時(shí)存在多重線性問題。不同的選股因子可能由于內(nèi)在的驅(qū)動(dòng)因素大致相同等原因,所選出的組合在個(gè)股構(gòu)成和收益等方面具有較高的一致性,因此其中的一些因子需要作為冗余因子剔除,而只保留同類因子中收益最好、區(qū)分度最高的一個(gè)因子。例如成交量指標(biāo)和流通量指標(biāo)之間具有比較明顯的相關(guān)性。流通盤越大的,成交量一般也會(huì)比較大,因此在選股模型中,這兩個(gè)因子只選擇其中一個(gè)。
聯(lián)系客服