實證研究 —— A 股上顯著的風(fēng)格因子
發(fā)布時間:2018-12-18 | 來源: 川總寫量化
作者:石川
摘要:本文檢驗了 A 股市場上主流風(fēng)格因子的顯著性。以中證 500 指數(shù)為例,顯著的風(fēng)格因子包括 beta、earnings yield 以及 liquidity。
1 引言
前文《解釋股票截面預(yù)期收益差異的獨立因子》介紹了 Review of Financial Studies 上發(fā)表的 Green, Hand and Zhang (2017) 一文(以下稱 GHZ)。該文使用 Fama-MacBeth regression(Fama and MacBeth 1973)同時檢驗了 94 個美股上的因子,并發(fā)現(xiàn)了 12 個能夠解釋股票預(yù)期收益率截面差異的顯著因子。
本文按照 GHZ 的思路對 A 股上的風(fēng)格因子進(jìn)行簡單實證,看看到底哪些因子是顯著的。為了使實證結(jié)果更有指導(dǎo)價值,本文選用中國市場上主流的風(fēng)格因子進(jìn)行討論。在針對 A 股的因子研究中,MSCI 旗下的 Barra 大概是最知名的 —— 這主要因為它家 marketing 做的比較好;比如 MSCI 在今年 8 月底在北京、深圳、香港三地同時高調(diào)發(fā)布了最新的中國模型 CNE6。除了 MSCI 之外,國內(nèi)也有一些優(yōu)秀的風(fēng)險因子數(shù)據(jù)提供商,這些本土化的風(fēng)格因子模型由于更接地氣,也廣泛被市場認(rèn)可。
根據(jù) GHZ 提出的方法,檢驗顯著因子的過程包括如下步驟:
1.?通過在每一期進(jìn)行截面回歸得到所有風(fēng)格因子收益率的時間序列(即 Fama-MacBeth regression);
2. 對每個因子,求出收益率的均值以及均值的標(biāo)準(zhǔn)誤;
3. 計算每個因子的 t-statistic 以及 p-value;
4. 由于 multiple testing(即同時檢驗多個因子)的影響,對 p-value 進(jìn)行修正;
5. 根據(jù)修正后的 p-value 是否小于 0.05 判斷顯著的因子。
下面以中證 500 成分股為例,分析風(fēng)格因子在其上的顯著性。行文將逐一說明上述步驟。
2 因子收益率
在因子顯著性檢驗中,最重要的無疑是獲得靠譜的因子收益率時序數(shù)據(jù)。在實證中,我們采用米筐科技提供的因子收益率數(shù)據(jù)。作為國內(nèi)領(lǐng)先的量化投資數(shù)據(jù)和解決方案提供商,米筐高質(zhì)量的風(fēng)險因子模型一共包括 39 個因子,其中市場聯(lián)動因子 1 個,申萬一級行業(yè)因子 28 個,風(fēng)格因子 10 個。此外,為了更好的捕捉風(fēng)格因子在不同指數(shù)上表現(xiàn)的差異,米筐提供了以常用指數(shù)(包括滬深 300、中證 500、中證 800)的成分股以及全市場為股票池的因子收益率數(shù)據(jù)。
實證的回測期從 2010 年 1 月 1 日到 2018 年 11 月 30 日。這 10 個風(fēng)格因子包括:beta、 book-to-price、earnings yield、growth、leverage、liquidity、momentum、nonlinear size、residual volatility 以及 size。這些風(fēng)格因子事實上是 10 大類因子,每一大類內(nèi)部又有進(jìn)一步的細(xì)分因子。這 10 大類因子間進(jìn)行了必要的正交化處理,相關(guān)性較低。本文的實證使用這 10 大類因子,而非更細(xì)分的小因子。在計算因子收益率時,該模型使用全部 39 個因子在每一期進(jìn)行截面回歸(即 Fama-MacBeth regression),保證了得到的風(fēng)格因子投資組合是這些因子的純因子組合,從而排除對別的因子的暴露、更好的評價目標(biāo)因子獲取超額收益的效果。在實證的回測期內(nèi),中證 500 指數(shù)上因子日頻收益率如下所示。
有了收益率的時間序列,我們接下來計算收益率均值和均值的標(biāo)準(zhǔn)誤。
3 收益率均值和均值標(biāo)準(zhǔn)誤
在 GHZ 這篇文章中,檢驗美股上有效因子的頻率是月頻。而我們使用的因子收益率是日頻 —— 因為該模型最重要的是對風(fēng)險建模。為了在 A 股上復(fù)現(xiàn) GHZ 的研究思路,我們先進(jìn)行必要的處理,計算月頻因子收益率的期望以及標(biāo)準(zhǔn)誤。對于收益率,使用每個月內(nèi)所有交易日的累積收益率作為該因子的月頻收益率。對月頻收益率在時序上取均值就得到月均收益率,記為?μ。為了計算收益率均值的 standard error,首先需要求出月頻收益率的標(biāo)準(zhǔn)差(standard deviation)。為此,本文借鑒 Barra 的處理方法,即計算日頻收益率的標(biāo)準(zhǔn)差,并將其推廣到月頻。
在計算日頻收益率的標(biāo)準(zhǔn)差時,必須要主要到因子收益率在時間序列上存在很強的自相關(guān)性,這會影響收益率標(biāo)準(zhǔn)差的計算。以 beta、book-to-price、earnings yield 以及 growth 四個因子為例,下圖顯示了其因子收益率的自相關(guān)系數(shù)隨滯后期的變化。每個圖中陰影部分為 5% 的置信區(qū)間。在很大的滯后期范圍內(nèi),日頻因子收益率均存在顯著的自相關(guān)性。
由于上述原因,在使用因子收益率時間序列計算其標(biāo)準(zhǔn)差時,必須考慮對時序相關(guān)性進(jìn)行修正。為此,我們采用 Newey-West 調(diào)整(Newey and West 1987),在調(diào)整中選擇的最大滯后期為 50。令 s_d 表示經(jīng) Newey-West 調(diào)整后的日頻因子收益率的標(biāo)準(zhǔn)差(為了簡化表達(dá)式,省略了表示具體某個因子的下標(biāo))。在得到日頻標(biāo)準(zhǔn)差之后,假設(shè)每個月內(nèi)有 22 個交易日并通過下式得到月頻因子收益率的標(biāo)準(zhǔn)差 s:
最后,使用月頻因子收益率的標(biāo)準(zhǔn)差計算出因子收益率均值的?standard error(n 表示月頻期數(shù)):
通過上述處理就可以求出我們關(guān)心的變量,因子月均收益率 μ 和它的標(biāo)準(zhǔn)誤 s.e.(μ)。實證中,中證 500 指數(shù)上這10個風(fēng)格因子的 μ 和 s.e.(μ) 分別如下表所示。
下面就來計算 t-statistic 以及 p-value。
4 t-statistic and p-value
有了 μ 和 s.e.(μ),根據(jù) t-statistic 的定義有:
由于月頻期數(shù)超過 100,因此 t 分布和正態(tài)分布十分接近,故采用正態(tài)分布將上述 t-statistic 轉(zhuǎn)化為 p-value。就一個因子是否顯著來說,我們關(guān)注的是它的 t-statistic 是否顯著不為零,其具體取值可正可負(fù)。從選股的角度來說,如果一個因子的收益率顯著為負(fù),那么只需要將它的多、空對調(diào)過來使用即可。因此,依照 GHZ 的計算方法,本文計算雙尾 p-value。具體的,由 t-statistic 計算 p-value 的方法如下:
上式中,Φ 表示標(biāo)準(zhǔn)正態(tài)分布的累積密度函數(shù)。中證 500 上 10 個風(fēng)格因子的 t-statistic 及 p-value 分別為:
5 修正 p-value
在檢驗因子時,multiple testing —— 同時檢驗很多因子并找到其中最顯著的 —— 是一個嚴(yán)重的問題。為了正確評價因子是否顯著,必須考慮 multiple testing 的影響、修正原始的 p-value。常見的修正方法分為兩類:1. 以控制 family-wise error rate(族錯誤率)為目標(biāo)的 Bonferroni 和 Holm 修正;2. 以控制 false discovery rate 為目標(biāo)的 BHY 修正。Family-wise error rate(FWER)和 false discovery rate(FDR)代表著 Type I error 的兩個不同的定義。Type I error 是錯誤的拒絕原假設(shè),也叫 false positive 或 false discovery。在我們的上下文中,它意味著錯誤的發(fā)現(xiàn)了一個其實沒用的因子。
假設(shè) K 個因子的 p-value 分別為 p_1、p_2、…、p_K。根據(jù)事先選定的顯著性水平,比如 0.05,其中 R 個因子在單因子測試中被認(rèn)為是顯著的。換句話說,我們有 R 個發(fā)現(xiàn)(discoveries) —— 包括 true discoveries 和 false discoveries。令 N_r ≤ R 代表 false discoveries 的個數(shù)。FWER 和 FDR 的定義如下:
從定義不難看出,FWER 是至少出現(xiàn)一個 false discovery 的概率,控制它對圍繞單一因子的假設(shè)來說是相當(dāng)嚴(yán)格的,會大大提升 Type II Error。相比之下,FDR 控制的是 false discoveries 的比例,它允許 N_r 隨 R 增加,是一種更溫和的方法。此外,BHY 方法對檢驗統(tǒng)計量之間的相關(guān)性不敏感,它的適應(yīng)性更強。無論采用哪種方法,修正后的 p-value 通常大于單一因子測試中得到的 p-value,因此會有相當(dāng)一部分在單一檢驗中存活下來的因子在修正后不再顯著。
依照 GHZ 使用的方法,本文采用 BHY 修正(Benjamini and Hochberg 1995, Benjamini and Yekutieli 2001)。它從諸多因子的原始 p-value 中最大的一個開始逆向修正,公式如下:
由定義可知,原始 p-value 最大的因子調(diào)整后的 BHY p-value 就是它自己。從第二大 p-value 開始,依次按照上述公式計算,計算其他因子調(diào)整后的 BHY p-value。在中證 500 的例子中,這 10 個因子經(jīng)調(diào)整后的 p-value 分別如下所示(紅色標(biāo)注出了調(diào)整后 p-value 小于 0.05 的顯著因子);作為比較,同時給出了原始 p-value。
不難發(fā)現(xiàn),所有因子調(diào)整后的 p-value 均不小于原始 p-value。
6 顯著風(fēng)格因子
本文第 2 到第 5 小結(jié)的分析最終在中證 500 上發(fā)現(xiàn)了三個顯著因子: beta、earnings yield 以及 liquidity;而其他七個風(fēng)格因子均無法獨立解釋中證 500 成分股預(yù)期收益率的截面差異。把這 10 個風(fēng)格因子的累積收益率作圖如下??梢钥吹?,這三個因子(liquidity 需要多、空對調(diào)過來用)的效果確實強于其他七個因子。在使用了純因子模型(Fama-MacBeth regression)并考慮了 multiple testing 帶來的修正之后,人們熟知的 book-to-price、size 以及 residual volatility 等因子在中證 500 上則不再顯著。
除了中證 500 指數(shù)外,米筐還提供滬深 300、中證 800 以及全市場上的風(fēng)格因子收益率。最終,按照上述檢驗思路可以計算出不同選股池上的顯著因子,結(jié)果如下。
7 結(jié)語
本文使用 GHZ 的方法檢驗了 A 股市場上主流的 10 大風(fēng)格因子的顯著性。跨市場而言,顯著的因子包括 beta、earnings yield、liquidity、nonlinear size 以及 residual volatility;但這些風(fēng)格因子在不同指數(shù)上的效果也有所差別。需要說明的是,無論是 Barra 的中國股票模型,還是本土化的優(yōu)秀因子模型,它們首先都是一個風(fēng)險模型,其次才是也可以當(dāng)作收益率截面模型來用。這些模型最重要的作用是波動率預(yù)測和投資組合的風(fēng)險歸因。本文主要的目的是再次梳理檢驗因子顯著性的流程,實證中涉及的這 10 大類因子未必就是最能捕捉 A 股市場上 asset pricing 機制的因子。感興趣的小伙伴可以嘗試更細(xì)分的因子。只不過在 multiple testing 的修正下,我們預(yù)期很多因子僅僅是“看上去很美”。
參考文獻(xiàn)
Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing.?Journal of the Royal Statistical Society?Series B 57, 289 – 300.
Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency.?Annals of Statistics?29, 1165 – 1188.
Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: Empirical tests.?Journal of Political Economy?81(3), 607 – 636.
Green, J., J. R. M. Hand, and X. F. Zhang (2017). The characteristics that provide independent information about average U.S. monthly stock returns.?Review of Financial Studies?30(12), 4389 – 4436.
Newey, W. K. and K. D. West (1987). A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix.?Econometrica?55(3), 703 – 708.
免責(zé)聲明:入市有風(fēng)險,投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。