使用正交化和自助法尋找顯著因子

發(fā)布時間：2019-03-20 | 來源: 川總寫量化

作者：石川

摘要：本文在 A 股上復(fù)現(xiàn) Harvey and Liu (2018) 提出的方法，使用正交化和自助法尋找顯著的因子。

1 引言

《出色不如走運(yùn) (II)》一文曾介紹了 Harvey and Liu (2018) 提出的基于回歸的因子有效性檢驗(yàn)方法。該方法避免了因 multiple testing 造成的運(yùn)氣成分、從而鑒別出能顯著解釋資產(chǎn)截面預(yù)期收益率差異的因子。考慮到《出色不如走運(yùn) (II)》涉及的內(nèi)容理論有余、實(shí)證不足，本文以中證 500 指數(shù)成分股為例，做一些實(shí)證分析，同時也指出在大 A 股中應(yīng)用 Harvey and Liu (2018) 時遇到的一些坑。

首先簡單回歸一下 Harvey and Liu (2018) 提出的方法。當(dāng)大量因子同時被用做 empirical asset pricing 分析時，它們之中效果最顯著的因子中一定包含了運(yùn)氣的成分。Harvey and Liu (2018) 巧妙之處在于通過正交化和自助法（Bootstrap）得到了僅靠運(yùn)氣能夠得到的顯著性的經(jīng)驗(yàn)分布；如果當(dāng)排除了運(yùn)氣造成的顯著性之后某個因子依然顯著，那它就是真正有效的因子。下圖高度概括了該方法的邏輯（正交化和 Bootstrap 是核心）。

值得一提的是，Harvey and Liu (2018) 提出的方法既可以用針對 empirical asset pricing 找出顯著因子；也可以用于更一般的 predictive regression —— 即考察解釋變量 X 能否預(yù)測被解釋變量 Y。面對不同的問題，正交化和 Bootstrap 的核心思想是一致的，但在具體處理方法上存在差異。《出色不如走運(yùn) (II)》一文以 predictive regression 為例詳細(xì)介紹了該方法，本文不再贅述。以下行文將假設(shè)讀者了解 Harvey and Liu (2018)。但是，我會針對 empirical asset pricing 問題，說明使用正交化和 Bootstrap 時的各種細(xì)節(jié)。這篇實(shí)證的目的更多的是介紹在 A 股上如何復(fù)現(xiàn) Harvey and Liu (2018)。相反的，由于實(shí)證中的因子以及用來檢驗(yàn)這些因子的一組資產(chǎn)，均無法避免的存在主觀成分（本文最后一節(jié)會再聊聊這點(diǎn)），因此實(shí)證結(jié)果僅是示例性的。

2 Block Bootstrap

先來說說 Bootstrap。本來 Bootstrap 無需多言（需要背景知識的朋友請點(diǎn)這里），但是數(shù)據(jù)的特殊性決定了 Bootstrap 的特殊性。在 Harvey and Liu (2018) 的方法中，需要進(jìn)行 Bootstrap 的數(shù)據(jù)是資產(chǎn)的收益率和正交化后的因子收益率時間序列。由于時間序列存在自相關(guān)性，因此在重采樣的時候應(yīng)使用 Block Bootstrap。顧名思義，Block Bootstrap 就是每次從序列中有放回的抽取一個由連續(xù) n 個相鄰數(shù)據(jù)點(diǎn)構(gòu)成的 block（大小由 block size 決定）。主流的 Block Bootstrap 算法包括以下三種：

Moving Block Bootstrap（Kunsch 1989, Liu and Singh 1992）；

Circular Block Bootstrap（Politis and Romano 1992）;

Stationary Bootstrap（Politis and Romano 1994）。

下圖說明了 Moving Block Bootstrap（MBB）的原理。假設(shè)原始數(shù)據(jù)由 1 – 9 組成，且令 block size = 3。MBB 依次以序列中的每個數(shù)字為起點(diǎn)構(gòu)建長度為 3 的 blocks（本例中一共 7 個），然后從這 7 個 blocks 中有放回的隨機(jī)抽取，直至構(gòu)成和原始序列長度一樣的 bootstrapped sample。

從上圖的原理可知，MBB 最大的問題是對于原始序列首尾兩端樣本采樣不足。為了規(guī)避這個問題，Circular Block Bootstrap（CBB）被提出。顧名思義，它是將原始數(shù)據(jù)的首尾相連，構(gòu)成一個圓圈（Circular 一詞的出處），然后再按照給定的 block size 進(jìn)行重采樣，避免首尾兩端采樣不足。

最后一種方法是 Stationary Bootstrap（SB），它和前兩者最大的區(qū)別是使用非固定的 block size。SB 中的 block size 滿足幾何分布；作為輸入而給定的 block size 是它的期望。該方法得到的 bootstrapped 樣本可以更好的滿足平穩(wěn)性的要求，因此當(dāng)原始時間序列難以滿足平穩(wěn)性時有更好的效果。

本文的實(shí)證采用 stationary bootstrap，并在第四節(jié)說明原因。

3 因子模擬和投資組合

Harvey and Liu (2018) 的目的是找到能夠真正解釋資產(chǎn)截面預(yù)期收益率差異的顯著因子。因此在實(shí)證中，我們需要選定多因子模型，以及用來檢驗(yàn)這些因子的一組資產(chǎn)。在因子方面，實(shí)證中選擇 Fama and French (2015) 五因子以及 Carhart (1997) 的動量因子，一共六個因子：MKT、HML、SMB、RMW、CMA 和 UMD。構(gòu)建這些因子的標(biāo)的均為中證 500 的成分股；實(shí)證區(qū)間為 2008 年 10 月到 2019 年 2 月。每個月最后一個交易日排除停牌的股票，使用剩余成分股構(gòu)建多空投資組合（多、空兩邊均等權(quán)配置），以此計算每個因子下個月的收益率，全部數(shù)據(jù)均來自 JoinQuant。具體的，這些因子定義如下：

MKT：中證 500 指數(shù)的收益率，為了簡化沒有考慮其相對無風(fēng)險利率的超額收益；

HML：做多 Book-to-Price 最高的 150 支、做空 Book-to-Price 最低的 150 支；

SMB：做多流通市值小的一半、做空流通市值大的一半；

RMW：使用營業(yè)利潤 TTM 與總市值之比為排序指標(biāo)、從大到小排序，做多排名靠前的 150 支、做空排名靠后的 150 支；

CMA：使用總資產(chǎn)增長率為排序指標(biāo)、從小到大排序，做多排名靠前的 150 支、做空排名靠后的 150 支；

UMD：使用 T - 12 到 T - 2 月之間（即過去 12 個月到上一個月）的累積收益率為排序指標(biāo)，從大到小排序，做多排名靠前的 150 支、做空排名靠后的 150 支。

這六個因子在實(shí)證區(qū)間內(nèi)的累積凈值如下圖所示。

下面再來看看用來檢驗(yàn)因子的一組資產(chǎn)。由于多因子模型是用來給個股的超額收益定價的，因此最純粹的實(shí)證是使用個股。考慮到本文更多的是為了說明如何復(fù)現(xiàn) Harvey and Liu (2018)、實(shí)證結(jié)果僅是示例性的，因此我們也像 Harvey and Liu (2018) 一樣，考慮使用 BP 和流通市值 double sort 得到的投資組合作為資產(chǎn)。具體的，將中證 500 成分股按照 BP 和流通市值的大小各分成五檔，并按照個股在兩個指標(biāo)上的檔位取值將它們歸類于 5 × 5 = 25 個投資組合中的某一個，由此構(gòu)建 25 個純多頭投資組合。這 25 個投資組合在實(shí)證區(qū)間內(nèi)的累積凈值如下圖所示。

下面用這 25 個投資組合檢驗(yàn)上述六個因子。

4 挑選有效因子

在檢驗(yàn)有效因子時，Harvey and Liu (2018) 的思路是反復(fù)使用正交化 + 自助法，逐一找到顯著的因子，直到所有剩余因子中沒有任何顯著的。下面就來進(jìn)行這個過程。在第一輪中，這六個因子是否顯著都是未知的。首先對它們進(jìn)行正交化處理。正交化的目的是排除因子對資產(chǎn)截面預(yù)期收益差異的解釋能力；正交化的手段是對因子收益率序列在時序上去均值（demean）。時序上 demean 不改變這些因子對于資產(chǎn)收益率波動的解釋力度（時序回歸的 R-squared 不變），但由于 demean 之后因子收益率期望為零，使用 demean 因子對資產(chǎn)進(jìn)行時序回歸得到的截距恰好等于資產(chǎn)本身的時序均值，說明 demean 因子在截面上不再具備解釋能力。這六個因子 demean 之后的時序如下圖所示。

由于 A 股上旗幟鮮明的牛熊市，demean 之后的 MKT 因子（以及其他一些因子）難以滿足平穩(wěn)性，如不加以處理，將會影響 Harvey and Liu (2018) 的使用。該方法的本質(zhì)是 demean 之后的因子無法解釋資產(chǎn)預(yù)期收益率的截面差異（能解釋的都是運(yùn)氣），因此在 bootstrap 時應(yīng)保證 bootstrapped 樣本中這些 demean 之后的因子的收益率依然為零。如果使用 MBB，由于對原始序列兩端采樣不足，則會使 bootstrapped 樣本中 demean 后因子的收益率均值對于實(shí)證窗口的選擇異常敏感。例如上圖中，原始序列兩端 demean 之后的 MKT 收益率一個很小、一個巨大，如果采樣不足會影響 bootstrapped 樣本。為此，在實(shí)證中選擇將原始序列首尾相連的 Stationary Bootstrap。這是在 A 股中復(fù)現(xiàn) Harvey and Liu (2018) 時的第一個坑。

下面再來說說第二個。我在一開始選擇的實(shí)證窗口是 2010 年 1 月到 2019 年 2 月，而非從 2008 年 10 月開始。然而，由于中證 500 指數(shù)在這段時間內(nèi)漲上去又跌回來，導(dǎo)致 MKT 因子的收益率期望接近零。這就意味著，哪怕不 demean，由于 E[MKT] ≈ 0，MKT 因子對于資產(chǎn)截面收益率的解釋力度也十分有限。對于一個真正有效的因子，demean 的目的是排除它的截面解釋能力，把它暫時視作一個隨機(jī)因子（隨機(jī)因子的期望收益為零），從而僅考察由于多個因子 multiple testing 中的運(yùn)氣成分能造成的解釋力度。不幸的是，如果選擇從 2010 年 1 月開始的實(shí)證區(qū)間，我們這位 MKT 因子都不需要 demean 就 E[MKT] ≈ 0 了，剩下再怎么檢驗(yàn)，它也難言有效，從而造成錯誤的結(jié)論。這就是第二個坑。OK，坑挖完了也填完了，下面繼續(xù)實(shí)證。

分別使用這六個因子和 25 個投資組合收益率做時序回歸。對于每個因子，得到 25 個回歸截距，它們是這些投資組合在使用該因子時的定價錯誤。使用這 25 個截距絕對值的中位數(shù)作為該因子解釋這些投資組合的能力。定價錯誤低意味著解釋力度高，因此該中位數(shù)越小說明因子越有效。此外，為了計算僅憑運(yùn)氣能夠獲得的顯著性，將原始 25 個投資組合的收益率序列和 demean 之后六個因子的收益率序列放在一起（T × 31 階矩陣），令 block size = 4，進(jìn)行 1000 次 stationary bootstrap，得到 1000 個 bootstrapped 樣本。對于每個樣本，分別使用每個 demean 因子對這 25 個投資組合進(jìn)行時序回歸、得到 6 個截距絕對值中位數(shù)，將這 6 個中位數(shù)中的最小值作為 test statistic，它就是在這個 bootstrapped 樣本中，僅靠運(yùn)氣能夠獲得的最低定價錯誤。

從 1000 個 bootstrapped 樣本中得到 1000 個 test statistic，便構(gòu)成了它的分布，這就是僅靠運(yùn)氣能夠得到的定價錯誤分布。使用該分布 5% 分位數(shù)作為閾值，如果原始因子獲得的定價錯誤小于該閾值，我們就說該因子在 5% 的顯著性水平下有效。在第一輪中，這六個因子對 25 個投資組合定價錯誤絕對值的中位數(shù)、以及使用 1000 次 stationary bootstrap 獲得的 test statistic 閾值如下表所示。不難看出，MKT 的解釋力度最高且小于閾值，因此 MKT 被選為第一個有效的因子。第一輪正交化 + 自助法結(jié)束。

下面來看第二輪（后面的以此類推）。在第二輪中，已選出的 MKT 將會出現(xiàn)在時序回歸方程的右側(cè)，這么做是為了考察剩余待檢驗(yàn)因子對于解釋資產(chǎn)預(yù)期收益截面差異的增量貢獻(xiàn)。首先，對于 SMB、HML、RMW、CMA、UMD 的每一個，將它們和已經(jīng)選定的 MKT 一起（如果是第 n 輪正交化 + 自助法，則使用前 n – 1 輪中選出的 n – 1 個因子），對那 25 個投資組合進(jìn)行時序回歸，得到的截距項(xiàng)絕對值的中位數(shù)作為這五個因子的解釋力度。

接下來，使用 MKT（again，如果是第 n 輪正交化 + 自助法，則使用前 n – 1 輪中選出的全部因子）對待檢驗(yàn)因子正交化。具體做法為，將待檢驗(yàn)因子依次放在回歸方程左側(cè)，將已經(jīng)選出的因子放在回歸方程的右側(cè)，時序回歸得到截距項(xiàng)；使用原始待檢驗(yàn)因子減去截距項(xiàng)（也是一種 demean 處理），得到的就是其正交化之后的因子。該方法保證了使用 demean 的待檢驗(yàn)因子和已選出因子一起對資產(chǎn)時序回歸時得到的截距和僅使用已選出因子對資產(chǎn)時序回歸時得到的截距相同，從而說明 demean 后的待檢驗(yàn)因子無增量貢獻(xiàn)。

將正交化后的五個因子和原始 MKT 因子一起，和 25 個投資組合收益率序列放在一起，構(gòu)成一個 T × 31 階矩陣。對其并進(jìn)行 1000 次 stationary bootstrap 的到 1000 個 bootstrapped 樣本。對于每一個樣本，逐一使用 demean 后的因子，將它和已選出的因子一起（這里是 MKT），對這 25 個投資組合回歸，得到截距絕對值中位數(shù)；然后從這五個因子中挑出中位數(shù)最低的，它就是該 bootstrapped 樣本的 test statistic。這 1000 個 bootstrapped 樣本的 test statistic 取值便構(gòu)成了它的分布。下表是第二輪中這五個因子的解釋能力以及 test statistic 的 5% 分位數(shù)閾值。其中，SMB 的解釋力度最高且小于閾值，因此 SMB 被選為第二個有效因子。第二輪正交化 + 自助法結(jié)束。

按上述說明，反復(fù)使用正交化 + 自助法，直至沒有顯著的因子。在第三輪中的結(jié)果如下，RMW 因子被選出。

第四輪的結(jié)果如下，剩余三個因子的解釋力度均無法超過 test statistic 閾值，因此全部被拒絕、檢驗(yàn)結(jié)束。最終選出的因子為：MKT + SMB + RMW。

以上就是對 Harvey and Liu (2018) 的實(shí)證研究。

5 結(jié)語

Harvey and Liu (2018) 這篇文章十分 technical。我在《出色不如走運(yùn) (II)》對它的理論部分做了介紹，但是不甚滿意，因此便有了這篇實(shí)證，希望這篇沒那么晦澀（但我覺著也挺晦澀的……）。想對它進(jìn)一步加深理解的小伙伴，我推薦翻墻去 YouTube 上看 Prof. Harvey 在 Jacobs Levy Center 年會上題為 Lucky Factors 的演講，它能幫我們跳出細(xì)節(jié)、從全局掌握該方法的實(shí)質(zhì)。從我的實(shí)證體會來說，最難的不是方法本身，而是如何盡可能客觀的選擇多因子模型以及用來檢驗(yàn)該模型的資產(chǎn)。

在 empirical asset pricing 的研究中，最著名的文章當(dāng)屬 Fama 和 French 的一系列文章。無疑，這和他們開創(chuàng)性的研究密不可分，但不容忽視的一點(diǎn)是，人家 marketing 做的好！Ken French 在其網(wǎng)站上定期更新因子收益率序列供所有人免費(fèi)下載。這些高質(zhì)量且被市場廣泛認(rèn)可的數(shù)據(jù)為美股研究的蓬勃發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。反觀 A 股，很難找到大家都認(rèn)可的標(biāo)準(zhǔn)化因子收益率數(shù)據(jù)，這造成不同人對于哪怕是對同一因子的研究結(jié)果都有可能大相徑庭。（就我有限的所知，中央財經(jīng)大學(xué)維護(hù)了針對全 A 股的 Fama-French 五因子 + Carhart 動量因子數(shù)據(jù)。）究其原因是因?yàn)樘幚硪蜃訑?shù)據(jù)背后的細(xì)節(jié)太過紛繁 —— 按什么頻率調(diào)倉；具體使用什么指標(biāo)（比如當(dāng)期還是 TTM）；依何種權(quán)重配置多空組合；如何處理 ST、漲跌停、停牌、退市等股票。

但即便有各種困難，為了在 A 股上得到更加客觀、公允的實(shí)證分析結(jié)果（無論某個因子是有效還是無效都是有價值的發(fā)現(xiàn)），構(gòu)建標(biāo)準(zhǔn)化因子數(shù)據(jù)的努力都必不可少。（最近，我在構(gòu)思寫一篇比較學(xué)術(shù)界主流多因子模型在 A 股上的效果分析文章，但是第一步就是要獲得客觀、標(biāo)準(zhǔn)的因子收益率。）希望未來能有更多的你、我（特別是市面上的各種量化平臺）能為此努力，這將是造福量化多因子研究的大功績。

參考文獻(xiàn)

Carhart, M. M. (1997). On Persistence in Mutual Fund Performance.?Journal of Finance 52(1), 57 – 82.

Fama, E. F. and K. R. French (2015). A Five-Factor Asset Pricing Model.?Journal of Financial Economics 116(1), 1 – 22.

Harvey, C. R. and Y. Liu (2018). Lucky Factors. Working paper, available at SSRN:?https://ssrn.com/abstract=2528780.

Kunsch, H. R. (1989). The jackknife and the bootstrap for general stationary observations. The Annals of Statistics 17(3), 1217 – 1241.

Liu, R. Y. and K. Singh (1992). Moving blocks jackknife and bootstrap capture weak dependence. In Exploring the Limits of Bootstrap (R. Lepage and L. Billard, eds.), 225 – 248. Wiley, New York.

Politis, D. N. and J. P. Romano (1992). A circular block resampling procedure for stationary data. In Exploring the Limits of Bootstrap (R. Lepage and L. Billard, eds.), 263 – 270. Wiley, New York.

Politis, D. N. and J. P. Romano (1994). The stationary bootstrap. Journal of the American Statistical Association 89(428), 1303 – 1313.

免責(zé)聲明：入市有風(fēng)險，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

使用正交化和自助法尋找顯著因子