亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

使用正交化和自助法尋找顯著因子

發(fā)布時間:2019-03-20  |   來源: 川總寫量化

作者:石川

摘要:本文在 A 股上復(fù)現(xiàn) Harvey and Liu (2018) 提出的方法,使用正交化和自助法尋找顯著的因子。


1 引言


《出色不如走運(yùn) (II)》一文曾介紹了 Harvey and Liu (2018) 提出的基于回歸的因子有效性檢驗(yàn)方法。該方法避免了因 multiple testing 造成的運(yùn)氣成分、從而鑒別出能顯著解釋資產(chǎn)截面預(yù)期收益率差異的因子。考慮到《出色不如走運(yùn) (II)》涉及的內(nèi)容理論有余、實(shí)證不足,本文以中證 500 指數(shù)成分股為例,做一些實(shí)證分析,同時也指出在大 A 股中應(yīng)用 Harvey and Liu (2018) 時遇到的一些坑。


首先簡單回歸一下 Harvey and Liu (2018) 提出的方法。當(dāng)大量因子同時被用做 empirical asset pricing 分析時,它們之中效果最顯著的因子中一定包含了運(yùn)氣的成分。Harvey and Liu (2018) 巧妙之處在于通過正交化自助法(Bootstrap)得到了僅靠運(yùn)氣能夠得到的顯著性的經(jīng)驗(yàn)分布;如果當(dāng)排除了運(yùn)氣造成的顯著性之后某個因子依然顯著,那它就是真正有效的因子。下圖高度概括了該方法的邏輯(正交化和 Bootstrap 是核心)。


f1.png


值得一提的是,Harvey and Liu (2018) 提出的方法既可以用針對 empirical asset pricing 找出顯著因子;也可以用于更一般的 predictive regression —— 即考察解釋變量 X 能否預(yù)測被解釋變量 Y。面對不同的問題,正交化和 Bootstrap 的核心思想是一致的,但在具體處理方法上存在差異。《出色不如走運(yùn) (II)》 一文以 predictive regression 為例詳細(xì)介紹了該方法,本文不再贅述。以下行文將假設(shè)讀者了解 Harvey and Liu (2018)。但是,我會針對 empirical asset pricing 問題,說明使用正交化和 Bootstrap 時的各種細(xì)節(jié)。這篇實(shí)證的目的更多的是介紹在 A 股上如何復(fù)現(xiàn) Harvey and Liu (2018)。相反的,由于實(shí)證中的因子以及用來檢驗(yàn)這些因子的一組資產(chǎn),均無法避免的存在主觀成分(本文最后一節(jié)會再聊聊這點(diǎn)),因此實(shí)證結(jié)果僅是示例性的。


2 Block Bootstrap


先來說說 Bootstrap。本來 Bootstrap 無需多言(需要背景知識的朋友請點(diǎn)這里),但是數(shù)據(jù)的特殊性決定了 Bootstrap 的特殊性。在 Harvey and Liu (2018) 的方法中,需要進(jìn)行 Bootstrap 的數(shù)據(jù)是資產(chǎn)的收益率和正交化后的因子收益率時間序列。由于時間序列存在自相關(guān)性,因此在重采樣的時候應(yīng)使用 Block Bootstrap。顧名思義,Block Bootstrap 就是每次從序列中有放回的抽取一個由連續(xù) n 個相鄰數(shù)據(jù)點(diǎn)構(gòu)成的 block(大小由 block size 決定)。主流的 Block Bootstrap 算法包括以下三種:


Moving Block Bootstrap(Kunsch 1989, Liu and Singh 1992);

Circular Block Bootstrap(Politis and Romano 1992);

Stationary Bootstrap(Politis and Romano 1994)。


下圖說明了 Moving Block Bootstrap(MBB)的原理。假設(shè)原始數(shù)據(jù)由 1 – 9 組成,且令 block size = 3。MBB 依次以序列中的每個數(shù)字為起點(diǎn)構(gòu)建長度為 3 的 blocks(本例中一共 7 個),然后從這 7 個 blocks 中有放回的隨機(jī)抽取,直至構(gòu)成和原始序列長度一樣的 bootstrapped sample。


f2.png


從上圖的原理可知,MBB 最大的問題是對于原始序列首尾兩端樣本采樣不足。為了規(guī)避這個問題,Circular Block Bootstrap(CBB)被提出。顧名思義,它是將原始數(shù)據(jù)的首尾相連,構(gòu)成一個圓圈(Circular 一詞的出處),然后再按照給定的 block size 進(jìn)行重采樣,避免首尾兩端采樣不足。


最后一種方法是 Stationary Bootstrap(SB),它和前兩者最大的區(qū)別是使用非固定的 block size。SB 中的 block size 滿足幾何分布;作為輸入而給定的 block size 是它的期望。該方法得到的 bootstrapped 樣本可以更好的滿足平穩(wěn)性的要求,因此當(dāng)原始時間序列難以滿足平穩(wěn)性時有更好的效果。


本文的實(shí)證采用 stationary bootstrap,并在第四節(jié)說明原因。


3 因子模擬和投資組合


Harvey and Liu (2018) 的目的是找到能夠真正解釋資產(chǎn)截面預(yù)期收益率差異的顯著因子。因此在實(shí)證中,我們需要選定多因子模型,以及用來檢驗(yàn)這些因子的一組資產(chǎn)。在因子方面,實(shí)證中選擇 Fama and French (2015) 五因子以及 Carhart (1997) 的動量因子,一共六個因子:MKT、HML、SMB、RMW、CMA 和 UMD。構(gòu)建這些因子的標(biāo)的均為中證 500 的成分股;實(shí)證區(qū)間為 2008 年 10 月到 2019 年 2 月。每個月最后一個交易日排除停牌的股票,使用剩余成分股構(gòu)建多空投資組合(多、空兩邊均等權(quán)配置),以此計算每個因子下個月的收益率,全部數(shù)據(jù)均來自 JoinQuant。具體的,這些因子定義如下:


MKT:中證 500 指數(shù)的收益率,為了簡化沒有考慮其相對無風(fēng)險利率的超額收益;

HML:做多 Book-to-Price 最高的 150 支、做空 Book-to-Price 最低的 150 支;

SMB:做多流通市值小的一半、做空流通市值大的一半;

RMW:使用營業(yè)利潤 TTM 與總市值之比為排序指標(biāo)、從大到小排序,做多排名靠前的 150 支、做空排名靠后的 150 支;

CMA:使用總資產(chǎn)增長率為排序指標(biāo)、從小到大排序,做多排名靠前的 150 支、做空排名靠后的 150 支;

UMD:使用 T - 12 到 T - 2 月之間(即過去 12 個月到上一個月)的累積收益率為排序指標(biāo),從大到小排序,做多排名靠前的 150 支、做空排名靠后的 150 支。


這六個因子在實(shí)證區(qū)間內(nèi)的累積凈值如下圖所示。


f3.png


下面再來看看用來檢驗(yàn)因子的一組資產(chǎn)。由于多因子模型是用來給個股的超額收益定價的,因此最純粹的實(shí)證是使用個股。考慮到本文更多的是為了說明如何復(fù)現(xiàn) Harvey and Liu (2018)、實(shí)證結(jié)果僅是示例性的,因此我們也像 Harvey and Liu (2018) 一樣,考慮使用 BP 和流通市值 double sort 得到的投資組合作為資產(chǎn)。具體的,將中證 500 成分股按照 BP 和流通市值的大小各分成五檔,并按照個股在兩個指標(biāo)上的檔位取值將它們歸類于 5 × 5 = 25 個投資組合中的某一個,由此構(gòu)建 25 個純多頭投資組合。這 25 個投資組合在實(shí)證區(qū)間內(nèi)的累積凈值如下圖所示。


f4.png


下面用這 25 個投資組合檢驗(yàn)上述六個因子。


4 挑選有效因子


在檢驗(yàn)有效因子時,Harvey and Liu (2018) 的思路是反復(fù)使用正交化 + 自助法,逐一找到顯著的因子,直到所有剩余因子中沒有任何顯著的。下面就來進(jìn)行這個過程。在第一輪中,這六個因子是否顯著都是未知的。首先對它們進(jìn)行正交化處理。正交化的目的是排除因子對資產(chǎn)截面預(yù)期收益差異的解釋能力;正交化的手段是對因子收益率序列在時序上去均值(demean)。時序上 demean 不改變這些因子對于資產(chǎn)收益率波動的解釋力度(時序回歸的 R-squared 不變),但由于 demean 之后因子收益率期望為零,使用 demean 因子對資產(chǎn)進(jìn)行時序回歸得到的截距恰好等于資產(chǎn)本身的時序均值,說明 demean 因子在截面上不再具備解釋能力。這六個因子 demean 之后的時序如下圖所示。


f5.png


由于 A 股上旗幟鮮明的牛熊市,demean 之后的 MKT 因子(以及其他一些因子)難以滿足平穩(wěn)性,如不加以處理,將會影響 Harvey and Liu (2018) 的使用。該方法的本質(zhì)是 demean 之后的因子無法解釋資產(chǎn)預(yù)期收益率的截面差異(能解釋的都是運(yùn)氣),因此在 bootstrap 時應(yīng)保證 bootstrapped 樣本中這些 demean 之后的因子的收益率依然為零。如果使用 MBB,由于對原始序列兩端采樣不足,則會使 bootstrapped 樣本中 demean 后因子的收益率均值對于實(shí)證窗口的選擇異常敏感。例如上圖中,原始序列兩端 demean 之后的 MKT 收益率一個很小、一個巨大,如果采樣不足會影響 bootstrapped 樣本。為此,在實(shí)證中選擇將原始序列首尾相連的 Stationary Bootstrap。這是在 A 股中復(fù)現(xiàn) Harvey and Liu (2018) 時的第一個坑。


下面再來說說第二個。我在一開始選擇的實(shí)證窗口是 2010 年 1 月到 2019 年 2 月,而非從 2008 年 10 月開始。然而,由于中證 500 指數(shù)在這段時間內(nèi)漲上去又跌回來,導(dǎo)致 MKT 因子的收益率期望接近零。這就意味著,哪怕不 demean,由于 E[MKT] ≈ 0,MKT 因子對于資產(chǎn)截面收益率的解釋力度也十分有限。對于一個真正有效的因子,demean 的目的是排除它的截面解釋能力,把它暫時視作一個隨機(jī)因子(隨機(jī)因子的期望收益為零),從而僅考察由于多個因子 multiple testing 中的運(yùn)氣成分能造成的解釋力度。不幸的是,如果選擇從 2010 年 1 月開始的實(shí)證區(qū)間,我們這位 MKT 因子都不需要 demean 就 E[MKT] ≈ 0 了,剩下再怎么檢驗(yàn),它也難言有效,從而造成錯誤的結(jié)論。這就是第二個坑。OK,坑挖完了也填完了,下面繼續(xù)實(shí)證。


分別使用這六個因子和 25 個投資組合收益率做時序回歸。對于每個因子,得到 25 個回歸截距,它們是這些投資組合在使用該因子時的定價錯誤。使用這 25 個截距絕對值的中位數(shù)作為該因子解釋這些投資組合的能力。定價錯誤低意味著解釋力度高,因此該中位數(shù)越小說明因子越有效。此外,為了計算僅憑運(yùn)氣能夠獲得的顯著性,將原始 25 個投資組合的收益率序列和 demean 之后六個因子的收益率序列放在一起(T × 31 階矩陣),令 block size = 4,進(jìn)行 1000 次 stationary bootstrap,得到 1000 個 bootstrapped 樣本。對于每個樣本,分別使用每個 demean 因子對這 25 個投資組合進(jìn)行時序回歸、得到 6 個截距絕對值中位數(shù),將這 6 個中位數(shù)中的最小值作為 test statistic,它就是在這個 bootstrapped 樣本中,僅靠運(yùn)氣能夠獲得的最低定價錯誤。


從 1000 個 bootstrapped 樣本中得到 1000 個 test statistic,便構(gòu)成了它的分布,這就是僅靠運(yùn)氣能夠得到的定價錯誤分布。使用該分布 5% 分位數(shù)作為閾值,如果原始因子獲得的定價錯誤小于該閾值,我們就說該因子在 5% 的顯著性水平下有效。在第一輪中,這六個因子對 25 個投資組合定價錯誤絕對值的中位數(shù)、以及使用 1000 次 stationary bootstrap 獲得的 test statistic 閾值如下表所示。不難看出,MKT 的解釋力度最高且小于閾值,因此 MKT 被選為第一個有效的因子。第一輪正交化 + 自助法結(jié)束。


f6.png


下面來看第二輪(后面的以此類推)。在第二輪中,已選出的 MKT 將會出現(xiàn)在時序回歸方程的右側(cè),這么做是為了考察剩余待檢驗(yàn)因子對于解釋資產(chǎn)預(yù)期收益截面差異的增量貢獻(xiàn)。首先,對于 SMB、HML、RMW、CMA、UMD 的每一個,將它們和已經(jīng)選定的 MKT 一起(如果是第 n 輪正交化 + 自助法,則使用前 n – 1 輪中選出的 n – 1 個因子),對那 25 個投資組合進(jìn)行時序回歸,得到的截距項(xiàng)絕對值的中位數(shù)作為這五個因子的解釋力度。


接下來,使用 MKT(again,如果是第 n 輪正交化 + 自助法,則使用前 n – 1 輪中選出的全部因子)對待檢驗(yàn)因子正交化。具體做法為,將待檢驗(yàn)因子依次放在回歸方程左側(cè),將已經(jīng)選出的因子放在回歸方程的右側(cè),時序回歸得到截距項(xiàng);使用原始待檢驗(yàn)因子減去截距項(xiàng)(也是一種 demean 處理),得到的就是其正交化之后的因子。該方法保證了使用 demean 的待檢驗(yàn)因子和已選出因子一起對資產(chǎn)時序回歸時得到的截距和僅使用已選出因子對資產(chǎn)時序回歸時得到的截距相同,從而說明 demean 后的待檢驗(yàn)因子無增量貢獻(xiàn)。


將正交化后的五個因子和原始 MKT 因子一起,和 25 個投資組合收益率序列放在一起,構(gòu)成一個 T × 31 階矩陣。對其并進(jìn)行 1000 次 stationary bootstrap 的到 1000 個 bootstrapped 樣本。對于每一個樣本,逐一使用 demean 后的因子,將它和已選出的因子一起(這里是 MKT),對這 25 個投資組合回歸,得到截距絕對值中位數(shù);然后從這五個因子中挑出中位數(shù)最低的,它就是該 bootstrapped 樣本的 test statistic。這 1000 個 bootstrapped 樣本的 test statistic 取值便構(gòu)成了它的分布。下表是第二輪中這五個因子的解釋能力以及 test statistic 的 5% 分位數(shù)閾值。其中,SMB 的解釋力度最高且小于閾值,因此 SMB 被選為第二個有效因子。第二輪正交化 + 自助法結(jié)束。


f7.png


按上述說明,反復(fù)使用正交化 + 自助法,直至沒有顯著的因子。在第三輪中的結(jié)果如下,RMW 因子被選出。


f8.png


第四輪的結(jié)果如下,剩余三個因子的解釋力度均無法超過 test statistic 閾值,因此全部被拒絕、檢驗(yàn)結(jié)束。最終選出的因子為:MKT + SMB + RMW。


f9.png


以上就是對 Harvey and Liu (2018) 的實(shí)證研究。


5 結(jié)語


Harvey and Liu (2018) 這篇文章十分 technical。我在《出色不如走運(yùn) (II)》對它的理論部分做了介紹,但是不甚滿意,因此便有了這篇實(shí)證,希望這篇沒那么晦澀(但我覺著也挺晦澀的……)。想對它進(jìn)一步加深理解的小伙伴,我推薦翻墻去 YouTube 上看 Prof. Harvey 在 Jacobs Levy Center 年會上題為 Lucky Factors 的演講,它能幫我們跳出細(xì)節(jié)、從全局掌握該方法的實(shí)質(zhì)。從我的實(shí)證體會來說,最難的不是方法本身,而是如何盡可能客觀的選擇多因子模型以及用來檢驗(yàn)該模型的資產(chǎn)。


在 empirical asset pricing 的研究中,最著名的文章當(dāng)屬 Fama 和 French 的一系列文章。無疑,這和他們開創(chuàng)性的研究密不可分,但不容忽視的一點(diǎn)是,人家 marketing 做的好!Ken French 在其網(wǎng)站上定期更新因子收益率序列供所有人免費(fèi)下載。這些高質(zhì)量且被市場廣泛認(rèn)可的數(shù)據(jù)為美股研究的蓬勃發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。反觀 A 股,很難找到大家都認(rèn)可的標(biāo)準(zhǔn)化因子收益率數(shù)據(jù),這造成不同人對于哪怕是對同一因子的研究結(jié)果都有可能大相徑庭。(就我有限的所知,中央財經(jīng)大學(xué)維護(hù)了針對全 A 股的 Fama-French 五因子 + Carhart 動量因子數(shù)據(jù)。)究其原因是因?yàn)樘幚硪蜃訑?shù)據(jù)背后的細(xì)節(jié)太過紛繁 —— 按什么頻率調(diào)倉;具體使用什么指標(biāo)(比如當(dāng)期還是 TTM);依何種權(quán)重配置多空組合;如何處理 ST、漲跌停、停牌、退市等股票。


但即便有各種困難,為了在 A 股上得到更加客觀、公允的實(shí)證分析結(jié)果(無論某個因子是有效還是無效都是有價值的發(fā)現(xiàn)),構(gòu)建標(biāo)準(zhǔn)化因子數(shù)據(jù)的努力都必不可少。(最近,我在構(gòu)思寫一篇比較學(xué)術(shù)界主流多因子模型在 A 股上的效果分析文章,但是第一步就是要獲得客觀、標(biāo)準(zhǔn)的因子收益率。)希望未來能有更多的你、我(特別是市面上的各種量化平臺)能為此努力,這將是造福量化多因子研究的大功績。



參考文獻(xiàn)

Carhart, M. M. (1997). On Persistence in Mutual Fund Performance.?Journal of Finance 52(1), 57 – 82.

Fama, E. F. and K. R. French (2015). A Five-Factor Asset Pricing Model.?Journal of Financial Economics 116(1), 1 – 22.

Harvey, C. R. and Y. Liu (2018). Lucky Factors. Working paper, available at SSRN:?https://ssrn.com/abstract=2528780.

Kunsch, H. R. (1989). The jackknife and the bootstrap for general stationary observations. The Annals of Statistics 17(3), 1217 – 1241.

Liu, R. Y. and K. Singh (1992). Moving blocks jackknife and bootstrap capture weak dependence. In Exploring the Limits of Bootstrap (R. Lepage and L. Billard, eds.), 225 – 248. Wiley, New York.

Politis, D. N. and J. P. Romano (1992). A circular block resampling procedure for stationary data. In Exploring the Limits of Bootstrap (R. Lepage and L. Billard, eds.), 263 – 270. Wiley, New York.

Politis, D. N. and J. P. Romano (1994). The stationary bootstrap. Journal of the American Statistical Association 89(428), 1303 – 1313.



免責(zé)聲明:入市有風(fēng)險,投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。