Toward a better factor model (II)

發(fā)布時(shí)間：2023-01-10 | 來源: 川總寫量化

作者：石川

摘要：Double bootstrap 在評(píng)價(jià)多因子模型時(shí)也能發(fā)揮作用。實(shí)證結(jié)果表明，Kelly, Pruitt and Su (2019) 的 IPCA 模型可堪大用。而在 ad-hoc 模型里，F(xiàn)ama and French (2015) 似乎從未被超越。

還記得《Toward a better factor model》嗎？這是本系列的第二篇。其實(shí)它也可以是《Farewell, ad-hoc 多因子模型》系列的第二篇，或者是《出色不如走運(yùn)》系列的第九篇。但我認(rèn)為把它歸到《Toward a better factor model》最恰如其分。

在《Toward a better factor model》一文中，我介紹了兩個(gè)檢驗(yàn)多因子模型的方法，其中之一是 Barillas and Shanken (2017) 的 right-hand-side approach，即我們只需要比較不同模型所包含的因子 span 出來的最大夏普比率平方即可，夏普比率平方更大的是更好的模型。然而，隨著更多的因子被加入到多因子模型中，其 ex-post 最大夏普比率平方總能被提升。不過，這一定就會(huì)導(dǎo)致更好的多因子模型嗎（即能夠更有效地解釋資產(chǎn)預(yù)期收益的截面差異）？為了回答這個(gè)問題，不妨來看下面這個(gè)極端的例子。

以最大化 ex-post 夏普比率平方為目標(biāo)，我們從 Hou, Xue and Zhang (2020) 考察的 400+ 個(gè)因子里以 t-statistic 為標(biāo)準(zhǔn)挑出以下 7 個(gè)（雖然每個(gè)因子看上去都挺合理，但毫無疑問在挑選的過程中，我們刻意引入了 data-snooping），而這七個(gè)因子 + 市場(chǎng)因子構(gòu)造的多因子模型的 ex-post 夏普比率平方是 CAPM 的三倍。

根據(jù) Barillas and Shanken (2017) 的標(biāo)準(zhǔn)，上述模型毫無疑問要“優(yōu)于”CAPM 乃至那些主流的 ad-hoc 多因子模型（FF5、q-factor model 這些）。然而，事實(shí)真的如此嗎？我們能對(duì)這個(gè)經(jīng) data-snooping 挑出來的模型抱有多大的信心？信心自然不是憑空而來，而是要經(jīng)過科學(xué)的檢驗(yàn)。為了檢驗(yàn)多因子模型，通常使用 sorted portfolios 作為 test assets，然而實(shí)證結(jié)果和理論推導(dǎo)均表明，檢驗(yàn)結(jié)果在很大程度上取決于 test assets 的選擇。為此，一個(gè)自然而然的問題是，如何使用 individual assets（個(gè)股）作為 test assets 來檢驗(yàn)?zāi)Ｐ汀?/p>

這個(gè)問題由來已久。對(duì) individual assets 來說，無論是 β?估計(jì)不準(zhǔn)還是 pricing errors 太大，因此總會(huì) over-reject 多因子模型，導(dǎo)致使用 individual assets 的實(shí)踐難以展開。不過，這些困難從來沒有阻擋人們?cè)谶@條道路上不斷探索前行。在剛剛進(jìn)行的 2023 AFA 年會(huì)上，有很多 asset pricing 方面的 sessions，而其中我個(gè)人最喜歡的是下面這個(gè)題為 Individual Assets and the SDF 的 session。

其中 Clarke and Momeni (2021) 利用從基金研究借鑒而來的 double bootstrap 方法，通過個(gè)股檢驗(yàn)了主流的 ad-hoc 以及基于 PCA 的多因子模型，并為 Toward a better factor model 這個(gè)話題提供了非常有益的啟發(fā)。本文第二節(jié)就對(duì)此進(jìn)行介紹。

Clarke and Momeni (2021) 一文受到了 Kosowski, et al. (2006) 以及 Fama and French (2010) 在基金研究中使用 bootstrap 方法的啟發(fā)（見《出色不如走運(yùn) (VIII)》）。基金研究的目標(biāo)是考察是否有獲得顯著超額收益的基金；而多因子模型檢驗(yàn)的目標(biāo)是考察是否有獲得顯著定價(jià)錯(cuò)誤（pricing errors）的資產(chǎn)。上述類比告訴我們，這兩項(xiàng)研究一個(gè)共同的前提條件是需要指定一個(gè)適當(dāng)?shù)?benchmark。換句話說，我們無法在沒有基準(zhǔn)的前提下談?wù)撃男┗皤@得了超額收益，我們也不能在沒有多因子模型的前提下討論哪些資產(chǎn)有定價(jià)錯(cuò)誤。以上描述似乎將我們推向一個(gè)無盡的循環(huán)：我們想要通過 individual assets 來檢驗(yàn)?zāi)繕?biāo)多因子模型，然后為了計(jì)算 pricing errors 我們又需要事先指定多因子模型。有沒有辦法讓我們繞過這個(gè)困境呢？答案是 bootstrap，更確切地說是 double bootstrap。

這里簡(jiǎn)單解釋一下要用 double bootstrap 的邏輯。以下的說明中涉及了?population model?和?tested model，請(qǐng)格外注意。一般來說，為檢驗(yàn)?zāi)硞€(gè)給定的多因子模型，在這個(gè) double bootstrap procedure 中，population model 和 tested model 是同一個(gè)模型。當(dāng)使用不同模型時(shí)，可以定量刻畫該 procedure 的 size 和 power。首先，我們假設(shè)股票預(yù)期收益率數(shù)據(jù)滿足某個(gè)因子模型（比如 CAPM、FF5），這個(gè)模型就是?population model。然后用真實(shí)股票和因子收益率歷史數(shù)據(jù)進(jìn)行時(shí)序回歸，得到每個(gè)股票的 α，并把它們從股票收益率時(shí)序中減去，得到 demean 之后的歷史數(shù)據(jù)。此時(shí)，上述數(shù)據(jù)滿足了我們的假設(shè)，即股票收益率在 population model 下沒有 pricing errors。但是請(qǐng)注意，到現(xiàn)在為止，我們還沒有進(jìn)行任何一輪 bootstrap，只是 demean 了一把。

接下來是第一輪 bootstrap。以上述 demean 之后的歷史數(shù)據(jù)作為 population，進(jìn)行有放回的 bootstrap，構(gòu)造一個(gè) bootstrapped sample。在這個(gè)樣本中，我們通過時(shí)序回歸計(jì)算個(gè)股對(duì)?tested model?的 α。注意，這里的 tested model 可以和 population model 是同一個(gè)模型，也可以是不同的模型（后文會(huì)進(jìn)一步解釋差異。當(dāng) tested model 和 population model 一致時(shí)，由于 sampling error，個(gè)股依然有 pricing errors）。我們的目標(biāo)是考察根據(jù) tested model 計(jì)算的 pricing errors 是否在置信區(qū)間之內(nèi)。如果 pricing errors 在置信區(qū)間之內(nèi)，則可以認(rèn)為個(gè)股的預(yù)期收益率滿足 tested model。接下來的問題就是：如何確定置信區(qū)間。這就需要第二輪 bootstrap。對(duì)于第一輪 bootstrap 得到的 bootstrapped sample，對(duì)每支個(gè)股減去 tested model 下的 pricing error，然后得到 demeaned bootstrapped sample，并把它視為第二輪 bootstrap 的 pseudo-population。對(duì)該 pseudo-population 進(jìn)行 1000 次 bootstrap，即可得到置信區(qū)間。

下面討論五點(diǎn)核心：

第一，為什么是 double bootstrap。在第一輪 bootstrap 中，我們只得到了未知 population 下的一組個(gè)股 sample pricing errors，但無法知道這些 pricing errors 是如何變化的。在第二輪 bootstrap 中，我們將第一輪的樣本作為第二輪的 pseudo-population，并產(chǎn)生以此為總體的大量 bootstrapped samples，從而刻畫 pricing errors 是如何變化的。Bootstrap 方法確保我們能夠通過“bootstrapped 樣本統(tǒng)計(jì)量圍繞原始樣本統(tǒng)計(jì)量的變化”來刻畫“原始樣本統(tǒng)計(jì)量如何圍繞總體統(tǒng)計(jì)量的變化”。這是我們通過第二輪 bootstrap 計(jì)算置信區(qū)間并檢驗(yàn)?zāi)Ｐ偷囊罁?jù)。

第二，population model 和 tested model。一般來說，在應(yīng)用 double bootstrap 時(shí)，population model 和 tested model 是同一個(gè)模型，即待檢驗(yàn)的因子模型。如果第一輪的樣本統(tǒng)計(jì)量處于第二輪 bootstrap 得到的置信區(qū)間內(nèi)，我們就可以接受 tested model，反之即拒絕 tested model。這時(shí)：

1.?如果 population model 和 tested model 是同一個(gè)，則接受 tested model 是正確的，而拒絕 tested model 是錯(cuò)誤的；

2.?如果 population model 和 tested model 不同，比如假設(shè) population model 是 CAPM，但是 tested model 是 FF6（即總體符合 CAPM，但這件事兒對(duì)我們是未知的，我們?nèi)《畽z驗(yàn) FF6），那么接受 tested model 則是錯(cuò)誤的，而拒絕 tested model 才是正確的。

由上述論述可知，如果 population model = tested model，則錯(cuò)誤地拒絕 tested model 的概率衡量了該方法的 size；如果 population model ≠ tested model，則正確地拒絕 tested model 的概率則衡量了該方法的 power。

第三，兩個(gè) 1000 次。由上述介紹可知，對(duì)于第一輪的 ?bootstrapped sample（并將其根據(jù) tested model 減去個(gè)股 α），在第二輪會(huì)以此為 pseudo-population 進(jìn)行 1000 次 bootstrap、計(jì)算置信區(qū)間。這是第二個(gè)“1000 次”。而第一個(gè)“1000?次”是我們?cè)诘谝惠啒?gòu)造 1000 個(gè) bootstrapped sample。這是因?yàn)闊o論 size 還是 power，都代表了錯(cuò)誤/正確拒絕 tested model 的概率。試想，我們?cè)诘谝惠喼挥幸粋€(gè) bootstrapped sample，然后其 pricing errors 落在置信區(qū)間內(nèi)，那么我們只能說對(duì)于該 bootstrapped sample 接受 tested model，但顯然不能說接受 tested model 的概率是 100%（或 size = 0%）；反之，如果 pricing errors 落在置信區(qū)間外，我們也只能說對(duì)于該 bootstrapped sample 拒絕 tested model，但不能說拒絕 tested model 的概率是 100%（或 power = 100%）。

第四，分組。按照上述方法，對(duì)于個(gè)股都可以得到其 pricing error 的置信區(qū)間。不過在實(shí)際操作中，Clarke and Momeni (2021) 并沒有在個(gè)股粒度上檢驗(yàn)?zāi)Ｐ?，而是將個(gè)股依照 pricing errors 高低聚合成 10%、20%、……、90% 分位數(shù)（共 9 組）以及 1%、2%、……、99% 分位數(shù)（共 99 組）兩種粒度。在每種情況下，檢驗(yàn)全部 9 組（或者 99 組）每組的平均 pricing errors 是否均落在對(duì)應(yīng)的置信區(qū)間內(nèi)。為了得到對(duì)應(yīng)的置信區(qū)間，對(duì)于第二輪的每個(gè) bootstrapped sample 中的 pricing errors 也進(jìn)行了相應(yīng)的分組。然后對(duì)于每一組（例如第 10% 分位數(shù)組），由于一共有 1000 個(gè) bootstrapped sample，因此一共有 1000 個(gè) 10% 分位數(shù)組的取值，即得到了 10% 分位數(shù)組 pricing error 的分布，從該分布中便可以得到置信區(qū)間兩端的取值。

第五，多重假設(shè)檢驗(yàn)。置信區(qū)間的確定依賴于置信區(qū)間兩端分位數(shù)的確定。由于同時(shí)檢驗(yàn) 9 組（或 99 組）pricing errors 是否落在各自的置信區(qū)間，且只要有一個(gè)在置信區(qū)間之外就拒絕 tested model，因此在確定置信區(qū)間大小的時(shí)候必須考慮多重假設(shè)檢驗(yàn)修正。為此，Clarke and Momeni (2021) 首先考慮了 Bonferonni 修正。但是，Bonferonni 修正的問題是它過于保守，導(dǎo)致置信區(qū)間過大，從而降低了該 double bootstrap 方法的 test power。因此，Clarke and Momeni (2021) 也考慮了經(jīng)驗(yàn)數(shù)值法，即通過在給定 size 下最大化 power 來選取最優(yōu)置信區(qū)間的大小。具體方法請(qǐng)閱讀原文。

最后就來看一些具體的實(shí)證結(jié)果。為了說明該方法在保證 size 的同時(shí)也有足夠的 test power，在檢驗(yàn)常見多因子模型之前，Clarke and Momeni (2021) 首先通過模擬來定量刻畫了該方法的好處。在模擬中，他們分別假設(shè) population model 是 CAPM 和 FF6，然后令 tested model 也分別使用 CAPM 和 FF6，因此一共四種情況：

1.?population model = CAPM，tested model = CAPM；

2.?population model = CAPM，tested model = FF6；

3.?population model = FF6，tested model = FF6；

4.?population model = FF6，tested model = CAPM。

為了直觀說明結(jié)果，讓我們考慮 population = CAPM 的情況。下圖顯示了第一輪中第一個(gè) bootstrapped sample 的檢驗(yàn)結(jié)果（panel a 是 tested model = CAPM、panel b 是 tested model = FF6）。在 panel a 中，9 個(gè)十分位數(shù)的 pricing errors 均在置信區(qū)間之內(nèi)，因此接受 tested model，即接受 CAPM；在 panel b 中，9 個(gè)十分位數(shù)的 pricing errors 中有 5 個(gè)（紅色的叉）在置信區(qū)間之外，因此拒絕 tested model，即拒絕 FF6。由于在這個(gè)模擬中，我們知道 population model = CAPM，因此 panel a 的結(jié)果體現(xiàn)了方法的 size，而 panel b 的結(jié)果體現(xiàn)了方法的 power。

當(dāng)然，上述只是第一輪中的第一個(gè) bootstrapped sample 的檢驗(yàn)結(jié)果。在其他 999 個(gè)bootstrapped sample 中會(huì)有不同的結(jié)果，因此最終我們能夠計(jì)算錯(cuò)誤拒絕 CAPM 的概率（size）以及正確拒絕 FF6 的概率（power）。結(jié)果如下表所示（節(jié)選了 Bonferonni 修正的情況）。

當(dāng) population model 和 tested model 均為 CAPM 時(shí)，模型被錯(cuò)誤拒絕的概率是 1.5%（目標(biāo) size 是 5%，1.5% 小于 5% 表明了 Bonferonni 修正過于保守）；當(dāng) population model 為 CAPM 但 tested model 是 FF6 時(shí)，F(xiàn)F6 被正確地拒絕的概率是 97.5%，說明該 procedure 有很不錯(cuò)的 test power（這還是在 Bonferonni 修正的前提下?。?。反之，當(dāng) population model 和 tested model 均為 FF6 時(shí)，模型被錯(cuò)誤拒絕的概率是 3.3%（依然小于目標(biāo) 5%）；而當(dāng) population model 為 FF6 但 tested model 是 CAPM 時(shí)，CAPM 被正確地拒絕的概率是 83.2%。

最后來看看使用該方法檢驗(yàn)常見 ad-hoc 多因子模型以及 Kelly, Pruitt, and Su (2019) 的 IPCA 模型的結(jié)果（在使用 double bootstrap 時(shí)，population model = tested model）。由于已經(jīng)通過模擬定量刻畫了該方法的統(tǒng)計(jì)特性，因此在利用實(shí)際數(shù)據(jù)檢驗(yàn)主流多因子模型時(shí)，Clarke and Momeni (2021) 只在第一輪 bootstrap 中進(jìn)行了一次采樣，以下是該基于該 sample 的檢驗(yàn)結(jié)果。紅色標(biāo)記說明在置信區(qū)間之外，即模型被拒絕。結(jié)果顯示，只有 IPCA 模型通過了檢驗(yàn)，而且它主流的 ad-hoc 多因子模型（FF5、q 等）均被拒絕。

此外，Clarke and Momeni (2021) 還考察了剔除微小市值股票之后的結(jié)果。在這種情況下，ad-hoc 模型的表現(xiàn)要好不少，其中最難以被拒絕的模型是 FF5（檢驗(yàn)結(jié)果如下圖所示）。

Clarke and Momeni (2021) 是把 bootstrap 用在檢驗(yàn)多因子模型上的一個(gè)有益嘗試。無獨(dú)有偶，該文的 discussant Russell Wermers 正是 Kosowski, et al. (2006) 的作者之一，相信這樣的討論一定會(huì)擦出新的火花。由于今年 AFA 恢復(fù)了線下，該報(bào)告未來會(huì)不會(huì)被掛到網(wǎng)上就不得而知了。

從該文的實(shí)證結(jié)果來看，我們似乎也可以放心地重申一下之前得到的結(jié)論：實(shí)證資產(chǎn)定價(jià)已經(jīng)告別了 ad-hoc 多因子模型的階段，而基于 portfolio sort 的因子也已經(jīng)逐漸被其他更先進(jìn)的信息聚合方法（例如 Kelly, Pruitt and Su (2019)）所取代。本文開頭談到的 Barillas and Shanken (2017)“困境”也再一次表明，在尋找更好的多因子模型時(shí)，我們應(yīng)該關(guān)注的是事前能夠解釋預(yù)期收益率差異的協(xié)變量，而非事后最大化夏普比率平方的邪門“排列組合”。也許我們可以預(yù)期，使用個(gè)股取代投資組合作為 test assets 來研究多因子模型以及 SDF 將會(huì)成為新的趨勢(shì)之一。畢竟，正如 Clarke and Momeni (2021) 所述：

If factor models are truly approaching the ex-ante mean-variance efficient frontier, then better performance on traditional tests should not come at the expense of pricing individual stocks.

最后的最后，還記得本文一開篇那個(gè) data-snooping 出來的模型嗎？它的檢驗(yàn)結(jié)果是這樣的……

參考文獻(xiàn)

Barillas, F. and J. Shanken (2017). Which alpha??Review of Financial Studies?30(4), 1316 – 1338.

Clarke and Momeni (2021). Testing asset pricing models on individual stocks. Working paper.

Fama, E. F. and K. R. French (2010). Luck versus skill in the cross-section of mutual fund returns.?Journal of Finance?65(5), 1915 – 1947.

Hou, K., C. Xue, and L. Zhang (2020). Replicating anomalies.?Review of Financial Studies?33(5), 2019 – 2133.

Kelly, B. T., S. Pruitt, and Y. Su (2019). Characteristics are covariances: A unified model of risk and return.?Journal of Financial Economics?134(3), 501 – 524.

Kosowski, R., A. Timmermann, R. Wermers, and H. White (2006). Can mutual fund “stars” really pick stocks? New evidence from a bootstrap analysis.?Journal of Finance?61(6), 2551 – 2595.

免責(zé)聲明：入市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

Toward a better factor model (II)