因子投資的高維數(shù)時(shí)代
發(fā)布時(shí)間:2022-12-05 | 來源: 川總寫量化
作者:石川
摘要:實(shí)證資產(chǎn)定價(jià)已然進(jìn)入因子(協(xié)變量)的高維數(shù)時(shí)代。本文拋磚引玉,闡述我對此的四點(diǎn)思考。
0?引子
時(shí)至今日,實(shí)證資產(chǎn)定價(jià)(以及因子投資)已然步入了因子(協(xié)變量)的高維數(shù)時(shí)代。大量發(fā)表在頂刊上的實(shí)證結(jié)果表明,多因子模型具有很大的不確定性且因子的稀疏性假設(shè)不成立。人們熟知的 ad-hoc 簡約模型無法指引未來的投資。在高維數(shù)時(shí)代,尋找真正能夠預(yù)測預(yù)期收益率的協(xié)變量是核心問題之一。為了實(shí)現(xiàn)這個(gè)目標(biāo),需要考慮的問題包括:(1)多重假設(shè)假設(shè)檢驗(yàn);(2)投資者(高維)學(xué)習(xí)問題 & 另類數(shù)據(jù);(3)來自資產(chǎn)定價(jià)理論的指引:即解釋預(yù)期收益率的因子應(yīng)該也能解釋資產(chǎn)的共同波動。最后,一個(gè)最新的討論熱點(diǎn)是因子的個(gè)數(shù)是否越多越好(即模型復(fù)雜度是否越高越好):復(fù)雜模型能更好地逼近真實(shí) DGP,但參數(shù)估計(jì)的方差更大;簡約模型的參數(shù)估計(jì)更準(zhǔn)確,但卻未必是 DGP 的合理近似。二者相比,如何權(quán)衡呢?
近日,我在某券商 2023 的年度策略會上做了題為《因子投資的高維數(shù)時(shí)代》的報(bào)告,闡述了我對上述四點(diǎn)的思考。本文借著報(bào)告的 slides 做簡要介紹。由于對于某些問題公眾號已經(jīng)做了大量的梳理(比如多重假設(shè)檢驗(yàn)),因此在本文的闡述中,在必要的地方會使用最少的文字(你馬上就會明白我的意思)。
1?多重假設(shè)檢驗(yàn)
這部分,一圖勝千言。需要相關(guān)知識的小伙伴,請查看公眾號的《出色不如走運(yùn)》系列。
Next.
2?投資者學(xué)習(xí)問題 & 另類數(shù)據(jù)
理性預(yù)期假設(shè)投資者知道真實(shí)的估值模型。然而,和進(jìn)行事后(ex post)因子分析的你我一樣,投資者在投資時(shí)同樣面臨協(xié)變量的高維數(shù)問題,因此不可能知道真實(shí)的估值模型,所以理性預(yù)期假設(shè)并不成立。這造成的結(jié)果是,均衡狀態(tài)下資產(chǎn)價(jià)格和理性預(yù)期情況下相比出現(xiàn)偏差。在事后分析中,已實(shí)現(xiàn)收益率中包含一部分因估計(jì)誤差導(dǎo)致的可預(yù)測成分。但對投資者來說,事前(ex ante)無法利用上述可預(yù)測性。因誤差導(dǎo)致的可預(yù)測性能夠在樣本內(nèi)(IS)產(chǎn)生虛假的可預(yù)測性(無論投資者是否使用了先驗(yàn)以及無論先驗(yàn)是否正確),而在樣本外(OOS)卻無法預(yù)測收益率。這就是投資者(高維)學(xué)習(xí)問題導(dǎo)致的虛假的可預(yù)測性(Martin and Nagel 2022)。具體闡述見《False In-Sample Predictability ?》。面對這個(gè)問題,需要通過 OOS 檢驗(yàn)才能規(guī)避。
投資者無法在事前投資中應(yīng)對高維數(shù),這主要體現(xiàn)在他們使用較少的協(xié)變量(因子)作為估值的依據(jù)。另一方面,由于一些變量的獲取成本很高,投資者需要在該變量帶來的預(yù)測好處和其成本之間權(quán)衡。此外,有限理性中的有限注意力機(jī)制也為投資者對簡約性的渴望提供了微觀基礎(chǔ)。這兩方面作用合力導(dǎo)致投資者在為資產(chǎn)定價(jià)時(shí)使用過度稀疏的估值模型。這樣做的后果是,即便在樣本外,也會出現(xiàn)因投資者學(xué)習(xí)問題而造成的虛假的可預(yù)測性。
就著上述推論,我們自然地引出本小節(jié)的另一個(gè)相關(guān)話題:另類數(shù)據(jù)?;貞浺幌鹿娞栔暗奈恼?a target="_blank" textvalue="《科技關(guān)聯(lián)度II》" linktype="text" imgurl="" imgdata="null" data-itemshowtype="0" tab="innerlink" data-linktype="2" hasload="1" style="margin: 0px; padding: 0px; outline: 0px; color: rgb(87, 107, 149); text-decoration-line: none; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); cursor: pointer; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important;">《科技關(guān)聯(lián)度II》所介紹的 Bekkerman, Fich and Khimich (forthcoming)。相比于之前的基于專利類別的研究,該文對專利進(jìn)行文本分析,通過提取專業(yè)術(shù)語并計(jì)算其重合度來描述公司之間的相似程度,以此構(gòu)造了預(yù)期超額收益率更高的科技關(guān)聯(lián)度效應(yīng)。比起專利類別,投資者在獲得以及處理專利文本并計(jì)算科技關(guān)聯(lián)度時(shí)的成本更加昂貴。這會導(dǎo)致大多數(shù)投資者會在為公司估值時(shí)忽略這方面的信息,即使用過度稀疏的估值模型,造成樣本內(nèi)和樣本外收益率可預(yù)測性。該文基于文本分析的科技關(guān)聯(lián)度是近幾年大紅大紫的基于另類數(shù)據(jù)進(jìn)行實(shí)證資產(chǎn)定價(jià)和因子投資的一個(gè)典型例子。然而,Martin and Nagel (2022) 所勾勒出的非理性預(yù)期假設(shè)世界告訴我們,使用最新的方法和技術(shù)構(gòu)建預(yù)測變量并將其應(yīng)用于早期歷史時(shí)段時(shí),它們在樣本內(nèi)和(偽)樣本外檢驗(yàn)中均能預(yù)測預(yù)期收益率。因此,我們在驚喜于另類數(shù)據(jù)的發(fā)現(xiàn)之余,恐怕也應(yīng)該多一分謹(jǐn)慎。
除此之外,既然談到另類數(shù)據(jù),不妨再聊聊另一個(gè)相關(guān)話題。有相關(guān)研究表明,海外大量的另類數(shù)據(jù)供應(yīng)商提供的數(shù)據(jù)都只具備對公司基本面的短時(shí)間尺度的可預(yù)測性。Dessaint, Foucault and Fresard (2020) 的研究表明,如此另類數(shù)據(jù)可得性的提升降低了進(jìn)行短時(shí)間尺度的預(yù)測成本(從而提高了準(zhǔn)確性),但增加了進(jìn)行長時(shí)間尺度預(yù)測的成本(從而降低了準(zhǔn)確性)。對于公司基本面預(yù)測來說,二者的綜合效果是 mixed??梢灶A(yù)見,未來在使用另類數(shù)據(jù)預(yù)測公司基本面時(shí),會有更多的研究向這個(gè)方向傾斜。
3?和協(xié)方差矩陣有關(guān)
Ross (1976) 的 APT 指出,解釋資產(chǎn)預(yù)期收益率截面差異的因子應(yīng)該同時(shí)能夠解釋資產(chǎn)的共同運(yùn)動。在市場中不存在近似無風(fēng)險(xiǎn)套利機(jī)會這個(gè)假設(shè)下,Kozak, Nagel and Santosh (2018) 同樣論述了這一點(diǎn)(見《Which beta (III)?》)。以下展示了 BetaPlus 小組構(gòu)造并維護(hù)的 A 股常見七類風(fēng)格因子在 2000/01/01 到 2022/04/30 之間的表現(xiàn)。統(tǒng)計(jì)數(shù)據(jù)表明,在該實(shí)證區(qū)間內(nèi),雖然它們的收益率均值高低有差異,但收益率的標(biāo)準(zhǔn)差同樣也有差異,因此并沒有哪個(gè)風(fēng)格因子的風(fēng)險(xiǎn)調(diào)整后收益明顯高于其他的因子。
再來看一個(gè)美股的例子。Kozak, Nagel and Santosh (2018) 將實(shí)證區(qū)間分成前后兩半兒并考察了 15 個(gè)因子。下圖展示了每個(gè)因子在前后兩個(gè)區(qū)間內(nèi)夏普率的散點(diǎn)圖。如果能夠在獲得高收益的同時(shí)降低波動,那么樣本內(nèi)(前一半?yún)^(qū)間)夏普率高的因子在樣本外(后一半?yún)^(qū)間)的夏普率應(yīng)該仍然更高一些,我們將會看到這些點(diǎn)圍繞在 45 度直線上。然而事實(shí)并非如此。無論樣本內(nèi)的夏普率多高,這 15 個(gè)因子樣本外的夏普率幾乎是一條平行于橫坐標(biāo)的水平線,而非人們期望的 45 度斜線。(我用幾百個(gè)因子在 A 股做了同樣的實(shí)證,觀察到了類似的結(jié)果。)
上述結(jié)果顯示,(樣本外)高收益往往對應(yīng)著高波動(對著樣本內(nèi)硬挖 —— data snooping —— 另說),這一實(shí)證結(jié)果和 APT 吻合。早在幾十年前,Eugene Fama 曾經(jīng)打趣到 APT 讓眾多挖因子的嘗試“合理化”,即 APT 只說了資產(chǎn)預(yù)期收益率和眾多因子有關(guān),但卻沒有指出到底有哪些因子。因此,很多學(xué)者打著 APT 的旗號“肆無忌憚”地挖出了一茬又一茬因子(zoo of factors),F(xiàn)ama 把這個(gè)現(xiàn)象稱作 APT 給了這些研究“fishing license”(即 APT 讓這些研究合理化)。(Sorry,這里我實(shí)在忍不住吐槽一句,在一本著名的資產(chǎn)定價(jià)教材的中譯版中,中文作者竟然真的把 fishing license 翻譯成“釣魚許可證”……)如今,當(dāng)我們重新審視 APT 時(shí),毫無疑問應(yīng)該將它作為挖掘真實(shí)因子的有效指引,正如本節(jié)一開頭說的那樣:解釋資產(chǎn)預(yù)期收益率截面差異的因子應(yīng)該也能解釋資產(chǎn)的共同運(yùn)動。在這個(gè)認(rèn)知下,以 PCA 為代表的一系列實(shí)證資產(chǎn)定價(jià)研究在這幾年取得了很多突破(Kelly, Pruitt and Su 2019 、Kozak, Nagel and Santosh 2020)。
4?越復(fù)雜越好 ?
在本節(jié)的討論中,我們以因子個(gè)數(shù)的多少代表模型復(fù)雜度。因子個(gè)數(shù)越多,模型越復(fù)雜。
2019 年,Belkin, et al. (2019) 一文提出了機(jī)器學(xué)習(xí)中樣本外誤差的“double descent”現(xiàn)象,引發(fā)了機(jī)器學(xué)習(xí)領(lǐng)域和理論統(tǒng)計(jì)領(lǐng)域的廣泛討論。為了理解這一現(xiàn)象,我們先從熟知的 bias-variance trade-off 說起。對于模型來說,其樣本外表現(xiàn)和模型復(fù)雜度關(guān)系密切。當(dāng)模型復(fù)雜度很低時(shí),模型的方差很?。ㄒ?yàn)樽兞繀?shù)估計(jì)的方差很小),但是偏差很高;當(dāng)模型復(fù)雜度高時(shí),模型的方差變大,但是偏差降低。二者的共同作用就是人們熟悉的 U-Shape,即 bias-variance trade-off,因此存在某個(gè)最優(yōu)的超參數(shù),使得樣本外的總誤差(風(fēng)險(xiǎn))最低。
我們還可以換個(gè)角度來理解 bias-variance trade-off,而這個(gè)角度對理解 double descent 至關(guān)重要。當(dāng)模型很簡單時(shí),它能夠有效規(guī)避過擬合,但卻很難想象如此簡單的模型是真實(shí)世界的好的近似;而當(dāng)模型復(fù)雜時(shí),它更有可能逼近真實(shí)世界,但是也的確更容易過擬合。因此 bias-variance trade-off 也可以理解為 approximation-overfit trade-off。然而,上述結(jié)論有一個(gè)我們都習(xí)以為常的前提:變量個(gè)數(shù) < 樣本個(gè)數(shù)。那么,如果模型復(fù)雜到變量(因子)的個(gè)數(shù)超過了樣本的個(gè)數(shù)又會出現(xiàn)怎樣的情況呢?事實(shí)上,這一問題并非無緣無故的憑空想象。對于復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型來說,模型參數(shù)的個(gè)數(shù)很容易超過樣本的個(gè)數(shù),然而這些模型確在樣本外有著非凡的表現(xiàn)(哦,當(dāng)然不是資產(chǎn)定價(jià)領(lǐng)域)。這個(gè)現(xiàn)象促使這人們搞清楚 what is behind the scene。
當(dāng)變量個(gè)數(shù) > 樣本個(gè)數(shù)時(shí),模型在樣本內(nèi)能夠完美的擬合全部樣本(在機(jī)器學(xué)習(xí)術(shù)語中,這個(gè)現(xiàn)象被稱為 interpolation)。對這樣一個(gè)模型來說,人們通常的認(rèn)知是,它在樣本外的表現(xiàn)一定會“爆炸”,即毫無作為。這是因?yàn)樗^度擬合了樣本內(nèi)數(shù)據(jù)中的全部噪聲。然而,Belkin, et al (2019) 指出,當(dāng)人們讓模型復(fù)雜度突破樣本個(gè)數(shù)這個(gè)“禁忌之地”后,神奇的事情發(fā)生了:樣本外總誤差并沒有“爆炸”,而是隨著復(fù)雜度的提升單調(diào)下降。正因?yàn)樵跇颖緜€(gè)數(shù)兩側(cè)都出現(xiàn)了誤差單調(diào)下降的情況,Belkin, et al (2019) 將這個(gè)現(xiàn)象稱為 double descent。
因?yàn)楸疚牡哪康牟⒎墙忉尡澈蟮慕y(tǒng)計(jì)學(xué)理論,所以我在此對該現(xiàn)象給一些直覺上的解釋。當(dāng)變量個(gè)數(shù)超過樣本個(gè)數(shù)的時(shí)候,樣本內(nèi)的解是不唯一的,而最優(yōu)的解可以理解為滿足參數(shù)的方差最?。ㄕ齽t化或 implied 正則化在這個(gè)過程中發(fā)揮了非常重要的作用)。隨著變量越來越多,最優(yōu)解的方差總能單調(diào)下降。再來看偏差,通常來說,偏差確實(shí)會隨著復(fù)雜度的提升而增加。但是所有模型都是真實(shí) DGP 的某個(gè) mis-specified 版本。當(dāng)存在模型設(shè)定偏誤的時(shí)候,可以證明當(dāng)變量個(gè)數(shù)超過樣本個(gè)數(shù)時(shí),偏差也會在一定范圍內(nèi)隨著復(fù)雜度而下降。因此,二者的綜合結(jié)果就是模型在樣本外的誤差表現(xiàn)會隨復(fù)雜度的上升而下降。(在一些情況下,樣本外誤差的 global minimum 出現(xiàn)在當(dāng)變量個(gè)數(shù) > 樣本個(gè)數(shù)時(shí)。)以下兩張 slides 總結(jié)了上面的話(第二張 slide 里的表參考了 Bryan Kelly 的 talk,特此說明)。
對于資產(chǎn)定價(jià)和因子投資來說,如果你和我一樣認(rèn)同因子的高維數(shù)時(shí)代 —— 即收益率的 DGP 包含了非常多的因子,那么上述關(guān)于模型復(fù)雜度的探討也許會帶來全新而有益的啟發(fā)。在這方面,也有大佬已經(jīng)走在了前面。Bryan Kelly 和他的合作者以及學(xué)生一起寫了一系列“復(fù)雜度美德”的 working papers,在資產(chǎn)定價(jià)領(lǐng)域探索提升復(fù)雜度帶來的樣本外好處。例如,Kelly, Malamud and Zhou (2022) 一文使用神經(jīng)網(wǎng)絡(luò)對美股進(jìn)行了擇時(shí)(每次建模僅利用一年 12 期的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)),并發(fā)現(xiàn)了類似的 double descent 現(xiàn)象。當(dāng)然,即便我們認(rèn)同了“越復(fù)雜越好”,也依然要回答更重要的問題,即如何估計(jì)參數(shù),如何正則化,如何來利用成千上萬甚至更多的因子來形成關(guān)于預(yù)期收益率更好的預(yù)測。雖然 Kelly 等人的文章在擇時(shí)方面取得了讓人興奮的結(jié)果,但在 cross-section 是否有類似的實(shí)證結(jié)果依然需要時(shí)間來回答(Kelly 有一篇 working paper 研究 cross-section,但還沒有 publicly available)。但是無論如何,歡迎來到 over-parameterization 時(shí)代。
5?結(jié)束語
在本文的最后,仍然有必要指出,在協(xié)變量的高維數(shù)時(shí)代,如何 prepare 因子固然重要(小心多重假設(shè)檢驗(yàn)、小心投資者學(xué)習(xí)、利用 APT 的 implication),但是如何求解高維問題才更加核心(如何利用復(fù)雜度的好處 ?)?;蛟S,我們已經(jīng)到了從計(jì)量經(jīng)濟(jì)學(xué)到機(jī)器學(xué)習(xí)的必然轉(zhuǎn)型時(shí)刻。正如 Stefan Nagel 的《機(jī)器學(xué)習(xí)與資產(chǎn)定價(jià)》(Nagel 2021)所倡導(dǎo)的那樣,將經(jīng)濟(jì)學(xué)推理注入機(jī)器學(xué)習(xí)算法將成為高維數(shù)時(shí)代研究的必經(jīng)之路。
參考文獻(xiàn)
Baba-Yara, F., B. Boyer, and C. Davis (2021). The factor model failure puzzle. Working paper.
Bekkerman, R., E. M. Fich, and N. V. Khimich (forthcoming). The effect of innovation similarity on asset prices: Evidence from patents’ big data.?Review of Asset Pricing Studies.
Belkin, M., D. Hsu, S. Ma, and S. Mandal (2019). Reconciling modern machine-learning practice and the classical bias-variance trade-off.?PNAS?116(32), 15849 – 15854.
Dessaint, O., T. Foucault, and L. Fresard (2020). Does alternative data improve financial forecasting? The horizon effect. Working paper.
Kelly, B. T., S. Malamud, and K. Zhou (2022). The virtue of complexity in return prediction. Working paper.
Kelly, B. T., S. Pruitt, and Y. Su (2019). Characteristics are covariances: A unified model of risk and return.?Journal of Financial Economics?134(3), 501 – 524.
Kozak, S., S. Nagel, and S. Santosh (2018). Interpreting factor models.?Journal of Finance?73(3), 1183 – 1223.
Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section.?Journal of Financial Economics?135(2), 271 – 292.
Linnainmaa, J. T. and M. R. Roberts (2018). The history of the cross-section of stock returns.?Review of Financial Studies?31(7), 2606 – 2649.
Martin, I. and S. Nagel (2022). Market efficiency in the age of big data.?Journal of Financial Economics?145(1), 154 – 177.
Nagel, S. (2021).?Machine Learning in Asset Pricing. Princeton University Press.
Ross, S. A. (1976). The arbitrage theory of capital asset pricing.?Journal of Economic Theory?13(3), 341 – 360.
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。