亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

機(jī)器學(xué)習(xí)與資產(chǎn)定價(jià): Facts and Fictions

發(fā)布時(shí)間:2023-06-21  |   來源: 川總寫量化

作者:石川

摘要:本文從五方面闡述中低頻實(shí)證資產(chǎn)定價(jià)中的機(jī)器學(xué)習(xí)應(yīng)用。


?Gu, Kelly and Xiu (2020) 這篇綜述把機(jī)器學(xué)習(xí)方法正式引入實(shí)證資產(chǎn)定價(jià)研究以來,學(xué)術(shù)界的一眾學(xué)者在這幾年將各種(線性的非線性的)機(jī)器學(xué)習(xí)模型都應(yīng)用到了股票收益率的預(yù)測(cè)之上。


這背后的契機(jī)是大數(shù)據(jù)和機(jī)器學(xué)習(xí)時(shí)代協(xié)變量的激增以及協(xié)變量和未來收益率之間的復(fù)雜關(guān)系。這二者給傳統(tǒng)基于計(jì)量經(jīng)濟(jì)學(xué)方法的實(shí)證研究帶來了巨大的挑戰(zhàn)。毫無疑問,計(jì)量經(jīng)濟(jì)學(xué)方法是可以被用來分析簡(jiǎn)單線性關(guān)系和進(jìn)行參數(shù)審定(parameter adjudication)的利器,然而它并非處理高維預(yù)測(cè)(prediction)問題時(shí)的首選。對(duì)于后者來說,早在自然語言處理、圖像識(shí)別等其他領(lǐng)域證明了自己的機(jī)器學(xué)習(xí)算法自然而然地走進(jìn)了人們的視野。


伴隨而來的,是學(xué)界的研究從 diminishing anomalies(即提出?ad-hoc 簡(jiǎn)約模型來消滅異象)向 increasing prominence of machine learning methods(即如何通過機(jī)器學(xué)習(xí)算法得到更好的預(yù)測(cè))的轉(zhuǎn)型,并從中形成新的研究范式。研究悄然從 procedurally 轉(zhuǎn)向了 empirically。無論認(rèn)可與否,在大勢(shì)面前,一切似乎都不可逆轉(zhuǎn),那些將機(jī)器學(xué)習(xí)算法用于資產(chǎn)定價(jià)并發(fā)表在頂刊上的實(shí)證文章就是最好的證明。


通讀這些基于美股市場(chǎng)(當(dāng)然,有不少已經(jīng)被 copy & paste 到了 A 股,sorry for 吐槽)、發(fā)表在頂刊上的實(shí)證文章其實(shí)不難發(fā)現(xiàn),無論是理論描述還是實(shí)證結(jié)果,它們都有很多的共性。深入理解它們,有助于加深對(duì)將機(jī)器學(xué)習(xí)算法應(yīng)用于實(shí)證資產(chǎn)定價(jià)的正確認(rèn)知。因此,今天這篇小文就以 Facts 和 Fictions 為題從五方面梳理這類研究的“是”與“非”。希望通過此文幫你客觀了解實(shí)證研究的現(xiàn)狀。


最后想要強(qiáng)調(diào)的是,本文的闡述僅限于中低頻實(shí)證資產(chǎn)定價(jià)中的機(jī)器學(xué)習(xí)應(yīng)用。在國(guó)內(nèi)外的量化投資實(shí)踐中,注定會(huì)有一些領(lǐng)先于學(xué)術(shù)研究的內(nèi)容,但它們不在本文討論范圍之內(nèi)。另外,本文參考文獻(xiàn)中優(yōu)先引用已發(fā)表的版本。



1


Fiction:?將數(shù)據(jù)無腦扔進(jìn)高級(jí)算法,單純指望數(shù)據(jù)發(fā)聲。


金融數(shù)據(jù)低信噪比和不滿足平穩(wěn)性這兩個(gè)特點(diǎn)足以打消人們單純指望數(shù)據(jù)發(fā)聲的良好愿景。就資產(chǎn)定價(jià)來說,參數(shù)先驗(yàn)、協(xié)變量尺度縮放、正則化罰項(xiàng)以及調(diào)參依據(jù)選擇等都會(huì)影響最終的結(jié)果(Nagel 2021,我和王熙老師的翻譯在此)。


下面這個(gè)例子來自 Nagel (2021),雖然簡(jiǎn)單,但能清晰闡明上面的問題。假設(shè)我們使用過去 120 期的歷史收益率以及它們的平方和三次方作為協(xié)變量來預(yù)測(cè)下一期收益率。下表總結(jié)了不同設(shè)定下的預(yù)測(cè)結(jié)果。其中 Method 一欄表明了正則化的罰項(xiàng)(OLS 表示沒有正則化),Scaling 一欄表明對(duì)協(xié)變量進(jìn)行了怎樣的標(biāo)準(zhǔn)化處理(Equal 表示協(xié)變量都被標(biāo)準(zhǔn)化到均值為 0、標(biāo)準(zhǔn)差為 1;Unequal 表明協(xié)變量標(biāo)準(zhǔn)化之后的標(biāo)準(zhǔn)差不同),CV criterion 一欄表示調(diào)參的依據(jù)(例如以驗(yàn)證集 R-squared 或者以投資組合在驗(yàn)證集上的預(yù)期收益率??)。


f1.png


表中的實(shí)證結(jié)果顯示,模型設(shè)定對(duì)于會(huì)產(chǎn)生怎樣的結(jié)果影響很大。然而,當(dāng)我們面臨眾多選擇時(shí),不該也無法枚舉所有的排列組合,而是應(yīng)該充分利用先驗(yàn)。例如,如果我們認(rèn)為模型是非稀疏的,那么就會(huì)傾向 Ridge 而非 Lasso;如果我們認(rèn)為協(xié)變量在預(yù)測(cè)收益率時(shí)的重要程度不同,可能就會(huì)選擇 Unequal 而非 Equal 的處理方式;如果我們從金融問題核心出發(fā),可能會(huì)選擇以最大化夏普比率(或最小化 pricing errors)而非傳統(tǒng)的 R-squared 來進(jìn)行模型調(diào)優(yōu)。而這些的背后,都離不開資產(chǎn)定價(jià)理論。


Fact:?以大數(shù)據(jù)為依托、以機(jī)器學(xué)習(xí)算法為工具,圍繞資產(chǎn)定價(jià)理論展開。


在實(shí)證資產(chǎn)定價(jià)這個(gè)領(lǐng)域,從 CAPM,到 APT/ICAPM,再到 zoo of factors,層出不窮的實(shí)證挑戰(zhàn)無疑極大推動(dòng)了學(xué)科的發(fā)展。然而,無論范式如何演化,研究都是圍繞著實(shí)證資產(chǎn)定價(jià)理論展開的。


以最近幾年火爆的幾篇文章為例,Bryzgalova, Pelger and Zhu (2020) 以及 Chen, Pelger and Zhu (forthcoming),雖然前者使用了決策樹而后者使用了生成對(duì)抗網(wǎng)絡(luò)(GAN),但它們都是在隨機(jī)貼現(xiàn)因子(SDF)這一框架下將不同的算法應(yīng)用于資產(chǎn)定價(jià)。又比如,Kelly, Pruitt and Su (2019) 的 IPCA 以及 Gu, Kelly and Xiu (2021) 的 Autoencoder 則使用了隱性多因子模型,即把??視為協(xié)變量(例如公司特征和宏觀經(jīng)濟(jì)變量)的函數(shù)并對(duì)??建模。不同的是,KPS 使用的線性模型,而 GKX 使用的非線性模型;此外,由于??是時(shí)變協(xié)變量的函數(shù),因此二者本質(zhì)上都是條件定價(jià)模型。


在實(shí)證方面,這些文章的共性是使用了大量的協(xié)變量(of course 較傳統(tǒng)研究而言),并通過投資組合的 OOS 表現(xiàn)來表明方法的有效性。雖然它們各自嘗試了不同的機(jī)器學(xué)習(xí)算法,但鑒于 SDF 和多因子模型的等價(jià)性,它們都可以被放在一統(tǒng)的框架下審視和學(xué)習(xí)。


2


Fiction:?機(jī)器學(xué)習(xí)模型是黑箱,學(xué)術(shù)研究不關(guān)注可解釋性。


對(duì)于傳統(tǒng)的 ad-hoc 多因子模型或者異象研究而言,可解釋性是它們的靈魂。比如 FF5 是基于 DDM、q-factor model 是基于 q-theory。而各種關(guān)于異象的論文中也會(huì)有解釋(risk-based vs mispricing)。而一旦把研究目標(biāo)轉(zhuǎn)移到通過復(fù)雜模型構(gòu)造更準(zhǔn)確的收益率預(yù)測(cè),給人的印象就是這方面的要求就被淡化了。然而,事實(shí)并非如此。


對(duì)于線性模型而言,例如 Kozak, Nagel and Santosh (2018, 2020) 的 PCA,以及 KPS 的 IPCA,模型的解釋是非常清晰的。以前者為例,KNS 在對(duì)通過 size 和 value 劃分出的 25 個(gè)投資組合進(jìn)行 PCA 時(shí)發(fā)現(xiàn)前兩個(gè) PCs 完美對(duì)應(yīng)著 SMB 和 HML 因子;而對(duì)于后者而言,IPCA 雖然在數(shù)學(xué)上看似繁瑣,但其背后的直覺解釋卻是一系列通過 cross-section regression 構(gòu)造的 managed portfolios 的線性組合(PCs)。因此,對(duì)于線性模型而言,其解釋性恰恰植根于我們熟悉的 regression 以及 portfolio sort 方法中。


而對(duì)于非線性模型而言,其可解釋性雖然不如線性模型那么直觀,但學(xué)術(shù)研究依然給予了它足夠的重視(見 fact 部分)。


Fact:?機(jī)器學(xué)習(xí)揭示的最重要預(yù)測(cè)變量和大量實(shí)證資產(chǎn)定價(jià)結(jié)果吻合。


Gu, Kelly and Xiu (2020) 使用 permutation importance 揭示了哪些協(xié)變量對(duì)解釋預(yù)期收益率最重要(下圖)。從中我們可以看出:(1)最重要的協(xié)變量和以往實(shí)證結(jié)果相吻合,其中最重要的變量大致可以分為四大類,即動(dòng)量/反轉(zhuǎn),流動(dòng)性相關(guān),風(fēng)險(xiǎn)相關(guān)(比如 IVOL)以及基本面相關(guān);(2)不同的機(jī)器學(xué)習(xí)模型來說,最重要的協(xié)變量也在很大程度上是相似的。


f2.png


Chen, Pelger and Zhu (forthcoming) 通過計(jì)算 SDF 權(quán)重對(duì)協(xié)變量的偏導(dǎo)數(shù)來評(píng)價(jià)模型的可解釋性。下圖顯示,在所有協(xié)變量中,最重要的可以被分為交易摩擦、價(jià)值、無形資產(chǎn)、盈利、投資以及歷史收益率幾大類。


f3.png


另一篇值得一提的文章是 Kozak (2019)。它利用 kernel trick 巧妙地在不增加運(yùn)算量的前提下將協(xié)變量映射到高維并對(duì)映射后的協(xié)變量進(jìn)行 PCA,以此來進(jìn)行資產(chǎn)定價(jià)。在使用了非線性 kernel 后,我們無從知道映射后的協(xié)變量是什么樣子。但是,通過將構(gòu)造的 SDF 映射到原始協(xié)變量的 managed portfolios,依然能夠鑒別出最重要的解釋變量。


f4.png


最后,也可以通過觀察選出股票(多頭或者多空對(duì)沖組合)在不同協(xié)變量上是否有共性來判斷哪些變量更加重要,例如 Avramov, Cheng and Metzker (2023)。


3


Fiction:?復(fù)雜模型容易樣本內(nèi)過擬合,導(dǎo)致樣本外預(yù)測(cè)誤差加劇。


對(duì)于模型來說,其樣本外表現(xiàn)和模型復(fù)雜度關(guān)系密切。當(dāng)模型復(fù)雜度很低時(shí),模型的方差很小,但是偏差很高;當(dāng)模型復(fù)雜度高時(shí),模型的方差變大,但是偏差降低。二者的共同作用就是人們熟悉的 bias-variance trade-off,因此存在某個(gè)最優(yōu)的超參數(shù),使得樣本外的總誤差(風(fēng)險(xiǎn))最低。


f5.png


我們還可以換個(gè)角度來理解 bias-variance trade-off。當(dāng)模型很簡(jiǎn)單時(shí),它能夠有效規(guī)避過擬合,但并非是真實(shí)世界的很好近似;而當(dāng)模型復(fù)雜時(shí),它更有可能逼近真實(shí)世界,但是也的確更容易過擬合。因此 bias-variance trade-off 也可以理解為 approximation-overfit trade-off。


然而,上述結(jié)論有一個(gè)人們習(xí)以為常的前提:變量個(gè)數(shù) < 樣本個(gè)數(shù)。如果模型復(fù)雜到變量的個(gè)數(shù)超過了樣本的個(gè)數(shù)又會(huì)怎樣呢?事實(shí)上,這一問題并非無緣無故的憑空想象。對(duì)于復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型來說,模型參數(shù)的個(gè)數(shù)很容易超過樣本的個(gè)數(shù)。當(dāng)變量個(gè)數(shù) ≥ 樣本個(gè)數(shù)時(shí)(被稱為 over-parameterization),模型在樣本內(nèi)能夠完美的擬合全部樣本(當(dāng)變量個(gè)數(shù)和樣本個(gè)數(shù)相等時(shí),模型能夠完美的 fit 所以樣本點(diǎn)。這個(gè)現(xiàn)象在機(jī)器學(xué)習(xí)術(shù)語中被稱為 interpolation)。由于金融數(shù)據(jù)的信噪比極低,對(duì)于這樣一個(gè)妥妥樣本內(nèi)過擬合了噪聲的模型,人們通常的認(rèn)知是,它在樣本外的預(yù)測(cè)誤差一定會(huì)“爆炸”。然而事實(shí)也許并非如此。


Fact:?復(fù)雜模型是真實(shí) DGP 的更好近似,在正則化使用得當(dāng)?shù)那疤嵯?,?fù)雜模型帶來的好處可能優(yōu)于統(tǒng)計(jì)代價(jià)。


近年來,機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)令人興奮的發(fā)現(xiàn)就是樣本外誤差隨模型復(fù)雜度變化的 double descent 現(xiàn)象。Belkin et al (2019) 指出,當(dāng)模型復(fù)雜度突破樣本個(gè)數(shù)這個(gè)“禁忌之地”后,神奇的事情發(fā)生了:樣本外總誤差并沒有“爆炸”,而是隨著復(fù)雜度的提升單調(diào)下降。正因?yàn)樵跇颖緜€(gè)數(shù)兩側(cè)都出現(xiàn)了誤差單調(diào)下降的情況,這個(gè)現(xiàn)象被稱為 double descent。


f6.png


這背后的直覺解釋是:當(dāng)協(xié)變量個(gè)數(shù)超過樣本個(gè)數(shù)的時(shí)候,樣本內(nèi)的解是不唯一的,而最優(yōu)的解可以理解為讓參數(shù)的方差最小的那個(gè)解。隨著變量越來越多,最優(yōu)解的方差總能單調(diào)下降。再來看偏差,通常來說,偏差確實(shí)會(huì)隨著復(fù)雜度的提升而增加。但是所有模型都是真實(shí) DGP 的某個(gè) mis-specified 版本。當(dāng)存在模型設(shè)定偏誤的時(shí)候,可以證明當(dāng)變量個(gè)數(shù)超過樣本個(gè)數(shù)時(shí),偏差也會(huì)在一定范圍內(nèi)隨著復(fù)雜度而下降。因此,二者的綜合結(jié)果就是模型在樣本外的誤差表現(xiàn)會(huì)隨復(fù)雜度的上升而下降。對(duì)于 double descent 現(xiàn)象背后的理論,感興趣的小伙伴請(qǐng)參考 Hastie et al. (2022)。


在實(shí)證資產(chǎn)定價(jià)方面, Kelly, Malamud and Zhou (forthcoming) 將上述理念應(yīng)用到了美股擇時(shí)之中,并發(fā)現(xiàn)了類似的 double descent 現(xiàn)象:當(dāng)采用協(xié)變量個(gè)數(shù)遠(yuǎn)遠(yuǎn)超過樣本個(gè)數(shù)的模型時(shí),樣本外的夏普比率提升了??陀^的說,關(guān)于模型復(fù)雜度和樣本外表現(xiàn)的討論,在資產(chǎn)定價(jià)領(lǐng)域尚處于萌芽階段,且正則化(或者 implied 正則化)在這個(gè)過程中至關(guān)重要,期待未來在這方面有更多精彩的研究成果。


4


Fiction:?非線性模型可以輕松讓夏普比率翻倍。


我們先看一組似乎足以推翻這個(gè) fiction 的實(shí)證結(jié)果。Baba-Yara, Boyer and Davis (2021) 復(fù)現(xiàn)了最近幾年最重要的機(jī)器學(xué)習(xí)模型,并將它們的結(jié)果和傳統(tǒng)的多因子模型進(jìn)行了比較。我挑選了幾個(gè)有代表性的匯總于下表。


f7.png


上述結(jié)果清晰的表明,相比于傳統(tǒng)多因子模型,機(jī)器學(xué)習(xí)模型的夏普比率確實(shí)是前者的兩倍甚至是三倍。但不要忘了,右邊這些都是強(qiáng)加了特設(shè)稀疏性的簡(jiǎn)約模型(只用了太少的變量),因此這樣的比較是不公平的。(另外,在本節(jié) fact 部分我們還會(huì)再次討論上述結(jié)果,相信那時(shí)候你會(huì)更加確信。)另一方面,如果你仔細(xì)觀察就不難發(fā)現(xiàn),在上面的結(jié)果中,KNS 的 PCA 以及 KPS 的 IPCA(這兩個(gè)非條件和條件線性模型)的夏普比率反而要高于另外兩個(gè)分別利用隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)的模型。因此,非線性模型(至少在上述實(shí)證結(jié)果中)并沒有占得便宜。


Fact:?非線性模型能捕捉協(xié)變量和預(yù)期收益率之間的非線性關(guān)系,且現(xiàn)階段對(duì)表現(xiàn)只是提供邊際增量貢獻(xiàn)。


事到如今,我們無需懷疑協(xié)變量和預(yù)期收益率之間存在非線性關(guān)系。哪怕是傳統(tǒng)的 double portfolio sort,也是考察控制了變量 A 之后,變量 B 和預(yù)期收益率的關(guān)系。由 Nagel (2021) 以及大量最新實(shí)證資產(chǎn)定價(jià)論文的結(jié)果可知,在非線性關(guān)系中,變量的交互作用是最重要的。對(duì)于傳統(tǒng)線性回歸模型來說,一旦協(xié)變量數(shù)目激增,枚舉考慮兩兩變量的交乘項(xiàng)是不切實(shí)際的,因此這就給了善于處理非線性關(guān)系的機(jī)器學(xué)習(xí)模型施展的空間。


話雖如此,我們也應(yīng)該對(duì)非線性關(guān)系對(duì)于預(yù)測(cè)收益率提供的增量貢獻(xiàn)有正確的預(yù)期。Chen, Pelger and Zhu (forthcoming) 的實(shí)證結(jié)果顯示,他們的生成對(duì)抗網(wǎng)絡(luò)在構(gòu)造 SDF 時(shí)能夠捕捉到協(xié)變量之間的交互作用,然而另一方面,他們也強(qiáng)調(diào)獨(dú)立協(xié)變量對(duì)于 SDF 的影響幾乎是線性的。


下面讓我們回到 fiction 部分提到的 Baba-Yara, Boyer and Davis (2021) 一文。上面的這個(gè)表來自該文的早期版本,其 OOS 實(shí)證區(qū)間是 1990 到 2020。然而,在最新的版本中,其 OOS 實(shí)證區(qū)間搖身一變縮短為 1990 到 2016。論文的版本更新了,而實(shí)證區(qū)間卻倒退了,實(shí)在令人不解。而更讓人匪夷所思的是,作者給出的解釋竟然是作為比較的 ad-hoc 模型 Stambaugh-Yuan 的數(shù)據(jù)只到 2016 年(你們?cè)趶?fù)現(xiàn)機(jī)器學(xué)習(xí)模型!拜托!)。既然早期工作版本中能復(fù)現(xiàn)到 2020 年,為什么在新的版本中卻又以此為借口放棄了?真正的動(dòng)機(jī)恐怕只有作者自己清楚。


在這個(gè)短一些的實(shí)證區(qū)間內(nèi),實(shí)證結(jié)果如下(下表中括號(hào)內(nèi)數(shù)據(jù)是截至到 2020 年的結(jié)果,放在這里方便比較)。有意思的是,當(dāng)實(shí)證區(qū)間的終點(diǎn)選為 2016 之后,四個(gè)機(jī)器學(xué)習(xí)模型都不同程度的變差了(BPZ 有些讓人意外),而四個(gè) ad-hoc 模型卻都提升了(SY 發(fā)表在 2017,F(xiàn)F6 = FF5 + Carhart Mom 而 FF5 以及 HXZ 都發(fā)表在 2015,玄妙吧)。


f8.png


Anyway,讓我們聚焦于機(jī)器學(xué)習(xí)模型。上述對(duì)比說明,隨著實(shí)證區(qū)間的不同,模型的結(jié)果也會(huì)有較大的波動(dòng)。而另一方面,所有這些發(fā)表在頂刊上的論文,雖然它們都是使用 rolling 或者 expanding 窗口進(jìn)行訓(xùn)練和驗(yàn)證,然后再預(yù)測(cè)樣本外的 next month、如此往復(fù),但是這些文章并沒有對(duì)調(diào)參的過程以及不同參數(shù)下模型的穩(wěn)健性進(jìn)行多少(if any!)的描述。從這個(gè)意義上說,機(jī)器學(xué)習(xí)應(yīng)用于資產(chǎn)定價(jià)的研究生態(tài)還遠(yuǎn)談不上完善(呼吁有大佬能站出來,提出學(xué)界認(rèn)可的研究生態(tài))。


5


Fiction:?機(jī)器學(xué)習(xí)模型可以很容易地被應(yīng)用于實(shí)踐。


雖然機(jī)器學(xué)習(xí)模型在實(shí)證資產(chǎn)定價(jià)的學(xué)術(shù)研究中取得了令人欣慰的結(jié)果,但并不意味著它們能夠被輕易的用于實(shí)踐,并獲得可觀的費(fèi)后超額收益。這方面一個(gè)最重要的經(jīng)驗(yàn)事實(shí)是,機(jī)器學(xué)習(xí)模型構(gòu)造的投資組合都有很高的換手率。


在這方面,Avramov, Cheng and Metzker (2023) 復(fù)現(xiàn)了 Gu, Kelly and Xiu (2020) 中的神經(jīng)網(wǎng)絡(luò)模型、CPZ 的 GAN、KPS 的 IPCA 以及 Gu, Kelly and Xiu (2021) 的(Conditional)Autoencoder (CA)。這些模型的月均換手率如下。作為對(duì)比,像 size 和 value 這種傳統(tǒng)低頻風(fēng)格因子的月均換手率通常低于 10%(即 0.1)。通過對(duì)交易成本的估計(jì),Avramov, Cheng and Metzker (2023) 指出,在如此高的換手率下,對(duì)于一般投資者(average investors)來說,很難通過機(jī)器學(xué)習(xí)模型賺取額外的超額收益(當(dāng)然不排除有些投資者能夠很好的將這些模型工程化,并在高換手率的前提下依然獲得超額收益)。


f9.png


為了應(yīng)對(duì)交易成本帶來的挑戰(zhàn),Jensen et al. (2022) 提出了 implementable efficient frontier 的概念,即在構(gòu)造策略的時(shí)候直接通過費(fèi)后收益率進(jìn)行評(píng)估,從而將帶有交易成本的投資組合優(yōu)化問題融入到機(jī)器學(xué)習(xí)的框架之中,并取得了不錯(cuò)的結(jié)果。


Fact:?機(jī)器學(xué)習(xí)發(fā)現(xiàn)的可預(yù)測(cè)性部分集中于套利成本和交易成本高的股票,對(duì)一些機(jī)構(gòu)投資者價(jià)值有限。


實(shí)證結(jié)果表明,諸多異象的超額收益主要來自空頭(Avramov et al. 2013)或者微小市值股票(Novy-Marx and Velikov 2016)。而對(duì)于機(jī)器學(xué)習(xí)模型來說,它們也善于從套利和交易成本更高的股票中挖掘可預(yù)測(cè)性,因而削弱了它們的實(shí)踐價(jià)值。仍以 Avramov, Cheng and Metzker (2023) 的實(shí)證結(jié)果為例。除 full sample 外,該文還分別考察了剔除微小市值、剔除無 credit rating 公司以及剔除 financially distressed 公司的三個(gè)子樣本。結(jié)果(下表,表中括號(hào)內(nèi)為?t-statistics)顯示,和 full sample 相比,主流機(jī)器學(xué)習(xí)模型(IPCA 除外)在這三個(gè)子樣本中的表現(xiàn)均有明顯的下降,且一些模型較傳統(tǒng) ad-hoc 多因子模型(例如 FF6)的??在某些子樣本中也不再顯著。


f10.png


以 GAN 為例,其在剔除微小市值子樣本中的月均收益率和 full sample 相比,降低了超過 50%。在上述四個(gè)模型中,除 IPCA 之外都是非線性模型,而唯有 IPCA 的結(jié)果比較穩(wěn)健(在 full 和幾個(gè)子樣本中的結(jié)果較為一致)。需要說明的是,上述針對(duì)三個(gè)子樣本的結(jié)果仍然是使用基于 full sample 訓(xùn)練出的模型得到的。這也許會(huì)讓一些讀者頗有微詞。對(duì)于此,Avramov, Cheng and Metzker (2023) 進(jìn)一步使用子樣本進(jìn)行訓(xùn)練和樣本外預(yù)測(cè),但發(fā)現(xiàn)結(jié)果并沒有實(shí)質(zhì)的改變,而且在一些子樣本中 OOS 的表現(xiàn)還下降了。換句話說,原本打算通過約束讓模型學(xué)習(xí)目標(biāo)樣本,然而結(jié)果卻是更少的樣本量(子樣本 vs full)卻導(dǎo)致了更差的 OOS 表現(xiàn)。成功 tweak 非線性模型使其聚焦于套利和交易成本低的股票,將會(huì)是機(jī)器學(xué)習(xí)模型落地的重要前提。


6


以上從五方面的 facts and fictions 梳理了近幾年最重要的機(jī)器學(xué)習(xí)資產(chǎn)定價(jià)實(shí)證發(fā)現(xiàn)。


作為本文的結(jié)尾,我想最后強(qiáng)調(diào)的是,雖然這些論文的實(shí)證結(jié)果都是 OOS(即用歷史數(shù)據(jù)建模和調(diào)參,然后預(yù)測(cè)下一個(gè) period),然而它們使用的協(xié)變量幾乎都是來自以往實(shí)證資產(chǎn)定價(jià)研究所挖出來的 anomaly。從這個(gè)意義上說,我不得不再拋出一直以來的觀點(diǎn)“所有歷史數(shù)據(jù)都是樣本內(nèi)”


在協(xié)變量和收益率存在非線性關(guān)系,以及協(xié)變量都是在歷史上顯著的前提下,我們似乎不用對(duì)這些模型在 OOS 的優(yōu)越表現(xiàn)感到特別的意外。然而,另一個(gè)值得思考的問題是,如果以 agnostic 視角出發(fā),將機(jī)器學(xué)習(xí)模型應(yīng)用實(shí)證資產(chǎn)定價(jià)之中,又會(huì)有怎樣的結(jié)果?在這方面,Nagel (2021) 有過初步的嘗試,發(fā)現(xiàn)機(jī)器學(xué)習(xí)能夠從諸多變量中識(shí)別出和預(yù)期收益率相關(guān)的那些。


希望本文的梳理能幫助你對(duì)基于機(jī)器學(xué)習(xí)模型的實(shí)證資產(chǎn)定價(jià)研究形成正確的預(yù)期,在抱有期待的同時(shí)也客觀認(rèn)識(shí)到研究的現(xiàn)狀和面臨的挑戰(zhàn)。最后,我想引用 Bryan Kelly 在某 Q&A 環(huán)節(jié)就機(jī)器學(xué)習(xí)正確預(yù)期的回答總結(jié)本文。作為學(xué)界新生代當(dāng)仁不讓的扛把子之一以及 AQR 的 Head of Machine Learning,Kelly 的觀點(diǎn)值得認(rèn)真體會(huì)。


f11.png



參考文獻(xiàn)

Avramov, D., S. Cheng, and L. Metzker (2023). Machine learning vs. economic restrictions: Evidence from stock return predictability.?Management Science?69(5), 2587 – 2619.

Avramov, D., T. Chordia, G. Jostova, and A. Philipov (2013) Anomalies and financial distress.?Journal of Financial Economics?108(1), 139 – 159.

Baba-Yara, F., B. Boyer, and C. Davis (2021). The factor model failure puzzle. Working paper.

Belkin, M., D. Hsu, S. Ma, and S. Mandal (2019). Reconciling modern machine-learning practice and the classical bias-variance trade-off.?PNAS?116(32), 15849 – 15854.

Bryzgalova, S., M. Pelger, and J. Zhu (2020). Forest through the trees: Building cross-sections of stock returns. Working paper.

Chen, L., M. Pelger, and J. Zhu (forthcoming). Deep learning in asset pricing.?Management Science.

Gu, S., B. T. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning.?Review of Financial Studies?33(5), 2223 – 2273.

Gu, S., B. T. Kelly, and D. Xiu (2021). Autoencoder asset pricing models.Journal of Econometrics?222(1), 429 – 450.

Hastie, T., A. Montanari, S. Rosset, and R. J. Tibshirani (2022). Surprise in high-dimensional ridgeless least squares interpolation.?Annals of Statistics?50(2), 949 – 986.

Jensen, T. I., B. T. Kelly, S. Malamud, and L. H. Pedersen (2022). Machine learning and the implementable efficient frontier. Working paper.

Kelly, B. T., S. Malamud, and K. Zhou (forthcoming). The virtue of complexity in return prediction.?Journal of Finance.

Kelly, B. T., S. Pruitt, and Y. Su (2019). Characteristics are covariances A unified model of risk and return.?Journal of Financial Economics?134(3), 501 – 524.

Kozak, S. (2019). Kernel trick for the cross-section. Working paper.

Kozak, S., S. Nagel, and S. Santosh (2018). Interpreting factor models.?Journal of Finance?73(3), 1183 – 1223.

Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section.?Journal of Financial Economics?135(2), 271 – 292.

Nagel, S. (2021).?Machine Learning in Asset Pricing. Princeton University Press.

Novy-Marx, R and M. Velikov (2016). A taxonomy of anomalies and their trading costs.?Review of Financial Studies?29(1), 104 – 147.



免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。