資產(chǎn)定價中的實證挑戰(zhàn) (V)
發(fā)布時間:2025-04-14 | 來源: 川總寫量化
作者:石川
摘要:本文解析協(xié)變量的高維數(shù)時代,實證資產(chǎn)定價研究中機(jī)器學(xué)習(xí)的機(jī)遇和挑戰(zhàn)。
0 前文回顧
本系列的前文分析表明,當(dāng)面對時序和截面收益率數(shù)據(jù)量有限的情況,同時存在大量具有預(yù)測信息的協(xié)變量,并且這些協(xié)變量之間可能通過交互作用對收益率產(chǎn)生非線性影響時,傳統(tǒng)的計量經(jīng)濟(jì)學(xué)方法(如 OLS)往往顯得低效甚至難以適用。
在這種背景下,機(jī)器學(xué)習(xí)算法憑借其強大的建模能力,或許不再是錦上添花,而是成為解決問題的關(guān)鍵工具。作為本系列最后一篇,本文首先針對前文有關(guān)測試資產(chǎn)選擇和模型設(shè)定偏誤的問題給出機(jī)器學(xué)習(xí)模型的解決辦法,之后會從模型復(fù)雜度和泛化性能、漸近分布以及可解釋性幾個角度進(jìn)一步闡釋機(jī)器學(xué)習(xí)在實證資產(chǎn)定價中的機(jī)會和挑戰(zhàn)。
1 測試資產(chǎn)與機(jī)器學(xué)習(xí)
由前面的論述可知,測試資產(chǎn)一方面應(yīng)該包含關(guān)于資產(chǎn)預(yù)期收益率截面差異的足夠信息,另一方面則應(yīng)該包含較低的噪聲以防止估計誤差或者定價模型被過度拒絕。而傳統(tǒng)方法中無論是使用變量進(jìn)行雙重排序還是直接使用個股都難以滿足上述條件。在這方面,Bryzgalova et al. (forthcoming)?結(jié)合了機(jī)器學(xué)習(xí)中的決策樹和資產(chǎn)定價理論,構(gòu)造了資產(chǎn)定價樹,取得了一定的進(jìn)展。
首先,該文使用大量協(xié)變量作為決策樹的劃分依據(jù)。假設(shè)共有 K 個協(xié)變量,則一棵深度為 d 的決策樹共有潛在 K^d 種構(gòu)造順序,且每次劃分的節(jié)點都是一個由滿足該劃分的股票而構(gòu)成的投資組合。如果考慮所有可能的劃分產(chǎn)生的全部投資組合,無疑會陷入維數(shù)災(zāi)難。為此,該方法的第二步是使用剪枝(pruning)。剪枝的目的是為了留下對資產(chǎn)定價而言最重要的節(jié)點(投資組合)。
由于目標(biāo)是構(gòu)造測試資產(chǎn),因此剪枝的目標(biāo)是使留下的節(jié)點所構(gòu)成的 MVE 組合的夏普比率最大。該目標(biāo)在數(shù)學(xué)上可以通過估計 MVE 組合中每個節(jié)點的權(quán)重實現(xiàn)。為了防止樣本內(nèi)過擬合,該文在損失函數(shù)中同時加入了 L1 和 L2 罰項。二者可以有效控制模型復(fù)雜度,且 L1 罰項能夠施加稀疏性約束。實證結(jié)果表明,基于上述資產(chǎn)定價樹所構(gòu)造的測試資產(chǎn)所涵蓋的截面信息遠(yuǎn)遠(yuǎn)超過傳統(tǒng)?portfolio sort。
2 模型設(shè)誤與機(jī)器學(xué)習(xí)
為了避免遺漏變量問題,F(xiàn)eng et al. (2020) 提出了兩步 LASSO 回歸來識別真實的因子。第一步 LASSO 首先從眾多候選因子中找出能夠解釋資產(chǎn)預(yù)期收益率的因子。之后,在第二步 LASSO 中,該文通過考察“已選出因子和資產(chǎn)的協(xié)方差”以及“剩余因子和資產(chǎn)的協(xié)方差”之間的相關(guān)性,再選出額外的因子。第二步有效地避免了第一步存在模型設(shè)定偏誤導(dǎo)致遺漏變量的問題。
遺漏變量問題可導(dǎo)致因子溢價估計有偏。因此,如何準(zhǔn)確的估計因子溢價以及在這個基礎(chǔ)上檢驗異象就是非常重要的問題。由于真實的因子結(jié)構(gòu)是未知的,因此學(xué)術(shù)界把研究的目光移到了隱性因子模型上。在隱性因子模型框架下,任何一個可觀測因子的風(fēng)險溢價等于它對隱性因子的暴露乘以隱性因子的溢價。在這個性質(zhì)下,Giglio and Xiu (2021)?利用主成分分析(PCA),通過隱性因子模型估計可觀測因子的溢價。
計量經(jīng)濟(jì)學(xué)中的重要性質(zhì)使得 PCA 在這方面大有可為。首先,利用線性因子模型的旋轉(zhuǎn)不變性,即便只能觀察到隱性因子的某個滿秩變換,也不妨礙估計可觀測因子的溢價。其次,只要隱性因子足夠強,PCA 總是可以復(fù)原對因子空間的某個旋轉(zhuǎn)變換。通過這兩個性質(zhì),該文準(zhǔn)確地估計了可觀測因子的溢價。
3 模型復(fù)雜度和泛化性能
機(jī)器學(xué)習(xí)屬于應(yīng)對維數(shù)災(zāi)難的密集建模技術(shù),為解決高維預(yù)測問題提供了強大的工具庫。機(jī)器學(xué)習(xí)模型能夠通過高維協(xié)變量揭示出錯綜復(fù)雜的數(shù)據(jù)關(guān)系,捕捉那些在傳統(tǒng)統(tǒng)計方法中可能被忽視的模式。例如,金融市場中,通過綜合大量的經(jīng)濟(jì)指標(biāo)、公司特征、市場數(shù)據(jù)以及非結(jié)構(gòu)化信息,機(jī)器學(xué)習(xí)模型可以識別出影響資產(chǎn)價格的細(xì)微變化和深層次因素。這種深入分析能力為理解市場動態(tài)和預(yù)測未來趨勢提供了新的視角。從這個意義上說,相比于傳統(tǒng)方法,機(jī)器學(xué)習(xí)的靈活性使它在近似復(fù)雜、非線性或高維數(shù)據(jù)生成過程(Data Generating Process,DGP)方面具有潛在優(yōu)勢。
然而,對 DGP 的更好近似并非沒有代價。如果使用不當(dāng),機(jī)器學(xué)習(xí)模型可能會過于靈活,導(dǎo)致過擬合。為了避免這種情況,引入正則化來控制模型的復(fù)雜度非常必要。正則化有助于提升模型在樣本外的泛化能力。當(dāng)模型復(fù)雜度很低時,模型的方差很小但偏差很高;當(dāng)模型復(fù)雜度高時,模型的偏差降低但方差增大。二者共同作用導(dǎo)致泛化誤差隨模型復(fù)雜度呈現(xiàn)人們熟悉的 U 型,即模型太簡單或太復(fù)雜都不好,而最小化泛化誤差的復(fù)雜度位于一個折中的位置,微妙地平衡了偏差和方差。
上述傳統(tǒng)的模型復(fù)雜度與泛化性能的關(guān)系是以協(xié)變量的個數(shù)小于樣本個數(shù)為前提。然而,近年來機(jī)器學(xué)習(xí)領(lǐng)域的諸多突破成果表明,在其他應(yīng)用中取得成功的深度神經(jīng)網(wǎng)絡(luò)中,模型參數(shù)的個數(shù)超過樣本個數(shù)并不罕見,但它們卻有著很好的泛化性能。這個現(xiàn)象促使這人們搞清楚背后的原因。當(dāng)協(xié)變量個數(shù)超過樣本個數(shù)時,模型能夠完美的擬合訓(xùn)練集樣本。
對這樣一個模型來說,人們以往的認(rèn)知是,它在樣本外的泛化誤差一定會“爆炸”,因為它過度擬合了訓(xùn)練集數(shù)據(jù)的全部噪聲。然而,Belkin et al. (2019) 指出,在施加足夠正則化約束的前提下,模型復(fù)雜度超過樣本個數(shù)之后,泛化誤差并沒有“爆炸”,而是隨著復(fù)雜度的提升下降。因此,如果我們以樣本個數(shù)表示模型復(fù)雜度,并以它為界限觀察泛化誤差在其左右的曲線,會發(fā)現(xiàn)在其左側(cè)(即經(jīng)典 U 型區(qū)域),泛化誤差會隨復(fù)雜度的下降而下降(這是因為模型會逐漸接近傳統(tǒng)區(qū)域內(nèi)實現(xiàn)偏差-方差權(quán)衡的那個點);而在其右側(cè)(即過度參數(shù)化區(qū)域),泛化誤差會隨模型復(fù)雜度的上升而下降(下圖)。Belkin et al. (2019) 把這個現(xiàn)象稱為雙側(cè)下降(double descent)。
從直覺上解讀上述現(xiàn)象,在過度參數(shù)化區(qū)域,由于協(xié)變量個數(shù)超過樣本個數(shù)的時候,因此訓(xùn)練集的解是不唯一的。然而,在必要強度的正則化作用下,最優(yōu)的解實現(xiàn)了方差最小。隨著協(xié)變量越來越多(即模型越來越復(fù)雜),最優(yōu)解的方差總能單調(diào)下降。再來看偏差,由于所有模型都是真實 DGP 的某個誤設(shè)版本,因此當(dāng)變量個數(shù)超過樣本個數(shù)時,偏差也會在一定范圍內(nèi)隨著復(fù)雜度而下降。最終,二者的綜合結(jié)果是在過度參數(shù)化區(qū)域,模型的泛化誤差隨復(fù)雜度的上升而下降。
我們還可以換個角度來理解傳統(tǒng)的偏差-方差的權(quán)衡。當(dāng)模型簡單時,它的參數(shù)很少因此能夠有效規(guī)避過擬合,但卻無法很好地近似 DGP;當(dāng)模型復(fù)雜時,它的參數(shù)很多甚至過度參數(shù)化,但也更有可能近似 DGP。因此偏差-方差權(quán)衡也可以被理解為更好地近似 DGP 與防止過度參數(shù)化之間的權(quán)衡。當(dāng)近似 DGP 帶來的好處超過過度參數(shù)化帶來的統(tǒng)計成本時,提升模型的復(fù)雜度就是有益的。
對于實證資產(chǎn)定價而言,真實的 DGP 是十分復(fù)雜的,協(xié)變量也是高維的。那么上述機(jī)器學(xué)習(xí)領(lǐng)域的最新發(fā)現(xiàn)對預(yù)測資產(chǎn)收益率又有什么啟示呢?過度參數(shù)化的復(fù)雜模型是否也能夠被應(yīng)用于實證資產(chǎn)定價之中呢? Bryan Kelly 一系列以“復(fù)雜度美德”為題目的論文對此做了初步的探討,認(rèn)為在實證資產(chǎn)定價中提升模型復(fù)雜度能夠帶來樣本外的好處。例如,Kelly et al. (2024) 使用神經(jīng)網(wǎng)絡(luò)研究了美股市場的擇時問題;Didisheim et al. (2023) 則將“復(fù)雜度美德”擴(kuò)展到截面定價模型。
4 漸近分布
估計量的漸近分布描述了該估計量在樣本大小趨向無窮時的分布特性。它為人們提供了一種評估估計量長期行為的方法,幫助人們了解其在大樣本下的性質(zhì)。對于機(jī)器學(xué)習(xí)模型,雖然其關(guān)注的重點是預(yù)測而非參數(shù)估計,但了解模型參數(shù)的漸近特性仍然是非常有益的,特別是對實證資產(chǎn)定價而言。
例如,考慮一個簡單的線性回歸模型。在傳統(tǒng)的統(tǒng)計學(xué)中,我們知道其系數(shù)估計的漸近正態(tài)性。這意味著,隨著樣本大小的增加,這些系數(shù)的估計會圍繞真實值波動,并服從正態(tài)分布。在機(jī)器學(xué)習(xí)的背景下,尤其是當(dāng)我們使用更復(fù)雜的模型時,這種漸近性質(zhì)可能不再成立,或者可能更難以推導(dǎo)。每個機(jī)器學(xué)習(xí)模型都有其特定的參數(shù)。這些參數(shù)通常是通過優(yōu)化算法從數(shù)據(jù)中學(xué)習(xí)得到的。但隨著數(shù)據(jù)量的增加,它們的取值會如何變化?是會收斂到某個固定值,還是會不斷波動?這就是漸近分布回答的問題。
考慮到金融市場的噪聲和不確定性,機(jī)器學(xué)習(xí)模型的漸近特性對于評估模型的穩(wěn)定性和過擬合風(fēng)險尤為重要。一個具有良好漸近特性的模型更可能具備良好的泛化性能。Athey and Imbens (2019) 指出,即使在復(fù)雜的機(jī)器學(xué)習(xí)模型中,理解和分析漸近行為仍然是確保模型穩(wěn)健性的關(guān)鍵步驟。通過分析模型在大樣本下的行為,研究人員可以更好地理解模型的收斂性和穩(wěn)定性。
5 可解釋性
關(guān)于金融領(lǐng)域中的機(jī)器學(xué)習(xí),一個常見的誤解是認(rèn)為它只重視預(yù)測準(zhǔn)確性而忽視可解釋性,常被視為一種“黑箱”方法。然而,這種觀點過于簡化了機(jī)器學(xué)習(xí)在實證研究中的角色,特別是在資產(chǎn)定價的背景下。盡管機(jī)器學(xué)習(xí)模型確實復(fù)雜,但已有大量努力確保這些模型保持可解釋性,與傳統(tǒng)學(xué)術(shù)界對理解預(yù)測背后“為何”和“如何”的強調(diào)相一致。
在傳統(tǒng)的多因子模型中,可解釋性一直是基石。例如,F(xiàn)ama-French 五因子模型是基于股息折現(xiàn)模型,而 Hou-Xue-Zhang 模型則基于 q 理論。同樣,對異常現(xiàn)象的研究通常將其分類為基于風(fēng)險或由于錯誤定價,提供了其存在的明確解釋。當(dāng)機(jī)器學(xué)習(xí)模型進(jìn)入這一領(lǐng)域時,向復(fù)雜算法的轉(zhuǎn)變引發(fā)了對失去這種可解釋性的擔(dān)憂。然而,機(jī)器學(xué)習(xí)并非與可解釋性本質(zhì)上對立。
對于線性機(jī)器學(xué)習(xí)模型來說,可解釋性相對簡單。例如,Kozak et al. (2018, 2020) 使用主成分分析(PCA)從投資組合中提取主成分,發(fā)現(xiàn)前兩個成分完全對應(yīng)于著名的規(guī)模(SMB)和價值(HML)因子。同樣,Kelly et al. (2019) 提出了條件 PCA(即 Instrumented PCA)。雖然其數(shù)學(xué)復(fù)雜,但本質(zhì)上是從橫截面回歸中得出的管理投資組合的線性組合。這些例子表明,即使在機(jī)器學(xué)習(xí)框架內(nèi),線性模型仍然保留了根植于回歸分析和投資組合排序法中的可解釋性。
對于非線性模型來說,可解釋性更具挑戰(zhàn)性,但仍然是學(xué)術(shù)研究的重點。例如,Gu et al. (2020) 使用 permutation importance 來識別在預(yù)測中最重要的協(xié)變量。其研究結(jié)果顯示,最重要的協(xié)變量——動量、流動性、風(fēng)險和基本面變量——與數(shù)十年的實證資產(chǎn)定價研究一致。同樣,Chen et al. (2024)?通過分析隨機(jī)折現(xiàn)因子(SDF)權(quán)重對協(xié)變量的敏感性來評估模型的可解釋性,識別出交易摩擦、價值、無形資產(chǎn)、盈利能力以及投資等最重要的協(xié)變量。
其他創(chuàng)新方法進(jìn)一步突出了機(jī)器學(xué)習(xí)模型的可解釋性。例如,Kozak (2020)?應(yīng)用核技巧將協(xié)變量映射到更高維空間,使得 PCA 能夠在保持計算效率的同時揭示出關(guān)鍵的協(xié)變量。通過將結(jié)果映射回原始協(xié)變量,該文仍然可以識別出最重要的解釋變量。此外,Avramov et al. (2023) 展示了觀察不同協(xié)變量中被選中股票的共同特征可以揭示變量的重要性,加強了機(jī)器學(xué)習(xí)洞察與傳統(tǒng)資產(chǎn)定價原則之間的一致性。
這些例子強調(diào)了機(jī)器學(xué)習(xí)模型不僅能夠提高預(yù)測準(zhǔn)確性,還能揭示與既有實證發(fā)現(xiàn)一致的關(guān)鍵解釋變量。最后,我們想強調(diào)的是,追求機(jī)器學(xué)習(xí)中的可解釋性并非事后之舉;相反,這是在復(fù)雜算法與資產(chǎn)定價基本原則之間架起橋梁的積極探索。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,其預(yù)測能力和可解釋性能夠確保其在金融研究中發(fā)揮更大的作用。
6 What's Next
2020 年,RFS 推出了 New Methods in the Cross-Section 的專刊,標(biāo)志著實證資產(chǎn)定價從計量經(jīng)濟(jì)學(xué)向機(jī)器學(xué)習(xí)的轉(zhuǎn)變,而它背后所折射出來的,更是從 sparse-modeling 向 dense-modeling 的轉(zhuǎn)變。
站在當(dāng)下,再次回顧 Breiman 提出的兩種文化所帶給我們的啟發(fā)。在面對實際問題時,我們不應(yīng)該盲目地堅持某一種文化,而應(yīng)該根據(jù)問題的性質(zhì)和數(shù)據(jù)的特點來選擇最合適的方法。當(dāng)然,對實證資產(chǎn)定價而言,問題絕非像使用機(jī)器學(xué)習(xí)取代計量經(jīng)濟(jì)學(xué)那么簡單,且金融數(shù)據(jù)低信噪比、不滿足平穩(wěn)性等特征也決定了現(xiàn)成的機(jī)器學(xué)習(xí)算法也并非即插即用。如何在實證研究中成功應(yīng)用機(jī)器學(xué)習(xí),才是必須回答且必須回答好的問題。
感謝各位小伙伴看到這里。本系列寫到此就暫時告一段落了。而關(guān)于如何回答好這個問題,今后自會有答案的。
Stay tuned.
參考文獻(xiàn)
Athey, S. and G. W. Imbens (2019). Machine learning methods that economists should know about.?Annual Review of Economics 11, 685-725.
Avramov, D., S. Cheng, and L. Metzker (2023). Machine learning vs. economic restrictions: Evidence from stock return predictability.?Management Science 69(5), 2587-2619.
Belkin, M., D. Hsu, S. Ma, and S. Mandal (2019). Reconciling modern machine-learning practice and the classical bias–variance trade-off.?PNAS 116(32), 15849-15854.
Bryzgalova, S., M. Pelger, and J. Zhu (forthcoming). Forest through the trees: Building cross sections of asset returns.?Journal of Finance.
Chen, L., M. Pelger, and J. Zhu (2024). Deep learning in asset pricing.?Management Science 70(2), 714-750.
Didisheim, A., S. Ke, B. T. Kelly, and S. Malamud (2023). Complexity in factor pricing models. Working Paper.
Feng, G., S. Giglio, and D. Xiu (2020). Taming the factor zoo: A test of new factors.?Journal of Finance 75(3), 1327-1370.
Giglio, S. and D. Xiu (2021). Asset pricing with omitted factors.?Journal of Political Economy 129(7), 1947-1990.
Gu, S., B. T. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning.?Review of Financial Studies 33(5), 2223-2273.
Kelly, B. T., S. Malamud, and K. Zhou (2024). The virtue of complexity in return prediction.?Journal of Finance 79(1), 459-503.
Kelly, B. T., S. Pruitt, and Y. Su (2019). Characteristics are covariances: A unified model of risk and return.?Journal of Financial Economics 134(3), 501-524.
Kozak, S. (2020). Kernel trick for the cross-section. Working paper.
Kozak, S., S. Nagel, and S. Santosh (2018). Interpreting factor models.?Journal of Finance 73(3), 1183-1223.
Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section.?Journal of Financial Economics 135(2), 271-292.
免責(zé)聲明:入市有風(fēng)險,投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。