數(shù)據(jù)驅(qū)動(dòng)的投資思想史
發(fā)布時(shí)間:2023-01-28 | 來源: 川總寫量化
作者:石川
摘要:推薦友王聞老師關(guān)于另類數(shù)據(jù)的新書姊妹篇《另類數(shù)據(jù):理論與實(shí)踐》與《另類數(shù)據(jù):投資新動(dòng)力》。
0
數(shù)據(jù),無論它被賦予“傳統(tǒng)”還是“另類”的標(biāo)簽,是投資中最重要的組成部分。沒有數(shù)據(jù)、沒有高質(zhì)量的數(shù)據(jù),再厲害的模型、再高效的算法也是徒勞。
在 CRSP 被建立之前,華爾街充斥著某某一夜暴富的傳說;而當(dāng) CRSP 出現(xiàn)之后,對(duì)股市的定量研究走上了臺(tái)面,Eugene Fama 的有效市場(chǎng)假說成為了范式。在 Compustat 被推出之前,人們對(duì)基本面數(shù)據(jù)和股票價(jià)格是否有任何聯(lián)系持懷疑態(tài)度;而應(yīng)用 Compustat 數(shù)據(jù),Ball and Brown 通過 event study 證實(shí)公司盈余和股價(jià)之間的密切關(guān)聯(lián)。從此,會(huì)計(jì)學(xué)也體面地從研究記賬轉(zhuǎn)向研究財(cái)務(wù)信息如何影響資本市場(chǎng)。在 Odean 數(shù)據(jù)集(retail investor 交易賬戶數(shù)據(jù))普及之前,人們將 CAPM 或 Fama-French 三因子模型下的異象解釋為數(shù)據(jù)挖掘(data snooping)或風(fēng)險(xiǎn)補(bǔ)償?shù)漠a(chǎn)物;而以 Odean 數(shù)據(jù)集為研究目標(biāo)的行為金融學(xué)的發(fā)展為各種因子和異象背后的成因提供了新的依據(jù)。在 I/B/E/S 分析師一致預(yù)期數(shù)據(jù)被完善之前,學(xué)界和業(yè)界研究股票 cross-section 的協(xié)變量焦點(diǎn)聚焦于來自基本面(比如 value)和技術(shù)面(比如 momentum);而 I/B/E/S Estimates 數(shù)據(jù)極大拓展了協(xié)變量的范疇,為資產(chǎn)定價(jià)和量化投資提供了不可或缺的增量信息。
……
我們可以把上面的排比段一直延續(xù)下去,而不斷涌現(xiàn)的數(shù)據(jù)集也向人們明確地傳達(dá)出兩個(gè)信號(hào):(1)無論是 CRSP、Compustat、Odean 還是 I/B/E/S 數(shù)據(jù)集,在它們被提出之初,對(duì)于彼時(shí)投資者而言,均是全新的存在。雖然如今它們?cè)缫鸭矣鲬魰?,但在?dāng)初依然可以被視作不折不扣的“另類”數(shù)據(jù)。(2)新數(shù)據(jù)以及隨之而來的新的分析方法的出現(xiàn),不斷重新塑造并推動(dòng)了人們對(duì)于金融市場(chǎng)的理解。
人們對(duì)于新數(shù)據(jù)的包容性接受和創(chuàng)造性使用,恰恰是一部由數(shù)據(jù)驅(qū)動(dòng)的投資思想史。站在當(dāng)下,面對(duì)數(shù)據(jù)在過往投資中發(fā)揮的作用,似乎怎么強(qiáng)調(diào)數(shù)據(jù)的重要性都不過分;而展望未來,我們又應(yīng)該怎樣以客觀的眼光和科學(xué)的手段面對(duì)和使用新數(shù)據(jù)呢?為了回答這個(gè)問題,以數(shù)據(jù)的視角回顧一下投資方法論創(chuàng)新的發(fā)展,并以此為起點(diǎn)更好地迎接未來新數(shù)據(jù)帶來的想法創(chuàng)新和風(fēng)險(xiǎn)挑戰(zhàn)似乎成為了一個(gè)必然之舉。
這也正是今天我想鄭重推薦好友王聞老師和他的合作者孫佰清老師關(guān)于另類數(shù)據(jù)的新書姊妹篇《另類數(shù)據(jù):理論與實(shí)踐》與《另類數(shù)據(jù):投資新動(dòng)力》的初衷。不過在那之前,先讓我們跟隨王老師的精彩描述,回顧一下數(shù)據(jù)驅(qū)動(dòng)的投資思想史。我可以摸著良心說,這段回顧精彩紛呈!(以下小結(jié)節(jié)選自《另類數(shù)據(jù):投資新動(dòng)力》尾聲,有刪減,參考文獻(xiàn)有更新。另外我在適當(dāng)?shù)牡胤剑尤肓?[川總寫量化]/[因子動(dòng)物園] 公眾號(hào)之前創(chuàng)作的相關(guān)內(nèi)容的鏈接,供讀者參考。)
1
學(xué)術(shù)界通過數(shù)據(jù)來分析資本市場(chǎng),可以追溯到 Alfred Cowles (1933)。Cowles 是《計(jì)量經(jīng)濟(jì)學(xué)》這本全球經(jīng)濟(jì)學(xué)頂刊的創(chuàng)辦人之一,他在這本期刊的第一卷上發(fā)表了題為《股市預(yù)測(cè)者能夠預(yù)測(cè)嗎?》的文章。在這篇文章中,Cowles 搜集了金融機(jī)構(gòu)推薦的股票、保險(xiǎn)公司的股票交易記錄、《華爾街日?qǐng)?bào)》中的社論以及金融機(jī)構(gòu)的投資通訊等四類“股市預(yù)測(cè)者”,通過那個(gè)時(shí)代能夠理解的數(shù)據(jù)分析工具,對(duì)文章標(biāo)題的問題給了簡(jiǎn)單明了的回答:“這是值得懷疑的”。十年之后,Cowles (1944) 在《計(jì)量經(jīng)濟(jì)學(xué)》發(fā)表的一項(xiàng)新的研究,其中使用了 15 年內(nèi)將近 7000 個(gè)預(yù)測(cè)數(shù)據(jù)。結(jié)果再次表明“沒有任何證據(jù)能夠證實(shí),人們能夠成功預(yù)測(cè)股市的未來走勢(shì)”。
時(shí)間來到二戰(zhàn)之后,倫敦經(jīng)濟(jì)學(xué)院的統(tǒng)計(jì)學(xué)教授 Maurice Kendall (1953) 在《皇家統(tǒng)計(jì)學(xué)會(huì)雜志》這本歷史最悠久的統(tǒng)計(jì)學(xué)雜志上發(fā)表了《經(jīng)濟(jì)的時(shí)間序列分析》,在這篇文章中,Kendall 研究了股票市場(chǎng)和商品期貨市場(chǎng)的價(jià)格數(shù)據(jù),結(jié)果表明資產(chǎn)價(jià)格“序列的數(shù)字就好像是在‘漫游’”。Cowles-Kendall 的分析構(gòu)成了資產(chǎn)價(jià)格隨機(jī)游走假說的最初證據(jù)。按照古典經(jīng)濟(jì)學(xué)思想,價(jià)格是由供需決定的,在此基礎(chǔ)上通過蛛網(wǎng)模型刻畫的價(jià)格動(dòng)態(tài)變化就會(huì)有著明確的變化模式。然而 Cowles-Kendall 的數(shù)據(jù)分析結(jié)果并沒有支持這種價(jià)格有規(guī)律變動(dòng)的假說。
1960 年,芝加哥大學(xué)的 James Lorie 和 Lawrence Fisher 在美林證券的支持下,創(chuàng)立了證券價(jià)格研究中心(CRSP)。它與其說是研究中心,不如說是一個(gè)歷史股價(jià)的數(shù)據(jù)庫。一開始它顯然是那個(gè)時(shí)代的“另類”數(shù)據(jù)集,這并不妨礙它后來成長(zhǎng)為全球金融市場(chǎng)數(shù)據(jù)研究中最常使用的數(shù)據(jù)庫。CRSP 的出現(xiàn)激發(fā)了更多學(xué)者開始關(guān)注金融市場(chǎng)的價(jià)格,很快金融市場(chǎng)的研究摒棄了古典經(jīng)濟(jì)學(xué)的價(jià)格理論,從經(jīng)濟(jì)學(xué)的邊緣走到了經(jīng)濟(jì)學(xué)的中心舞臺(tái)。
不久之后的 1964 年,麻省理工學(xué)院的教授 Paul Cootner 把相關(guān)文章匯編成冊(cè),由此產(chǎn)生了當(dāng)時(shí)影響深遠(yuǎn)的第一本金融實(shí)證分析論文集:《股票價(jià)格的隨機(jī)特征》。在應(yīng)用 CRSP 數(shù)據(jù)庫方面,芝加哥大學(xué)教授、2013 年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主?Eugene Fama?絕對(duì)是關(guān)鍵性的人物。面對(duì)隨機(jī)游走的實(shí)證證據(jù),作為博士剛畢業(yè)不久的年輕人,F(xiàn)ama 在 1965 年的《商業(yè)雜志》上全文發(fā)表了其博士論文《股市價(jià)格行為》。這篇近 70 多頁的長(zhǎng)文,一方面應(yīng)用各種當(dāng)時(shí)的統(tǒng)計(jì)技術(shù)分析價(jià)格,另一方面也對(duì)資產(chǎn)價(jià)格的隨機(jī)特征給出了直覺性的經(jīng)濟(jì)解釋:影響資產(chǎn)價(jià)格的關(guān)鍵是投資者的預(yù)期,而影響預(yù)期的則是信息,因?yàn)樾畔⑹且圆豢深A(yù)見的方式到達(dá)市場(chǎng),所以價(jià)格是隨機(jī)變動(dòng)的。
這一簡(jiǎn)單而又深刻的論述把預(yù)期、信息這些關(guān)鍵概念引入到資產(chǎn)價(jià)格分析中,打破了古典經(jīng)濟(jì)學(xué)圍繞供需論述價(jià)格形成機(jī)制的思想梏桎。幾年之后,F(xiàn)ama (1970) 把 1965 年文章的思想總結(jié)為“一個(gè)價(jià)格始終‘充分反映’可得信息的市場(chǎng)被稱為是‘有效的’”。至此,金融經(jīng)濟(jì)學(xué)領(lǐng)域中經(jīng)典的“有效市場(chǎng)假說”問世了。后來這個(gè)思想超出了金融學(xué)的范疇,延伸到社會(huì)科學(xué)的其他領(lǐng)域。
在有效市場(chǎng)假說形成的過程中,除了針對(duì)資產(chǎn)價(jià)格自身時(shí)間序列分析得到的隨機(jī)波動(dòng)特征之外,另外一個(gè)重要脈線是事件研究(event study),也就是分析特定公司事件對(duì)股價(jià)的影響。顯然,事件研究需要使用能夠反映公司基本面的財(cái)報(bào)數(shù)據(jù),以及各種公司公告的資料。在這方面最為重要的數(shù)據(jù)庫是標(biāo)準(zhǔn)普爾這家金融服務(wù)商提供的 Compustat。
事件研究的起點(diǎn)(之一)是芝加哥大學(xué)的 Ray Ball 和西澳大學(xué)的 Phillip Brown 在 1968 年做的研究,他們應(yīng)用 Compustat 數(shù)據(jù)庫,分析了公司盈余對(duì)股價(jià)的影響,結(jié)果表明當(dāng)公司發(fā)布正向盈余時(shí),股價(jià)就會(huì)迅速做出正向反應(yīng),反之亦然。這個(gè)發(fā)現(xiàn)進(jìn)一步支持了資本市場(chǎng)是信息有效市場(chǎng)的假說。在當(dāng)時(shí)信息經(jīng)濟(jì)學(xué)崛起的大背景下,Ball-Brown 的研究讓會(huì)計(jì)轉(zhuǎn)變成為一門研究財(cái)務(wù)信息是如何影響資本市場(chǎng)的學(xué)問。
有效市場(chǎng)假說的重點(diǎn)是資產(chǎn)價(jià)格的動(dòng)態(tài)變化,那么資產(chǎn)價(jià)格在截面上(cross-section)的差異如何理解呢?上個(gè)世紀(jì)六十年代,諾獎(jiǎng)得主 William Sharpe 和另外幾位學(xué)者先后獨(dú)立創(chuàng)立的資本資產(chǎn)定價(jià)模型(CAPM)為其奠定了理論基礎(chǔ)。CAPM 模型把資產(chǎn)(超額)預(yù)期收益率表示為市場(chǎng)風(fēng)險(xiǎn)溢價(jià)因子的線性函數(shù),因?yàn)橹挥幸粋€(gè)因子,所以這個(gè)模型也被稱為單因子模型。進(jìn)入到 70 年代后,諾獎(jiǎng)得主 Robert Merton 以及另外一位(川總帶感情色彩地插一句:理應(yīng)也成為諾獎(jiǎng)得主的)金融研究大家 Stephen Ross 分別從均衡和套利這兩個(gè)核心思想出發(fā),創(chuàng)立了時(shí)跨資本資產(chǎn)定價(jià)模型(ICAPM)和套利定價(jià)理論(APT),這兩個(gè)模型都把資產(chǎn)預(yù)期收益率表示為多個(gè)因子的函數(shù),因此也被稱為多因子模型。
這些因子模型在數(shù)據(jù)中的表現(xiàn)如何呢?在這方面,我們不得不再次談及 Fama 的貢獻(xiàn)。1973 年,F(xiàn)ama 和 James MacBeth 通過應(yīng)用 CRSP 數(shù)據(jù),在實(shí)證分析中得到了支持 CAPM 模型的證據(jù)。與此同時(shí),這篇論文創(chuàng)立了以他們名字首字母命名的?Fama-MacBeth 回歸,后來也成為資產(chǎn)定價(jià)實(shí)證分析的經(jīng)典方法。
上個(gè)世紀(jì) 70 年代,金融學(xué)界建立起以有效市場(chǎng)假說和資本資產(chǎn)定價(jià)模型這兩個(gè)支柱為核心的標(biāo)準(zhǔn)范式,并且認(rèn)為這個(gè)范式是牢不可破的。但是很快,一些學(xué)者開始使用更新的數(shù)據(jù)以及更新的統(tǒng)計(jì)方法來講述不同的故事:他們發(fā)現(xiàn)了背離前述經(jīng)典范式的異常現(xiàn)象,簡(jiǎn)稱異象(anomalies)。
異象研究首先挑戰(zhàn)了 CAPM 模型,其中的代表性研究是來自加拿大馬克馬斯特大學(xué) Sanjoy Basu 和美國(guó)西北大學(xué)的 Rolf Banz。Basu (1977) 發(fā)現(xiàn)了市盈率這個(gè)指標(biāo)和股票平均收益率存在著 CAPM 模型不能解釋的負(fù)向關(guān)系,后來學(xué)者也發(fā)現(xiàn)了其他一些市場(chǎng)價(jià)格和會(huì)計(jì)指標(biāo)的比率也有類似效應(yīng),它們被統(tǒng)稱為價(jià)值效應(yīng);而 Ban (1981) 則發(fā)現(xiàn)以股票市值度量的公司規(guī)模要比股票貝塔更能解釋收益率的截面差異,由此產(chǎn)生了“規(guī)模效應(yīng)”。
另一方面,就資產(chǎn)價(jià)格的時(shí)間序列來說,其隨機(jī)游走的性質(zhì)也受到挑戰(zhàn),這方面研究的代表人物是華人學(xué)者、現(xiàn)任麻省理工學(xué)院教授羅聞全(Andrew Lo),他和當(dāng)時(shí)在沃頓商學(xué)院的合作者 Craig MacKinlay 合作發(fā)表了一系列的文章,用全新的統(tǒng)計(jì)方法研究股票價(jià)格的時(shí)間序列,所有這些研究后來匯集成冊(cè),書名直指他們的核心結(jié)論:《非隨機(jī)游走降臨華爾街》。
從上個(gè)世紀(jì) 80 年代開始,整個(gè)資本市場(chǎng)的實(shí)證研究卷入到經(jīng)典范式和異象之間的爭(zhēng)論之中,就此產(chǎn)生了三大不同的學(xué)術(shù)流派。第一大流派可以看作是經(jīng)典范式的“忠誠(chéng)者”,這一流派的基本思想是市場(chǎng)是完美的,市場(chǎng)中的參與者也是完美的,我們?cè)跀?shù)據(jù)中發(fā)現(xiàn)的各種“異象”只是各種數(shù)據(jù)挖掘的結(jié)果,因此存在著各種偏差,比如幸存者偏差、選擇偏差等。第二大流派是經(jīng)典范式的“革新者”,這一派的學(xué)者堅(jiān)守新古典經(jīng)濟(jì)學(xué)的基本原則,認(rèn)為市場(chǎng)參與者是理性的,市場(chǎng)以及我們分析市場(chǎng)的方法中存在著問題,比如實(shí)證分析中沒有考慮到各種交易成本導(dǎo)致的市場(chǎng)摩擦,以及?Roll 批評(píng)(Roll's Critique)等。最后一派的學(xué)者可以看作是經(jīng)典范式的“異教徒”,他們一方面認(rèn)為市場(chǎng)是不完美的,但同時(shí)更進(jìn)一步,他們背棄經(jīng)濟(jì)學(xué)傳統(tǒng)的個(gè)人理性原則:借鑒心理學(xué)中發(fā)現(xiàn)的各種心理偏誤,他們把資本市場(chǎng)的異象和個(gè)人非理性行為聯(lián)系起來,由此產(chǎn)生了行為金融學(xué)(behavioral finance)。
這場(chǎng)大爭(zhēng)論涉及了諸多金融頂尖學(xué)者,其中光譜兩端的代表人物,經(jīng)典范式的支持者 Eugene Fama 和異教徒 Robert Shiller,以及廣義矩估計(jì)這種資產(chǎn)價(jià)格實(shí)證分析方法的發(fā)明人 Lars Hansen,一起因?yàn)椤霸谫Y產(chǎn)價(jià)格實(shí)證分析中的貢獻(xiàn)”而分享了 2013 年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。另外一位行為經(jīng)濟(jì)學(xué)的代表人物,同樣來自芝加哥大學(xué)的教授?Richard Thaler,也因?yàn)榘ㄐ袨榻鹑谠趦?nèi)的行為經(jīng)濟(jì)學(xué)貢獻(xiàn),而獨(dú)享 2017 年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。
作為有效市場(chǎng)假說的提出者和堅(jiān)定支持者,F(xiàn)ama 和他后期研究的主要合作者,來自達(dá)特茅斯學(xué)院的 Kenneth French,從 1992 年開始用一系列的文章,提出了基于數(shù)據(jù)驅(qū)動(dòng)并且可以融入規(guī)模效應(yīng)和價(jià)值效應(yīng)的三因子模型,用以解釋當(dāng)時(shí)市場(chǎng)中發(fā)現(xiàn)的各種異象(Fama and French 1992, 1993)。需要指出的是,F(xiàn)ama (1991) 在《有效資本市場(chǎng):第 II 集》中曾把多因子模型看作是一個(gè)“事后從數(shù)據(jù)中尋找能夠描述平均收益率截面變量的許可證”(這后來也被學(xué)界戲稱為使得挖因子變得合理化的“釣魚許可證”(fishing license))。
就此而言,F(xiàn)ama 看起來對(duì)使用多因子模型來刻畫資本市場(chǎng)持謹(jǐn)慎保守的態(tài)度;但是面對(duì)著來自數(shù)據(jù)的持續(xù)挑戰(zhàn),他自己很快修正了一些立場(chǎng),轉(zhuǎn)而使用多因子模型賦予的“釣魚許可證”去尋找可以解釋各種截面異象的因子以及因子模型了。在之后的多因子模型之爭(zhēng)中,F(xiàn)ama and French (2015) 在三因子模型基礎(chǔ)上加入了盈利因子和投資因子,從而把解釋收益率截面的因子模型擴(kuò)展到五因子模型。對(duì)于這場(chǎng)從上個(gè)世紀(jì) 80 年代開始持續(xù)至今的大辯論,感興趣的讀者可以參閱瑞典皇家科學(xué)院撰寫的諾獎(jiǎng)科學(xué)背景以及三位諾獎(jiǎng)得主的頒獎(jiǎng)演說。
在這場(chǎng)大辯論中,有一個(gè)另類數(shù)據(jù)特別有意義,這就是行為金融學(xué)者 Terrance Odean 使用的散戶投資者(retail investor)交易賬戶數(shù)據(jù),后來這個(gè)數(shù)據(jù)集也被稱為 Odean 數(shù)據(jù)集。這個(gè)數(shù)據(jù)集是由一個(gè)未署名的全美證券經(jīng)紀(jì)商提供的,通過這個(gè)數(shù)據(jù)集,Odean 和合作者進(jìn)行了一系列微觀層面上散戶投資者實(shí)際交易行為的研究,這些研究在總體意義上表明,散戶投資者會(huì)持有相對(duì)集中的投資組合,他們交易很活躍,投機(jī)性很強(qiáng),而這些行為會(huì)讓他們的投資績(jī)效不佳。另外,作為一個(gè)整體,散戶投資者會(huì)表現(xiàn)出系統(tǒng)性而非隨機(jī)性的交易行為。有關(guān)這些研究的綜述,讀者可以參考 Odean 和 Brad Barber 于 2013 年在《金融經(jīng)濟(jì)學(xué)手冊(cè)第二卷》上發(fā)表的綜述文章。
進(jìn)入到新世紀(jì)第二個(gè)十年,大數(shù)據(jù)、人工智能和機(jī)器學(xué)習(xí)、云計(jì)算和量子計(jì)算等新興科技帶來的數(shù)據(jù)、算法和算力全方位的突破,極大地影響和改變了我們?nèi)祟惿鐣?huì),當(dāng)然也包括金融市場(chǎng)的研究與實(shí)踐。面對(duì)技術(shù)突破,金融、財(cái)務(wù)和會(huì)計(jì)學(xué)的學(xué)術(shù)研究,不斷發(fā)現(xiàn)新的針對(duì)股票收益率的預(yù)測(cè)變量。來自芝加哥大學(xué)的 John Cochrane,在其 2011 年美國(guó)金融學(xué)會(huì)主席演講中,把不斷增加的收益率截面預(yù)測(cè)變量,稱為“因子動(dòng)物園”(factor zoo)。
金融大數(shù)據(jù)產(chǎn)生的“因子動(dòng)物園”給資產(chǎn)定價(jià)的實(shí)證研究帶來了極大的挑戰(zhàn)。首先,隨著因子動(dòng)物園的擴(kuò)充,一個(gè)顯而易見的統(tǒng)計(jì)挑戰(zhàn)是,在回歸方程中右側(cè)變量的個(gè)數(shù)在快速接近觀測(cè)值(以及觀測(cè)時(shí)段)的個(gè)數(shù),這樣傳統(tǒng)的低維統(tǒng)計(jì)分析便難以適用,我們需要使用更為復(fù)雜的高維統(tǒng)計(jì)分析方法(high/large dimensional statistics)。
其次,針對(duì)相同或者相近的數(shù)據(jù)集進(jìn)行多個(gè)不同因子的檢驗(yàn),會(huì)帶來虛假的統(tǒng)計(jì)顯著性,進(jìn)而造成?p-值操縱(p-hacking)和多重假設(shè)檢驗(yàn)(multiple hypothesis testing)問題。在這方面,杜克大學(xué) Campbell Havery 教授在 2017 年美國(guó)金融學(xué)會(huì)的主席演講上做了有力的說明,同時(shí)他還和華人學(xué)者劉巖撰寫了一系列文章探討這類資產(chǎn)定價(jià)實(shí)證研究中的問題。
第三,學(xué)者們實(shí)證研究中發(fā)現(xiàn)的預(yù)測(cè)變量和收益率之間的關(guān)系都是在事后從已觀測(cè)數(shù)據(jù)中得到的,因此存在著前瞻性偏差(look-ahead bias):站在事前,這些預(yù)測(cè)變量的預(yù)測(cè)效力以及它們和目標(biāo)變量之間的關(guān)系并不必然是已知的,對(duì)于現(xiàn)實(shí)世界的投資者而言更是如此,這正是倫敦經(jīng)濟(jì)學(xué)院的 Ian Martin 和芝加哥大學(xué)的 Stefan Nagel 兩位學(xué)者提出的投資者學(xué)習(xí)(investor learning)問題(Martin and Nagel 2022)。
大數(shù)據(jù)時(shí)代產(chǎn)生了眾多可能存在的預(yù)測(cè)指標(biāo),在它們形成的高維環(huán)境中,多重假設(shè)檢驗(yàn)和投資者學(xué)習(xí)的挑戰(zhàn)會(huì)變得更加嚴(yán)重。其核心問題是:資產(chǎn)定價(jià)的異象研究可能存在著“復(fù)制危機(jī)”(replication crises)。一方面,當(dāng)使用略微不同的數(shù)據(jù)集或者數(shù)據(jù)分析方法時(shí),異象是無法復(fù)制的,按照三位在美華人金融學(xué)者侯恪惟、薛辰和張櫓(Hou, Xue and Zhang 2020)?的說法:“大多數(shù)異象按照當(dāng)前可接受的標(biāo)準(zhǔn)而言無法成立”。另一方面,這些異象在真正的樣本外可能是不存在的,用 Harvey, Liu and Zhu (2016) 的說法:“大多數(shù)金融經(jīng)濟(jì)學(xué)中聲稱的研究發(fā)現(xiàn)很可能是錯(cuò)誤的”。
除了上面這些問題以外,來自法國(guó)和瑞士的三位金融學(xué)者 Dessaint, Foucault and Frésard (2022) 提出了另類數(shù)據(jù)存在著時(shí)長(zhǎng)效應(yīng)(horizon effect)問題。例如各種預(yù)測(cè)公司盈余這類財(cái)務(wù)指標(biāo)的另類數(shù)據(jù),考慮到這些另類數(shù)據(jù)主要涉及短期信息,所以 DFF 把它們稱為短期導(dǎo)向數(shù)據(jù)(short-term oriented data)。由此而來產(chǎn)生的題是:這類數(shù)據(jù)可以改進(jìn)財(cái)務(wù)預(yù)測(cè)嗎?通過使用賣方分析師的預(yù)測(cè)數(shù)據(jù),DFF 發(fā)現(xiàn)隨著另類數(shù)據(jù)逐漸進(jìn)入投資世界,分析師們針對(duì)短期(短于 1 年)財(cái)務(wù)指標(biāo)的預(yù)測(cè)質(zhì)量提升了,但是針對(duì)長(zhǎng)期(長(zhǎng)于 1 年)財(cái)務(wù)指標(biāo)的預(yù)測(cè)質(zhì)量則是下降了,并且兩者產(chǎn)生的凈效應(yīng)是模糊的。因?yàn)橘Y產(chǎn)價(jià)格是短期和長(zhǎng)期現(xiàn)金流折現(xiàn)的總和,這樣另類數(shù)據(jù)的價(jià)值也就存疑了。
在面對(duì)由另類數(shù)據(jù)帶來的高維環(huán)境中,應(yīng)該如何應(yīng)對(duì)上述學(xué)術(shù)研究的挑戰(zhàn)呢?學(xué)術(shù)界當(dāng)前給出的答案是使用各種機(jī)器學(xué)習(xí)模型加以應(yīng)對(duì)。芝加哥大學(xué)的華人學(xué)者顧詩顥、修大成以耶魯大學(xué)的 Bryan Kelly 在他們 2020 年刊發(fā)的經(jīng)典文章中,指出資產(chǎn)定價(jià)的機(jī)器學(xué)習(xí)方法可以用來描述:“(a) 用于統(tǒng)計(jì)預(yù)測(cè)的各種高維模型集合,(b) 用于模型選擇和緩解過擬合的正則化方法,以及 (c) 在大量可能存在的模型設(shè)定中有效的搜索算法”。近幾年來,應(yīng)用正則化、決策樹、集成方法、深度學(xué)習(xí)和各種不同主成分分析的機(jī)器學(xué)習(xí)研究層出不窮。
此外,耶魯大學(xué)的 Stefano Giglio 以及 Kelly 和修大成在 2022 年發(fā)表了一篇綜述論文,其中總結(jié)了當(dāng)前資產(chǎn)定價(jià)中機(jī)器學(xué)習(xí)方法的研究現(xiàn)狀,同時(shí)指出了未來的主要研究方向。不過,上述機(jī)器學(xué)習(xí)的方法并不能很好地解決前面提及的多重假設(shè)檢驗(yàn)和投資者學(xué)習(xí)。
考慮到這一點(diǎn),Nagel 教授在近期《高維世界評(píng)估市場(chǎng)有效性》的報(bào)告中提出使用實(shí)證貝葉斯方法(empirical Bayes method)來應(yīng)對(duì)這兩個(gè)難題。該方法通過金融數(shù)據(jù)來形成相關(guān)的先驗(yàn)信念,進(jìn)而分析資產(chǎn)定價(jià)的可預(yù)測(cè)性問題,比如,Chinco, Neuhierl and Weber (2021) 根據(jù)已觀測(cè)數(shù)據(jù)來確定某個(gè)預(yù)測(cè)指標(biāo)是異象的先驗(yàn)概率分布,他們把這個(gè)概率稱為異象基率(anomaly base rate)。此外,實(shí)證貝葉斯方法還可以用來處理 Giannone, Lenza and Primiceri (2021) 提出的稀疏性幻覺(illusion of sparsity)的問題。所謂稀疏性,是指在當(dāng)前主流的資產(chǎn)定價(jià)多因子模型中,通常只存在少數(shù)幾個(gè)定價(jià)因子。但是在高維環(huán)境下,稀疏性假設(shè)就不合理了,Bryzgalova, Huang and Julliard (2023)?采用貝葉斯方法支持了容許數(shù)十個(gè)因子的模型。最后,Jensen, Kelly and Pedersen (2022) 在最近一篇引發(fā)學(xué)界熱議的論文中,通過貝葉斯方法否定了“復(fù)制危機(jī)”的存在。從實(shí)際應(yīng)用的角度來看,考慮到另類數(shù)據(jù)當(dāng)下和將來帶來的大量潛在的預(yù)測(cè)指標(biāo),貝葉斯統(tǒng)計(jì)方法在高維環(huán)境的資產(chǎn)定價(jià)分析中會(huì)更有裨益。
從投資實(shí)務(wù)的角度來看,賺取風(fēng)險(xiǎn)調(diào)整后的超額收益是第一要?jiǎng)?wù),因此構(gòu)造可以獲利的投資組合是最終目的。在包括回歸、決策樹以及神經(jīng)網(wǎng)絡(luò)這些主流的有監(jiān)督學(xué)習(xí)方法中,我們首先要估計(jì)收益率截面。在這方面,或許更為直接的方法是使用強(qiáng)化學(xué)習(xí)(reinforcement learning)這種具有無監(jiān)督特點(diǎn)的學(xué)習(xí)機(jī)制,它可以處理投資決策和市場(chǎng)之間的交互關(guān)系,從而在不需要考慮資產(chǎn)定價(jià)的情況下給投資組合進(jìn)行建模。
此外(本段為川總所加),伴隨著協(xié)變量高維數(shù)問題的另一思潮是“越復(fù)雜越好”這一聽上去有些顛覆的觀點(diǎn)。2019 年,Belkin, et al. (2019) 發(fā)現(xiàn)了機(jī)器學(xué)習(xí)中樣本外誤差的“double descent”現(xiàn)象,引發(fā)了機(jī)器學(xué)習(xí)領(lǐng)域和理論統(tǒng)計(jì)領(lǐng)域的廣泛討論。該文指出當(dāng)變量個(gè)數(shù) > 樣本個(gè)數(shù)時(shí),樣本外總誤差并沒有“爆炸”,而是隨著復(fù)雜度的提升單調(diào)下降。這背后的直覺解釋是,模型越復(fù)雜,越是對(duì)真實(shí)世界的更優(yōu)近似,而這種近似帶來的好處在特定的情況下可以蓋過因?over-parameterization?造成的統(tǒng)計(jì)成本。在資產(chǎn)定價(jià)領(lǐng)域,Bryan Kelly 和他的合作者一起寫了一系列“復(fù)雜度美德”的論文(例如 Kelly, Malamud and Zhou 2022),從不同角度探討了探索提升復(fù)雜度對(duì)樣本外投資機(jī)會(huì)帶來的提升。當(dāng)然,即便我們認(rèn)同了“越復(fù)雜越好”,也依然要回答更重要的問題,即如何估計(jì)參數(shù),如何正則化,如何利用層出不窮的新數(shù)據(jù)來形成關(guān)于預(yù)期收益率更好的預(yù)測(cè)(即高維問題求解)。在這方面,通過貝葉斯框架將經(jīng)濟(jì)學(xué)推理注入機(jī)器學(xué)習(xí)算法是一條充滿前景的研究路徑(Nagel 2021)。
上面這些從象牙塔產(chǎn)生的由數(shù)據(jù)驅(qū)動(dòng)的投資思想,無論是從隨機(jī)游走到有效市場(chǎng)假說,從異象到行為金融,從三因子模型到因子動(dòng)物園,從回歸分析到機(jī)器學(xué)習(xí),都深刻地影響和改變了人們對(duì)金融市場(chǎng)運(yùn)行機(jī)制以及收益和風(fēng)險(xiǎn)之間權(quán)衡的理解。這些投資思想,催生了指數(shù)基金、市場(chǎng)中性、Smart Beta、因子投資、基本面量化等投資理念,讓金融市場(chǎng)成為社會(huì)大眾關(guān)注的焦點(diǎn),讓金融研究成為社會(huì)科學(xué)中的顯學(xué)。
同樣地,我們也應(yīng)該期待今天的另類數(shù)據(jù),能夠像今天的“數(shù)據(jù)”在過往歷史中那樣,發(fā)現(xiàn)前所未見的新規(guī)律,從而幫助我們?cè)趯?shí)務(wù)中形成新的投資理念,同時(shí)做出更好的投資決策。
2
溫故是為了知新。
回顧如今的“老數(shù)據(jù)”以及在歷史長(zhǎng)河中為了應(yīng)用它們而發(fā)展出來的各種投資方法論,是為了在未來更好地利用今天的“新數(shù)據(jù)”。
當(dāng)前,投資進(jìn)入了一個(gè)更加高度不確定性的時(shí)代。在這個(gè)時(shí)代,只有擁抱新數(shù)據(jù),并在這個(gè)過程中通過創(chuàng)新方法用好時(shí)下另類但在將來也注定普及的數(shù)據(jù),才能在細(xì)微之處把握金融市場(chǎng)跳動(dòng)的脈搏,才能在青萍之末感受風(fēng)的力度。
相信看到這里,數(shù)據(jù)的重要性對(duì)于你已經(jīng)不言而喻。而如果你也和我一樣期待開啟一段另類數(shù)據(jù)之旅,那么請(qǐng)讓我回歸本文的正題:《另類數(shù)據(jù):理論與實(shí)踐》以及《另類數(shù)據(jù):投資新動(dòng)力》。這兩本書的出版,填補(bǔ)了中文文獻(xiàn)在投資另類數(shù)據(jù)方面的空白(官宣在此)。
《另類數(shù)據(jù):理論與實(shí)踐》共有 8 章,是一個(gè)統(tǒng)一的框架,體系化地介紹了另類數(shù)據(jù)的概念、分類、挑戰(zhàn)和風(fēng)險(xiǎn)、應(yīng)用流程和價(jià)值等方面的內(nèi)容,并對(duì)不同類型的另類數(shù)據(jù)展開了詳細(xì)的說明。
《另類數(shù)據(jù):投資新動(dòng)力》分為 5 章,更偏重應(yīng)用,全方位地介紹了另類數(shù)據(jù)在金融市場(chǎng)中的應(yīng)用,無論是文本數(shù)據(jù)、消費(fèi)相關(guān)數(shù)據(jù)、傳感器數(shù)據(jù)、ESG 數(shù)據(jù)、投資者關(guān)注數(shù)據(jù)、商業(yè)洞察數(shù)據(jù)、衛(wèi)星圖像數(shù)據(jù)、位置數(shù)據(jù)等;無論是股票量化投資和主觀投資,利率和匯率投資,又或者是大宗商品投資中的應(yīng)用,應(yīng)有盡有。
在這兩本書出版之前,我曾有幸閱讀過初稿。它們給我的感受(如果只用兩個(gè)字總結(jié))是客觀,如果再加兩個(gè)字,那么是客觀和全面。
先說客觀。毫無疑問,無論對(duì)學(xué)界還是業(yè)界,另類數(shù)據(jù)是如今投資界的寵兒和熱點(diǎn)(比如,你如果沒點(diǎn)獨(dú)門數(shù)據(jù),想在 top 3 發(fā)實(shí)證研究幾乎沒戲了),但這兩本書并沒有所謂的“蹭熱點(diǎn)”、不負(fù)責(zé)任地鼓吹另類數(shù)據(jù)的好處,而是中立而系統(tǒng)的呈現(xiàn)另類數(shù)據(jù)的機(jī)會(huì)和挑戰(zhàn),這和我在《另類數(shù)據(jù)的前景與陷阱》中所傳達(dá)出的價(jià)值觀不謀而合。
再說全面。當(dāng)人們說起另類數(shù)據(jù)的時(shí)候,可能本能的反應(yīng)是兩眼放光,馬上會(huì)問它能不能產(chǎn)生風(fēng)險(xiǎn)因子無法解釋的 α。然而,這種想法僅僅局限于另類數(shù)據(jù)產(chǎn)業(yè)鏈末端的應(yīng)用層面。對(duì)于另類數(shù)據(jù)這個(gè)大課題來說,數(shù)據(jù)是如何產(chǎn)生的、質(zhì)量和時(shí)效性如何,使用時(shí)是否有合規(guī)風(fēng)險(xiǎn),如何評(píng)估其成本價(jià)值、市場(chǎng)價(jià)值、經(jīng)濟(jì)價(jià)值,其可預(yù)測(cè)性是短期的還是長(zhǎng)期的,如何從基礎(chǔ)設(shè)施和人才儲(chǔ)備層面建設(shè)另類數(shù)據(jù)團(tuán)隊(duì),如何讓另類數(shù)據(jù)有機(jī)地融入到整個(gè)投研和交易過程(從而形成運(yùn)營(yíng)阿爾法)等都是同樣甚至更加重要的問題。對(duì)于這些問題,這兩本書給出了詳盡的說明。
正是因?yàn)椤翱陀^和全面”這兩個(gè)我個(gè)人非??粗氐奶厣ㄏ嘈殴娞?hào)的小伙伴認(rèn)可這個(gè)觀點(diǎn)),所以我愿意毫無保留地把它推薦給感興趣的小伙伴。希望它們能祝你在使用另類數(shù)據(jù)的道路上愈行愈遠(yuǎn),乘風(fēng)破浪。
另類數(shù)據(jù)這個(gè)名詞出現(xiàn)的歷史并不很長(zhǎng),但是它背后蘊(yùn)含的核心思想?yún)s并不新穎,而是自古有之:我們需要在不斷出現(xiàn)的另類數(shù)據(jù)中用適應(yīng)時(shí)代的方法挖掘出新的投資見解,在不斷演化的金融市場(chǎng)中能夠長(zhǎng)時(shí)間地獲取超額收益,從而在投資管理的激烈競(jìng)爭(zhēng)中生存下來。
參考文獻(xiàn)
Ball, R. and P. Brown (1968). An empirical evaluation of accounting income numbers.?Journal of Accounting Research?6, 159 - 178.
Banz, R. (1981). The relationship between return and market value of common stocks.?Journal of Financial Economics?9, 3 - 18.
Barber, B. and T. Odean (2013). The behavior of individual investors. In G. Constantinides, M. Harris, and R. Stulz (eds.)?Handbook of the Economics of Finance?2. Elsevier BV.
Basu, S. (1977). Investment performance of common stocks in relation to their price-earnings ratios: A test of the efficient market hypothesis.?Journal of Finance?32, 663 - 682.
Belkin, M., D. Hsu, S. Ma, and S. Mandal (2019). Reconciling modern machine-learning practice and the classical bias-variance trade-off.?PNAS?116, 15849 - 15854.
Bryzgalova, S., J. Huang, and C. Julliard (2023). Bayesian solutions for the factor zoo: We just ran two quadrillion models.?Journal of Finance?78, 487 - 557.
Chinco, A., A. Neuhierl, and M. Weber (2021). Estimating the anomaly base rate.?Journal of Financial Economics?140, 101 - 126.
Cochrane, J. H. (2011). Presidential address: Discount rates.?Journal of Finance?66, 1047 - 1108.
Cootner, P. (1964).?The Random Character of Stock Prices. MIT Press.
Cowles, A. (1933). Can stock market forecasters forecast??Econometrica?1, 309 - 324。
Cowles, A. (1944). Stock market forecasting.?Econometrica?12, 206 - 214.
Dessaint, O., T. Foucault, and L. Frésard (2022). Does alternative data improve forecasting? The horizon effect. Swiss Finance Institute Research Paper Series N. 20-106.
Fama, E. F. (1965).?The behavior of stock market prices.?Journal of Business, 34 - 105.
Fama, E. F. (1970). Efficient capital markets: A review of theory and empirical work.?Journal of Finance?25, 383 - 417.
Fama, E. F. (1991).?Efficient capital markets: II.?Journal of Finance?46, 1575 - 1617.
Fama, E. F. and K. R. French (1992).?The cross-section of expected stock returns.?Journal of Finance?47, 427 - 465.
Fama, E. F. and K. R. French?(1993). Common risk factors in the returns on stocks and bonds.?Journal of Financial Economics?33, 3 - 56.
Fama, E. F. and K. R. French?(2015). A five-factor asset pricing model.?Journal of Financial Economics?116, 1 - 22.
Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium.?Journal of Political Economy?81, 607 - 636.
Giannone, D., M. Lenza, and G. Primiceri?(2021).?Economic predictions with big data: The illusion of sparsity.?Econometrica?89, 2409 - 2437.
Giglio, S., B. Kelly, and D. Xiu (2022). Factor models, machine learning and asset pricing.?Annual Review of Financial Economics?14, 337 - 368.
Gu, S., B. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning.?Review of Financial Studies?33, 2223 - 2273.
Havery, C. R. (2017). Presidential address: The scientific outlook in financial economics.?Journal of Finance?72, 1399 - 1440.
Harvey, C. R., Y. Liu, and H. Zhu (2016). ... and the cross-section of expected returns.?Review of Financial Studies?29, 5 - 68.
Hou, K., C. Xue, and L. Zhang (2020). Replicating anomalies.?Review of Financial Studies?33, 2019 - 2133.
Jensen, T., B. Kelly, and L. Pedersen (2022). Is there a replication crisis in finance? Working paper.
Kelly, B., S. Malamud, and K. Zhou (2022). The virtue of complexity in return prediction. Working paper.
Kendall, M. (1953). The analysis of economic time-series. Part I: Prices.?Journal of the Royal Statistical Society?116, 11 - 34.
Lo, A. W. and A. C. MacKinlay (1999).?A Non-Random Walk down Wall Street. Princeton University Press.
Martin, I. and S. Nagel (2022).?Market efficiency in the age of big data.?Journal of Financial Economics?145, 154 - 177.
Nagel, S. (2021).?Machine Learning in Asset Pricing. Princeton University Press.
Nagel, S. (2022). Evaluating market efficiency in a high-dimensional world. Speech on Hong Kong Conference for Fintech, AI and Big Data Business.
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。