頂刊上的另類數(shù)據(jù)與股票收益研究
發(fā)布時(shí)間:2021-03-02 | 來(lái)源: 川總寫量化
作者:石川
摘要:另類數(shù)據(jù)的實(shí)證資產(chǎn)定價(jià)應(yīng)用(也許)還有很長(zhǎng)的路要走。
1?引言
一年前的今天,我寫了一篇《另類數(shù)據(jù)的前景和陷阱》,拋磚引玉討論了對(duì)另類數(shù)據(jù)的看法。而近年來(lái),學(xué)術(shù)界在將另類數(shù)據(jù)引入實(shí)證資產(chǎn)定價(jià)方面也干得熱火朝天,很多研究被發(fā)表在頂級(jí)期刊上。本文就對(duì)一些我印象比較深刻的(包括好的印象、中立的印象以及不那么好的印象)研究成果進(jìn)行梳理。按照所使用的另類數(shù)據(jù)類別,研究成果大體上可以被四類:Crowdsourced data,Textual data,Trading account data 以及各種 Lead-lag effect(最后這一種也往往被視作準(zhǔn)另類數(shù)據(jù))。下文將依次說(shuō)明。
在本文的最后,我們也不妨來(lái)“上個(gè)價(jià)值”。最近兩年,一個(gè)非常強(qiáng)烈的感受是在頂刊上發(fā)表實(shí)證文章越來(lái)越難(哦,除非你是 Editor 的朋友,正如坊間流傳的 JFE = Journal of Friends of Editor;越來(lái)越多的實(shí)證文章 —— 不限于使用了另類數(shù)據(jù)的 —— 感覺(jué)能發(fā)到頂刊上只是因?yàn)槭谴罄袑懙模?。而如果要?wèn)有什么方法讓在頂刊發(fā)文變得稍微容易那么一丁點(diǎn),使用另類數(shù)據(jù)一定是個(gè)不錯(cuò)選擇。但另類數(shù)據(jù)集通常要么不是公開(kāi)的,要么涉及十分繁雜的數(shù)據(jù)處理;且一些數(shù)據(jù)集本身的可靠性和數(shù)據(jù)質(zhì)量也存疑。這些問(wèn)題的存在使得另類數(shù)據(jù)更有可能成為孕育 p-hacking 的溫床,削弱研究的可復(fù)制性和穩(wěn)健性。本文的最后就對(duì)此進(jìn)行一些探討。
2?Crowdsourced Data
第一類另類數(shù)據(jù)是 crowdsourced data,代表作是 Green et al. (2019) 和 Da, Huang and Jin (2021),均發(fā)表在 JFE 上。在我看來(lái) crowdsourced data 的一大問(wèn)題是數(shù)據(jù)的生成(采集)過(guò)程是否 unbiased,能否很好的代表總體。Green et al. (2019) 使用 Glassdoor.com 數(shù)據(jù)研究了員工對(duì)雇主的評(píng)價(jià)與股票收益率之間的關(guān)系([因子動(dòng)物園] 的文章《烏合之眾 or 群眾的智慧:?jiǎn)T工評(píng)價(jià)與股票收益》對(duì)該文進(jìn)行了詳細(xì)介紹),發(fā)現(xiàn)評(píng)分變化高低能夠預(yù)測(cè)股票的預(yù)期收益。在《另類數(shù)據(jù)的前景和陷阱》一文中,曾經(jīng)介紹過(guò)該文,并對(duì) Glassdoor.com 數(shù)據(jù)可能存在的問(wèn)題進(jìn)行了討論。
Da, Huang and Jin (2021) 則使用了 Forcerank App 上散戶對(duì)股票的周度評(píng)分,研究了投資者過(guò)度外推信仰和未來(lái)股票收益率之間的負(fù)相關(guān)。然而,受制于數(shù)據(jù)限制,該文的樣本僅從 2016/2 到 2017/12,涉及不到 300 支股票和將將 1000 個(gè)用戶。雖然實(shí)證研究本身沒(méi)有任何問(wèn)題(solid,且作者給出了理論模型來(lái)支持實(shí)證結(jié)果)且作者也強(qiáng)調(diào)了這些用戶無(wú)法代表所有交易這些股票的投資者,但我們還是對(duì)該研究在多大程度上能夠推廣到全市場(chǎng)的所有股票存有疑問(wèn)。而“雪上加霜”的是,當(dāng)我試圖訪問(wèn) Forcerank 一探究竟時(shí),發(fā)現(xiàn)它已經(jīng)停止運(yùn)營(yíng)了。
3?Textual Data
隨著機(jī)器學(xué)習(xí)算法的普及,對(duì)文本數(shù)據(jù)的研究早已成為了學(xué)術(shù)界的“必爭(zhēng)之地”。近年來(lái),通過(guò)分析上市公司財(cái)報(bào)中的文本信息來(lái)研究股票收益率的研究也屢見(jiàn)不鮮,其中最有代表性的一篇當(dāng)屬發(fā)表在 JF 上的 Lazy Prices(Cohen, Malloy and Nguyen (2020))。該文分析了美股上市公司季報(bào)和年報(bào)中的文本措辭變化是否和股票收益率有關(guān)。正如其標(biāo)題揭示的那樣,該文發(fā)現(xiàn)改動(dòng)越少的公司未來(lái)的預(yù)期收益越高。通過(guò)做多改動(dòng)少的公司、做空改動(dòng)多的公司,該投資組合可以獲得超過(guò) 20% 的年化超額收益。這篇文章的精彩之處在于對(duì)背后機(jī)制的討論。Cohen, Malloy and Nguyen (2020) 發(fā)現(xiàn)財(cái)報(bào)中措辭變動(dòng)背后的原因通常是以下幾種:more negative sentiment、higher uncertainty、more litigiousness 以及 CEO/CFO changes。這些原因往往意味著公司的運(yùn)營(yíng)面臨更高的風(fēng)險(xiǎn)和不確定性。
除此之外,該文更進(jìn)一步揭示了財(cái)報(bào)中的哪些 sections 發(fā)生的措辭變化最為關(guān)鍵,為后續(xù)進(jìn)一步的深入研究奠定了很好的基礎(chǔ)。其中一個(gè)值得多嘮叨兩句的 section 是美股年報(bào)中的 Item 1A:Risk Factors。之所以單提它,是因?yàn)樗屛蚁肫鹆肆硪黄?Natural Language Processing 研究財(cái)報(bào)的文章,而該文研究的對(duì)象恰好就是年報(bào)中的 Risk Factors 一節(jié)(Lopez-Lira (2020))。順便一提,Lopez-Lira (2020) 尚未被發(fā)表,還是一篇 working paper。Lopez-Lira (2020) 使用 Latent Dirichlet Allocation(LDA)從 Risk Factors 一節(jié)提取出 25 個(gè) risk topics。通過(guò)進(jìn)一步分析發(fā)現(xiàn)其中有一些可以代表不同公司面臨的系統(tǒng)性風(fēng)險(xiǎn),且這些系統(tǒng)性風(fēng)險(xiǎn)因子(risk topics)中有一些是被定價(jià)的;基于這些因子構(gòu)造的多因子模型的定價(jià)能力不亞于傳統(tǒng)的 Fama-French 三/五因子模型。感興趣的小伙伴不妨找來(lái)一讀。
4?Trading Account Data
下一類另類數(shù)據(jù)是利用散戶投資者(retail investors)的交易數(shù)據(jù),研究成果有助于 retail investors 糾正錯(cuò)誤的交易習(xí)慣。這類數(shù)據(jù)通常是非公開(kāi)的,相關(guān)的代表論文包括 Barber and Odean (2000)、Boehmer, Jones and Zhang (2008)、Kaniel, Saar and Titman (2008)、Kelley and Tetlock (2013) 以及 Barrot, Kaniel and Sraer (2016)。
其中,Barber and Odean (2000) 所用的包含約 78,000 個(gè)賬戶的交易數(shù)據(jù)集非常有名(被稱為 Odean dataset),它在后來(lái)針對(duì) retail investors 以及行為金融學(xué)的相關(guān)研究中得到了廣泛的應(yīng)用。比如 An (2016) 這篇發(fā)表在 RFS 上的文章。該文受 Ben-David and Hirshleifer (2012) 啟發(fā),進(jìn)一步研究了 V-shaped selling pressure,即高浮盈和高浮虧都會(huì)面臨更大的拋壓,因而這些股票未來(lái)的預(yù)期收益率更高。該文在此猜想上提出了新的變量來(lái)代替?zhèn)鹘y(tǒng)的 CGO(CGO 見(jiàn)《參考點(diǎn)依賴與市場(chǎng)異象》)。雖然該文的實(shí)證中使用收益率和交易量來(lái)構(gòu)造變量,但是在 promote 研究動(dòng)機(jī)的環(huán)節(jié),它使用了 Odean 數(shù)據(jù)集的真實(shí)交易數(shù)據(jù)來(lái)證實(shí)了猜想的正確性。
使用賬戶交易數(shù)據(jù)的最大問(wèn)題在于數(shù)據(jù)集是非公開(kāi)的。這使得相關(guān)研究難以被復(fù)現(xiàn)或擴(kuò)展。本節(jié)第一段羅列的那些論文均存在這個(gè)問(wèn)題。不過(guò),這個(gè)問(wèn)題在一篇 JF forthcoming 的文章(Boehmer et al. (2021))中得到了有效的改善。和上述研究不同的是,Boehmer et al. (2021) 并沒(méi)有使用賬戶數(shù)據(jù),而是通過(guò)算法從所有交易數(shù)據(jù)中有效識(shí)別出散戶的交易數(shù)據(jù)。因此該文的發(fā)現(xiàn)更具代表性,且該識(shí)別算法也會(huì)有更廣泛的應(yīng)用價(jià)值。
5?Lead-lag effect
最后一類常見(jiàn)的(準(zhǔn))另類數(shù)據(jù)是各種“花式”動(dòng)量,即各種領(lǐng)先-滯后關(guān)系(lead-lag effect)。這可能是最具應(yīng)用前景的另類數(shù)據(jù)之一。下表展示了發(fā)表在頂刊上的各種 lead-lag effects。前文《獲取 α 的新思路:科技關(guān)聯(lián)度》對(duì) Lee et al. (2019) 做過(guò)詳細(xì)介紹(這里插一句:McLemore et al. (2021) 把科技關(guān)聯(lián)度應(yīng)用到了公募基金表現(xiàn)的研究中,也頗有意思);[因子動(dòng)物園] 的《關(guān)聯(lián)度動(dòng)量的秘密:分析師共同覆蓋》對(duì) Parsons, Sabbatucci and Titman (2020) 的地理動(dòng)量以及 Ali and Hirshleifer (2020) 的分析師共同覆蓋做過(guò)解讀。
在上表中的各種 lead-lag effects 中,Ali and Hirshleifer (2020) 在提出分析師共同覆蓋導(dǎo)致的關(guān)系的同時(shí),順便也“敲打”了一下其他常見(jiàn)的關(guān)系。他們發(fā)現(xiàn),一旦控制了分析師共同覆蓋,其他關(guān)系變無(wú)法獲得顯著超額收益了;而反過(guò)來(lái),其他關(guān)系無(wú)法解釋分析師共同覆蓋的超額收益。綜合二者,他們指出分析師共同覆蓋才是各種 lead-lag effects 背后的原因。
下表總結(jié)了分析師共同覆蓋在 A 股上的實(shí)證結(jié)果:在小市值、大市值以及全市場(chǎng),均存在分析師共同覆蓋效應(yīng)。
總結(jié)一下,各種企業(yè)間關(guān)聯(lián)的收益來(lái)源是投資者對(duì)企業(yè)間關(guān)聯(lián)信息的注意力不足,導(dǎo)致反應(yīng)不足。此外,企業(yè)間關(guān)聯(lián)效應(yīng)也對(duì)公司未來(lái)基本面的變化有預(yù)測(cè)能力。這類數(shù)據(jù)大多公開(kāi)可得,因此具備進(jìn)一步系統(tǒng)研究的基礎(chǔ),且實(shí)證結(jié)果表明在 A 股上具備應(yīng)用前景。離開(kāi)本節(jié)之前,另一篇值得一提的文章是 Gofman, Segal and Wu (2020)。該文研究了 production networks 和股票收益的關(guān)系,發(fā)現(xiàn)上游公司的技術(shù)進(jìn)步會(huì)使得下游公司的現(xiàn)有資產(chǎn)價(jià)值降低,且上游公司和下游客戶在 network 中的距離越遠(yuǎn),其預(yù)期收益越高。這個(gè)研究為將產(chǎn)業(yè)鏈知識(shí)圖譜應(yīng)用于資產(chǎn)定價(jià)提供了新思路。
6?我們需要什么樣的研究 ?
以上 2 – 5 節(jié)簡(jiǎn)要梳理了一些代表性的將另類數(shù)據(jù)應(yīng)用于實(shí)證資產(chǎn)定價(jià)的研究。很多研究在剛被提出的時(shí)候確實(shí)很吸引人,但隨著時(shí)間的推移,當(dāng)我們掌握了越來(lái)越多的研究“套路”后,總是忍不住發(fā)問(wèn):我們到底需要什么樣的研究?我想可以從兩個(gè)角度回答這個(gè)問(wèn)題。首先,面對(duì)另類數(shù)據(jù),人們并不需要“投機(jī)取巧”挖出來(lái)的 new anomalies。另類數(shù)據(jù)的真正價(jià)值是人們通過(guò)新數(shù)據(jù),從新視角理解哪些系統(tǒng)性風(fēng)險(xiǎn)能夠驅(qū)動(dòng)資產(chǎn)收益率的變化。其次就是強(qiáng)調(diào)學(xué)術(shù)研究的可復(fù)制性。這讓我想起 Harvey (2019) 在 Critical Finance Review 這個(gè)新期刊上的大聲疾呼。這個(gè)期刊倒是很符合本文的主題;和金融學(xué)領(lǐng)域的其他期刊相比,CFR 足夠另類。在其官網(wǎng)主頁(yè)赫然寫著期刊宗旨:Not just replicability, but actual replication!
在 2010 年 Campbell Harvey 身為 JF editor 的時(shí)候,他聯(lián)合了 RFS 以及 JFE 的 editors,希望敦促頂刊(以及其他期刊)采納數(shù)據(jù)和代碼共享原則。Harvey 的提議在期刊編輯和金融學(xué) big names 之間得到了討論,至于結(jié)果……
“The initiative failed.”
其中最主要的反對(duì)之聲在于這么做的成本太高。此外,學(xué)術(shù)界“樸素”地認(rèn)為不共享數(shù)據(jù)或代碼并未造成什么嚴(yán)重的后果。
By far the most important pushback was the cost imposed on authors. … Indeed, there were powerful testimonials from top academics about their nightmarish experiences in sharing data. Many believed we did not have a problem. Why impose a costly 'fix' to something that was not broken?
對(duì)于另類數(shù)據(jù)來(lái)說(shuō),可復(fù)制性無(wú)疑面臨更大挑戰(zhàn)。然而正如 [因子動(dòng)物園] 的文章《可復(fù)制的因子研究》闡釋的那樣,有兩個(gè)原因使得因子研究的可復(fù)制性非常重要:
1. 可復(fù)制性可以確保后續(xù)研究有良好的基礎(chǔ),而不至于在錯(cuò)誤的問(wèn)題上越陷越深;
2. 實(shí)證資產(chǎn)定價(jià)的研究方法相對(duì)標(biāo)準(zhǔn)化,因此不同研究者重復(fù)造輪子的工作,是一種巨大的浪費(fèi)。
除了這兩點(diǎn),強(qiáng)調(diào)可復(fù)制性也能夠提高論文的質(zhì)量,減少金融學(xué)研究中諸如 p-hacking、HARKing 等行為不端(見(jiàn)《Campbell Harvey: Tortured Data》)。對(duì)于另類數(shù)據(jù)以及其他實(shí)證資產(chǎn)定價(jià)研究來(lái)說(shuō),雖然共享數(shù)據(jù)和代碼有很大的代價(jià)且困難重重,但是正如 Harvey (2019) 所主張的那樣,它帶來(lái)的好處遠(yuǎn)遠(yuǎn)超過(guò)其代價(jià)。
可復(fù)制性永遠(yuǎn)是學(xué)術(shù)研究的唯一生命力;而另類數(shù)據(jù)的實(shí)證資產(chǎn)定價(jià)應(yīng)用也還有很長(zhǎng)的路要走。
參考文獻(xiàn)
Ali, U. and D. Hirshleifer (2020). Shared analyst coverage: Unifying momentum spillover effects. Journal of Financial Economics 136(3), 649 – 675.
An, L. (2016). Asset pricing when traders sell extreme winners and losers. Review of Financial Studies 29(3), 823 – 861.
Barber, B. M. and T. Odean (2000). Trading is hazardous to your wealth: The common stock investment performance of individual investors. Journal of Finance 55(2), 773 – 806.
Barrot, J.-N., R. Kaniel, and D. Sraer (2016). Are retail traders compensated for providing liquidity??Journal of Financial Economics 120(1), 146 – 168.
Ben-David, I. and D. Hirshleifer (2012). Are investors really reluctant to realize their losses? Trading responses to past returns and the disposition effect. Review of Financial Studies 25(8), 2485 – 532.
Boehmer, E., C. M. Jones, and X. Zhang (2008). Which shorts are informed? Journal of Finance 63(2), 491 – 527.
Boehmer, E., C. M. Jones, X. Zhang, and X. Zhang (2021). Tracking retail investor activity. Journal of Finance forthcoming.
Cohen, L. and A. Frazzini (2008). Economic links and predictable returns. Journal of Finance 63(4), 1977 – 2011.
Cohen, L. and D. Lou (2012). Complicated firms. Journal of Financial Economics 104(2), 383 – 400.
Cohen, L., C. Malloy, and Q. Nguyen (2020). Lazy prices. Journal of Finance 75(3), 1371 – 1415.
Da, Z., X. Huang, and L. Jin (2021). Extrapolative beliefs in the cross-section: What can we learn from the crowds? Journal of Financial Economics?forthcoming.
Gofman, M., G. Segal, and Y. Wu (2020). Production networks and stock returns: The role of vertical creative destruction. Review of Financial Studies 33(12), 5856 – 5905.
Green, T. C., R. Huang, Q. Wen, and D. Zhou (2019). Crowdsourced employer reviews and stock returns.?Journal of Financial Economics?134(1), 236 – 251.
Harvey, C. R. (2019). Editorial: Replication in financial economics. Critical Finance Review 8(1-2), 1 – 9.
Hou, K. (2007). Industry information diffusion and the lead-lag effect in stock returns. Review of Financial Studies 20(4), 1113 – 1138.
Kaniel, R., G. Saar, and S. Titman (2008). Individual investor trading and stock returns. Journal of Finance 63(1), 273 – 310.
Kelley, E. K. and P. C. Tetlock (2013). How wise are crowds? Insights from retail orders and stock returns. Journal of Finance 68(3), 1229 – 1265.
Lee, C. M. C., S. Teng, R. Wang, and R. Zhang (2019). Technological links and predictable returns.?Journal of Financial Economics?132(3), 76 – 96.
Lopez-Lira, A. (2020). Risk factors that matter: Textual analysis of risk disclosures for the cross-section of returns. Working paper.
McLemore, P., R. Sias, C. Wan, and H. Z. Yuksel (2021). Active technological similarity and mutual fund performance. Journal of Financial and Quantitative Analysis forthcoming.
Parsons, C. A., R. Sabbatucci, and S. Titman (2020). Geographic lead-lag effects. Review of Financial Studies 33(10), 4721 – 4770.
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見(jiàn)并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外,文中圖表均直接或間接來(lái)自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。