Campbell Harvey: “Tortured Data”

發(fā)布時(shí)間：2020-07-08 | 來源: 川總寫量化

作者：石川
摘要：If you torture the data long enough, it will confess.

0?引言

If you torture the data long enough, it will confess.?—— Ronald Coase, 1991 年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者

上面這句話的直白翻譯是，如果你折磨數(shù)據(jù)足夠長(zhǎng)的時(shí)間，它們會(huì)招供的。它的隱含意思是，只要人們想盡辦法去過擬合，總能得到希望的結(jié)論。這句話用來形容今天實(shí)證資產(chǎn)定價(jià)領(lǐng)域的研究風(fēng)氣十分貼切。近些年，Campbell Harvey 教授舉起了呼吁學(xué)術(shù)界重視并消滅偽發(fā)現(xiàn)的大旗。無論是他著名的論文 Harvey, Liu, and Zhu (2016)，還是 2017 年他在 AFA 年會(huì)做的主席演講（Harvey 2017，點(diǎn)擊直達(dá)推文鏈接），還是刊發(fā)于 Journal of Finance 的最新文章 Harvey and Liu (2020)，都是關(guān)于實(shí)證資產(chǎn)定價(jià)領(lǐng)域偽發(fā)現(xiàn)的問題。而近日，在 Society of Financial Studies（SFS）協(xié)會(huì) 2020 年會(huì)上，Harvey 教授又應(yīng)邀做了 keynote，題目就叫 Tortured Data —— 飽受折磨的數(shù)據(jù)。

可能小伙伴們更熟悉 AFA，而 Society of Financial Studies 的來頭同樣不小，它是 Review of Financial Studies 背后的協(xié)會(huì)。據(jù)其官網(wǎng)介紹，以會(huì)議論文最終被金融領(lǐng)域三大頂刊錄用比例來評(píng)判，SFS 年會(huì)是最佳的金融學(xué)會(huì)議。因此，在該會(huì)議上做 keynote 并再次呼吁偽發(fā)現(xiàn)問題，足見其重要性。今天這篇小文就來介紹一下 Harvey 教授的最新演講。由于公眾號(hào)之前在這方面做過一些積累，因此也會(huì)在行文中把相關(guān)內(nèi)容串聯(lián)起來。Harvey 教授指出，出現(xiàn)偽發(fā)現(xiàn)的原因包括以下幾種：

1. 數(shù)據(jù)挑選

2.?責(zé)任下放

3. 多重假設(shè)檢驗(yàn)

4. 方法多樣性

5.?數(shù)據(jù)操縱

值得一提的是，Harvey 教授在演講中不失詼諧的抨擊了金融以及其他領(lǐng)域的一些偽發(fā)現(xiàn)，并同時(shí)“懟了”學(xué)術(shù)界和業(yè)界（不乏 big names）。所以，建議你看完本文也去看看他的演講（參考文獻(xiàn)最后有鏈接）。

1?數(shù)據(jù)挑選

Harvey 教授通過兩個(gè)例子說明了數(shù)據(jù)挑選的危害。首先遭到抨擊的是來自一家知名投資管理公司在 2019 年寫的一篇 white paper，題為?The overlooked persistence of active outperformance，非常 aggressive。它的意思就是主動(dòng)管理人其實(shí)能持續(xù)的戰(zhàn)勝市場(chǎng)，提供 α，但卻被忽視了。

一直以來，無論是 Michael Jensen 還是 John Bogle 都告訴我們，在美國(guó)市場(chǎng)中，平均來看，主動(dòng)管理人 fee 后難以獲得超額收益。然而，這篇 white paper 卻拋出完全對(duì)立的觀點(diǎn)。那么，到底是人們長(zhǎng)久以來的看法錯(cuò)了，還是這篇文章有問題？經(jīng)過仔細(xì)檢查，不難發(fā)現(xiàn)產(chǎn)生上述分歧的原因。在這篇 white paper 的摘要中，有下面這句非常重要的話（下圖，highlight 的部分），它的意思是“如果我們剔除市場(chǎng)中最差的 25% 主動(dòng)管理策略，那么最好的四分之三戰(zhàn)勝了市場(chǎng)?！?/span>

漂亮！這“神”邏輯嚴(yán)絲合縫。按照這個(gè)邏輯推演一下，如果刨除后 50% 的話，剩余的戰(zhàn)勝市場(chǎng)更多！Harvey 教授在演講中非常幽默的拋出了他對(duì)這種 data selection 的反應(yīng)。

第二個(gè)例子來自下面這篇 2014 年的論文。作者不乏 Andrew Ang 這樣的 big name，而且其中另一位作者是 Harvey 在 Duke 商學(xué)院的同事啊。這真是……

這篇文章分析了 Norwegian Government Pension Fund 的表現(xiàn)，得出的結(jié)論是非常優(yōu)異，只不過是在下面這個(gè)前提下：

Abstracting from the financial crisis,?we conclude that active management of both equity and fixed income has significantly contributed to the returns of the fund.

驚不驚喜？意不意外？它的意思是，如果我們選擇性地遺忘金融危機(jī)，這個(gè) fund 的表現(xiàn)非常不錯(cuò)！嗯，除了熊市之外，所有的牛市都非常不錯(cuò)。簡(jiǎn)單點(diǎn)評(píng)一下這兩個(gè)例子背后的數(shù)據(jù)挑選危害。說到底，金融領(lǐng)域的研究屬于“軟”科學(xué)，即研究結(jié)果依賴于提出怎樣的假設(shè)，如何挑選和處理數(shù)據(jù)，以及如何分析并解釋結(jié)果。但刻意的遺漏掉一些數(shù)據(jù)來支持自己的觀點(diǎn)，顯然是錯(cuò)誤的行為。

2?責(zé)任下放

產(chǎn)生偽發(fā)現(xiàn)的第二個(gè)原因是責(zé)任下放，意思是在研究中我們“無腦”相信別人的分析結(jié)果，而不去試圖仔細(xì)分析其是否為偽發(fā)現(xiàn)。

對(duì)于這點(diǎn)，Harvey 舉了他自己的一個(gè)例子。在他學(xué)術(shù)生涯早期的某天晚上 9 點(diǎn)，接到了來自高盛的電話，電話那頭的人不是別人，而是大名鼎鼎的 Fischer Black（需要背景知識(shí)的小伙伴可看《Fischer Black》一文）。令他感到驚訝的是，在這通電話之前，二人從未見過面，因此他對(duì)于接到 Black 的來電感到困惑不已。不過，他的困惑很快就被揭開了。Black 開門見山“你 1989 年發(fā)表在 Journal of Financial Economics 上的文章有錯(cuò)誤。”Black 指的是 Harvey (1989) 這篇論文。其中 Table 2（下圖）匯報(bào)了一個(gè)時(shí)序回歸模型對(duì)下期股票收益率的預(yù)測(cè)結(jié)果。其樣本內(nèi)的準(zhǔn)確性高達(dá) R-squared = 7.5%。Black 認(rèn)為這么高的 R-squared 是 overfitting 造成的。

震驚之余，Harvey 感到頗為無辜；他馬上反駁了 Black 并指出在這個(gè)表中，自己僅僅是根據(jù)前人的模型來匯報(bào)了一個(gè) test results，而且他也沒有進(jìn)行任何最大化 R-squared 的嘗試，因此這個(gè)過程中不存在任何的數(shù)據(jù)操縱或者過擬合。然而，如今 Harvey 教授對(duì)這篇 1989 年的論文在樣本外進(jìn)行了復(fù)現(xiàn)（樣本外數(shù)據(jù)從 1988 年到 2018 年），并得到了完全不同的答案。在樣本外，預(yù)測(cè)回歸模型中的一個(gè)重要解釋變量（junk spread）的系數(shù)符號(hào)竟然發(fā)生了變化，且 R-squared 也下降到了 1.2% —— 并不顯著。

這種強(qiáng)烈的對(duì)比表明了他最初參照前人研究（因此是責(zé)任下放問題）的 test results（R-squared = 7.5%）根本不靠譜。這個(gè)例子說明，即便我們非常小心的規(guī)避“折磨數(shù)據(jù)”，但我們相信并依賴的他人的研究很可能早已是“折磨數(shù)據(jù)”之后的結(jié)果。怎么樣？狠起來，先從自己開始反省。面對(duì)上述責(zé)任下放問題，Harvey 教授非常坦誠(chéng)的說到：

Looking back in time, this telephone call is ironic given my research agenda is to improve research practices in finance and to call out the data miners.

而“Black was right!”則是 Harvey 教授發(fā)自內(nèi)心的感嘆。我們仿佛能看到 Black 鬼魅的微笑了。

3?多重假設(shè)檢驗(yàn)

造成偽發(fā)現(xiàn)的第三個(gè)原因是多重假設(shè)檢驗(yàn)（multiple hypothesis testing），它指的是使用同樣的數(shù)據(jù)同時(shí)檢驗(yàn)多個(gè)原假設(shè)。在實(shí)證資產(chǎn)定價(jià)研究中，所有的學(xué)者都使用 CRSP 和 Compustat 的數(shù)據(jù)來挖因子，因此總能找到樣本內(nèi)好使但虛假的發(fā)現(xiàn)。關(guān)于多重假設(shè)檢驗(yàn)，公眾號(hào)之前的《出色不如走運(yùn)》系里文章已經(jīng)反復(fù)討論過了，感興趣的小伙伴請(qǐng)查看相關(guān)推文（II、III、IV），此處不再贅述。

在談到多重假設(shè)檢驗(yàn)的問題時(shí)，Harvey 教授把它形象的比喻為 The Garden of Forking Paths（小徑分叉的花園） —— 這個(gè)標(biāo)題也是阿根廷作家 Jorge Luis Borges 于 1941 年創(chuàng)作的短篇故事。假設(shè)我們手里有 20 個(gè)變量來構(gòu)建策略，考慮下面兩種情況：

1. 從這 20 個(gè)變量中隨機(jī)挑出的第 1 個(gè)就得到了非常好的回測(cè)結(jié)果；于是我們不再研究剩下 19 個(gè)，并聲稱沒有過擬合、沒有進(jìn)行多重假設(shè)檢驗(yàn)；

2. 假設(shè)在另一個(gè)平行宇宙中，我們把全部 20 個(gè)變量試了個(gè)遍，才最終找到了第一種情況中的第一個(gè)變量，得到了很好的回測(cè)結(jié)果。這時(shí)我們認(rèn)為，因?yàn)橐还矞y(cè)了 20 個(gè)，因此這個(gè)很可能是因?yàn)檫\(yùn)氣，所以過擬合了，所以選擇不相信它。

緊接著問題來了：這兩種情況到底有沒有區(qū)別？第一種情況下找到的那個(gè)變量是否真的沒有受到多重假設(shè)檢驗(yàn)的影響？對(duì)于這個(gè)問題，Harvey 教授表示：Both findings need to be treated equally.?這意味著，即便在第一種情況下，第一次就挑出的變量依然不能令人信服，它應(yīng)和第二種情況同等對(duì)待。這也同樣說明，變量或者策略的先驗(yàn)對(duì)于規(guī)避多重假設(shè)檢驗(yàn)影響的重要性。這讓我想到 Harvey (2017) 一文提出的貝葉斯后驗(yàn) p-value，它無疑更有助于分析一個(gè)變量或者策略是否真的有效。關(guān)于貝葉斯后驗(yàn) p-value，請(qǐng)見《在追逐 p-value 的道路上狂奔，卻在科學(xué)的道路上漸行漸遠(yuǎn)》。

4?方法多樣性

方法多樣性和上一節(jié)的多重假設(shè)檢驗(yàn)異曲同工；它指的是使用不同的方法來進(jìn)行分析，并挑出最好的。

If the researcher tries a large enough number of strategy configurations, a backtest can always be fit to any desired performance for a fixed sample length.?—— Marcos Lopez de Prado

某日，一家著名的機(jī)構(gòu)找到 Harvey 教授，請(qǐng)他評(píng)價(jià)一下該機(jī)構(gòu)研發(fā)的股票月度收益率預(yù)測(cè)模型。在介紹這個(gè)模型之前，讓我們先來醞釀一下情緒?；仡櫹卤疚牡诙?jié) Harvey (1989) 中的模型，它在 1988 年之前的 R-squared 是 7.5%（被 Black 質(zhì)疑了），而在 1988 到 2018 之間的 R-squared 僅為 1.2%，其在整個(gè)窗口內(nèi)的 R-squared 為 4%。它的效果是下面這樣，符合我們的認(rèn)知。

再來看看這家著名機(jī)構(gòu)的模型。它們預(yù)測(cè)了世界上 59 個(gè)國(guó)家市場(chǎng)的月頻收益率；模型的特征如下圖所示。

劃一下關(guān)鍵詞：每個(gè)市場(chǎng) 200 個(gè)變量！統(tǒng)計(jì)分析！最先進(jìn)的機(jī)器學(xué)習(xí)算法！針對(duì)每個(gè)市場(chǎng)，經(jīng)過兩年 intensive data collection 找到了 200 個(gè)變量，用不同的機(jī)器學(xué)習(xí)算法去 fit……再來看看效果（一定要和 Harvey 1987 對(duì)比?。Ｓ迷摍C(jī)構(gòu)自己的話：“處處精準(zhǔn)”，“25 個(gè)最大經(jīng)濟(jì)體市場(chǎng)的 R-squared 為 0.96”，“所有 59 個(gè)市場(chǎng)的 R-squared 為 0.98”。在講到這里時(shí)，Harvey 教授又來了一把 Harvey 式幽默。他指出最初看到這兩個(gè) R-squared 的時(shí)候以為對(duì)方默認(rèn)省略了百分號(hào)，如果是那樣的話，那么這個(gè)復(fù)雜模型和 Harvey (1987) 在樣本外（1988 到 2018）的 R-squared = 1.2% 就差不多。但是他錯(cuò)了，沒有百分號(hào)，真的是處處精準(zhǔn)。

到底有多精準(zhǔn)？2008 年 10 月是金融危機(jī)時(shí)期的最大單月跌幅，高達(dá) -35%?？纯丛?2008 年 9 月模型預(yù)測(cè)的下個(gè)月收益率是多少？沒錯(cuò)，-35%！分毫不差！兩個(gè)模型比較一下：

當(dāng)“足夠多的變量”遇見“足夠復(fù)雜的算法”，就碰撞出“精致的錯(cuò)誤”。但更令人稱奇的是，該模型不僅樣本內(nèi)處處精準(zhǔn)，再來看看該機(jī)構(gòu)給出的樣本外結(jié)果，同樣“非凡”。然而，后來經(jīng)仔細(xì)檢查發(fā)現(xiàn)，該模型建模時(shí)已經(jīng)包含了所謂的樣本外數(shù)據(jù)，即樣本外并非真正的樣本外。

5?數(shù)據(jù)操縱（p-hacking）

導(dǎo)致偽發(fā)現(xiàn)的最后一個(gè)原因是 p-hacking，即為了追求超低 p-value 而進(jìn)行的數(shù)據(jù)操縱。

在發(fā)表偏差的影響下，學(xué)術(shù)界都在追求超低 p-value。Harvey, Liu, and Zhu (2016) 分析了 1963 年到 2012 年間發(fā)表在金融領(lǐng)域最頂級(jí)期刊上的 300 多個(gè)因子模型的 t-statistics（p-value 越低，t-statistic 越高）的分布，發(fā)現(xiàn) t-statistic 取值在 2 到 2.57 的文章數(shù)和 t-statistic 取值在 2.57 到 3.14 的文章數(shù)十分接近。

然而，t-statistic = 2.57 對(duì)應(yīng)的 p-value 大概是 0.005；而 t-statistic = 3 對(duì)應(yīng)的 p-value 則是 0.001。顯然，找到 p-value = 0.001 的因子要比找到 p-value = 0.005 的因子要困難得多，但它們的文章數(shù)量卻大致相當(dāng)。這只能說明在頂級(jí)期刊發(fā)表文章時(shí)，學(xué)者們傾向于更低的 p-value。那么問題來了：哪那么容易找到這么多超低的 p-value？答案是：通過數(shù)據(jù)操縱去湊。而在 p-hacking 方面，金融界和醫(yī)學(xué)界相比又是小巫見大巫。Harvey 教授在演講中舉了一個(gè)著名的例子。一篇來自 Cornell 大學(xué)、發(fā)表于醫(yī)學(xué)界知名雜志 JAMA Pediatrics 上的論文指出，在蘋果上貼上卡通貼紙，可以提高 8 至 11 歲兒童在蘋果和餅干之間挑選蘋果的概率。

這篇論文的一作是 Brian Wansink，三作是 Collin Payne。接下來就看看這二位的表演。該文發(fā)表于 2012 年?；仡櫰溲芯窟M(jìn)程，在 2008 年之前都沒有什么確定性的結(jié)論，直到 Payne 發(fā)給 Wansink 的一封郵件中透露了所謂的“重大進(jìn)展”：

注意上面括號(hào)里的內(nèi)容“with a bit more wizardry”，開魔法學(xué)校嗎？它指的是，經(jīng)過一些巧妙的加工，數(shù)據(jù)就能支持他們的結(jié)論。再來看看 2012 年 Wansink 的郵件：

p-value 只有 0.06，還不夠低，需要把數(shù)據(jù)再“搞一搞”，最好能讓 p-value 到 0.05 以下。不過最終，他們也沒能再進(jìn)一步降低 p-value，在最終發(fā)表的版本中，p-value 仍為 0.06。令人欣慰的是，如此大膽的學(xué)術(shù)造假最終被發(fā)現(xiàn)，而該文也在 2017 年底被撤回。除了 p-hacking 之外，該文更大的問題是它聲稱使用的樣本是 8 至 11 歲的兒童，但事實(shí)卻并非如此……時(shí)至今日，Wansink 已有 18 篇論文被撤回，而他也早已因?yàn)閷W(xué)術(shù)不端而被 Cornell 掃地出門。從調(diào)查其學(xué)術(shù)不端中發(fā)現(xiàn)的一些資料可以看出，數(shù)據(jù)操縱以及 p-hacking 已經(jīng)深深的扎根于這位世界著名營(yíng)養(yǎng)學(xué)家的研究?jī)r(jià)值觀……

坦白的說，在 empirical analysis 中，任何人都會(huì)或多或少的進(jìn)行一些數(shù)據(jù)的細(xì)分或者劃分，而“數(shù)據(jù)細(xì)分”或者“數(shù)據(jù)劃分”本身其實(shí)是中性的詞語。但如果它的目的是為了 p-hacking，那么就很可能會(huì)造成偽發(fā)現(xiàn)。這是我們應(yīng)該避免的。

6?結(jié)語

以上五節(jié)介紹了產(chǎn)生偽發(fā)現(xiàn)的五個(gè)常見原因：數(shù)據(jù)挑選、責(zé)任下放、多重假設(shè)檢驗(yàn)、方法多樣性和 p-hacking。這些情況在量化投資中均會(huì)出現(xiàn)，正確的對(duì)待它們就顯得尤為重要。對(duì)于做數(shù)據(jù)分析的人（包括我自己）來說，常常掛在嘴邊的一句話是“Let the data speak”（讓數(shù)據(jù)發(fā)聲）。但事實(shí)是數(shù)據(jù)不會(huì)發(fā)聲，而是進(jìn)行數(shù)據(jù)分析的人通過數(shù)據(jù)發(fā)聲。而在這背后，又有多少不同的動(dòng)機(jī)、原因、理由來追求數(shù)據(jù)分析師希望看到的結(jié)論，或者希望講述的故事呢？最后，讓我用 Harvey 教授對(duì)投資者的建議結(jié)束本文：

Investors need to be?especially vigilant?in this era of big data, large number of predictors, a plethora of methods, and the incentives to strategically manipulate the data to uncover a convenient "truth".

寫完本文，我不禁要給 Harvey 教授點(diǎn)贊。但更令我印象深刻的是，F(xiàn)ischer Black was right! Again!

參考文獻(xiàn)

Harvey, C. R. (1989). Time-varying conditional covariances in tests of asset pricing models. Journal of Financial Economics 24(2), 289 – 317.

Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72(4), 1399 – 1440.

Harvey, C. R. and Y. Liu (2020). False (and missed) discoveries in financial economics. Journal of Finance?75(5), 2503 – 2553.

Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns.?Review of Financial Studies 29(1), 5 – 68.

Harvey 教授演講鏈接：https://iu.mediaspace.kaltura.com/media/1_b70bmzv3

Harvey 教授演講 slides：http://sfs.org/wp-content/uploads/2020/07/Tortured-Data.pdf

免責(zé)聲明：入市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

Campbell Harvey: “Tortured Data”