在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠
發(fā)布時間:2017-08-16 | 來源: 川總寫量化
作者:石川
我最近讀了美國金融協(xié)會(AFA,American Finance Association)前主席 Campbell Harvey 于 2017 年協(xié)會年會上做的題為《The Scientific Outlook in Financial Economics》的主席報告,感觸頗深,醍醐灌頂。以一個學者應(yīng)有的科學態(tài)度和操守,Dr. Harvey 深刻剖析了近年來西方學術(shù)界在收益率風險多因子模型研究中的一個錯誤趨勢:
為了競逐在頂級期刊上發(fā)表文章,學者們過度追求因子在原假設(shè)下的低 p-value 值(即統(tǒng)計意義上“顯著”);不幸的是,由于有意或無意的數(shù)據(jù)操縱、使用不嚴謹?shù)慕y(tǒng)計檢驗手段、錯誤地解釋 p-value 傳達的意義、以及忽視因子本身的業(yè)務(wù)含義,很多在功利心驅(qū)使下被創(chuàng)造出來的收益率因子在實際投資中根本站不住腳。
學者們在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠。
我看完之后產(chǎn)生了深深的共鳴:難怪我在頂級期刊上以及賣方的研究報告中看到的很多因子,僅僅是在報告中“看起來有效”。在這個急功近利的時代,Dr. Harvey 大聲呼吁學術(shù)界應(yīng)該后退一步(take a step back),重新審視一下學術(shù)氛圍和文化,真正做到以推動人們對金融經(jīng)濟學的正確認知為己任。這無疑是量化投資領(lǐng)域的福音。此外,Dr. Harvey 還提出了貝葉斯 p-value 的概念,它可以正確地評價因子的有效性。
1 p-value
先來看看什么是 p-value,以及它在因子分析中的作用。(本節(jié)內(nèi)容是我加的。)假設(shè)我們有一個因子 A,在學術(shù)界研究該因子能否獲得超額收益時,一般的流程如下:
1. 首先提出原假設(shè)(null hypothesis):使用因子(異象) A 無法獲得超額收益。
2. 使用因子 A 選股、配置多空投資組合,然后用某主流的多因子定價模型來檢驗該因子是否能夠獲得定價模型無法解釋的超額收益。
3. 比較因子 A 超額收益的 p-value 是否小于給定的顯著性水平,從而決定是否拒絕原假設(shè)。拒絕原假設(shè)意味著拒絕“因子 A 能夠獲得超額收益”。
可見,p-value 在上述過程中至關(guān)重要。p-value 是 probability value 的簡稱。在統(tǒng)計檢驗中,假設(shè)統(tǒng)計模型對應(yīng)的原假設(shè)是 H,該模型觀測到的隨機變量 X 的取值為 x,則 p-value 代表著在原假設(shè) H 下隨機變量 X 取到比 x 更加極端的數(shù)值的條件概率,即:
對于右尾極端事件:p-value = prob(X ≥ x|H);
對于左尾極端事件:p-value = prob(X ≤ x|H);
對于雙尾極端事件:p-value = 2 × min{ prob(X ≥ x|H), prob(X ≤ x|H)}。
The null hypothesis is usually a statement of no relation between variables or no effect of an experimental manipulation. The p-value is the probability of observing an outcome or a more extreme outcome if the null hypothesis is true (Fisher 1925).
對于股票收益率因子模型領(lǐng)域,因為我們希望找到可以帶來超額正收益的因子,所以 p-value 一般指的是上面第一種定義,即 p-value = prob(X ≥ x|H)。例如,當 p-value = 0.05 時,我們說在原假設(shè) H 下觀測到不小于 x 的超額收益的條件概率為 5%;當 p-value = 0.01 時,我們說在原假設(shè) H 下觀測到不小于 x 的超額收益的條件概率僅有 1%。顯然,p-value 越小說明在原假設(shè) H 下觀測到不小于 x 的超額收益的可能性越低,即發(fā)生“不小于 x 超額收益”這個事件和原假設(shè) H 越不相符,我們越傾向于拒絕原假設(shè)。
當“因子 A 無法獲得超額收益”這個原假設(shè)被拒絕時,人們便會推論出“因子 A 能夠獲得超額收益”。如此,人們習慣把“p-value 越低”和“因子 A 越能獲得超額收益”等價起來了。這就是為什么我們都喜歡低的 p-value。但它們真的等價嗎?低的 p-value 僅僅是某個因子能獲得超額收益的必要條件;但是它遠不是充分條件。有意或者無意的數(shù)據(jù)操縱(data manipulation)以及不完善的統(tǒng)計檢驗所得到的低的 p-value 在說明因子是否有效方面毫無作用。
2 p-hacking
好了,現(xiàn)在我們已經(jīng)知道了 p-value 在因子模型中的作用:要想說明某個因子有效,最起碼得有個低的 p-value;否則免談。在這種暗示下,學術(shù)界便自上而下的刮起了一股追求超低 p-value 之風。以下就是因子模型 p-value 在學術(shù)界的因果關(guān)系鏈:
“p-value 越低意味著因子越顯著。" -> “因子越顯著,研究成果越吸引眼球?!?-> “成果越吸引眼球越有可能得到更高的引用?!?-> “高引用的文章越多,期刊的影響因子越高?!?-> “期刊的影響因子越高,期刊的學術(shù)聲望越高?!?/strong>
為了提升期刊的聲望,編輯們都更傾向于錄用低 p-value 因子的文章;為了在更高水平的期刊上發(fā)文,學者們更傾向于找到低 p-value 的因子。在美國絕大多數(shù)學校里,如果能在 Journal of Finance 發(fā)表一篇文章,一個教授就有可能得到終身教職(tenure)。在如今的金融經(jīng)濟學領(lǐng)域,這樣的做法無奈的導致了一種發(fā)表偏差(publication bias):學者們更愿意把時間和精力花到可以利用各種手段來找到低 p-value 的因子上,只愿意發(fā)表“看上去最顯著”的研究成果。他們不愿意冒險來研究“無效的因子”。
?
從推動學科發(fā)展的角度,“無效的因子”和“有效的因子”同樣重要。如果我們能夠確切的證明某個因子就是無法帶來超額收益,那么它對實際中選股也是非常有價值的(我們可以放心的避開該因子)。然而,在追求超低 p-value 之風下,學者不愿意進行這樣的研究,因為頂級期刊上鮮有它們的容身之處。下圖出自 Harvey, Liu, and Zhu (2016)。他們分析了 1963 年到 2012 年間發(fā)表在金融領(lǐng)域最頂級期刊上的 300 多個因子模型的 t-statistics(可以簡單的理解為 p-value 越低,其對應(yīng)的 t-statistics 越高)的分布情況。這個分布清晰地說明了學術(shù)界的發(fā)表偏差。比如,t-statistics 取值在 2 到 2.57 的文章數(shù)和 t-statistics 取值在 2.57 到 3.14 的文章數(shù)十分接近。要知道,t-statistics = 2.57 對應(yīng)的 p-value 大概是 0.005;而 t-statistics = 3 對應(yīng)的 p-value 則是 0.001!顯然,找到 p-value = 0.001 的因子要比找到 p-value = 0.005 的因子要困難得多,但它們的文章數(shù)量卻大致相當。這只能說明在頂級期刊發(fā)表文章時,學者們傾向于更低的 p-value。
3 硬科學與軟科學
看到這里,人們不禁要問怎么會有這么多低 p-value 的因子?這可以從“硬科學”和“軟科學”的角度來解釋。法國著名的哲學家奧古斯特 ? 孔德將科學分成不同的等級(Comte 1856)。像數(shù)學、物理這類的“硬科學”位于等級的上方,而社會學(包括今天所說的經(jīng)濟學或者哲學)這類“軟科學”位于等級的下方。這里“硬”和“軟”并沒有“好”與“壞”之分。
在“硬科學”中,人的痕跡幾乎可以不存在,從數(shù)據(jù)可以直接得到結(jié)論、無需任何人工解釋,且結(jié)論是高度可歸納的。比如數(shù)學上的四色問題,一旦證明成立那就是成立;又如物理上的引力波,一旦發(fā)現(xiàn)那就是說明它的存在,這些都是確切的。反觀“軟科學”中,人的痕跡便會更加明顯,研究成果依賴于提出怎樣的假設(shè),如何處理數(shù)據(jù),以及如何分析、解釋結(jié)果。這些都和研究者自身的聲望、利益、個人偏好有關(guān),因此結(jié)果往往是無法歸納的。金融學中的多因子模型無疑是軟科學,因子選取、原假設(shè)的構(gòu)建、以及數(shù)據(jù)分析都會因人而異。
比如“使用過去 50 年的數(shù)據(jù)還是過去 30 年的數(shù)據(jù)?”“使用美股還是其他國家的股票?”“使用日收益率還是周收益率?”“使用百分比收益率還是對數(shù)收益率?”“是否以及如何剔除異常值?”“使用線性回歸還是邏輯回歸?”“使用截面回歸還是時間序列回歸?”“因子對 500 個公司有效但是對 1000 個公司無效,因此發(fā)文時僅提及那 500 個公司?!薄谧分鸪?p-value 的背景下,學者在面臨這些選擇做決定時會“非常微妙”,一切阻礙超低 p-value 誕生的數(shù)據(jù)都會被巧妙的避開。Harvey 教授將為了追求超低 p-value 而在因子研究中刻意選取的數(shù)據(jù)處理方法稱為 p-hacking。
在科學研究中,我們往往先觀察事物是如何運作的,然后提出一個假設(shè)并通過數(shù)據(jù)來驗證其是否成立,可謂“先有假設(shè)再有結(jié)果”。然而,p-hacking 卻可能使我們本末倒置,“先有結(jié)果再有假設(shè)!”(Hypothesizing after the results are known,稱為 HARKing)。比如我們的假設(shè)是變量 Y 和 X1 相關(guān)。為此我們設(shè)計了一個實驗,并控制了 X2 到 X10 其他 9 個變量,來考察 Y 和 X1 的關(guān)系。但是實驗結(jié)果表明 Y 卻和 X7 相關(guān)。因此,我們就會輕易地(不負責任地)把假設(shè)改為“Y 和 X7 相關(guān)”,而忘記了研究的初衷。由于數(shù)據(jù)分析的成本很低,HARKing 在因子模型研究中非常普遍。所有這一切對超低 p-value 的追逐都源于人們的一個誤解:“p-value 越低”等價于“因子 A 在解釋超額收益上越有效”。下面來看看 p-value 到底意味著什么。
4 正確認識 p-value
人們對 p-value 的正確含義充滿了誤解。為了說明這一點,Dr. Harvey 給出了一個假想的例子。假設(shè)一個選股因子為董事會的規(guī)模。由此我們把上市公司分為兩類:小型董事會的公司和大型董事會的公司。原假設(shè) H 是:董事會規(guī)模與超額收益無關(guān)。比較這兩類股票的收益率均值,我們得到該因子的 p-value 小于 0.01。那么,下面 4 種關(guān)于 p-value 的陳述哪些是正確的呢(原文中是 6 個陳述,為了簡化討論這里只包含其中 4 個)?
?
1. 我們證明了原假設(shè)是錯誤的。
2. 我們找到了原假設(shè)為真的概率,即 prob(H|D)。
3. 我們證明了小型董事會的公司比大型董事會的公司有更高的超額收益。
4. 我們可以推斷出“小型董事會的公司比大型董事會的公司有更高的超額收益”為真的概率,即 prob(H^c|D)。
?
怎么樣?你覺著上面四個陳述中有幾個是正確的?答案是:它們都是錯的。p-value 代表著原假設(shè)下觀測到某(極端)事件的條件概率。以 D 代表極端事件,則 p-value = prob(D|H)。從它的定義出發(fā),p-value 不代表原假設(shè)或者備擇假設(shè)是否為真實的。因此,上述中的 1 和 3 都是錯的。
P-value is a statement about data in relation to a specified hypothetical explanation, and is not a statement about the explanation itself.
再強調(diào)一遍:p-value 是原假設(shè) H 成立下,D 發(fā)生的條件概率,即 prob(D|H);它不是 prob(H|D),即 D 發(fā)生時 H 為真的條件概率。因此 2 也是錯的。同理,p-value 也和 p(H^c|D)——H^c 代表備擇假設(shè)——沒有任何關(guān)系,因此 4 也是錯的。
prob(D|H) ≠ prob(H|D)
prob(D|H) ≠ prob(H|D)
prob(D|H) ≠ prob(H|D)
在這個例子中,最重要的信息就是 p-value 等于 prob(D|H);而人們往往把它和 prob(H|D) 混淆,這是因為我們太想知道 prob(H|D) 了,因為它告訴我們原假設(shè) H 在 D 發(fā)生時為真的條件概率。然而?p-value 不等于它。把 prob(D|H) 當成 prob(H|D) 是一個非常嚴重的錯誤。來看一個形象的例子(出自 Carver 1978):
定義兩個事件:人死了,記為 D;人上吊,記為 H。那么,prob(D|H) 表示人因為上吊而死的概率。這個概率可能是很高的,比如 0.97。讓我們把 D 和 H 的位置調(diào)換一下,即 prob(H|D),則問題變成了在人死了的前提下,他是因為上吊而死的條件概率。怎么樣?在這個問題中,因為我們知道人的死法有很多種,比如上吊、跳樓、服毒、割腕……我們不會將 prob(D|H) 的取值等價于 prob(H|D) 而脫口而出 0.97。在這個問題中,prob(D|H) ≠ prob(H|D) 顯而易見。然而當我們解釋因子分析的 p-value 時,卻總繞不過彎,總將它倆混為一談。
最后,來看美國統(tǒng)計協(xié)會(American Statistical Association)關(guān)于 p-value 的 6 個準則(Wasserstein and Lazar 2016):
1. P-values can indicate how incompatible the data are with a specified statistical model.
譯:P-value 可以表示數(shù)據(jù)和給定統(tǒng)計模型的不兼容程度。
?
2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
譯:P-value 不表示所研究的假設(shè)為真的概率;同時,它也不表示數(shù)據(jù)僅由隨機因素產(chǎn)生的概率。
?
3. Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
譯:科學結(jié)論和商業(yè)或政策決策不應(yīng)只根據(jù) P-value 是否通過給定的閾值而確定。
?
4. Proper inference requires full reporting and transparency.
譯:全面的分析報告和完全的透明度是適當?shù)慕y(tǒng)計推斷的必要前提。(這說的就是要摒除 p-hacking 的問題。)
?
5. A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
譯:P-value 或統(tǒng)計上的重要性并不能衡量效用的大小或結(jié)果的重要性。(這是我們通常說的統(tǒng)計上顯著未必具有重要的經(jīng)濟意義——economic significance)
?
6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
譯:關(guān)于模型或者假設(shè)是否有效,p-value 本身并不提供足夠的證據(jù)。
相信上面這 6 點一定會幫助我們更好的理解 p-value 的意義。
5 失真的 p-value
如前所述,p-value 用來說明某種效用(effect)是否在統(tǒng)計上顯著(因子可以解釋股票的超額收益率就可以理解為一種效用)。當待檢驗的效用非常罕見時,統(tǒng)計檢驗得到的 p-value 往往是失真的。在醫(yī)學中,這樣的例子屢見不鮮。假設(shè)我們要測試一種罕見的疾?。膊【褪切в?,罕見說明它本身出現(xiàn)的概率非常低)。原假設(shè)就是病人沒有得病。假設(shè)這種疾病的發(fā)病率為 1%。我們使用某種測試手段對 1000 名志愿者進行篩查。該測試手段的正確率為 90%(即對于確實患病的患者,該測試結(jié)果為陽性的概率為 90%);此外,該測試手段的誤診率為 10%(即,對于沒有得病的志愿者,它誤診為陽性的概率為 10%)。根據(jù) 1% 的發(fā)病率和 1000 名志愿者,我們假設(shè)他們中間有 10 名真正患者和 990 名正常。對于這 10 名患者,該檢測手段成功的找到 9 名患者;而對于剩下 990 名非患者,它誤診了 99 名。因此,一共有 108 名志愿者被診斷為患病,但其中僅有 9 名是真正的患者。換句話說,這個測試的 false discovery rate 高達 92% (= 99 / 108),遠高于該測試手段 10% 的誤診率。在統(tǒng)計檢驗中,false discovery rate 是偽發(fā)現(xiàn)率,其意義為錯誤拒絕(拒絕真的原假設(shè))的個數(shù)占所有被拒絕的原假設(shè)個數(shù)的比例的期望值。
上述討論對金融經(jīng)濟學有什么啟示?這里的核心是,如果一個效用本身越不可能發(fā)生,我們越要小心,因為會有大量的 false discoveries。令 π 代表在現(xiàn)實中我們找到一個真實因果關(guān)系的概率(即一個真實的因子),α 代表原假設(shè)為真時的顯著性水平,β 表示備擇假設(shè)為真時檢驗正確的拒絕原假設(shè)的概率。從上面這個例子中可以歸納出,由于效用的罕見性,我們能夠預(yù)期的 false discovery rate 等于:
當 β = 1 時,上述 false discovery rate 有理論的最小值。當找到真實因子的概率很低時,π 相對于 α 很低,該 false discovery rate 近似為 1。因此,如果發(fā)現(xiàn)有效因子本身這件事是一個極小概率事件,則無論我們得到了多低的 p-value,我們的偽發(fā)現(xiàn)率(false discovery rate)也是非常高的。不幸的是,發(fā)現(xiàn)真實有效的因子本身就是一個極小概率事件。因此,大量發(fā)表于頂級期刊上的收益率因子都會在將來被證偽。Bartsch et. al. (2017) 就提供了這樣的證據(jù)。他們采用了一個多重檢驗框架,檢驗了學術(shù)界的 100 個收益率預(yù)測模型,得到的結(jié)論是模型中的預(yù)測能力全部來自數(shù)據(jù)遷就(data snooping,即 p-hacking),這些模型在新測試框架下的預(yù)測準確性均無法戰(zhàn)勝歷史均值。
6 先驗的重要性,做貝葉斯的信徒
上一節(jié)的論述傳遞出一個重要的觀點:我們需要對效用本身發(fā)生的概率(例如找到真實收益率因子的概率)有一個正確的先驗判斷,并用它和 p-value 一起計算出一個后驗概率,并以此判斷是否應(yīng)該拒絕原假設(shè)。在生活中,先驗概率對于我們判斷一個效用是否真的有效至關(guān)重要。來看下面三個例子。
第一個例子:有一個音樂家聲稱可以完美的區(qū)分莫扎特和海頓的樂譜。我們將 10 張樂譜給他辨識,他全部正確。
第二個例子:有一個常年喝茶的老婦人,她聲稱可以說出一杯加了奶的熱茶中,奶是先于茶還是后于茶加入杯中的。同樣,我們將 10 杯請她辨識,她全部正確。
第三個例子:有一個酒館老板,號稱酒精賜予他預(yù)測未來的神力。我們讓他猜扔硬幣的正反面,結(jié)果他也是 10 次全對。
在這三個實驗中,p-value 都遠低于 0.001( 2 的 -10 次方)。然而同樣的?p-value 在這三個例子中帶給我們的認知卻截然不同。在第一個例子中,我們知道對方是一個音樂家,他分辨樂譜應(yīng)該易如反掌。我們的先驗信仰就是他能夠成功,實驗的結(jié)果只不過確認了這一點。在第二個例子中,我們也許心存懷疑(先驗),不相信老婦人能夠成功(原假設(shè)是她沒有分辨奶加入茶杯順序的能力),然而 10 次全對(超低 p-value)的結(jié)果讓我們傾向于推翻自己的先驗認知,即拒絕原假設(shè),并認為她確實有這個能力。在第三個例子中,我們會認為這個人就是騙子(酒精能夠預(yù)測未來?),因此打從心底完全不屑(原假設(shè)是酒精不能預(yù)測未來),在這種情況下,即便他猜對了 10 次,我們也不會推翻原假設(shè)(因為“酒精能夠預(yù)測未來”這件事的先驗概率太低了),而僅僅認為他是運氣好罷了。
怎么樣,從這三個例子中看出先驗在解讀 p-value 時起到的作用了嗎?這就是貝葉斯框架的強大之處。Harvey 教授將傳統(tǒng)的 p-value 嵌入到貝葉斯框架中,提出了貝葉斯化 p-value(Bayesianized p-value)的概念,它是一個后驗概率。貝葉斯化 p-value 由最小貝葉斯因子(minimum Bayes factor,MBF)和先驗幾率(prior odds)構(gòu)成。貝葉斯因子是在原假設(shè)下觀測到效用的似然性與在備擇假設(shè)下觀測到效用的似然性之間的比值。由于備擇假設(shè)中,效用的概率分布未知,因此貝葉斯因子的取值有個范圍。這個范圍的下限就稱為最小貝葉斯因子。它代表著貝葉斯框架下,我們拒絕原假設(shè)的傾向性(MBF 越小,我們越傾向拒絕原假設(shè))。
具體的,后驗貝葉斯后驗 p-value 的表達式如下:
其中,MBF 的計算方法有兩種,分別根據(jù)統(tǒng)計檢驗中的原始 p-value 和其對應(yīng)的 t-statistics 求出。以下僅給出具體表達式,而不去探討具體數(shù)學細節(jié)。
貝葉斯 p-value 的強大之處在于,它是一個后驗概率,它回答了那個我們真正關(guān)心的問題:在(極端)事件發(fā)生的前提下,原假設(shè)為真的條件概率是多少,即我們夢寐以求的 prob(H|D)。使用后驗貝葉斯 p-value,Dr. Harvey 對學術(shù)界的一些知名因子進行了分析(下表)。具體的,他考慮了三類不同的先驗情況:a stretch(罕見的,假設(shè)因子有效的先驗概率為 2%),perhaps(有可能,假設(shè)因子有效的先驗概率為 20%),solid footing(業(yè)務(wù)基礎(chǔ)扎實,假設(shè)因子有效的先驗概率為 50%)。
在第一類(a stretch)中,考察的因子叫 clever tickers(可以理解為聰明的股票代碼),即有些股票代碼比另一些更讓投資人喜歡,因此這些股票有超額收益(這一聽就不靠譜)。在貝葉斯框架下,其后驗貝葉斯 p-value 為 0.836,這意味著該因子對解釋超額收益完全沒有作用。值得一提的是,在研究出該因子的文章中,它的 p-value 可是僅有 0.0079,暗示著 clever tickers 用來選股能獲得超額收益。貝葉斯框架完美的逆轉(zhuǎn)了這個錯誤的結(jié)論。在第二類(perhaps)中,考察的因子是 Fama 和 French 提出的盈利因子和規(guī)模因子。在原著中, Fama 和 French 的研究顯示這兩個因子都有超低的 p-value。然而,它們的后驗 p-value 分別為 0.117 和 0.332。其中,盈利因子的后驗 p-value 仍然比較低(雖然比原著中的高很多),但是規(guī)模因子的后驗 p-value 卻很大,說明它不能很好的解釋超額收益。在第三類(solid footing)中,考察的因子是市場因子。它的后驗 p-value 為 0.111(在另一種 MBF 的計算方式下,其后驗 p-value 更是僅有 0.035)。這說明市場因子確實是一個能夠解釋股票超額收益的因子。這也完全符合人們的預(yù)期。這三個例子完美的說明了當我們有一個手段來回答正確的問題時(即 prob(H|D)),我們能夠得到更加有效的結(jié)論。
7 科學的愿景,研究應(yīng)該能被復(fù)現(xiàn)
在過去的 10 年、20 年里,金融經(jīng)濟學領(lǐng)域的學者們都在追逐 p-value 的道路上狂奔。然而,這么做的結(jié)果是人類在科學的道路上漸行漸遠??茖W研究的目標是為了推動人們對該學科的理解。為了實現(xiàn)它,我們應(yīng)該確保所有的發(fā)現(xiàn)——不管是有效因子還是無效因子——都是可以復(fù)現(xiàn)的,成果應(yīng)該是可以被其他學者復(fù)制的。這意味著,在摒除了所有 p-hacking 的數(shù)據(jù)操縱之后,一個因子的效用仍然經(jīng)得起考驗,并且它在樣本外也同樣有效(或同樣無效)。
在頂級期刊中,只有 Journal of Finance 要求被錄用的文章提供計算機代碼;沒有任何一個期刊要求作者提供數(shù)據(jù)(所以很多 p-hacking 的行為根本無法被發(fā)現(xiàn))。可喜的是,最近一個新的期刊 Critical Finance Review 做了很多工作,正逐漸使成果能夠被復(fù)現(xiàn)成為學術(shù)界的主流。
不論是什么領(lǐng)域,如果一篇學術(shù)論文提出的模型和得出的結(jié)論不能被其他學者或業(yè)界復(fù)現(xiàn),那發(fā)表這樣的文章就無異于耍流氓。
我曾經(jīng)聯(lián)系過多篇文章的作者,提及被他們文章中因子的表現(xiàn)所震撼、想要自己在樣本外復(fù)現(xiàn)他們的發(fā)現(xiàn),因此詢問一些數(shù)據(jù)和程序上的細節(jié)。但是這樣的文章幾乎全部石沉大海。唯一良心的回復(fù)是“當年的代碼寫的很亂,可讀性已經(jīng)很差了”。我想,大概這些作者也根本無法再現(xiàn)它們當時取得的神奇結(jié)果吧。
除此之外,學術(shù)界和頂級期刊應(yīng)該鼓勵學者們嘗試“高風險”的研究項目。“高風險”意味著學者需要費時費力費金錢以收集和處理數(shù)據(jù),且得到的結(jié)論不一定顯著(沒有令人稱奇的 p-value)。但是,這樣的研究成果才是最根本的,才是真正能夠推動金融經(jīng)濟學闊步向前的創(chuàng)造性工作。
金融經(jīng)濟學的科學前景深深的植根于學術(shù)界的研究和發(fā)表環(huán)境中。不可否認,如今學術(shù)界的研究質(zhì)量仍然是很高的。但是本文提出的問題不關(guān)乎當下,而是著眼于未來。為了保證金融經(jīng)濟學的發(fā)展,學者們應(yīng)該時刻保持學者的操守,并創(chuàng)造一個健康的研究氛圍。不要試圖尋找捷徑,而是腳踏實地的走曲折的道路,無論荊棘與坎坷。不忘初心,砥礪前行,金融經(jīng)濟學的科學前景勢必一片光明。
參考文獻
Bartsch, Dichtl, Drobetz, and Neuhierl (2017). Data Snooping in Equity Premium Prediction. Working paper.
Harvey (2017). Presidential Address: The Scientific Outlook in Financial Economics. AFA 2017 Annual Meeting.
Carver (1978). The case against statistical significance testing. Harvard Educational Review 48, 378 – 399.
Comte (1856). The Positive Philosophy of Auguste Comte, translated by Harriett Marineau (Calvin Blanchard, New York). Vol. II.
Fisher (1925). Statistical Methods for Research Workers. Oliver and Boyd Ltd, Edinburgh.
Harvey, Liu, and Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies 29(1), 5 – 68.
Wasserstein and Lazar (2016).?The ASA's Statement on p-Values: Context, Process, and Purpose. The American Statistician 70(2): 129 – 133
免責聲明:入市有風險,投資需謹慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。