Calendar Anomalies:糖衣下的 Multiple Hypothesis Testing?
發(fā)布時(shí)間:2019-09-20 | 來(lái)源: 川總寫(xiě)量化
作者:石川
摘要:以特定日期作為條件來(lái)劃分收益率并檢驗(yàn)不同劃分下的顯著性是一種多重假設(shè)檢驗(yàn)。在修正之后,很多所謂的日歷異象都不再顯著。
1 引言
Calendar Anomalies(日歷異象)指的是資產(chǎn)在一年中的某些特定的日子內(nèi)有顯著非零的條件預(yù)期收益率。這其中最大名鼎鼎的當(dāng)屬股票市場(chǎng)中的換月效應(yīng)(turn of month effect):股票市場(chǎng)在每月的最后 1 個(gè)交易日到下一個(gè)月的第 3 個(gè)交易日這個(gè)窗口內(nèi)的收益率顯著高于一個(gè)月中的其他交易日。McConnell and Xu (2008) 的研究發(fā)現(xiàn),在 1926 到 2005 間,在換月窗口內(nèi)買(mǎi)入標(biāo)普 500 指數(shù)的 ETF 可獲得得年化 7.20% 的收益率(夏普率高達(dá) 1.04)。Carchano and Pardo Tornero (2011) 更是以標(biāo)普 500 指數(shù)、德國(guó)法蘭克福指數(shù)和日經(jīng)指數(shù)為研究對(duì)象,分析了 188 種日歷異象,并發(fā)現(xiàn)在統(tǒng)計(jì)上和經(jīng)濟(jì)上同時(shí)顯著的只有換月效應(yīng)。
除了市場(chǎng)指數(shù)外,學(xué)術(shù)界也以各種風(fēng)格因子投資組合為標(biāo)的研究各種 calendar anomalies。在最近一篇刊發(fā)于 JPM 的文章中,Aharon and Qadan (2019) 提出雖然 size effect 在全樣本中效果越來(lái)越弱,但它依然顯著的存活于某些特定的日期內(nèi),構(gòu)成 calendar anomalies。真的是這樣么?以特定日期作為條件來(lái)劃分收益率并檢驗(yàn)不同劃分下的顯著性(相當(dāng)于同時(shí)檢驗(yàn)多個(gè) hypotheses),這其實(shí)屬于 multiple hypothesis testing(多重假設(shè)檢驗(yàn))。在大量不同的劃分下,僅僅因?yàn)檫\(yùn)氣就總會(huì)有一些是非常顯著的、被人們冠以 calendar anomalies 之名。只有對(duì) multiple hypothesis testing 的影響進(jìn)行必要的修正,才能公正的評(píng)判某種特定日期的劃分是否真的得到顯著的收益率異象。這就是本文要探討的內(nèi)容。
2?日歷異象?
來(lái)看一個(gè)例子。以中證 500 指數(shù)成分股為標(biāo)的,使用某個(gè)常見(jiàn)的風(fēng)格因子將它們排序,取首尾 10% 構(gòu)建多、空對(duì)沖投資組合作為該因子的投資組合。下圖顯示了實(shí)證期內(nèi)中證 500 指數(shù)(藍(lán)線(xiàn))和該風(fēng)格因子組合(黃線(xiàn))的走勢(shì)。從黃線(xiàn)可以看出,它無(wú)法獲得顯著的超額收益。事實(shí)上,其日收益率均值的 t-statistic 僅有 1.17,對(duì)應(yīng)的 p-value 高達(dá) 0.24。在全樣本來(lái)看,這個(gè)因子是不顯著的。
接著,考慮幾種常見(jiàn)的日歷現(xiàn)象:
換月(turn of month);
月份效應(yīng)(calendar month);
“星期幾”效應(yīng)(day of week)。
當(dāng)我們?cè)跁r(shí)間上進(jìn)行各種劃分后,神奇的事情發(fā)生了。這個(gè)全樣本內(nèi)不顯著的因子,在某些特定的劃分中出現(xiàn)了顯著的 calendar anomalies,它們包括三月效應(yīng)、五月效應(yīng)、十一月效應(yīng)、十二月效應(yīng)以及星期二效應(yīng)。
上述五個(gè)潛在 calendar anomalies 的 p-values 均在 0.05 以下。但不要忘了,以上實(shí)際同時(shí)檢驗(yàn)了 18 個(gè)假設(shè) —— 1 個(gè)換月效應(yīng) + 12 個(gè)月份效應(yīng) + 5 個(gè)“星期幾”效應(yīng)。在這種背景下,即便有些假設(shè)的 p-value 是非常小的,也不應(yīng)該立刻得出拒絕某個(gè)原假設(shè)的結(jié)論,而是應(yīng)該針對(duì) multiple hypothesis testing 進(jìn)行修正,以修正后的 p-value 作為判斷依據(jù)。
3?Multiple Hypothesis Testing 修正
前文《出色不如走運(yùn) II?》曾介紹過(guò) Bonferroni、Holm、BHY 這三種 multiple hypothesis testing 修正方法。本小節(jié)簡(jiǎn)單回顧一下,在本文第四節(jié)的分析中將采用 BHY 修正。在實(shí)施了 multiple hypothesis testing 后應(yīng)控制 family-wise error rate(FWER,族錯(cuò)誤率)和 false discovery rate(FDR)兩個(gè)指標(biāo)。它們均代表著 Type I error,即錯(cuò)誤的拒絕原假設(shè)。如果我們有 K 個(gè) hypotheses(對(duì)應(yīng)前文中的多個(gè) calendar anomalies),它們的 p-value 分別為 p_1、p_2、…、p_K。根據(jù)事先選定的顯著性水平(比如 5%),其中 R 個(gè) hypotheses 被拒絕了,即有 R 個(gè)發(fā)現(xiàn)(discoveries) —— 包括 true discoveries 和 false discoveries。令 N_r ≤ R 代表 false discoveries 的個(gè)數(shù),則 FWER 和 FDR 的定義分別為:
由定義可知,F(xiàn)WER 是至少出現(xiàn)一個(gè) false discovery 的概率,控制它對(duì)單個(gè) hypothesis 來(lái)說(shuō)是相當(dāng)嚴(yán)格的,會(huì)大大提升 Type II Error。相比之下,F(xiàn)DR 允許 N_r 隨 R 增加,因此控制的是 false discoveries 的比例,是一種相對(duì)溫和的方法。無(wú)論采用哪種方法,在針對(duì)多重假設(shè)檢驗(yàn)的修正下,都會(huì)有相當(dāng)一部分的 discoveries 不再顯著(即不能拒絕原假設(shè))。依據(jù)控制 FWER 或 FDR,本文談及的三種修正方法可以分為兩類(lèi):
Bonferroni correction 和 Holm adjustment 的目的是控制 family-wise error rate;
BHY adjustment 的目的是控制 false discovery rate。
這三種方法均能修正原始假設(shè)的 p-value,從而懲罰多重假設(shè)檢驗(yàn)的影響。修正后的 p-value 往往會(huì)大于原始的 p-value,也就意味著修正后的 t-statistic 更小。接下來(lái)通過(guò)一個(gè)例子說(shuō)明這些方法的差異。考慮六個(gè)假設(shè),它們的 p-values 從小到大依次是 0.005、0.009、0.0128、0.0135、0.045、0.06。在單一假設(shè)檢驗(yàn)下,前五個(gè)可以在 5% 的顯著性水平下被拒絕。但由于我們實(shí)際上同時(shí)進(jìn)行了六個(gè)假設(shè)檢驗(yàn),因此必須對(duì)上述 p-values 進(jìn)行修正。首先來(lái)看 Bonferroni correction,它對(duì)原始 p-value 的調(diào)整如下:
修正后的 Bonferroni p-value 分別為 0.03、0.054、0.0768、0.081、0.27 和 0.36;在 5% 的顯著性水平下,我們僅能拒絕第一個(gè)假設(shè)。接下來(lái)看看 Holm (1979) 修正。它按照原始 p-value 從小到大依次修正,公式為:
根據(jù)上述定義,最小的 p-value 被修正后,其 Holm p-value 為 0.06;第二個(gè)假設(shè)的 Holm p-value 為 max{6 × 0.005, 5 × 0.009} = 0.045。以此類(lèi)推就能計(jì)算出其他四個(gè)假設(shè)的 Holm p-values。經(jīng)過(guò) Holm 修正后,在 5% 的顯著性水平下,我們僅能拒絕前兩個(gè)假設(shè)。
最后來(lái)看看 BHY 修正(Benjamini and Hochberg 1995, Benjamini and Yekutieli 2001)。它從原始 p-value 中最大的一個(gè)開(kāi)始逆向修正:
由定義可知原始最大的 p-value 在調(diào)整后保持不變。然后從第二大的開(kāi)始,依次按照上述公式計(jì)算,最終得到調(diào)整后的 BHY p-values,它們是(從小到大排列):0.0496、0.0496、0.0496、0.0496、0.06、0.06。在 5% 的顯著性水平下,我們依然可以拒絕前四個(gè)假設(shè)。再次強(qiáng)調(diào)的是,BHY 方法是以控制 false discovery rate 為目標(biāo),它的修正比另外兩種以控制 family-wise error rate 的方法更加溫和。因此,當(dāng)使用 BHY 調(diào)整時(shí),會(huì)有更多的原假設(shè)被拒絕。此外,BHY 對(duì)檢驗(yàn)統(tǒng)計(jì)量之間的相關(guān)性不敏感,因此適應(yīng)性更強(qiáng)。
4?消失的日歷異象
下面使用 BHY 方法對(duì)本文第二節(jié)的 p-values 進(jìn)行修正。考慮不同的 multiple hypotheses?個(gè)數(shù),BHY 調(diào)整后的 p-values 如下表所示。
對(duì)于月份效應(yīng),如果我們僅考慮這 12 個(gè) tests(而忽略其他額外的 tests),那么修正后的 p-value 中,三月效應(yīng)和十二月效應(yīng)依然在 10% 的顯著性水平下顯著(p-values 分別為 0.0881 和 0.0922),而五月和十二月效應(yīng)不再顯著。類(lèi)似的,對(duì)于“星期幾”效應(yīng),如果僅考慮這 5 個(gè) tests,修正后的 p-value 全都不再顯著。如果同時(shí)考慮全部 18 個(gè) tests,則會(huì)對(duì)原始 p-values 進(jìn)行更嚴(yán)格的修正。在這種情況下,以上各種劃分 —— 無(wú)論是換月、月份還是“星期幾”效應(yīng) —— 均不再顯著,我們無(wú)法在 10% 的水平下拒絕任何假設(shè)。當(dāng)排除了 multiple hypothesis?testing 造成的影響后,這個(gè)風(fēng)格因子的收益率不存在任何 calendar anomalies。BTW,這個(gè)全樣本中不顯著的因子是 Operating Cost TTM。
5?結(jié)語(yǔ)
如今,在研究因子時(shí),我們已經(jīng)熟知 multiple hypothesis?testing 的危害。而將收益率在時(shí)間上進(jìn)行各種劃分并同時(shí)進(jìn)行多個(gè)檢驗(yàn)則是另一種形式的 multiple hypothesis?testing。在這種背景下,獨(dú)立判別收益率在某個(gè)劃分下是否顯著并不合理。本文以 Operating Cost TTM 這個(gè)常見(jiàn)的質(zhì)量因子為例說(shuō)明如未能排除 multiple?hypothesis testing 的影響,它會(huì)讓我們得出錯(cuò)誤的結(jié)論。當(dāng)我們考慮了足夠多的 calendar effects 時(shí),僅僅依靠運(yùn)氣就一定會(huì)找到顯著的區(qū)間。為了杜絕虛假發(fā)現(xiàn),應(yīng)對(duì)顯著性進(jìn)行修正。在 Carchano and Pardo Tornero (2011) 這篇檢驗(yàn)了 188 個(gè)異象的文章中,作者采用了 bootstrap 的方法,這也是排除運(yùn)氣的一種思路。
從統(tǒng)計(jì)上來(lái)說(shuō),收益率在一月份顯著和在某個(gè)沒(méi)有任何特殊意義的連續(xù) 30 天內(nèi)顯著并無(wú)區(qū)別;類(lèi)似的,收益率在春節(jié)后的第一個(gè)交易日顯著和在一年中的第 137 個(gè)交易日顯著也沒(méi)什么不同。但是,在這兩個(gè)比較中,人們會(huì)非常愿意給前者找到“合理”的解釋并相信它們是 calendar anomalies。一個(gè) calendar anomaly 是否真實(shí)存在并不取決于我們能否找出“合理”的理由或講出“動(dòng)聽(tīng)”的故事,而是應(yīng)基于嚴(yán)謹(jǐn)?shù)慕y(tǒng)計(jì)檢驗(yàn)結(jié)果。市場(chǎng)中各種喜聞樂(lè)見(jiàn)的 calendar anomalies,是否只是建立在 multiple hypothesis?testing 之上的虛無(wú)?
參考文獻(xiàn)
Aharon, D. Y. and M. Qadan (2019). The size effect is alive and well, and hiding behind calendar anomalies. The Journal of Portfolio Management 45(6), 61 – 74.
Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing.?Journal of the Royal Statistical Society?Series B 57, 289 – 300.
Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under Dependency.?Annals of Statistics 29, 1165 – 1188.
Carchano, O. and A. Pardo Tornero. (2011).?Calendar anomalies in stock index futures. Working paper.
Holm, S. (1979). A simple sequentially rejective multiple test procedure.?Scandinavian Journal of Statistics 6, 65 – 70.
McConnell, J. and W. Xu (2008). Equity returns at the turn of the month. Financial Analysts Journal 64(2), 49 – 64.
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見(jiàn)并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外,文中圖表均直接或間接來(lái)自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。