Being Honest with Backtest Reporting
發(fā)布時(shí)間:2021-08-02 | 來(lái)源: 川總寫(xiě)量化
作者:石川
摘要:比起傳統(tǒng)定義下的動(dòng)量,F(xiàn)F3-α 動(dòng)量能夠獲得顯著的超額收益。然而這背后又藏著哪些不為人知的真相?、
1
由多因子模型定義可知,股票的超額收益可以分解為特質(zhì)部分以及被因子解釋的部分。如果使用特質(zhì)收益率計(jì)算動(dòng)量,就構(gòu)成了?α?動(dòng)量。Hühn and Scholz (2018) 指出以 Fama and French (1993) 三因子(FF3)為基準(zhǔn)計(jì)算的 FF3-α 動(dòng)量在美股上有很好的效果。此外,相比于傳統(tǒng)的動(dòng)量,α?動(dòng)量背后的邏輯是投資者對(duì)公司特質(zhì)信息的反應(yīng)不足所致,因此更加持續(xù);且由于剔除了對(duì)常見(jiàn)因子的暴露,α?動(dòng)量比傳統(tǒng)動(dòng)量波動(dòng)更低。
下面我們看看 FF3-α 動(dòng)量在 A 股上的表現(xiàn)怎么樣。為了構(gòu)造 FF3-α 動(dòng)量因子,利用過(guò)去一段時(shí)間個(gè)股日超額收益對(duì) FF3 的因子超額收益回歸,得到其超額收益 α,并將其作為構(gòu)造 FF3-α 動(dòng)量因子的變量:
??
使用自 2017/01/01 到 2021/06/30 近 5 年的實(shí)證窗口;股票池為從所有在市交易的股票中剔除掉黑名單(包括待退市股票、凈資產(chǎn)為負(fù)股票、風(fēng)險(xiǎn)警示股票和次新股等)和不可交易股票(包括停牌股和一字漲跌停股票等)之后的剩余股票,并剔除異常值(詳細(xì)處理方法請(qǐng)參考《因子投資:方法與實(shí)踐》的 3.1 節(jié))。在每月末,使用 T – 13 到 T – 2(即剔除最近 1 個(gè)月)的數(shù)據(jù)計(jì)算 FF3-α,通過(guò) portfolio sort 構(gòu)造因子多空對(duì)沖組合,其中多頭和空頭均按照市值加權(quán)。在實(shí)證窗口內(nèi),上述 FF3-α 動(dòng)量的月均超額收益為 2.05%,因子累計(jì)收益曲線如下圖所示。
由上述介紹可知,α 動(dòng)量理論似乎基礎(chǔ)清晰,在 A 股中的實(shí)證結(jié)果也算給力,看上去是一個(gè)能夠取代傳統(tǒng)動(dòng)量的合格因子。看到這里,細(xì)心地小伙伴可能品出了上面這句話中的關(guān)鍵詞:“似乎”,“也算”,“看上去”。而且,公眾號(hào)的老朋友也許會(huì)感到困惑,因?yàn)樽罱鼛啄暝跈z驗(yàn)因子和異象的文章中,我?guī)缀醪辉偈褂美塾?jì)收益曲線圖了,取而代之的是用檢驗(yàn)結(jié)果的表格。然而,上面實(shí)證分析連 t-statistic 都沒(méi)有給出。這很不“川總寫(xiě)量化”。沒(méi)錯(cuò),接下來(lái)的內(nèi)容才是本文的重點(diǎn),我們就來(lái)盤一盤 FF3-α 動(dòng)量誕生之路上的三宗罪。
2
先說(shuō)第一宗。John Cochrane 曾說(shuō)過(guò):Every important number should include a standard error。在上面的檢驗(yàn)中,F(xiàn)F3-α 因子的月均收益率無(wú)疑是我們的目標(biāo),但是卻只給出了均值(2.05%)而沒(méi)有給出 standard error(或者 t-statistic),取而代之的試圖利用一條持續(xù)上行的累計(jì)收益曲線來(lái)傳遞出它很不錯(cuò)的信號(hào)。沒(méi)有計(jì)算 standard error 就是第一宗罪。
通過(guò)計(jì)算可知,其經(jīng)過(guò) Newey and West (1987) 調(diào)整后的 t-statistic 為 3.06,超過(guò)了 Harvey, Liu, and Zhu (2016) 提出的 3.0 閾值。面對(duì)這個(gè)檢驗(yàn)結(jié)果(而非一條累計(jì)收益曲線),我們似乎終于能松了一口氣。但是,我沒(méi)有告訴你的是,如果不使用 Newey and West (1987) 調(diào)整,那么該因子月均收益率的 t-statistic 只有 2.70,小于 3.0 閾值。另一個(gè)我向你隱瞞的參數(shù)是,計(jì)算 Newey and West (1987) 時(shí)使用的滯后期數(shù)。下表顯示了不同滯后期(L)取值下,該 FF3-α 動(dòng)量因子月均超額收益的?t-statistic 取值。結(jié)果說(shuō)明,我們可以通過(guò)改變 L 的取值來(lái)操縱?t-statistic,使之滿足我們需要的閾值。
然而,如果我不告訴你這些呢?事實(shí)上,t-statistic = 3.06 對(duì)應(yīng)的是 L = 3,而 3 這個(gè)取值是根據(jù) Newey and West (1994) 的算法得到的。因此,如果在行文中使用“考慮到因子收益率的自相關(guān)和異方差,使用 Newey and West (1987) 調(diào)整 standard error 并計(jì)算 t-statistic,在計(jì)算中根據(jù) Newey and West (1994) 確定滯后期 L”將顯得非常自然以及合情合理,不會(huì)給人數(shù)據(jù)操縱的感受。而另一方面,如果我需要的滯后期為 L 等于 4 或者 5,上述措辭又可以被“合情合理地”改為“遵循使用月頻收益率進(jìn)行實(shí)證研究的慣例,取 L = 4(或者 5)”。
一切都是那么的自然。
盡管對(duì) t-statistic 的操縱已經(jīng)令人尷尬,但這個(gè)第一宗罪僅僅是最初級(jí)的問(wèn)題。
下面來(lái)說(shuō)第二宗。實(shí)證窗口到底是怎么選的?為什么實(shí)證窗口從 2017/01/01 開(kāi)始,而不是更早?為什么因子多空組合用市值加權(quán),而不是等權(quán)?答案分別是(1)在 2017/01/01 之前,F(xiàn)F3-α 動(dòng)量因子不好使;(2)使用等權(quán)后,F(xiàn)F3-α 動(dòng)量因子不好使。因此,第二宗罪就是:Hypothesizing After the Results are Known(HARKing),即先看數(shù)據(jù),后提出假設(shè)。如果我們希望粉飾數(shù)據(jù)窗口的選擇,那么找一些理由似乎并不困難,比如從 2017/01/01 之后,投資者結(jié)構(gòu)發(fā)生了變化,機(jī)構(gòu)投資者占比上升;而如果我們想要掩飾股票權(quán)重的選擇,也可以冠冕堂皇的說(shuō)出于流動(dòng)性的考慮按照市值加權(quán)而非等權(quán),而刻意選擇性失憶忽視過(guò)去幾年大市值跑贏小市值的事實(shí)。
寫(xiě)到這里,我想強(qiáng)調(diào)的是,投資者結(jié)構(gòu)變化導(dǎo)致因子表現(xiàn)變化以及按照市值加權(quán)構(gòu)造因子組合 per se 都是合理的。但在我們的場(chǎng)景下,如果僅僅匯報(bào)能夠獲得最顯著結(jié)果的實(shí)證設(shè)定,而隱瞞其他設(shè)定下的結(jié)果,那無(wú)疑是不負(fù)責(zé)任的。Eugene Fama 曾說(shuō)“實(shí)證研究其實(shí)就是 data description,當(dāng)你完成實(shí)證研究之后,你總是希望收集新的數(shù)據(jù)來(lái)驗(yàn)證觀點(diǎn)。”這是一種值得學(xué)習(xí)的態(tài)度。下表給出了不同實(shí)證窗口內(nèi),分別按照等權(quán)和市值加權(quán)計(jì)算的 FF3-α 月均超額收益檢驗(yàn)結(jié)果。不出意外的是,只有在本文第一節(jié)選擇的實(shí)證設(shè)定(2017/01/01 開(kāi)始且市值加權(quán))下,F(xiàn)F3-α 月均超額收益才是顯著的,而其他實(shí)證設(shè)定則全軍覆沒(méi)。匯報(bào)不同設(shè)定下的結(jié)果而非 HARKing,能夠幫助我們更加客觀的評(píng)判這個(gè)因子并在樣本外使用這個(gè)它。
上面兩宗罪體現(xiàn)出的數(shù)據(jù)操縱足以令人不安,但它們和最后一宗罪比起來(lái)只能算是小巫見(jiàn)大巫。因?yàn)闊o(wú)論是計(jì)算 t-statistic 還是選擇實(shí)證設(shè)定,上述結(jié)果似乎都在傳遞出一個(gè)假象,即我們?cè)谶M(jìn)行 single hypothesis test —— 似乎我們從一個(gè)合理的金融學(xué)依據(jù)出發(fā),提出了 α 動(dòng)量,然后進(jìn)行實(shí)證分析。然而,找到 FF3-α 動(dòng)量背后的真相其實(shí)是,我們嘗試了 8 個(gè)改造后的動(dòng)量因子,然后從中精挑細(xì)選出了最好的一個(gè),即 FF3-α。除 FF3-α 外,其他 7 個(gè)因子包括:傳統(tǒng)動(dòng)量、距離最高點(diǎn)距離、未實(shí)現(xiàn)盈利值、動(dòng)量加速度、特質(zhì)動(dòng)量、累計(jì)異常收益、左尾動(dòng)量以及相似動(dòng)量。在本文第一節(jié)的實(shí)證設(shè)定下,這些動(dòng)量的月均超額收益檢驗(yàn)結(jié)果如下表所示。
毫無(wú)疑問(wèn),從上述變量中挑出 FF3-α 動(dòng)量并不困難;雖然其顯著性略遜累計(jì)異常收益一籌,但其高達(dá) 2.05% 的月均收益率比起累計(jì)異常收益的 0.72% 要高得多(因此經(jīng)濟(jì)意義上更加顯著),且累計(jì)異常收益是一個(gè) PEAD 類的因子。所以綜合考慮,F(xiàn)F3-α 脫穎而出。試了 8 個(gè),卻只挑出了最好的,這無(wú)疑是 multiple hypothesis testing(MHT)。然而,如果我們只像第一節(jié)那樣介紹 FF3-α 動(dòng)量而對(duì)試過(guò)的其他 7 個(gè)諱莫如深,就會(huì)給人一種 single hypothesis testing 的錯(cuò)覺(jué),這就是如今學(xué)界大力呼吁的 p-hacking 問(wèn)題。只有如實(shí)匯報(bào)全部 8 個(gè)因子,才能夠在合理的 MHT 框架下對(duì)結(jié)果進(jìn)行修正(當(dāng)然,面對(duì)原始的 t-statistic,依然有前面兩宗罪的問(wèn)題)。
p-hacking 就是第三宗罪。
如果你和我一樣也關(guān)注了?[Chihiro Quantitative Research] 公眾號(hào),那么一定發(fā)現(xiàn)了今天的文章使用的是連長(zhǎng)最新文章《動(dòng)量 Plus(上)》里面的數(shù)據(jù)。在這里我特地給連長(zhǎng)打個(gè) call,該文計(jì)算了 standard errors,如實(shí)匯報(bào)了上述 8 個(gè)因子和傳統(tǒng)動(dòng)量(一共 9 個(gè)因子)在不同窗口內(nèi)以及等權(quán)和市值加權(quán)下的檢驗(yàn)結(jié)果。這是應(yīng)有的研究態(tài)度。我在本文中的分析僅僅是使用他的實(shí)證數(shù)據(jù)借花獻(xiàn)佛。
3
我曾經(jīng)非常糾結(jié)于本文的標(biāo)題,因?yàn)樗隙〞?huì)劇透,從而讓行文中的反轉(zhuǎn)效果打些折扣(其它曾經(jīng)使用的題目就包括 FF3-α 動(dòng)量),但最終還是保留了 Being Honest with Backtest Reporting 這個(gè)標(biāo)題(但我盡量讓摘要顯得不那么直接),這是本文希望傳遞出的態(tài)度。而這個(gè)標(biāo)題也是借鑒了 Fabozzi and Lopez de Prado (2018) 發(fā)表在 Journal of Portfolio Management 上的同名文章。(我也要 be honest with my title picking。)為了降低 MHT 的影響,該文主張?jiān)诨販y(cè)中如實(shí)匯報(bào)如下幾點(diǎn):
Family of trials
Family size
Familywise error rate (FWER)
Power of the test
Robustness analysis
其中 family of trails 和 family size 可以理解為嘗試次數(shù)(或變量個(gè)數(shù))以及嘗試的有明顯差異的實(shí)驗(yàn)(或變量)的個(gè)數(shù),具體解釋見(jiàn)截圖如下。
由本文關(guān)于改造動(dòng)量因子的例子可知,僅匯報(bào)通過(guò)數(shù)據(jù)操縱得到的最顯著結(jié)果是不負(fù)責(zé)任的,而上述 checklist 能夠從一定程度上幫助規(guī)避文中提到的幾宗罪,讓我們對(duì)實(shí)證結(jié)果更加安心。最后,本文和?Fabozzi and Lopez de Prado (2018) 都傳遞出和 Campbell Harvey 教授的《Tortured Data》同樣的觀點(diǎn):“數(shù)據(jù)不會(huì)發(fā)聲,而是進(jìn)行數(shù)據(jù)分析的人通過(guò)數(shù)據(jù)發(fā)聲。而在這背后,又有多少不同的動(dòng)機(jī)、原因、理由來(lái)追求人們希望看到的結(jié)論,或者希望講述的故事呢?”
Be honest with your backtest reporting.
參考文獻(xiàn)
刀疤連,動(dòng)量 Plus(上),https://mp.weixin.qq.com/s/_LBmaL2JRdARCZg4Ce7UAA
Fabozzi, F. J. and M. Lopez de Prado (2018). Being honest in backtest reporting: A template for disclosing multiple tests. Journal of Portfolio Management 45(1), 141 – 147.
Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds.?Journal of Financial Economics?33(1), 3 – 56.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns.?Review of Financial Studies?29(1), 5 – 68.
Hühn, H. L. and H. Scholz (2018). Alpha momentum and price momentum. International Journal of Financial Studies 6(2), 49.
Newey, W. K. and K. D. West (1987). A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix.?Econometrica?55(3), 703 – 708.
Newey, W. K. and K. D. West (1994). Automatic lag selection in covariance matrix estimation.?Review of Economic Studies 61(4), 631 – 653.
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見(jiàn)并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說(shuō)明外,文中圖表均直接或間接來(lái)自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。