出色不如走運(yùn) (V)?
發(fā)布時(shí)間:2021-02-03 | 來源: 川總寫量化
作者:石川
摘要:貝葉斯思維和對 Type II error rate 的考量讓多重假設(shè)檢驗(yàn)方法上升到了新的高度。
1?引言
如果要說 2020 年令人印象深刻的金融學(xué)論文,Harvey and Liu (2020) 一定會有一席之地。在這篇題為 False (and missed) discoveries in financial economics、發(fā)表于 Journal of Finance 的文章中,二位作者將 multiple hypothesis testing(多重假設(shè)檢驗(yàn))方法論提升到了新高度。
如今再談到多重假設(shè)檢驗(yàn),公眾號的小伙伴一定不再陌生了?!冻錾蝗缱哌\(yùn)》系列的前幾篇文章均圍繞這個(gè)話題進(jìn)行了探討。在學(xué)術(shù)論文方面,Harvey, Liu, and Saretto (2020) 一文對常見的方法進(jìn)行了總結(jié),而《出色不如走運(yùn)》系列的“番外篇”《常見多重檢驗(yàn)方法及其實(shí)證》也參照該文針對 A 股對其中一些方法進(jìn)行了實(shí)證。
概括來說,傳統(tǒng)的多重假設(shè)檢驗(yàn)方法均可以歸納到“正交化” + “bootstrap”兩個(gè)技術(shù)的綜合運(yùn)用。以挖掘股票市場異象為情景來說,其中“正交化”的作用是在樣本內(nèi)剔除每個(gè)異象的超額收益;“bootstrap”則是在正交化后的基礎(chǔ)上通過重采樣更多的數(shù)據(jù),以此獲得僅由運(yùn)氣造成的異象超額收益顯著性(t-statistic)的分布。
在得到由運(yùn)氣造成的顯著性(t-statistic)的分布后,這些方法往往以控制事先約定的 Type I error rate(false discovery rate),例如常見的 5%,來選定 t-statistic 的閾值,并以此確定哪些異象能夠獲得顯著的超額收益。
傳統(tǒng)方法雖然簡單易用,但是存在兩個(gè)問題:
1. 在“正交化”的過程中,往往會對所有異象都做“正交化”處理(原假設(shè)為異象超額收益為零)。然在現(xiàn)實(shí)中,這種處理方法忽視了先驗(yàn)的作用。對于待檢驗(yàn)的諸多異象,人們可能根據(jù)金融學(xué)先驗(yàn)認(rèn)為其中一定比例的異象的超額收益是顯著的,但傳統(tǒng)的方法并不能利用這種先驗(yàn)。
2. t-statistic 閾值是通過事先約定的 Type I error rate 確定的,而不去考慮 Type I 和 Type II 兩類錯誤的 trade-off。這么做的結(jié)果是,傳統(tǒng)多重假設(shè)檢驗(yàn)方法的 Type II error rate 往往很高,power (= 1 – Type II error rate) 往往很低。舉個(gè)極端的例子,假設(shè)某個(gè)算法把所有原假設(shè)都接受了,那么它也就沒能發(fā)現(xiàn)任何真正的異象(power = 0)。
對研究異象來說,Type II error 意味著異象本身能夠獲得超額收益(原假設(shè)為假),但是檢驗(yàn)并沒有拒絕其原假設(shè),因此錯失了真正的異象。
盡管如此,常見方法僅僅關(guān)心 Type I error rate 也實(shí)在是無奈之舉。這是因?yàn)槟呐聦τ趩我患僭O(shè)檢驗(yàn),計(jì)算 Type II error rate 都并不容易,更不用說多重假設(shè)檢驗(yàn)問題。如果想要計(jì)算 Type II error rate,就必須知道備擇假設(shè)下參數(shù)的取值(本文附錄部分引用了 Wikipedia 的例子說明如何在單一假設(shè)檢驗(yàn)下計(jì)算 Type II error rate)。但顯然,對于成百上千個(gè)異象來說,想要遍歷它們備擇假設(shè)下的預(yù)期超額收益不切實(shí)際。這個(gè)巨大的障礙使得人們難以將單一檢驗(yàn)中計(jì)算 Type II error rate 的方法復(fù)制到多重假設(shè)檢驗(yàn)問題中。
除了分析的難度,還有另一個(gè)原因是人們在過去通常認(rèn)為 Type II error 的影響不如 Type I error 的影響大。以大幅提升分析難度為代價(jià),換來的邊際期望收益卻有限,似乎有些得不償失。不過,這種看法也逐漸在轉(zhuǎn)變。在 α 越來越稀缺的當(dāng)下,Type II error 的成本越來越高,讓人開始重視兩類錯誤之間的取舍。
在這種背景下,Harvey and Liu (2020) 提出了一個(gè)基于雙重 bootstrap 的多重假設(shè)檢驗(yàn)框架,同時(shí)解決了上述兩個(gè)問題。
2?Harvey and Liu (2020)
假設(shè)一共有 N 個(gè)異象,原始數(shù)據(jù)為 T × N 階異象收益率序列矩陣(記為 X_0),其中 T 為期數(shù)。這一步的設(shè)定和傳統(tǒng)多重假設(shè)檢驗(yàn)方法無異,但是 Harvey and Liu (2020) 的不同之處是通過參數(shù) p_0 來控制真實(shí)異象的比例。人們可以根據(jù)自身的經(jīng)驗(yàn)來選擇 p_0 的取值,它是貝葉斯思維的體現(xiàn)。
當(dāng)選定 p_0 后,一個(gè)自然的想法是在全部 N 個(gè)異象中收益率均值的 t-statistic 最高的 N × p_0 個(gè)是真實(shí)的。但是我們手頭這 N 個(gè)異象的收益率序列也是來自未知總體。考慮到 sampling uncertainty,它們中最高的 N × p_0 個(gè)也并非就一定都是真的。為了解決這個(gè)問題 Harvey and Liu (2020) 進(jìn)行了第一輪 bootstrap。
通過對 X_0 進(jìn)行 bootstrap sampling 得到矩陣 X_i(下標(biāo) i 表示第 i 個(gè) bootstrap 樣本)。使用 X_i 中的收益率序列計(jì)算 N 個(gè)異象的 t-statistics,并選出最高的 N × p_0 個(gè)。在原始矩陣 X_0 中,將這些異象的收益率均值替換為它們在 X_i 中的均值,并把 X_0 中剩余那些異象的收益率做去均值處理,以此構(gòu)造出矩陣 Y_i。
經(jīng)過上述構(gòu)造后,每次對 X_0 進(jìn)行一次 bootstrap sampling,都會得到一個(gè) Y_i,其中有 N × p_0 個(gè)異象的超額收益均值非零(顯著的),剩余 N × (1 - p_0) 個(gè)異象的超額收益均值為零(不顯著)。
在上述過程中,對剩余 N × (1 - p_0) 個(gè)異象時(shí)序收益率的去均值操作體現(xiàn)了“正交化”的思想;而對 N × p_0?個(gè)異象保留收益率均值則源于先驗(yàn)。此外這種操作通過單一參數(shù) p_0 指定了原假設(shè)應(yīng)被拒絕的異象,巧妙的繞過了后續(xù)計(jì)算 Type II error rate 時(shí)需要指定異象收益率參數(shù)的困難。
通過第一輪 bootstrap 得到的眾多 Y_i 就是第二輪 bootstrap 的原始數(shù)據(jù)。對于每個(gè) Y_i,其構(gòu)造方法保證了我們知道哪些異象是真實(shí)的,哪些異象是虛假的,因此通過對 Y_i 進(jìn)行 bootstrap sampling 就可以方便的計(jì)算 Type I 和 Type II error rates。
在 Y_i 的第 j 次 bootstrap 樣本中,定義如下四個(gè)變量:
TN^{i, j}:正確地接受原假設(shè)的個(gè)數(shù)(true negative);
TP^{i, j}:正確地拒絕原假設(shè)的個(gè)數(shù)(true positive);
FP^{i, j}:錯誤地拒絕原假設(shè)的個(gè)數(shù)(false positive);
FN^{i, j}:錯誤地接受原假設(shè)的個(gè)數(shù)(false negative)。
這四個(gè)變量的關(guān)系如下表所示。
雖然 Y_i 告訴我們異象的真?zhèn)?,但是為了?Y_i 的每個(gè)?bootstrap 樣本中將全部 N 個(gè)異象劃分到上述四類中,需要指定用于判斷的 t-statistic 閾值。例如,假設(shè)異象 A 在 Y_i 中是真實(shí)的,并假設(shè)其在 Y_i 的第 j 次 bootstrap 樣本中的 t-statistic 為 2.0,小于選定的閾值(例如 2.3),因此 A 將不會被拒絕。由于 A 的原假設(shè)為假(即真異象)但它卻被錯誤的接受,因此將被分到 FN 類。
這個(gè)例子說明,TN^{i, j}、TP^{i, j}、FP^{i, j} 以及 FN^{i, j} 四個(gè)變量是 t-statistic 閾值的函數(shù)。這是 Harvey and Liu (2020) 框架中非常關(guān)鍵的一點(diǎn)。
通過上述四個(gè)變量,Harvey and Liu (2020) 進(jìn)而定義了 realized false discovery rate(RFDR)、realized rate of miss(RMISS)以及 realized ratio of false discoveries to misses(RRATIO):
從定義不難看出,RFDR 是全部 positive 中 false positive 的占比(即所有被拒絕的原假設(shè)中,虛假異象的占比),它對應(yīng)的是 Type I error;RMISS 是全部 negative 中 false negative 的占比(即所有被接受的原假設(shè)中,真實(shí)異象的占比),對應(yīng)的是 Type II error;最后 RRATIO 是 false positive 和 false negative 之比,它代表了兩類錯誤的比重。
在實(shí)際應(yīng)用中,對于每一個(gè) Y_i 進(jìn)行 J 次 bootstrap sampling。假設(shè)第一輪 bootstrap 中由原始數(shù)據(jù) X_0 一共生成了 I 個(gè) Y_i,因此對于上述每一個(gè)變量,雙重 bootstrap 都最終能夠生成 I × J 個(gè)。將它們各自取平均便得到最終的 Type I error rate、Type II error rate 以及權(quán)衡兩類錯誤之比的 ORatio(Odds)。
由于用來計(jì)算 Type I、Type II 以及 ORATIO 的變量 TN^{i, j}、TP^{i, j}、FP^{i, j} 以及 FN^{i, j} 是t-statistic 閾值的函數(shù),因此這三個(gè)最終的變量也是 t-statistic 閾值的函數(shù)。這便讓人們可以根據(jù)最關(guān)心的問題選擇最合適的 t-statistic 閾值。如果我們更關(guān)注 Type I error rate,那么可以控制其不超過給定的水平(例如 5%)并以此確定 t-statistic 閾值;如果我們更關(guān)心 Type II error rate 或者二者之間的取舍,則可以通過指定 Type II error rate 或者 ORATIO 的水平來選擇適當(dāng)?shù)?t-statistic 閾值。
最后一點(diǎn)需要說明的是,由于這兩類錯誤之間的取舍(即更低的 Type I error rate 意味著更高的 Type II error rate),因此當(dāng)以控制 Type I error rate 不超過設(shè)定水平為目標(biāo)時(shí),Harvey and Liu (2020) 的雙重 bootstrap 方法保證了求出的 t-statistic 閾值同時(shí)對應(yīng)了最優(yōu)的 Type II error rate。換句話說,相比于其他傳統(tǒng)的多重假設(shè)檢驗(yàn)方法,Harvey and Liu (2020) 的方法有更高的 power。在 Harvey and Liu (2020) 一文中,二位作者通過大量的實(shí)證(檢驗(yàn)異象、檢驗(yàn)基金經(jīng)理的超額收益等)來論證了新方法的先進(jìn)性。感興趣的小伙伴請閱讀原文。下面來看看 A 股的實(shí)證。
3?實(shí)證
本節(jié)針對 95 個(gè)異象應(yīng)用 Harvey and Liu (2020) 提出的方法(異象收益率序列來自 BetaPlus 小組)。這 95 個(gè)異象超額收益 t-statistic 的分布如下。在實(shí)證中選擇 I = 100,J = 200。
在應(yīng)用中,假設(shè) p_0 的取值范圍是 0% 到 20%;例如,當(dāng) p_0 = 0% 時(shí)認(rèn)為所有異象都是虛假的;當(dāng) p_0 = 20% 時(shí)認(rèn)為 19 個(gè)異象是真實(shí)的。由邏輯可知,當(dāng) p_0 增大時(shí),先驗(yàn)認(rèn)為更多的異象是真實(shí)的,因此對于給定的 Type I error rate 水平,得到的 t-statistic 閾值會降低。實(shí)證結(jié)果符合上述預(yù)期。下圖給出了 p_0 = 0%、5%、10% 以及 20% 時(shí) Type I、Type II、以及 ORATIO 的曲線。由前述可知,它們都是 t-statistic 閾值的函數(shù),因此下面每個(gè)圖中的橫坐標(biāo)都是 t-statistic 閾值。
當(dāng) p_0 很高時(shí)(比如我們對于待檢驗(yàn)的異象很有信心),Type I error rate 隨 t-statistic 閾值的增大而迅速下降,與此同時(shí) Type II error rate 則快速上升。這十分符合預(yù)期,因?yàn)楫?dāng)真實(shí)異象占比很高時(shí),如果選擇的 t-statistic 閾值太嚴(yán)苛,就很有可能錯失真實(shí)的異象,即出現(xiàn) Type II error。下圖給出了不同 p_0 時(shí),控制 5% 的 Type I error rate 所需要的 t-statistic 閾值。這個(gè)圖很好的表明了貝葉斯思維的重要性。在傳統(tǒng)多重假設(shè)檢驗(yàn)方法中,由于不指定 p_0,“正交化”會作用于所有異象,導(dǎo)致 t-statistic 閾值過高(對應(yīng)下圖中 p_0 = 0 的情況)。而當(dāng)人們有足夠的理由對待檢驗(yàn)的異象給出合理的先驗(yàn)時(shí),通過合適的 p_0 就能夠求出更加準(zhǔn)確的 t-statistic 閾值,從而在給定的 Type I error rate 水平下最小化 Type II error rate。
通過本節(jié)的實(shí)證可以發(fā)現(xiàn),加入了貝葉斯思想(通過 p_0)和考慮了兩類錯誤的權(quán)衡之后,Harvey and Liu (2020) 的多重假設(shè)檢驗(yàn)方法可以找到更好的 t-statistic 閾值。
4?結(jié)語
為了從一大堆異象中找到真正的、規(guī)避虛假的,多重假設(shè)檢驗(yàn)方法走進(jìn)了人們的視線并早已被學(xué)術(shù)界廣泛接受。然而傳統(tǒng)的多重假設(shè)檢驗(yàn)方法對原始數(shù)據(jù)的分布有不同的假設(shè),而不同異象收益率的相關(guān)性往往不滿足某些假設(shè),使得很多方法難以應(yīng)用。本文介紹的 Harvey and Liu (2020) 框架則不受上述問題的困擾。此外,該方法通過引入 p_0 和雙重 bootstrap 讓人們在控制 Type I error rate 的同時(shí)也能夠權(quán)衡 Type II error rate。這在 Type II error 的成本越來越高的今天顯得尤為重要。
最后我想強(qiáng)調(diào)的是,Harvey and Liu (2020) 的先進(jìn)性和靈活性讓它可以自如的應(yīng)對每個(gè)具體的問題。不同的一大組異象、不同的 p_0 的選擇(來自研究者的經(jīng)驗(yàn))、不同的分析目標(biāo)(Type I vs Type II)會得到不同的 t-statistic 閾值。因此,該框架讓人們解決最關(guān)心的問題,而不是不加區(qū)分的使用某個(gè)統(tǒng)一的閾值(比如 3.0)。有理由期待,該方法在未來檢驗(yàn)異象和分析基金超額收益的場景中發(fā)揮更重要的作用。
A?附錄
來自 Wikipedia 的計(jì)算單一假設(shè)檢驗(yàn)中 Type II error rate 的例子。
參考文獻(xiàn)
Harvey, C. R. and Y. Liu (2020). False (and missed) discoveries in financial economics. Journal of Finance 75(5), 2503 – 2553.
Harvey, C. R., Y. Liu, and A. Saretto (2020). An evaluation of alternative multiple testing methods for finance applications.?Review of Asset Pricing Studies 10(2), 199 – 248.
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。