用 IC 評價因子效果靠譜嗎?
發(fā)布時間:2018-08-07 | 來源: 川總寫量化
作者:石川
摘要:傳統(tǒng)的 IC 或者 Rank IC 在評價因子選股效果時不夠合理,有一些陷阱。基于 IC 進行因子配置不十分靠譜。本文提出對 IC 的一些改進,并建議使用加權 IC 來評判因子效果。
1 IC 和 Rank IC
在多因子選股實務中,人們熱衷于動態(tài)評價因子在單期截面上的選股效果。為實現(xiàn)這個目標,通常的做法是用當期個股的因子取值(記為 x)和下一期個股的收益率(記為 y)在截面上計算信息系數(shù)(information correlation),簡稱 IC。IC 的計算方法通常有兩種:x 和 y 的相關系數(shù),以及 x 和 y 的秩相關系數(shù)(見下圖)。第一種就是我們常說的 IC,第二種可以稱作 Rank IC。
這里簡單介紹下秩相關系數(shù)。秩相關系數(shù)(rank correlation coefficient)和相關系數(shù)類似,不同的是它考察的是兩個隨機變量之間的單調相關性(monotonic correlation)。秩相關性對變量之間的線性或非線性相關性不做假設。在計算秩相關系數(shù)時,使用的并不是觀測值本身的數(shù)值,而是它們在各自樣本中的排序。秩相關系數(shù)的取值在 -1 到 1 之間。在統(tǒng)計學中,有多種計算秩相關系數(shù)的方法,其中最流行的要數(shù) Spearman 秩相關系數(shù),它以?Charles Spearman?命名。假設有兩個隨機變量 x 和 y 的 n 對兒觀測值,Spearman 秩相關系數(shù) r_s 的計算過程如下:
1. 首先將 x 和 y 的觀測值轉換成它們對應的排序 x_r 和 y_r。
2. 對 x_r 和 y_r 采用傳統(tǒng)的線性相關系數(shù)公式,則可得到 r_s:
?
下圖是某因子在一段時間內的滾動 Rank IC 移動平均,從中我們能對常見選股因子 IC 的取值范圍有個大概的了解。
?
從上面的定義可知,無論使用 IC 還是 Rank IC,都希望它越大越好,越大說明因子選股的能力越強(也可以越小越好,那就反過來用因子)。我們也經常能在一些策略中看到使用 IC(或者 IR,即 IC 的均值除以標準差)的高低來動態(tài)進行因子的配置。上面這些用法的核心前提是 IC 能夠正確反映因子選股的能力。然而,真的是這樣嗎?如果這個核心前提不成立,那么基于 IC 的各種因子擇時、因子配置、因子打分恐怕難言靠譜。
2 IC 中的陷阱
本節(jié)通過一個假想的例子說明 IC 和 Rank IC 計算中存在的陷阱。假設有十支股票,它們的因子取值從大到小如下表所示。此外,考慮這十支股票的兩組假想的收益率序列。
很容易計算該因子和這兩組收益率序列的相關系數(shù)均為 0.2909。如果僅僅看 IC 這個單一指標的話,我們會認為該因子在當期的選股能力很不錯。但 IC 背后還有很多故事可講。我們不妨把因子和這兩組收益率序列畫出來,并各自做一條線性回歸線來看一看。令?y 代表收益率,x 代表因子,則線性回歸模型表達式為:
上式中斜率 b 和 x 與 y 的相關系數(shù) ρ 滿足如下關系:
由于這兩組收益率和因子的相關系數(shù)均為 0.2909,因此我們也以預期它們和因子的線性回歸斜率相同。事實上,結果也正是如此(下圖,斜率均為 0.0058):
雖然 IC 一樣,但是畫出圖來才看到這兩組收益率序列和因子的關系大相徑庭。假設從業(yè)務邏輯來說,個股的收益率和因子呈正相關,因此我們要選因子取值大的股票。但是,這個邏輯在上面兩組收益率序列中會得到截然不同的結果:對于序列一,使用最大的因子取值可以選出收益率最高的股票;而對于序列二,使用最大的因子取值卻選出了收益率相當差的股票。面對如此結果,IC 無辜嗎?如果使用 Rank IC 代替 IC,得到的也是同樣的結論。這兩組收益率和因子的秩相關系數(shù)均等于 0.3212。從這個數(shù)字背后解讀不出任何超過這個數(shù)字本身的東西。在量化投資中,我們喜歡并追尋能夠精確計算出的數(shù)字。但這么做的前提是該數(shù)字有意義。在統(tǒng)計學家中流傳著一個說法:
Numerical calculations are exact, but graphs are rough.
單一的統(tǒng)計量,比如上面的 IC 或者 Rank IC 卻難以體現(xiàn)出圖形反映出來的因子和收益率之間更多的關系。這說明如果我們僅僅看中 IC,可能會步入數(shù)據(jù)的陷阱。僅關注統(tǒng)計量而忽視圖形信息本身最著名的例子當屬安斯庫姆四重奏(Anscombe's quartet)。安斯庫姆四重奏是四組基本的統(tǒng)計特性一致的數(shù)據(jù),但由它們繪制出的圖形則截然不同。每一組數(shù)據(jù)都包括了 11 個 (x, y) 點。這四組數(shù)據(jù)由統(tǒng)計學家弗朗西斯·安斯庫姆(Francis Anscombe)于 1973 年構造,他的目的是用來說明在分析數(shù)據(jù)前先繪制圖表的重要性,以及離群值對統(tǒng)計的影響之大。下圖就是這四組數(shù)據(jù)繪制出來的圖形,可見它們截然不同:
1. 第一組描繪了 x 和 y 之間近似的線性關系;
2. 第二組中 x 和 y 表現(xiàn)出了明顯的非線性關系;
3. 第三組中 x 和 y 之間存在線性關系,但由于一個明顯的 outlier 的存在改變了數(shù)據(jù)的統(tǒng)計結果;
4. 第四組 x 和 y 本來沒有線性關系,但由于一個顯著 outlier 的存在也使得它們“好像有線性關系”。
這四組數(shù)據(jù)和它們的統(tǒng)計特征如下圖所示。這個例子完美的詮釋了統(tǒng)計量(比如本文的 IC)不能反映出數(shù)據(jù)的全部信息。更危險的是,一旦它們被錯誤解讀和使用,將會導致完全錯誤的結果。
3 改進 IC
上一節(jié)的例子是為了說明當使用個股的因子取值和下期收益率在截面上回歸時,得到的 IC 或者 Rank IC 不能很好的反映出因子選股的效果。對于這種情況,可以考慮以下兩種改進方法。
第一種方法是按照因子取值把個股分成 n 檔(比如十檔),然后將每一檔視作一個投資組合,計算投資組合收益率和投資組合因子在截面上的 IC 或 Rank IC。每一個投資組合中,可以按照等權或者市值加權來計算投資組合的收益率和因子取值。因子描述的是一攬子股票所共同承擔(或者暴露于的)的某一方面的系統(tǒng)性風險。使用因子選股是為了規(guī)避個股特異性收益率的風險。因此,比起個股,我們更應該關注一攬子股票的收益率和相應因子取值之間的相關性。這就是使用因子構建投資組合、再計算 IC 的初衷。投資組合的收益率是一攬子股票的均值,也可以更好的消除收益率上的噪聲。
第二種方法仍然從個股收益率和因子取值的 IC 出發(fā),但是在計算時根據(jù)因子的業(yè)務邏輯(大到小、還是小到大的關系)來給 x 和 y 的取值賦權,從而得到 weighted IC。由于結合了從業(yè)務邏輯出發(fā)的權重,這個加權 IC 能更好的反映因子的選股能力。下面以上一節(jié)的因子取值和兩組收益率序列為例解釋這一做法。假設從業(yè)務出發(fā),因子取值越大越好。將十組 (x_i, y_i) 樣本點按照因子值 x 從大到小排序,并假設它們的權重按指數(shù)衰減,系數(shù)為 0.9。這十組樣本點的權重為:
有了權重向量(記為 w),就可以計算 x 和 y 之間的加權均值、加權方差、加權協(xié)方差、以及加權相關系數(shù)(weighted correlation coefficient):
根據(jù)上述定義,很容易計算出因子和這兩組收益率序列的加權相關系數(shù)。它們分別為 0.4494(因子和第一組收益率序列),以及 0.0908(因子和第二組收益率序列)。從加權 IC 來看,第一組的收益率序列比第二組收益率序列更能說明因子的選股能力。同樣的,為了繪圖說明加入權重的優(yōu)勢,對 x 和 y 進行 weighted least squares 回歸(WLS):
令 X 代表系數(shù)矩陣(包括截距項系數(shù) 1 和 x),W 表示由權重 w_i 作為第 i 個對角元素構成的對角矩陣,則帶權重回歸的解為:
利用線性代數(shù)的運算法則,不難求出上式右側的第一項逆矩陣為:
回歸式中右側第二項為:
因此,加權回歸的系數(shù)為(其中 a 為截距,b 為斜率):
費了半天勁寫出了 a 和 b 的表達式(其實從求解的角度,給出矩陣形式的求解足夠了)只是想說明下面這件事兒。如果我們比較加權相關系數(shù) ρ(x, y, w) 以及加權方差(標準差)var(x, w) 和 var(y, w),以及斜率 b,則不難發(fā)現(xiàn),和 OLS 一樣,在加權回歸中,ρ 和 b 仍然滿足如下關系:
下面就來畫圖比較一下 WLS 回歸和上一節(jié) OLS 回歸的結果。對于這兩組收益率序列,OLS 回歸的結果相同。但從選股的角度,我們知道如果因子對應的是第一組收益率,則該因子遠比其對應第二組收益率有效。但是 OLS 回歸(和普通的 IC)無法體現(xiàn)這一點。而采用改進的 WLS(以及 weighted IC)來衡量的話,如果因子產生了第一組收益率序列,則它的 WLS 回歸斜率為 0.01(大于 OLS 的斜率 0.0058);如果因子產生了第二組收益率序列,則它的 WLS 回歸斜率僅為 0.0017(小于 OLS 的斜率)。這說明通過使用基于因子業(yè)務規(guī)則的權重系數(shù),WLS 比 OLS 更能判斷因子和收益率之間的關系。
4 結語
在我上統(tǒng)計課的時候,教授總是反復強調,拿來數(shù)據(jù)先畫出來看一看。我們之所以能夠相信統(tǒng)計量,是以搞清楚了數(shù)據(jù)內在的結構、形態(tài)為前提的。如果沒有這個前提,盲目的相信統(tǒng)計量就會導致錯誤的判斷。金融數(shù)據(jù)已經信噪比極低了,我們當然不希望因為自己使用不當再加入不必要的噪聲。
很多時候數(shù)據(jù)關系越復雜,統(tǒng)計量傳遞出來的信息可能越失真。
2017 年,來自 Autodesk Research 的 Matejka 和? Fitzmaurice 構建了當代版的“安斯庫姆四重奏”(Matejka and Fitzmaurice 2017)。他們用計算機算法可以生成 x 均值、y 均值、x 標準差、y 標準差、以及 x 和 y 相關系數(shù)相同的復雜數(shù)據(jù)集。比如下圖中的 12 個完全不同的數(shù)據(jù)集就在上述五個統(tǒng)計量中取值完全一致 —— x 均值 54.26,y 均值 47.83,x 標準差 16.76,y 標準差 26.93,x 和 y 相關系數(shù) -0.06。
先別忙著驚訝,上述這些數(shù)據(jù)集都是由下面這張恐龍數(shù)據(jù)集(也有同樣的統(tǒng)計量)構建來的!
有的朋友也許會說,IC 不夠,再引入更多的統(tǒng)計量就行了。我們當然可以計算更高階矩的統(tǒng)計量,但是因為數(shù)據(jù)的信噪比極低,這些樣本數(shù)據(jù)計算出來的高階統(tǒng)計量也存在大量誤差。本文提出的改進方法屬于從因子和收益率之間的內在邏輯出發(fā) —— 比如分檔構建組合、或者給不同的權重。這些都是以內在的邏輯為先驗,以期更好的判斷因子的選股能力。如果你在使用 IC 或者 Rank IC(以及 IR)來動態(tài)的評價、配置因子,那么本文希望能引發(fā)你的思考。在評價因子選股效果的道路上,我們也許還有很長的路要走。
參考文獻
Matejka, J. and G. Fitzmaurice (2017). Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing. CHI 2017 Conference proceedings: ACM SIGCHI Conference on Human Factors in Computing Systems.
免責聲明:入市有風險,投資需謹慎。在任何情況下,本文的內容、信息及數(shù)據(jù)或所表述的意見并不構成對任何人的投資建議。在任何情況下,本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自于相應論文,僅為介紹之用,版權歸原作者和期刊所有。