亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

用 Quantile Regression 分析變量相關(guān)性

發(fā)布時間:2017-11-20  |   來源: 川總寫量化

作者:石川

摘要:分位數(shù)回歸根據(jù)自變量求出因變量的條件分位數(shù),可以全面地分析變量之間的關(guān)系。它在量化投資中的應用廣泛。


1 分位數(shù)和分位數(shù)回歸


分位數(shù)(quantile)是概率中的一個概念。對一個隨機變量 X 和任意一個 0 到 1 之間的數(shù) τ,如果 X 的取值 x 滿足 prob(X ≤ x) = τ,那么 x 就是 X 的 τ 分位數(shù)。換句話說,τ 分位數(shù)說明:如果我們按該隨機變量的分布產(chǎn)生足夠多的樣本點,那么在這些樣本點的取值中,有 τ × 100% 個小于該分位數(shù);有 (1 - τ) × 100% 個大于該分位數(shù)。最常見的分位數(shù)非中位數(shù)(median)莫屬,它是 50% 分位數(shù) —— 在 X 的分布中,有一半比中位數(shù)小,一半比中位數(shù)大。


也許你仍覺著上面的定義抽象,但是你對下面的兒童成長圖(child growth chart)一定不陌生。它給出了兒童(這個表中是男孩)在不同年齡時身高和體重的不同分位數(shù)(3%、10%、25%、50%、75%、90% 以及 97%)曲線,這有助于兒醫(yī)和父母判斷寶寶成長過程中發(fā)育是否正常。如果一個娃的體重落在 90% 分位線上,說明他的體重比同齡的 90% 的小伙伴要高;如果一個娃的身高或體重在表外了(off the chart),那多半就說明他營養(yǎng)不良或過剩了。分位數(shù)在生活中作用很大。


f1.png


上面這個圖說明兩點:


1. 隨著年齡的增加,低分位數(shù)和高分位數(shù)之間的間隔越來越大;


2. 年齡變量的單位增量對身高(或體重)分布的右側(cè)(高分位數(shù)部分)的影響大于其對身高(或體重)分布的左側(cè)(低分位數(shù)數(shù)的部分)。


顯然,這兩點向我們展示了身高(或體重)與年齡在整個分布上的一些關(guān)系。試想一下,如果我們僅有年齡和平均身高(平均體重)的關(guān)系,我們是無法得到上面兩點結(jié)論的。分位數(shù)定量描述了中心趨勢和統(tǒng)計離散度,這有助于更我們?nèi)娴胤治鲎兞恐g的關(guān)系。


如何得到如上圖中的分位數(shù)曲線呢?答案是分位數(shù)回歸(quantile regression)。分位數(shù)回歸由 Koenker and Bassett, Jr. (1978) 提出,是一種回歸分析。在傳統(tǒng)回歸中,我們構(gòu)建回歸模型由自變量求出因變量的條件期望;而在分位數(shù)回歸中,我們構(gòu)建回歸模型由自變量求出因變量的條件分位數(shù)


近年來,分位數(shù)回歸在計量經(jīng)濟學中的應用越來越廣泛。利用分位數(shù)回歸,Saastamoinen (2008) 研究了芬蘭市場中的羊群效應;Alagidede and Panagiotidis (2012) 討論了通貨膨脹和股票收益率之間的關(guān)系;Badshah (2012) 分析了美股中恐慌指數(shù)(VIX)和收益率分布之間的不對稱性。本文簡要介紹分位數(shù)回歸,并通過一個簡單的例子說明它在量化投資中的潛在作用。


2 最優(yōu)化視角下求解均值和中位數(shù)


讓我們先把回歸問題放在一邊,僅僅考慮一個隨機變量 Y 的一組樣本 {y1, y2, …, yn}。在本節(jié)中,我們從求解最優(yōu)化問題的角度說明如何求出樣本均值和中位數(shù)。這對于后面介紹分位數(shù)回歸很有幫助。


我們都知道,這組樣本的均值就是這 n 個數(shù)的平均值。從最優(yōu)化的角度來說,該樣本均值正是下列最小化殘差平方和問題的解:


f2.png


最優(yōu)的 μ 應滿足 df/dμ = 0。經(jīng)過簡單的推導不難看出,最小化殘差平方和(即我們常說的最小二乘法)得到的解就是樣本均值


f3.png


與之類似的,最小化殘差絕對值之和的解就是樣本的中位數(shù)(這里的殘差是樣本點相對于中位數(shù)而言的),即這組樣本的樣本中位數(shù) M 是如下最優(yōu)化問題的解:


f4.png


對 M 求導得:


f5.png


可見,df/dM 等于 0 的必要條件是 s = n - s,其中 s 是小于 M 的樣本點的個數(shù),而 n - s 是大于 M 的樣本點的個數(shù)。這意味著 M 的取值滿足在其兩側(cè)的樣本點個數(shù)相同,即 M 是中位數(shù)。


來看一個例子。假設(shè)隨機變量 Y 的一組樣本是 1 到 9 這 9 個數(shù)。按照上述最優(yōu)化的思路,我們想找到 M 使得目標方程 f = Σi|yi - M| 最小。在 1 到 9 內(nèi)遍歷 M 并求出 f 對應的值有:


f6.png


可見,當 M = 5 時 f 的取值最小,因此這組樣本的中位數(shù)為 5。現(xiàn)在我們已經(jīng)知道如何從求解最優(yōu)化問題的角度找到樣本的均值和中位數(shù)(一個特殊的分位數(shù) —— 50% 分位數(shù)),接下來就來看看如何將這個思路推廣到分位數(shù)回歸上。


3 分位數(shù)回歸


推廣上一節(jié)的最優(yōu)化思路引出分位數(shù)回歸十分簡單,僅需要兩步走。


第一步:引入回歸問題。在上一節(jié)中,為了簡化討論,我們考慮的是隨機變量 Y 自身。在(線性)回歸問題中,我們關(guān)注的是因變量 Y 和某些自變量 X 之間的(線性)關(guān)系。(這里,X 可以代表一個自變量或者多個自變量組成的向量。下文中為了簡化討論,假設(shè)自變量只有一個。)對于均值來說,我們將上一節(jié)中的標量 μ 變成自變量 X 的線性方程 μ(X, β) —— 其中 β 是 X 的系數(shù),并將最優(yōu)化問題轉(zhuǎn)化為(在這個問題中,求解的對象是 X 的系數(shù) β):


f7.png


求解得到 β 后,線性方程 μ(X, β) 就是因變量 Y 的條件期望方程 E[Y|X]。我們熟悉的求解線性回歸的最小二乘法正是如此找到 Y 和 X 的關(guān)系的,它得到的 Y 和 X 之間的關(guān)系正是 E[Y|X]。


對于中位數(shù)也可以做相同的推演。令上一節(jié)中的標量 M 變?yōu)樽宰兞康木€性方程 ξ(X, β)。因此該最優(yōu)化問題轉(zhuǎn)化為:


f8.png


求解得到 β 后,線性方程 ξ(X, β) 就是因變量 Y 的條件中位數(shù)方程。


第二步:將中位數(shù)推廣到一般分位數(shù)。在所有分位數(shù)中間,中位數(shù) —— 又稱 50% 分位數(shù) —— 比較特殊是在于在求解最優(yōu)化問題中,其兩側(cè)樣本點的殘差是等權(quán)重的。把上述最小化殘差絕對值的問題推廣到一般的 τ 分位數(shù)時,只需把 τ 分位數(shù)兩側(cè)的殘差賦予不同的權(quán)重即可。具體的,對于 τ 分位數(shù)左側(cè)樣本點的殘差,賦予它們 1 - τ 的權(quán)重;對于 τ 分位數(shù)右側(cè)樣本點的殘差,賦予它們 τ 的權(quán)重。最優(yōu)化問題由此變?yōu)椋ㄇ蠼獾膶ο鬄?τ 分位數(shù)對應的系數(shù) β,記為 β_τ):


f9.png


使用線性規(guī)劃求解這個最優(yōu)化問題,得到最優(yōu)解 β_τ 后,線性方程 ξ(X, β_τ) 就是因變量 Y 的條件 τ 分位數(shù)方程。對于不同的 τ 的取值(如 5%、10%、15%、……、85%、90%、95%),只需要對每個 τ 分別求解上述最優(yōu)化問題,就可以得到 Y 的不同條件 τ 分位數(shù)方程。


值得一提的是,如果我們僅有一個自變量 X,并用它來對 Y 進行分位數(shù)回歸,那么任何一個 τ 分位數(shù)回歸方程都是一條直線(有截距項、斜率為 β_τ)。但是在第一節(jié)的兒童成長圖中,身高(體重)的條件 τ 分位數(shù)方程隨年齡的變化明顯不是直線。這是因為在構(gòu)建成長曲線時,通常對年齡先進行了某種非線性變化以更好的反應它和兒童的成長的關(guān)系。從分位數(shù)回歸的角度,我們做的依然是線性回歸,只不過這時自變量已經(jīng)從身高變成了身高的某個非線性函數(shù)而已。在下文的第 4、5 節(jié)我們考慮兩個例子,在這兩個例子中我們都不會對自變量進行任何變換。因此這兩個例子中的條件 τ 分位數(shù)方程都是線性的。


4 收入和食物消費支出的關(guān)系


先看一個生活中的例子。Engel (1857) 研究了家庭收入和家庭食物消費支出之間的關(guān)系。對該數(shù)據(jù)同時進行最小二乘法回歸(得到條件均值的方程)和分位數(shù)回歸(得到 10 個條件 τ 分位數(shù)方程,τ 的取值為 5%,15%,……,95%)如下圖所示。


f10.png


從這個圖中可以觀察到以下結(jié)論:


1. 食物消費支出隨收入而增加;


2. 食物消費的分布隨收入增加變得越來越寬(高分位數(shù)和低分位數(shù)之間的間隔越來越大);


3. 最小二乘法回歸對于低收入對應的觀測點的擬合度較差;從圖中可見,最小二乘法的紅色曲線處于很多低收入觀測點之上。


上述分位數(shù)回歸的結(jié)果說明,在食物消費支出分布的不同位置(不同分位數(shù)),家庭收入對其的影響是不同的。下圖展示了這一點。圖中橫坐標為食物消費支出的分位數(shù),縱坐標為不同分位數(shù)回歸的系數(shù) β_τ,它表示一個單位的家庭收入變化帶來多大的食物消費支出。對于最小二乘法(紅色)來說,它假設(shè)收入對食物消費支出的影響在整個分布上是恒定的;但是分位數(shù)回歸(黑色)正好得到不同的結(jié)論。顯然,分位數(shù)回歸提供了收入和食物支出之間更為豐富的關(guān)系。


f11.png


5 分位數(shù)回歸在量化投資中的例子


最后通過一個簡單的例子介紹分位數(shù)回歸在量化投資中的應用。具體的,我們關(guān)注風險和收益之間的關(guān)系。為此,需要給風險和收益各找一個代理指標。以上證指數(shù)(2005 年 1 月 1 日至 2017 年 7 月 31 日)為例,風險的代理指標為每周已實現(xiàn)波動率(日頻收益率的平方和)的變化率,記為 ΔVol;收益的代理指標為周收益率的絕對值,記為 |Rm|。對該數(shù)據(jù)同時進行最小二乘法回歸和分位數(shù)回歸如下圖所示。


f12.png


可見,對于 ΔVol 的不同分位數(shù),|Rm| 對其的影響不同。下圖是 τ 和系數(shù) β_τ 的關(guān)系。當 ΔVol 處于低分位數(shù)通常意味著市場一般比較平穩(wěn),因此周波動率也比較穩(wěn)定、ΔVol 較小。這時收益率的單位變化對 ΔVol 的影響為負,有助于進一步維持平穩(wěn)的市場狀態(tài)。當 ΔVol 處于高分位數(shù)通常意味著市場一般比較震蕩,因此周波動率變化劇烈、ΔVol 較大。這時收益率的單位變化對 ΔVol 的影響為正,即它會進一步加劇市場的波動。


f13.png


6 結(jié)語


對于金融投資中的很多變量,比如收益率,我們往往更關(guān)心它在分布尾部的特性。在這方面,分位數(shù)回歸是一個有力的工具,它讓我們研究收益率和不同的解釋變量在全分布上的相關(guān)性。當變量的分布明顯偏離正態(tài)分布或者存在異常值(outliers)時,傳統(tǒng)的最小二乘法回歸就不那么有效了。然而分位數(shù)回歸不受這些弊端的影響。此外,分位數(shù)回歸滿足單調(diào)變換不變性(invariant to monotonic transformations)。對于隨機變量 Y 和它的單調(diào)變換 h(Y) —— 比如 log(Y),h(Y) 的分位數(shù)正好是 h(Q_τ(Y)),即對 Y 的分位數(shù) Q_τ(Y) 直接做同樣的變換;而均值并不滿足類似的性質(zhì),即 E[h(Y)] ≠ h(E[Y])。投資品收益率的分布以不滿足正態(tài)性并存在很多異常值而聞名,因此上述優(yōu)點使分位數(shù)回歸在分析收益率時有著廣闊的前景。



參考文獻

Alagidede, P. and T. Panagiotidis (2012). Stock returns and Inflation: Evidence from Quantile Regressions.?Discussion Paper Series, Department of Economics, University of Macedonia.

Badshah, I. U. (2012). Quantile regression analysis of the asymmetric return-volatility relation. Journal of Futures Markets 33(3), 235 – 265.

Engel, E. (1857). Die Produktions- und Konsumptionverhaltnisse des Konigreichs Sachsen. Reprinted in “Die Lebenkosten Belgischer Arbeiter-Familien Fruher und Jetzt.” International Statistical Institute Bulletin 9, 1 – 125.

Koenker, R. and G. Bassett, Jr. (1978). Regression Quantiles. Econometrica 46(1), 33 – 50.

Saastamoinen, J. (2008). Quantile regression analysis of dispersion of stock returns – evidence of herding? Working paper, Joensuun yliopisto, Taloustieteet.



免責聲明:入市有風險,投資需謹慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自于相應論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。