寫給你的金融時間序列分析：進階篇

發(fā)布時間：2017-05-31 | 來源: 川總寫量化

作者：石川

摘要：系列第三篇，介紹時間序列分析中最常用的線性模型：自回歸模型、移動平均模型，以及二者結(jié)合的自回歸移動平均模型。

1 書接前文

本系列的前兩篇 ——?基礎(chǔ)篇和初級篇?—— 分別介紹了金融時間序列分析的核心以及時間序列建模中最簡單的模型：白噪聲和隨機游走。在金融時間序列研究的對象中，投資品的收益率無疑是最重要的一個。挖掘收益率序列的自相關(guān)性是金融時間序列的核心內(nèi)容。無論對于個股還是指數(shù)，它們的收益率序列都表現(xiàn)著一定的自相關(guān)性。前面的文章說明，白噪聲模型假設(shè)了時間序列各觀測點之間的獨立性、無法捕捉收益率序列的自相關(guān)性，因此使用白噪聲來對投資品收益率建模是不妥的。

本文為系列的第三篇——進階篇。我們將介紹時間序列分析中最常用的線性模型：自回歸模型、移動平均模型，以及它們二者結(jié)合的自回歸移動平均模型。在下文中我們將看到，自回歸和移動平均模型這兩個模型都從某種程度上符合交易者對收益率變化的理解，因此它們都能刻畫出收益率序列中的某種自相關(guān)性。

2 自回歸模型

對于 A 股的收益率，人們往往有這樣的感受：

在大牛市的時候，股票天天漲（每個交易日的收益率都是正的、鮮有回調(diào)），萬民歡騰；

在大熊市的時候，股票日日跌（每個交易日的收益率都是負的、拒絕反彈），戾氣沖天；

在震蕩市的時候，股票時漲時跌，一買就跌，一賣就漲，頗有價格在某個區(qū)間內(nèi)震蕩、收益率呈現(xiàn)均值回復之意。

這些感受給我們的啟發(fā)是，收益率序列的前后觀測點之間往往不是獨立的，而是以某種自相關(guān)性聯(lián)系在一起。因此，一個很自然的問題就是：能不能用過去的收益率序列對未來的收益率建模？答案是肯定的。這便引出了自回歸模型（autoregressive model）。

數(shù)學上，滿足如下關(guān)系的時間序列｛r_t｝被稱為一個 p 階的自回歸模型，記為 AR(p) 模型：

這是一個典型的線性回歸模型。它和傳統(tǒng)線性回歸的不同之處在于自變量是序列自身（歷史觀測值），而非其他變量，這就是自回歸中“自”的由來。另外，p 階的意思是模型使用當前時刻 t 之前的 p 個觀測值作為自變量對 r_t 建模。這個模型的含義是，r_t 可以表達為 t 時刻之前的 p 個收益率觀測值的線性組合以及一個 t 時刻的隨機誤差 w_t。

p 的取值可以是任何一個正整數(shù)，因此最簡單的自回歸模型就是 AR(1) 模型（p = 1）。

在上面這個定義中，我們沒有考慮截距項。如果截距項對于待研究的時間序列是必要的，則可以在上面的公式右側(cè)加入一個常數(shù)項 c。另外需要特別說明的是，自回歸模型不一定都滿足平穩(wěn)性。舉一個最簡單的例子，本系列初級篇介紹的隨機游走模型其實就是一個 1 階自回歸模型，滿足：x_t = x_[t-1] + w_t。由于 x_t 的方差是時間 t 的函數(shù)，因此該序列不滿足平穩(wěn)性。對于一個 p 階自回歸模型，由它的回歸系數(shù) α_i 可以寫出它的特征方程（characteristic equation）：

它是一個 p 次多項式，有 p 個解，其中可能既包括實數(shù)解又包括復數(shù)解；這 p 個解的倒數(shù)稱為該方程的特征根（characteristic roots）。自回歸模型平穩(wěn)性要求模型特征方程的所有特征根的模都小于 1。在上面的隨機游走例子中，該模型的特征方程為 1 - x = 0，它的特征根為 1。由于它不滿足模小于 1 這個條件，因此該模型不滿足平穩(wěn)性。

對于一個滿足平穩(wěn)性、且假設(shè)沒有截距項的 p 階自回歸模型，它的均值顯然為 0（如果有截距項的話，該時間序列的均值就是 c）；它的不同間隔 k 的自協(xié)方差 γ_k 和自相關(guān)系數(shù) ρ_k 可以表達為如下的遞歸方程，又稱為?Yule-Walker equations：

在實際中，想要使用自回歸模型對收益率建模，必須確定模型的階數(shù) p。這一點將在本文的第 5 節(jié)討論。

3 移動平均模型

移動平均（moving average）模型是另一個常見的線性時間序列模型。在自回歸模型中，我們將收益率 r_t 看作是給定階數(shù) p 下歷史收益率序列的線性組合。與自回歸模型不同，移動平均模型將收益率 r_t 看作是歷史白噪聲的線性組合。這聽起來也許有些費解。但它背后的邏輯也符合人們的認知。以美股指數(shù)（比如標準普爾 500 指數(shù)）為例，它給我們的印象是它的收益率有一個微弱的但是大于零的漂移率（drift），形成一個常年慢牛的走勢。除了這個 drift 項之外，它的收益率呈不規(guī)則的波動。在這種背景下，自回歸模型仿佛不是那么好用。而移動平均模型則是對漂移率之外“隨機噪聲”建模，它把這些噪聲理解為不同時刻出現(xiàn)的影響收益率的新息或者沖擊（shocks）。通過對“噪聲”建模來預測當前時刻 t 的“噪聲”，再和漂移率結(jié)合，作為 t 時刻的收益率預測。

數(shù)學上，滿足如下關(guān)系的時間序列｛r_t｝被稱為一個 q 階的移動平均模型（為了簡化表達式，我們假設(shè)漂移率項為 0，即該模型不考慮截距項），記為 MA(q) 模型：

與自回歸模型不同，移動平均模型一定滿足平穩(wěn)性。它的序列均值為 0（如果考慮截距項，則可以在上式右側(cè)加入一個常數(shù) c 代表漂移率，這時序列均值變?yōu)?c）。它的各間隔 k 的自相關(guān)系數(shù)滿足：

其中 β_0 = 1。同樣，我們將在第 5 節(jié)中介紹如何選擇移動平均模型的階數(shù) q。

4 自回歸移動平均模型

前面兩節(jié)分別討論了自回歸和移動平均模型。前者用收益率的歷史對未來收益率做預測，它背后的邏輯是捕捉市場參與者的有效性（或者非有效性）造成的市場的動量或者反轉(zhuǎn)效應；而后者對噪聲建模，其邏輯為突發(fā)信息對收益率將會造成沖擊（比如上市公司超出預期的財報或者內(nèi)部交易丑聞等）。

將一個 p 階的自回歸模型和一個 q 階的移動平均模型組合在一起，便得到了一個階數(shù)為 (p,q) 的自回歸移動平均模型（autoregressive moving average model），它將 AR 和 MA 模型的優(yōu)勢互補起來。由于 AR 和 MA 模型都是線性模型，因此它倆的線性組合，即 ARMA 模型，也是線性模型。

數(shù)學上，滿足如下關(guān)系的時間序列｛r_t｝被稱為一個階數(shù)為 (p,q) 的自回歸移動平均模型（為了簡化表達式，假設(shè)模型中的不含常數(shù)項），記為 ARMA(p,q) 模型：

相比較單一的 AR 或者 MA 模型，ARMA 模型擁有更多的參數(shù)。因此它出現(xiàn)過擬合的危險就更高。雖然它能夠捕捉到兩個單一模型各自所代表的時間序列自回歸性，但是在確定階數(shù) p 和 q 的時候，我們應時刻謹記，防止過擬合。下面就來看看如何利用信息量準則（information criterion）和殘差自相關(guān)檢驗來確定 AR、MA 以及 ARMA 模型的階數(shù)。

5 模型的階數(shù)

在實際中使用 AR、MA 或 ARMA 模型對收益率建模，必須確定模型的階數(shù) p 以及 q。顯然，p 或者 q 越大，則模型的參數(shù)越多，越有可能捕捉到時間序列中不同間隔 k 的自相關(guān)性。但是，參數(shù)太多的話容易造成過擬合。因此在選擇階數(shù)時，必須同時考慮擬合的準確性和防止過擬合。

在確定模型階數(shù)時，常用的工具是使用信息量準則，包括赤池信息量準則（Akaike information criterion，簡稱 AIC，由日本統(tǒng)計學家赤池弘次創(chuàng)立）以及貝葉斯信息量準則（Bayesian information criterion，簡稱 BIC）。這兩個信息量準則的目的都是尋找可以最好地解釋數(shù)據(jù)但包含最少自由參數(shù)的模型。它們均使用模型的似然函數(shù)、參數(shù)個數(shù)以及觀測點個數(shù)來構(gòu)建一個標量函數(shù)，以此作為評價模型好壞的標準。它們的區(qū)別是標量函數(shù)的表達式有所不同。令 L、k、n 表示模型的似然函數(shù)，則 AIC 和 BIC 的定義分別為：

從定義可知，AIC 和 BIC 都由兩部分組成：第一部分衡量模型的擬合度，第二部分是對參數(shù)個數(shù)的懲罰（防止過擬合）。當一個模型能夠很好的解釋（樣本內(nèi)）數(shù)據(jù)時，它的似然函數(shù)很大，因此第一項 -2ln(L) 就會越??；如果模型的參數(shù)越少，則第二項也越少。所以 AIC 和 BIC 總是越小越好。

隨著模型階數(shù) p 和 q 的增多，模型對樣本內(nèi)的數(shù)據(jù)的解釋程度越來越高，即 -2ln(L) 變小。但是解釋度的提高是以參數(shù)增多（過擬合風險增大）為代價，因此 2k 或者 kln(n) 增大。所以 AIC 和 BIC 是在這兩者之間做權(quán)衡。最終選出的最佳參數(shù) p* 和 q* 可以使它們對應的 AIC 或者 BIC 比其他任何參數(shù) p 和 q 對應的 AIC 或者 BIC 更小。

值得說明的是，AIC 和 BIC 的表達式雖然長得差不多，但是還是有細微的差別。因此在實際中，有可能 AIC 對應的最優(yōu)階數(shù)（即使得 AIC 最?。┖?BIC 對應的最優(yōu)階數(shù)（即使得 BIC 最小）略有差別。具體選擇哪個信息量準則則取決于使用者自身。

當我們使用 AIC 或者 BIC 確定模型的最優(yōu)階數(shù)之后，便可以對時間序列建模。但是，我們?nèi)匀恍枰獧z驗該模型是否很好的捕捉了時間序列的自相關(guān)性。在本系列反復強調(diào)過，如果一個模型和原時間序列的殘差滿足白噪聲，那么該模型就是合適的。因此，我們只需要檢驗殘差序列是否在任何間隔 k 上呈現(xiàn)出統(tǒng)計意義上顯著的自相關(guān)性。在這方面，Ljung–Box 檢驗是一個很好的方法，它同時檢驗殘差序列各間隔的自相關(guān)系數(shù)是否顯著的不為 0。

Ljung–Box 檢驗構(gòu)建了一個滿足卡方分布（chi-squared distribution）的統(tǒng)計量，然后計算它出現(xiàn)的概率，以此來判斷是否可以在給定的顯著性水平下拒絕原假設(shè)。這里不再贅述，感興趣的讀者可參閱相關(guān)資料。

6 利用 AR、MA 以及 ARMA 建模

本節(jié)中，我們利用上面介紹的 AR、MA 以及 ARMA 對上證指數(shù)的對數(shù)收益率建模。實驗考慮 2012 年 4 月 24 日到 2017 年 4 月 24 日這五年之中上證指數(shù)的日收益率。在確定模型階數(shù)時，在給定的 p、q 參數(shù)區(qū)間內(nèi)使用不同的參數(shù)取值建模，并采用 AIC 準則進行參數(shù)選擇，在建模時讓保留常數(shù)項。p 和 q 的區(qū)間分別為：

AR 模型：p 的取值范圍為 1 到 5；

MA 模型：q 的取值范圍為 1 到 5；

ARMA 模型：p 和 q 的取值范圍為 1 到 5。

首先來看 AR 模型。根據(jù) AIC 準則，最優(yōu)的階數(shù) p* = 4，此時 AIC = -7305.31。使用 Ljung-Box 檢驗原始對數(shù)收益率序列和 AR(4) 模型的殘差是否在 20 以內(nèi)的間隔上有任何自相關(guān)性，統(tǒng)計量的 p-value 為 0.005132，說明我們可以在 1% 的顯著性水平下拒絕原假設(shè)。這意味著殘差中存在相關(guān)性。事實上，這可以從殘差序列的相關(guān)圖中看到，它說明殘差序列在間隔 k 等于 6、8、13 和 19 時仍然有 AR(4) 模型未捕捉到的自相關(guān)性。

再來看看 MA 模型。根據(jù) AIC 準則，最優(yōu)的階數(shù)同樣為 q* = 4，此時 AIC = -7302.70。使用 Ljung-Box 檢驗原始對數(shù)收益率序列和 MA(4) 模型的殘差是否在 20 以內(nèi)的間隔上有任何自相關(guān)性，統(tǒng)計量的 p-value 為 0.001371。同樣，我們可以在 1% 的顯著性水平下拒絕原假設(shè)。從下面的殘差相關(guān)圖不難發(fā)現(xiàn)，與 AR(4) 模型類似，MA(4) 模型的殘差序列在間隔 k 等于 6、8、13 和 19 時仍然有模型未捕捉到的自相關(guān)性。

最后來看看 ARMA 模型。根據(jù) AIC 準則，最優(yōu)的階數(shù)為 p*=5，q* = 4，此時 AIC = -7330.43。使用 Ljung-Box 檢驗原始對數(shù)收益率序列和 ARMA(5,4) 模型的殘差是否在 20 以內(nèi)的間隔上有任何自相關(guān)性，統(tǒng)計量的 p-value 為 0.103462。這說明我們不能在 10% 的顯著性水平下拒絕原假設(shè)。它意味著間隔 20 以內(nèi)，該模型的殘差序列沒有統(tǒng)計上顯著的自相關(guān)。從殘差序列的相關(guān)圖中看到，雖然當 k = 12 和 14 時自相關(guān)系數(shù)超過了 95% 置信區(qū)間，但我們無法從統(tǒng)計上否定它們可能是來自隨機誤差。

從殘差的自相關(guān)性分析來看，ARMA 模型比 AR 和 MA 模型單獨使用更有效的捕捉了收益率序列中的自相關(guān)性。

7 下文預告

眾所周知，投資品的收益率序列具有一個屬性稱為波動聚類（volatility clustering）。這意味著收益率的波動率是隨時間變化的（它是對收益率序列的二階平穩(wěn)性假設(shè)的直接挑戰(zhàn)），這種波動率行為的術(shù)語稱為條件異方差（conditional heteroskedasticity）。本文介紹的 AR，MA 和 ARMA 模型均是不條件異方差模型；它們不考慮波動聚類（事實上，上一節(jié)中采用這些模型對過去 5 年上證指數(shù)對數(shù)收益率建模時，我們看到這些模型無法解釋 k 較大時的自相關(guān)性，這說明收益率存在長記憶性，這就和波動聚類有關(guān)）。為了定量的描述這種特性，我們需要更加復雜的模型。

針對波動率的特性，我們實際上是對收益率的平方直接建模。這時，可以使用自回歸條件異方差（Autoregressive Conditional Heteroskedastic，又稱 ARCH）模型和廣義自回歸條件異方差（Generalized Autoregressive Conditional Heteroskedastic，又稱 GARCH）模型。(G)ARCH 模型是定量金融中應用廣泛，主要用于預測風險。

下一篇文章將介紹如何應用 ARMA 模型對上證指數(shù)收益率進行預測，并以此產(chǎn)生交易信號、構(gòu)建交易策略。對于收益率的預測，時間序列分析到底是紙上談兵還是實戰(zhàn)利器？我們將在下篇見分曉。

免責聲明：入市有風險，投資需謹慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下，本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外，文中圖表均直接或間接來自于相應論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

寫給你的金融時間序列分析：進階篇