寫給你的金融時(shí)間序列分析:初級(jí)篇
發(fā)布時(shí)間:2017-05-23 | 來源: 川總寫量化
作者:石川
摘要:作為系列第二篇,本文介紹了時(shí)間序列的最基本模型:白噪聲和隨機(jī)游走,說明白噪聲并不是描述收益率序列的有效模型。
1 書接前文
前文《寫給你的金融時(shí)間序列分析:基礎(chǔ)篇》介紹了金融時(shí)間序列的核心特性:自相關(guān)性;說明金融時(shí)間序列分析的核心正是挖掘該時(shí)間序列中的自相關(guān)性。一個(gè)優(yōu)秀的模型應(yīng)該能夠有效的刻畫原始時(shí)間序列中不同間隔的自相關(guān)性;而衡量一個(gè)模型是否適合原始時(shí)間序列的標(biāo)準(zhǔn)正是考察原始值和擬合值之間的殘差序列是否近似的為白噪聲。
本篇是系列的第二篇,初級(jí)篇。白噪聲正是本文的內(nèi)容之一,它是時(shí)間序列分析中最基本的模型。在它的基礎(chǔ)上延伸出的另一個(gè)基本模型便是隨機(jī)游走。通常,白噪聲和隨機(jī)游走被認(rèn)為是用來分別描述投資品收益率和價(jià)格的最簡單模型。我們稍后會(huì)看到,對(duì)于收益率來說(特別是股指的收益率),白噪聲模型并不有效。
2 時(shí)間序列建模
本質(zhì)上說講,時(shí)間序列模型是一個(gè)可以“解釋”時(shí)間序列中的自相關(guān)性的數(shù)學(xué)模型。
能夠解釋時(shí)間序列的自相關(guān)性在量化投資領(lǐng)域意義重大:
我們假設(shè)金融時(shí)間序列(比如投資品的收益率)存在未知的自相關(guān)性(當(dāng)然也伴隨著噪聲),而這種自相關(guān)性體現(xiàn)了該時(shí)間序列某種內(nèi)在的特性(比如趨勢、或者均值回復(fù)),而這種內(nèi)在特性是可以延續(xù)的(至少在未來短時(shí)間內(nèi))。因此,我們希望通過對(duì)歷史數(shù)據(jù)的擬合找到一個(gè)合適的模型,使得它能最大程度的解釋該時(shí)間序列表現(xiàn)出來的自相關(guān)性?;谖磥頃?huì)重復(fù)歷史的假設(shè),我們?cè)诮y(tǒng)計(jì)上預(yù)期這種自相關(guān)性存在于未來的序列中,由于這個(gè)模型考慮了這種自相關(guān)性,因此它將會(huì)幫助我們來預(yù)測未來。
時(shí)間序列分析為我們研究投資品收益率的行為提供了有力的統(tǒng)計(jì)學(xué)框架。在投資中,對(duì)收益率的預(yù)測顯然是非常有用的。如果我們能夠預(yù)測投資品的漲跌,那么就能基于此構(gòu)建一個(gè)交易策略;如果我們能夠預(yù)測收益率的波動(dòng)率,那么就可以進(jìn)行風(fēng)險(xiǎn)管理(因此我們對(duì)時(shí)間序列的二階統(tǒng)計(jì)量——如方差——同樣感興趣)。假設(shè)原始時(shí)間序列為{y_t},模型擬合出來的序列為{p_t},則殘差序列{e_t} 定義為原始序列和擬合序列的差值:
如果模型很好的捕捉了原始時(shí)間序列的自相關(guān)性,那么殘差序列{e_t}應(yīng)該近似的為白噪聲,對(duì)任何非零間隔 k,該殘差序列的自相關(guān)系數(shù) ρ_k 都應(yīng)該在統(tǒng)計(jì)意義上不顯著的偏離 0。當(dāng)然,這僅僅是我們說該模型是個(gè)優(yōu)秀模型的充分條件,因?yàn)橐粋€(gè)好模型最關(guān)鍵的還是能產(chǎn)生賺錢的交易信號(hào)。因此,模型的檢驗(yàn)最終還要看它在樣本外預(yù)測的準(zhǔn)確性。時(shí)間序列建模的過程可以總結(jié)如下。
對(duì)于一個(gè)時(shí)間序列,我們總是希望首先畫出它的相關(guān)圖來看看它存在什么樣的自相關(guān)性?;趯?duì)其自相關(guān)性的認(rèn)知,第二步則是選擇合適的模型,比如 AR、MA 或者 ARMA 模型,甚至于更高級(jí)對(duì)波動(dòng)率建模的 GARCH 模型等。選定模型后,接下來便需要優(yōu)化模型的參數(shù),以使其盡可能解釋時(shí)間序列的自相關(guān)性。在這一步,我們通過對(duì)殘差進(jìn)行自相關(guān)性分析來判斷模型是否合適。在這方面,Ljung–Box 檢驗(yàn)是一個(gè)很好的方法,它同時(shí)檢驗(yàn)給殘差序列各間隔的自相關(guān)系數(shù)是否顯著的不為 0。在選定模型參數(shù)之后,仍需定量評(píng)價(jià)該模型在樣本外預(yù)測的準(zhǔn)確性。畢竟,對(duì)于樣本內(nèi)的數(shù)據(jù),錯(cuò)誤的過擬合總會(huì)得到“優(yōu)秀”的模型,但它們往往對(duì)樣本外數(shù)據(jù)的預(yù)測效果很差。因此,只有樣本外預(yù)測的準(zhǔn)確性才能客觀的評(píng)價(jià)模型的好壞。如果模型的準(zhǔn)確性較差,這說明該模型存在缺陷,無法充分捕捉原序列的自相關(guān)性。這時(shí)必須考慮更換模型。這就構(gòu)成了上述步驟的反饋回路,直到最終找到一個(gè)既能解釋原時(shí)間序列自相關(guān)性,又能在樣本外有不錯(cuò)的準(zhǔn)確性的模型。之后,該模型將被用來產(chǎn)生交易型號(hào)并構(gòu)建量化投資策略。
接下來我們就來介紹一個(gè)最簡單的時(shí)間序列模型:白噪聲。
3 白噪聲
本文第一節(jié)指出,對(duì)于收益率來說,白噪聲(white noise)并不是一個(gè)十分有效的模型。那么為什么我們還要研究它呢?這是因?yàn)樗幸粋€(gè)重要的特性,即序列不相關(guān):一個(gè)白噪聲序列中的每一個(gè)點(diǎn)都獨(dú)立的來自某個(gè)未知的分布,它們滿足獨(dú)立同分布(independent and identically distributed)。一個(gè)(離散)白噪聲的定義如下:
考慮時(shí)間序列{w_t:t = 1, …, n}。如果該序列的成分 w_t 滿足均值為 0,方差 σ^2,且對(duì)于任意的 k ≥ 1,自相關(guān)系數(shù) ρ_k 均為 0,則稱該時(shí)間序列為一個(gè)離散的白噪聲。
上面的定義并沒有假設(shè) w_t 來自正態(tài)分布。事實(shí)上,白噪聲對(duì)分布沒有要求。當(dāng) w_t 來自正態(tài)分布時(shí),該序列又稱為高斯白噪聲(Gaussian white noise)。根據(jù)白噪聲的定義,一個(gè)白噪聲序列顯然滿足平穩(wěn)性要求。它的均值和二階統(tǒng)計(jì)量為:
我們已經(jīng)多次強(qiáng)調(diào),當(dāng)一個(gè)模型很好的捕捉了原始時(shí)間序列的自相關(guān)性,它的殘差序列就應(yīng)該沒有任何(統(tǒng)計(jì)意義上顯著的)自相關(guān)性了。換句話說,一個(gè)優(yōu)秀模型的殘差序列應(yīng)該(近似)為一個(gè)白噪聲。因此,使用白噪聲序列的性質(zhì)可以幫助我們確認(rèn)我們的殘差序列中沒有任何相關(guān)性了,一旦殘差序列沒有相關(guān)性便意味著模型是原始時(shí)間序列的一個(gè)良好的擬合。
在白噪聲模型中,唯一的參數(shù)就是方差 σ^2。這個(gè)參數(shù)可以通過歷史數(shù)據(jù)估計(jì)得到。在本系列的第一篇文章中,我們?cè)o出了一個(gè)白噪聲序列的相關(guān)圖(如下),該序列由標(biāo)準(zhǔn)正態(tài)分布生成(因此為高斯白噪聲),共 500 個(gè)觀測值。可以看到,對(duì)圖中顯示的間隔 k 的取值,對(duì)所有 k ≥ 1 均有自相關(guān)系數(shù)在統(tǒng)計(jì)上等于 0。
4 隨機(jī)游走
將白噪聲模型進(jìn)行一步延伸,便得到隨機(jī)游走(random walk)模型,它的定義如下:
對(duì)于時(shí)間序列{x_t},如果它滿足 x_t = x_[t-1] + w_t,其中 w_t 是一個(gè)均值為 0、方差為 σ^2 的白噪聲,則序列{x_t}為一個(gè)隨機(jī)游走。
由定義可知,在任意 t 時(shí)刻的 x_t 都是不超過 t 時(shí)刻的所有歷史白噪聲序列的總和,即:
隨機(jī)游走的序列均值和方差為:
雖然均值不隨時(shí)間 t 改變,但是由于方差是 t 的函數(shù),因此隨機(jī)游走不滿足穩(wěn)定性。隨著 t 的增加,x_t 的方差增大,說明其波動(dòng)性不斷增加。對(duì)于任意給定的 k,通過以下推導(dǎo)給得出隨機(jī)游走的自協(xié)方差:
上述推導(dǎo)中使用了獨(dú)立隨機(jī)變量的方差可加性。有了自協(xié)方差和方差,便可以方便的求出隨機(jī)游走的自相關(guān)函數(shù):
顯然,自相關(guān)系數(shù)既是時(shí)間 t 又是間隔 k 的函數(shù)。ρ 的表達(dá)式說明,對(duì)于一個(gè)足夠長的隨機(jī)游走時(shí)間序列(t 很大),當(dāng)考察的自相關(guān)間隔 k 很小時(shí),自相關(guān)系數(shù)近似為 1。這是隨機(jī)游走的一個(gè)非常重要的特性,不熟悉它往往容易造成不必要的錯(cuò)誤。
舉個(gè)例子。我們通常假設(shè)股價(jià)的對(duì)數(shù)收益率符合正態(tài)分布,因此股價(jià)對(duì)數(shù)是一個(gè)布朗運(yùn)動(dòng)(隨機(jī)游走的一種特殊形式)。如果當(dāng)前的(對(duì)數(shù))股價(jià)是 x_t,由隨機(jī)游走的特性可知,t + 1 時(shí)刻的股價(jià)的條件期望為 E[x_[t+1] | x_t] = x_t,即我們對(duì)下一時(shí)點(diǎn)的股價(jià)的最好的猜測就是當(dāng)前的價(jià)格。隨機(jī)游走是一個(gè)鞅(martingale)。
假如我們有一個(gè)預(yù)測股價(jià)的模型,而該模型就是用 t 時(shí)刻的股價(jià)作為對(duì) t + 1 時(shí)刻的股價(jià)的預(yù)測,則該模型的預(yù)測值和實(shí)際值之間的相關(guān)系數(shù)就等于股價(jià)序列的間隔為 1 的自相關(guān)系數(shù)。如果股價(jià)近似的為隨機(jī)游走,那么由它的性質(zhì)可知,間隔為 1 的自相關(guān)系數(shù)非常接近 1。因此我們的股價(jià)預(yù)測模型——用今天的價(jià)格作為明天的價(jià)格的預(yù)測——的預(yù)測值和實(shí)際值之間的相關(guān)系數(shù)也非常接近 1。這會(huì)給我們?cè)斐慑e(cuò)覺:這個(gè)模型相當(dāng)準(zhǔn)確。不幸的是,這個(gè)模型猜測的收益率在任何時(shí)刻都為 0,因此它對(duì)于我們構(gòu)建交易信號(hào)毫無作用。
我看到過無數(shù)的學(xué)術(shù)論文(大多是碩士論文)中,針對(duì)投資品價(jià)格本身構(gòu)建自回歸模型。獨(dú)立變量就包括歷史價(jià)格,用它們和其他一些基本面或宏觀經(jīng)濟(jì)數(shù)據(jù)來預(yù)測下一個(gè)交易日的股價(jià)。從上面的分析可知,這樣的模型將會(huì)“精準(zhǔn)的毫無用處”,因?yàn)榛貧w模型中歷史價(jià)格的系數(shù)之和將會(huì)非常接近 1。
任何價(jià)格序列的自回歸模型都是耍流氓。
利用本文第三節(jié)例子中的白噪聲序列,便可以構(gòu)建一個(gè)人工隨機(jī)游走序列的例子。它的軌跡如下圖所示。
不出意外,當(dāng)間隔 k 相對(duì)于時(shí)間序列的長度很小時(shí),它的自相關(guān)系數(shù)(下圖)非常接近 1,這源自隨機(jī)游走的性質(zhì)。不要忘了,隨機(jī)游走是對(duì)股價(jià)的對(duì)數(shù)建模。因此,這種自相關(guān)性對(duì)于基于收益率預(yù)測的投資策略并沒有幫助。
事實(shí)上,如果(對(duì)數(shù))股價(jià)嚴(yán)格的符合隨機(jī)游走,那么該時(shí)間序列的方差將會(huì)隨時(shí)間線性增長。這說明,長期來看它將呈現(xiàn)出巨大的波動(dòng)。下圖為來自同一個(gè)分布的 15 條隨機(jī)游走的軌跡。隨著時(shí)間的推進(jìn),這些軌跡上對(duì)應(yīng)觀測值的波動(dòng)越來越大,充分的展現(xiàn)出隨機(jī)性。
5 用白噪聲對(duì)收益率建模
如果股票的對(duì)數(shù)收益率為白噪聲,那么它的自相關(guān)系數(shù)應(yīng)該在任何非零的間隔上都在統(tǒng)計(jì)意義上等于零。下面我們就來看看真實(shí)的股票收益率是否滿足這一點(diǎn)。為此,考慮一支個(gè)股(萬科)和一個(gè)股指(上證指數(shù))。以日頻為例,通過交易日的復(fù)盤后收盤價(jià)可以算出對(duì)數(shù)收益率:
首先來看看萬科,當(dāng)考察期為過去 10 年時(shí),萬科的對(duì)數(shù)收益率的相關(guān)圖為:
上圖指出,在間隔為 2 和 4 時(shí),該收益率序列表現(xiàn)出了統(tǒng)計(jì)意義上顯著的相關(guān)性。當(dāng)然,由于圖中的藍(lán)色區(qū)域僅僅是 95% 的置信區(qū)間,因此僅僅根據(jù)隨機(jī)性也很可能出現(xiàn)在一個(gè)或者兩個(gè)間隔上的自相關(guān)系數(shù)處于置信區(qū)間之外的情況。因此,根據(jù)上面的結(jié)果,我們并不能一定就說白噪聲不是萬科收益率的一個(gè)適當(dāng)?shù)哪P汀?/span>如果我們把考察的窗口縮短到過去 5 年,則萬科的對(duì)數(shù)日收益率序列的相關(guān)圖變?yōu)椋?/span>
當(dāng) k = 1,2,3,4 以及 14 的時(shí)候,自相關(guān)系數(shù)都超過了置信區(qū)間,即在 5% 的顯著性水平下不為零。我們無法再無視這樣的結(jié)果而把它們都?xì)w結(jié)于隨機(jī)性。該相關(guān)圖清晰地說明白噪聲不能有效的解釋收益率序列中的自相關(guān)性。
對(duì)于上證指數(shù),這種結(jié)論則更加明顯。無論是考察 10 年還是 5 年的窗口,上證指數(shù)的對(duì)數(shù)收益率均在不同的間隔上表現(xiàn)出了顯著的自相關(guān)(下圖),且它比個(gè)股的自相關(guān)性更加顯著。
這個(gè)結(jié)果說明上證指數(shù)的對(duì)數(shù)收益率序列無法用白噪聲來建模。更有意思的是,當(dāng) k 較小或者較大時(shí),上證指數(shù)的收益率均表現(xiàn)出了自相關(guān)性,這說明它既有短記憶又有長記憶。
6 下文預(yù)告
本文的分析引出如下的結(jié)論:
無論對(duì)于個(gè)股或是指數(shù),它們的收益率序列中都存在某種自相關(guān)性,不滿足白噪聲模型。
因此,我們必須考慮更加高級(jí)的時(shí)間序列模型來對(duì)自相關(guān)性建模。在這方面,自回歸模型(AR)和移動(dòng)平均模型(MA),以及它們二者的組合——自回歸移動(dòng)平均模型(ARMA)——都是非常有力的工具。它們將是本系列下一篇的內(nèi)容。
免責(zé)聲明:入市有風(fēng)險(xiǎn),投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。