亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

模型復(fù)雜度隨想

發(fā)布時間:2018-08-23  |   來源: 川總寫量化

作者:石川

摘要:當(dāng)模型復(fù)雜度一樣時,人們偏好風(fēng)險收益特性更高的策略;當(dāng)風(fēng)險收益特性一樣時,人們偏好模型復(fù)雜度更低的策略。各種復(fù)雜模型帶來的邊際超額收益能否 justify 它們的復(fù)雜度呢?拭目以待。


1?引言


一個初入量化投資的分析師經(jīng)過了一個月的奮斗開發(fā)出了一個雙均線趨勢追蹤模型后,興沖沖的跑來和他的基金經(jīng)理匯報,于是便有了下面這段對話。


分析師(一臉興奮):我開發(fā)出了一個雙均線系統(tǒng),絕對沒有數(shù)據(jù)挖掘,只有計算均線的兩個參數(shù),該參數(shù)對絕大多數(shù)商品期貨都有效、適應(yīng)性極強(qiáng)。


基金經(jīng)理:做趨勢追蹤還有其他的方法,比如時間序列分析、其他技術(shù)分析手段、以及機(jī)器學(xué)習(xí)里面的各種復(fù)雜算法。你的系統(tǒng)和這些比較過嗎?


分析師(心說“一猜你就會問這個”):常見的這些方法我都仔細(xì)試過了,它們的效果都沒有雙均線系統(tǒng)好。


基金經(jīng)理:……


分析師:真的!我做了非常詳細(xì)的對比,逐筆分析了各種不同策略的交易記錄,雙均線是最好的。


基金經(jīng)理:從你排除其他策略、挑出雙均線系統(tǒng)的那一刻,你就已經(jīng)過擬合了。


分析師(一臉迷茫):……


上面這段對話當(dāng)然是我杜撰的。想通過它表明的觀點是,我們將不同的量化技術(shù)應(yīng)用到同樣的數(shù)據(jù)上構(gòu)建某一類(比如趨勢追蹤、反轉(zhuǎn)、套利)策略時,最終會挑出來表現(xiàn)最好的量化技術(shù),無論這個技術(shù)復(fù)雜與否(線性的、非線性的),這個過程本身就是在過擬合。最終被挑出來的,注定是因為在樣本內(nèi)戰(zhàn)勝了其他的。從“超參數(shù)”(見《科學(xué)回測中的大學(xué)問》)的意義上說,這個模型難逃 data mining 之嫌,因為它比別的模型更好很可能是因為它對樣本數(shù)據(jù)內(nèi)的噪聲刻畫的更精準(zhǔn),而非發(fā)現(xiàn)了一些被其他策略忽視到的真實存在于數(shù)據(jù)之間的因果關(guān)系。


以上這點粗淺的認(rèn)識當(dāng)然不是鼓勵大家放棄回測中表現(xiàn)好的、使用表現(xiàn)差的量化技術(shù)。就我自己有限的經(jīng)驗來看,任何策略都或多或少存在數(shù)據(jù)挖掘的問題,而這個問題隨著模型復(fù)雜度的增加更加突出。今天就簡單聊聊模型復(fù)雜度。討論主要從以下兩個角度展開:


1. 模型復(fù)雜度和過擬合程度:定量分析模型復(fù)雜度和構(gòu)建策略時 data mining 的程度。


2. 模型復(fù)雜度和損失帶來的主觀感受:回答諸如“面對實盤中同等大小 —— 比如 -10% ——的回撤,不同復(fù)雜度的模型是否能給我們帶來同樣的主觀感受”這樣的問題。


這兩個角度的研究都是很大的課題,本文僅僅是做一點拋磚引玉的探討。


2 模型復(fù)雜度和過擬合程度


在構(gòu)建一個量化投資策略時,一旦確定了模型復(fù)雜度,就要進(jìn)行參數(shù)優(yōu)化。只要是參數(shù)優(yōu)化,無論再怎么小心,都會存在過擬合。本節(jié)使用趨勢策略闡述在給定的模型復(fù)雜度進(jìn)行參數(shù)優(yōu)化過擬合程度之間的關(guān)系。分析流程如下:


f1.png


分析中采用的趨勢追蹤策略是均線多頭排列策略。它的定義和模型復(fù)雜度介紹如下。在市場有大趨勢的時候,均線一般呈現(xiàn)多頭或者空頭結(jié)構(gòu),即不同周期 T 的均線排序和 T 的排序非常一致(比如上漲時,通常有 MA5 > MA15 > MA30)。當(dāng)投資品從上漲向下跌轉(zhuǎn)換、或由下跌向上漲轉(zhuǎn)換時,短周期均線會先于長周期均線發(fā)生變化。在前者發(fā)生時,短周期均線開始逐步下穿長周期均線;在后者發(fā)生時,短周期均線開始逐步上穿長周期均線。在發(fā)生由漲轉(zhuǎn)跌或由跌轉(zhuǎn)漲時,不同周期均線的排序和時間窗口 T 大小的排序關(guān)系被打亂,不再完全一致。


使用秩相關(guān)系數(shù)計算均線排序和時間窗口 T 排序之間的一致性,并使用它擇時、構(gòu)建趨勢追蹤策略(這里只考慮多頭策略)。當(dāng)均線多頭排列時,均線和 T 之間的秩相關(guān)性為 1;當(dāng)均線空頭排列時,均線和 T 之間的秩相關(guān)性為 -1。由漲轉(zhuǎn)跌時,短期均線開始下穿,秩相關(guān)性從 1 開始下降;由跌轉(zhuǎn)漲時,短期均線開始上穿,秩相關(guān)性從 -1 開始上升。由此,可以構(gòu)建策略如下:


使用給定的均線參數(shù)周期,各自計算指數(shù)平均,進(jìn)而計算均線排序和參數(shù)排序的秩相關(guān)系數(shù)。空倉時,如果秩相關(guān)系數(shù)上穿 -TH 則滿倉;滿倉時,如果秩相關(guān)系數(shù)下穿 TH 則空倉。不考慮任何成本。


在這個策略中,模型復(fù)雜度由如下兩組參數(shù)刻畫:


1. 計算均線的周期參數(shù)個數(shù);

2. 判斷空倉和滿倉時,秩相關(guān)系數(shù)的閾值。


這兩組參數(shù)各自從不同層面增加了模型的復(fù)雜程度。在分析中,它們的取值如下:


1. 均線參數(shù)的個數(shù)從 2 到 5 遞增,依次增加模型的復(fù)雜度。第一個均線周期取值范圍是 10 到 100,步長 10;從第二個均線周期開始,在搜索參數(shù)時,其取值范圍似是前一個均線的取值與 100 之間,步長 10。此外,允許新加入的均線對策略不產(chǎn)生作用。這保證了隨著均線個數(shù)增加,求解的空間是遞增的,從而保證了最優(yōu)目標(biāo)函數(shù)的單調(diào)性。

?

2. 在分析時,首先僅考慮均線參數(shù)個數(shù)造成的影響,因此假設(shè)閾值為 TH = 0.5 恒定。之后,為了同時考察閾值對過擬合程度的影響,允許閾值 TH 從 0.1 到 0.9 之間(步長 0.1)選擇。


依照上述描述進(jìn)行實驗,得到的模型復(fù)雜度和過擬合程度的關(guān)系如下圖所示。其中藍(lán)色圓圈表示僅考慮均線參數(shù)個數(shù)這一種模型復(fù)雜度時的情況,而黃色十字表示同時考慮閾值作為模型復(fù)雜度的情況。


f2.png


當(dāng)我們使用真實的交易數(shù)據(jù)進(jìn)行策略的參數(shù)優(yōu)化時,盡管使用了訓(xùn)練集和測試集、考慮了參數(shù)平原、從各種業(yè)務(wù)層面解釋了參數(shù)的選擇,依然無法消除參數(shù)優(yōu)化中過擬合的影響。更不幸的是,對于真實交易數(shù)據(jù),由于不知道它其中哪些是因果關(guān)系、哪些是噪聲,因此我們甚至無法評價參數(shù)優(yōu)化造成的過擬合程度。然而在上述實驗中,由于價格序列由隨機(jī)游走生成,因此隨著實驗個數(shù)的增加,我們預(yù)期它們的基礎(chǔ)夏普率均值是 0。這正是使用 random walks 來驗證策略的好處,因為它的“正確答案”是已知的 —— 一個不存在過擬合的策略在隨機(jī)游走價格序列上不應(yīng)該能持續(xù)的賺到錢。


這 100 個 random walks 的基礎(chǔ)夏普率均值為 -0.03。如果參數(shù)優(yōu)化中沒有過擬合,那么策略夏普率均值和基礎(chǔ)夏普率均值相差不遠(yuǎn)。然而,分析的結(jié)果遠(yuǎn)非如此。上圖表明,隨著參數(shù)的增多,模型的過擬合程度(100 個策略夏普率均值于基礎(chǔ)家譜率均值之差)也在上升;而隨著模型復(fù)雜度從多維度的提升(即加入閾值參數(shù)),模型的過擬合程度產(chǎn)生了跳變。上述結(jié)果說明模型的過擬合程度隨模型的復(fù)雜度遞增。


3 模型復(fù)雜度和損失痛苦


本節(jié)來看看模型復(fù)雜度和策略損失帶來的主觀感受之間的關(guān)系。《追求卓越,但接受交易中的不完美》一文曾闡述了如下觀點:一個策略投放到實盤時最大的敵人是交易者的心理關(guān)。這個心理關(guān)指的是交易者能否克服實盤中的心理壓力從而堅持使用這個策略。對于任何一個量化投資策略,幾乎可以確定的是它在回測中的表現(xiàn)是其在實盤中表現(xiàn)的上限。在實際交易中,價格時刻在波動,充斥著噪聲的各路消息以遠(yuǎn)超過我們能夠接受的速度涌來,使人快步踏入行為金融學(xué)中的各種認(rèn)知偏差陷阱、喪失冷靜;面對真金白銀的虧損,交易者會比想象的更脆弱、更容易懷疑策略的開發(fā)中是否存在沒有考慮到的問題(對于復(fù)雜策略更是如此)、自我動搖想要放棄這個系統(tǒng) —— 這就是損失帶來的主觀感受。


當(dāng)一個策略持續(xù)出現(xiàn)回撤,虧損超過回測中最大回撤時,復(fù)雜度是否對虧損帶給我們的痛苦程度(以及對策略不自信的程度)造成影響呢?為了回答這個問題,自然要建模。建模的流程如下圖所示。


f3.png


這個流程中有三處需要建模:(1)模型復(fù)雜度和勝率的關(guān)系;(2)勝率和收益率分布均值的關(guān)系;(3)模型復(fù)雜度和最大回撤與虧損造成的痛苦的關(guān)系。下面分別說明。假設(shè)模型復(fù)雜度和勝率的關(guān)系如下:


image.png


其中 w_0 是基礎(chǔ)勝率(假設(shè)等于 0.5),k 代表模型中參數(shù)的個數(shù),NL 為 binary 變量,取值 0 或者 1,代表模型是否為非線性的(NL = 1 表示非線性)。Disclaimer:本模型沒有任何 reference,只是我為了得到量化分析結(jié)果選用的一個簡單模型。假設(shè)單期收益率滿足標(biāo)準(zhǔn)差為 1% 的正態(tài)分布,均值則和勝率有關(guān)。勝率代表著單期收益率大于等于零的概率,因此我們必須選擇均值以滿足 prob(r ≥ 0) = w。根據(jù)這個關(guān)系,可以求出均值為:


image.png


其中 ISF 表示標(biāo)準(zhǔn)正態(tài)分布的 inverse survival function。得到單期收益率的分布之后,就可以構(gòu)建任意長度的收益率序列。分析中,我們構(gòu)建長度為 1000 的序列,以此作為該復(fù)雜度下假想策略的收益曲率序列的一個實現(xiàn),并計算出它的 NAV。有了 NAV 就可以計算出它的最大回撤(max drawdown,MDD)。假設(shè)虧損造成的痛苦(記為 H)和最大回撤以及模型復(fù)雜度的關(guān)系如下:


image.png


上述模型(disclaimer:同樣沒有任何 reference)說明 H 由兩部分組成:模型復(fù)雜度和最大回撤。由該模型的表達(dá)式可知,在同樣的最大回撤下,不同的模型復(fù)雜度給人的主觀感受是不一樣的,模型復(fù)雜度非線性的放大了虧損造成的痛苦。當(dāng) k = 1(模型至少有一個參數(shù))且模型為非線性(NL = 0)時,H 的第一項為 1,因此它僅由最大回撤決定。當(dāng)模型復(fù)雜度上升時,對復(fù)雜模型的懲罰程度由參數(shù) C(非負(fù)實數(shù))控制。C 越小說明對模型復(fù)雜度的懲罰越高(即復(fù)雜模型會顯著放大最大回撤造成的痛苦程度)。結(jié)合上述勝率和痛苦程度的模型可知,模型復(fù)雜度可以增加勝率(hopefully),但它是以提高虧損造成的主觀痛苦為代價的。因此,在這二者之間存在一個平衡。


下面來看一些實驗結(jié)果。對于每一個給定的模型復(fù)雜度,隨機(jī)產(chǎn)生 2000 個長度各為 1000 的收益率序列,并計算它們的最大回撤以及痛苦程度 H,取這 2000 個實驗的均值作為該模型復(fù)雜度下?lián)p失造成的痛苦程度的度量。首先考慮線性模型,即 NL = 0 的情況。下面三張圖分別顯示了 C 取不同數(shù)值時,參數(shù)個數(shù) k 和 H 的關(guān)系:


f7.png


當(dāng) C 很大時,我們對模型復(fù)雜度的懲罰很低,模型復(fù)雜度的作用單邊體現(xiàn)在提高勝率上。更高的勝率意味著更低的最大回撤,因此隨著模型參數(shù)的增加,痛苦程度逐漸降低。當(dāng) C 很小時,情況正好相反。模型每增加一個參數(shù),造成的痛苦程度非線性急速攀升,大大的抵消掉高勝率造成的低回撤的影響,痛苦程度隨模型復(fù)雜度單調(diào)上升。當(dāng) C 取值中規(guī)中矩時,從上面中間的圖中能夠觀察到勝率和痛苦程度之間的取舍,在理論上存在最佳的模型復(fù)雜度。當(dāng) NL = 1 時,可以觀察到和前面類似的結(jié)果(下圖)。由于在 H 的建模中,我們對 NL 的懲罰較高(系數(shù)為 10),因此對于同樣的 C 和 k,NL = 1 比 NL = 0 意味著更大的虧損痛苦。


f8.png


上面的分析都是探索性的,并沒有實證數(shù)據(jù)作為依據(jù)(難以找到使用不同模型復(fù)雜度策略的投資者并統(tǒng)計它們面對虧損時的不同感受)。我分析的初衷是,在構(gòu)建投資策略時,任何決定都要在得與失之間取舍。復(fù)雜模型在提高勝率的同時,也一定在某種程度上有它的弊端。從我有限的經(jīng)驗來說,在實盤中出現(xiàn)同樣程度的虧損時,復(fù)雜的模型比簡單的模型更讓人不安。


在當(dāng)下,我們越來越崇尚各種復(fù)雜的模型。本小節(jié)僅僅希望從一個完全不同的角度來提出一些思考:我們在樣本外是否 100% 做好了準(zhǔn)備接受復(fù)雜模型?交易中存在各種認(rèn)知偏差,如果我們連最簡單的按一根均線做趨勢追蹤都無法堅決的執(zhí)行,那又有什么來保證我們在面對實盤虧損時能夠堅守復(fù)雜模型呢?如果我們不能堅守復(fù)雜模型,那么開發(fā)復(fù)雜模型所付出的心血和努力是否付之東流呢?


4 結(jié)語


前不久我聽了 Vanguard 題為《先鋒領(lǐng)航多資產(chǎn) FOF 策略及外部管理人選聘概覽》的報告。感觸最深的是當(dāng)談到對策略的看法時,先鋒的觀點是策略的理念一定要簡單 —— 能用一句話說清楚策略賺的什么錢,就不要用兩句描述;策略的程序一定要可理解、完全透明。


大道至簡。


當(dāng)模型復(fù)雜度一樣時,人們偏好風(fēng)險收益特性更高的策略;


當(dāng)風(fēng)險收益特性一樣時,人們偏好模型復(fù)雜度更低的策略。


各種復(fù)雜模型帶來的邊際超額收益能否 justify 它們的復(fù)雜度呢?拭目以待。



免責(zé)聲明:入市有風(fēng)險,投資需謹(jǐn)慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。