模型復(fù)雜度隨想

發(fā)布時間：2018-08-23 | 來源: 川總寫量化

作者：石川

摘要：當(dāng)模型復(fù)雜度一樣時，人們偏好風(fēng)險收益特性更高的策略；當(dāng)風(fēng)險收益特性一樣時，人們偏好模型復(fù)雜度更低的策略。各種復(fù)雜模型帶來的邊際超額收益能否 justify 它們的復(fù)雜度呢？拭目以待。

1?引言

一個初入量化投資的分析師經(jīng)過了一個月的奮斗開發(fā)出了一個雙均線趨勢追蹤模型后，興沖沖的跑來和他的基金經(jīng)理匯報，于是便有了下面這段對話。

分析師（一臉興奮）：我開發(fā)出了一個雙均線系統(tǒng)，絕對沒有數(shù)據(jù)挖掘，只有計算均線的兩個參數(shù)，該參數(shù)對絕大多數(shù)商品期貨都有效、適應(yīng)性極強(qiáng)。

基金經(jīng)理：做趨勢追蹤還有其他的方法，比如時間序列分析、其他技術(shù)分析手段、以及機(jī)器學(xué)習(xí)里面的各種復(fù)雜算法。你的系統(tǒng)和這些比較過嗎？

分析師（心說“一猜你就會問這個”）：常見的這些方法我都仔細(xì)試過了，它們的效果都沒有雙均線系統(tǒng)好。

基金經(jīng)理：……

分析師：真的！我做了非常詳細(xì)的對比，逐筆分析了各種不同策略的交易記錄，雙均線是最好的。

基金經(jīng)理：從你排除其他策略、挑出雙均線系統(tǒng)的那一刻，你就已經(jīng)過擬合了。

分析師（一臉迷茫）：……

上面這段對話當(dāng)然是我杜撰的。想通過它表明的觀點是，我們將不同的量化技術(shù)應(yīng)用到同樣的數(shù)據(jù)上構(gòu)建某一類（比如趨勢追蹤、反轉(zhuǎn)、套利）策略時，最終會挑出來表現(xiàn)最好的量化技術(shù)，無論這個技術(shù)復(fù)雜與否（線性的、非線性的），這個過程本身就是在過擬合。最終被挑出來的，注定是因為在樣本內(nèi)戰(zhàn)勝了其他的。從“超參數(shù)”（見《科學(xué)回測中的大學(xué)問》）的意義上說，這個模型難逃 data mining 之嫌，因為它比別的模型更好很可能是因為它對樣本數(shù)據(jù)內(nèi)的噪聲刻畫的更精準(zhǔn)，而非發(fā)現(xiàn)了一些被其他策略忽視到的真實存在于數(shù)據(jù)之間的因果關(guān)系。

以上這點粗淺的認(rèn)識當(dāng)然不是鼓勵大家放棄回測中表現(xiàn)好的、使用表現(xiàn)差的量化技術(shù)。就我自己有限的經(jīng)驗來看，任何策略都或多或少存在數(shù)據(jù)挖掘的問題，而這個問題隨著模型復(fù)雜度的增加更加突出。今天就簡單聊聊模型復(fù)雜度。討論主要從以下兩個角度展開：

1. 模型復(fù)雜度和過擬合程度：定量分析模型復(fù)雜度和構(gòu)建策略時 data mining 的程度。

2. 模型復(fù)雜度和損失帶來的主觀感受：回答諸如“面對實盤中同等大小 —— 比如 -10% ——的回撤，不同復(fù)雜度的模型是否能給我們帶來同樣的主觀感受”這樣的問題。

這兩個角度的研究都是很大的課題，本文僅僅是做一點拋磚引玉的探討。

2 模型復(fù)雜度和過擬合程度

在構(gòu)建一個量化投資策略時，一旦確定了模型復(fù)雜度，就要進(jìn)行參數(shù)優(yōu)化。只要是參數(shù)優(yōu)化，無論再怎么小心，都會存在過擬合。本節(jié)使用趨勢策略闡述在給定的模型復(fù)雜度進(jìn)行參數(shù)優(yōu)化和過擬合程度之間的關(guān)系。分析流程如下：

分析中采用的趨勢追蹤策略是均線多頭排列策略。它的定義和模型復(fù)雜度介紹如下。在市場有大趨勢的時候，均線一般呈現(xiàn)多頭或者空頭結(jié)構(gòu)，即不同周期 T 的均線排序和 T 的排序非常一致（比如上漲時，通常有 MA5 > MA15 > MA30）。當(dāng)投資品從上漲向下跌轉(zhuǎn)換、或由下跌向上漲轉(zhuǎn)換時，短周期均線會先于長周期均線發(fā)生變化。在前者發(fā)生時，短周期均線開始逐步下穿長周期均線；在后者發(fā)生時，短周期均線開始逐步上穿長周期均線。在發(fā)生由漲轉(zhuǎn)跌或由跌轉(zhuǎn)漲時，不同周期均線的排序和時間窗口 T 大小的排序關(guān)系被打亂，不再完全一致。

使用秩相關(guān)系數(shù)計算均線排序和時間窗口 T 排序之間的一致性，并使用它擇時、構(gòu)建趨勢追蹤策略（這里只考慮多頭策略）。當(dāng)均線多頭排列時，均線和 T 之間的秩相關(guān)性為 1；當(dāng)均線空頭排列時，均線和 T 之間的秩相關(guān)性為 -1。由漲轉(zhuǎn)跌時，短期均線開始下穿，秩相關(guān)性從 1 開始下降；由跌轉(zhuǎn)漲時，短期均線開始上穿，秩相關(guān)性從 -1 開始上升。由此，可以構(gòu)建策略如下：

使用給定的均線參數(shù)周期，各自計算指數(shù)平均，進(jìn)而計算均線排序和參數(shù)排序的秩相關(guān)系數(shù)。空倉時，如果秩相關(guān)系數(shù)上穿 -TH 則滿倉；滿倉時，如果秩相關(guān)系數(shù)下穿 TH 則空倉。不考慮任何成本。

在這個策略中，模型復(fù)雜度由如下兩組參數(shù)刻畫：

1. 計算均線的周期參數(shù)個數(shù)；

2. 判斷空倉和滿倉時，秩相關(guān)系數(shù)的閾值。

這兩組參數(shù)各自從不同層面增加了模型的復(fù)雜程度。在分析中，它們的取值如下：

1. 均線參數(shù)的個數(shù)從 2 到 5 遞增，依次增加模型的復(fù)雜度。第一個均線周期取值范圍是 10 到 100，步長 10；從第二個均線周期開始，在搜索參數(shù)時，其取值范圍似是前一個均線的取值與 100 之間，步長 10。此外，允許新加入的均線對策略不產(chǎn)生作用。這保證了隨著均線個數(shù)增加，求解的空間是遞增的，從而保證了最優(yōu)目標(biāo)函數(shù)的單調(diào)性。

2. 在分析時，首先僅考慮均線參數(shù)個數(shù)造成的影響，因此假設(shè)閾值為 TH = 0.5 恒定。之后，為了同時考察閾值對過擬合程度的影響，允許閾值 TH 從 0.1 到 0.9 之間（步長 0.1）選擇。

依照上述描述進(jìn)行實驗，得到的模型復(fù)雜度和過擬合程度的關(guān)系如下圖所示。其中藍(lán)色圓圈表示僅考慮均線參數(shù)個數(shù)這一種模型復(fù)雜度時的情況，而黃色十字表示同時考慮閾值作為模型復(fù)雜度的情況。

當(dāng)我們使用真實的交易數(shù)據(jù)進(jìn)行策略的參數(shù)優(yōu)化時，盡管使用了訓(xùn)練集和測試集、考慮了參數(shù)平原、從各種業(yè)務(wù)層面解釋了參數(shù)的選擇，依然無法消除參數(shù)優(yōu)化中過擬合的影響。更不幸的是，對于真實交易數(shù)據(jù)，由于不知道它其中哪些是因果關(guān)系、哪些是噪聲，因此我們甚至無法評價參數(shù)優(yōu)化造成的過擬合程度。然而在上述實驗中，由于價格序列由隨機(jī)游走生成，因此隨著實驗個數(shù)的增加，我們預(yù)期它們的基礎(chǔ)夏普率均值是 0。這正是使用 random walks 來驗證策略的好處，因為它的“正確答案”是已知的 —— 一個不存在過擬合的策略在隨機(jī)游走價格序列上不應(yīng)該能持續(xù)的賺到錢。

這 100 個 random walks 的基礎(chǔ)夏普率均值為 -0.03。如果參數(shù)優(yōu)化中沒有過擬合，那么策略夏普率均值和基礎(chǔ)夏普率均值相差不遠(yuǎn)。然而，分析的結(jié)果遠(yuǎn)非如此。上圖表明，隨著參數(shù)的增多，模型的過擬合程度（100 個策略夏普率均值于基礎(chǔ)家譜率均值之差）也在上升；而隨著模型復(fù)雜度從多維度的提升（即加入閾值參數(shù)），模型的過擬合程度產(chǎn)生了跳變。上述結(jié)果說明模型的過擬合程度隨模型的復(fù)雜度遞增。

3 模型復(fù)雜度和損失痛苦

本節(jié)來看看模型復(fù)雜度和策略損失帶來的主觀感受之間的關(guān)系。《追求卓越，但接受交易中的不完美》一文曾闡述了如下觀點：一個策略投放到實盤時最大的敵人是交易者的心理關(guān)。這個心理關(guān)指的是交易者能否克服實盤中的心理壓力從而堅持使用這個策略。對于任何一個量化投資策略，幾乎可以確定的是它在回測中的表現(xiàn)是其在實盤中表現(xiàn)的上限。在實際交易中，價格時刻在波動，充斥著噪聲的各路消息以遠(yuǎn)超過我們能夠接受的速度涌來，使人快步踏入行為金融學(xué)中的各種認(rèn)知偏差陷阱、喪失冷靜；面對真金白銀的虧損，交易者會比想象的更脆弱、更容易懷疑策略的開發(fā)中是否存在沒有考慮到的問題（對于復(fù)雜策略更是如此）、自我動搖想要放棄這個系統(tǒng) —— 這就是損失帶來的主觀感受。

當(dāng)一個策略持續(xù)出現(xiàn)回撤，虧損超過回測中最大回撤時，復(fù)雜度是否對虧損帶給我們的痛苦程度（以及對策略不自信的程度）造成影響呢？為了回答這個問題，自然要建模。建模的流程如下圖所示。

這個流程中有三處需要建模：（1）模型復(fù)雜度和勝率的關(guān)系；（2）勝率和收益率分布均值的關(guān)系；（3）模型復(fù)雜度和最大回撤與虧損造成的痛苦的關(guān)系。下面分別說明。假設(shè)模型復(fù)雜度和勝率的關(guān)系如下：

其中 w_0 是基礎(chǔ)勝率（假設(shè)等于 0.5），k 代表模型中參數(shù)的個數(shù)，NL 為 binary 變量，取值 0 或者 1，代表模型是否為非線性的（NL = 1 表示非線性）。Disclaimer：本模型沒有任何 reference，只是我為了得到量化分析結(jié)果選用的一個簡單模型。假設(shè)單期收益率滿足標(biāo)準(zhǔn)差為 1% 的正態(tài)分布，均值則和勝率有關(guān)。勝率代表著單期收益率大于等于零的概率，因此我們必須選擇均值以滿足 prob(r ≥ 0) = w。根據(jù)這個關(guān)系，可以求出均值為：

其中 ISF 表示標(biāo)準(zhǔn)正態(tài)分布的 inverse survival function。得到單期收益率的分布之后，就可以構(gòu)建任意長度的收益率序列。分析中，我們構(gòu)建長度為 1000 的序列，以此作為該復(fù)雜度下假想策略的收益曲率序列的一個實現(xiàn)，并計算出它的 NAV。有了 NAV 就可以計算出它的最大回撤（max drawdown，MDD）。假設(shè)虧損造成的痛苦（記為 H）和最大回撤以及模型復(fù)雜度的關(guān)系如下：

上述模型（disclaimer：同樣沒有任何 reference）說明 H 由兩部分組成：模型復(fù)雜度和最大回撤。由該模型的表達(dá)式可知，在同樣的最大回撤下，不同的模型復(fù)雜度給人的主觀感受是不一樣的，模型復(fù)雜度非線性的放大了虧損造成的痛苦。當(dāng) k = 1（模型至少有一個參數(shù)）且模型為非線性（NL = 0）時，H 的第一項為 1，因此它僅由最大回撤決定。當(dāng)模型復(fù)雜度上升時，對復(fù)雜模型的懲罰程度由參數(shù) C（非負(fù)實數(shù)）控制。C 越小說明對模型復(fù)雜度的懲罰越高（即復(fù)雜模型會顯著放大最大回撤造成的痛苦程度）。結(jié)合上述勝率和痛苦程度的模型可知，模型復(fù)雜度可以增加勝率（hopefully），但它是以提高虧損造成的主觀痛苦為代價的。因此，在這二者之間存在一個平衡。

下面來看一些實驗結(jié)果。對于每一個給定的模型復(fù)雜度，隨機(jī)產(chǎn)生 2000 個長度各為 1000 的收益率序列，并計算它們的最大回撤以及痛苦程度 H，取這 2000 個實驗的均值作為該模型復(fù)雜度下?lián)p失造成的痛苦程度的度量。首先考慮線性模型，即 NL = 0 的情況。下面三張圖分別顯示了 C 取不同數(shù)值時，參數(shù)個數(shù) k 和 H 的關(guān)系：

當(dāng) C 很大時，我們對模型復(fù)雜度的懲罰很低，模型復(fù)雜度的作用單邊體現(xiàn)在提高勝率上。更高的勝率意味著更低的最大回撤，因此隨著模型參數(shù)的增加，痛苦程度逐漸降低。當(dāng) C 很小時，情況正好相反。模型每增加一個參數(shù)，造成的痛苦程度非線性急速攀升，大大的抵消掉高勝率造成的低回撤的影響，痛苦程度隨模型復(fù)雜度單調(diào)上升。當(dāng) C 取值中規(guī)中矩時，從上面中間的圖中能夠觀察到勝率和痛苦程度之間的取舍，在理論上存在最佳的模型復(fù)雜度。當(dāng) NL = 1 時，可以觀察到和前面類似的結(jié)果（下圖）。由于在 H 的建模中，我們對 NL 的懲罰較高（系數(shù)為 10），因此對于同樣的 C 和 k，NL = 1 比 NL = 0 意味著更大的虧損痛苦。

上面的分析都是探索性的，并沒有實證數(shù)據(jù)作為依據(jù)（難以找到使用不同模型復(fù)雜度策略的投資者并統(tǒng)計它們面對虧損時的不同感受）。我分析的初衷是，在構(gòu)建投資策略時，任何決定都要在得與失之間取舍。復(fù)雜模型在提高勝率的同時，也一定在某種程度上有它的弊端。從我有限的經(jīng)驗來說，在實盤中出現(xiàn)同樣程度的虧損時，復(fù)雜的模型比簡單的模型更讓人不安。

在當(dāng)下，我們越來越崇尚各種復(fù)雜的模型。本小節(jié)僅僅希望從一個完全不同的角度來提出一些思考：我們在樣本外是否 100% 做好了準(zhǔn)備接受復(fù)雜模型？交易中存在各種認(rèn)知偏差，如果我們連最簡單的按一根均線做趨勢追蹤都無法堅決的執(zhí)行，那又有什么來保證我們在面對實盤虧損時能夠堅守復(fù)雜模型呢？如果我們不能堅守復(fù)雜模型，那么開發(fā)復(fù)雜模型所付出的心血和努力是否付之東流呢？

4 結(jié)語

前不久我聽了 Vanguard 題為《先鋒領(lǐng)航多資產(chǎn) FOF 策略及外部管理人選聘概覽》的報告。感觸最深的是當(dāng)談到對策略的看法時，先鋒的觀點是策略的理念一定要簡單 —— 能用一句話說清楚策略賺的什么錢，就不要用兩句描述；策略的程序一定要可理解、完全透明。

大道至簡。

當(dāng)模型復(fù)雜度一樣時，人們偏好風(fēng)險收益特性更高的策略；

當(dāng)風(fēng)險收益特性一樣時，人們偏好模型復(fù)雜度更低的策略。

各種復(fù)雜模型帶來的邊際超額收益能否 justify 它們的復(fù)雜度呢？拭目以待。

免責(zé)聲明：入市有風(fēng)險，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

模型復(fù)雜度隨想