粗糙路徑理論 —— 價(jià)格序列降維利器

發(fā)布時(shí)間：2018-01-24 | 來源: 川總寫量化

作者：石川

摘要：粗糙路徑理論通過路徑簽名可有效對(duì)原始價(jià)格信息降維，使用它作為有監(jiān)督學(xué)習(xí)的特征輸入可以取得更好的效果。

1 引言

機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)算法時(shí)常被用來預(yù)測(cè)投資品的價(jià)格走勢(shì)。以此為目的建模時(shí)，訓(xùn)練集數(shù)據(jù)的特征（features）選擇格外重要。我們希望找到最能捕捉價(jià)格走勢(shì)的特征，但如果特征維數(shù)太高又容易造成過擬合以及計(jì)算效率的問題。當(dāng)直接使用投資品的價(jià)格信息作為輸入時(shí)，訓(xùn)練出來的模型效果往往很差，這是因?yàn)閮r(jià)格信息的維數(shù)太高了。

以日線為例，假如我們想使用過去 n 個(gè)交易日的日頻 K 線建模，預(yù)測(cè)下一個(gè)交易日的漲跌。由于每個(gè) K 線有 Open、High、Low 和 Close 四個(gè)價(jià)格，那么這 n 個(gè) K 線的輸入維數(shù)就是 4n。當(dāng) n = 20 時(shí)，這個(gè)模型的輸入維數(shù)就高達(dá) 80。如果我們采用非線性的有監(jiān)督學(xué)習(xí)算法（比如非線性核的支持向量機(jī)），那么維數(shù)更會(huì)呈指數(shù)增長(zhǎng)。使用如此多的特征建模，樣本內(nèi)很容易出現(xiàn)過擬合，模型在樣本外的預(yù)測(cè)準(zhǔn)確性會(huì)非常低。在構(gòu)建這類模型時(shí)，對(duì)輸入特征的有效降維至關(guān)重要。我們熟悉的各種技術(shù)指標(biāo)其實(shí)就是降維。技術(shù)指標(biāo)對(duì)價(jià)格數(shù)據(jù)高度提煉、降噪，以期捕捉到一些更泛化的信息?；诩夹g(shù)指標(biāo)的技術(shù)分析策略能賺錢說明使用技術(shù)指標(biāo)降維可以在一定程度上捕捉價(jià)格運(yùn)動(dòng)的內(nèi)在規(guī)律。

今天我們就來介紹另一種捕捉價(jià)格走勢(shì)內(nèi)在規(guī)律的方法 —— 粗糙路徑理論（rough path theory）。它的本質(zhì)是通過計(jì)算路徑簽名（signature of a path）來對(duì)路徑的信息降維，并使用簽名代替路徑本身作為機(jī)器學(xué)習(xí)模型的輸入特征。本文就來揭開它神秘的面紗。

2 粗糙路徑理論

粗糙路徑理論發(fā)展自上世紀(jì) 90 年代（Lyons 1998）。顧名思義，它研究的對(duì)象是粗糙路徑（rough path）。這里，“粗糙”指的是路徑雖然連續(xù)，但是處處劇烈波動(dòng)。比如布朗運(yùn)動(dòng)產(chǎn)生的路徑就是“粗糙的”，它雖然連續(xù)但是處處不可微分。投資品的價(jià)格走勢(shì)可謂名副其實(shí)的粗糙路徑。在粗糙路徑理論中，最核心的概念就是路徑簽名。這個(gè)“簽名”就是一個(gè)映射函數(shù)（mapping），它將原始路徑信息轉(zhuǎn)換成一組實(shí)數(shù)集合。集合中的每一個(gè)實(shí)數(shù)都是通過原始路徑中的數(shù)據(jù)點(diǎn)以不同的方式計(jì)算而來，代表著原始路徑的某一個(gè)幾何特征。理論上，一個(gè)路徑的簽名是“無窮維”的。在實(shí)際使用中，我們只使用有限個(gè)維數(shù)的簽名（即實(shí)數(shù)集合中的實(shí)數(shù)個(gè)數(shù)有限），這樣的簽名稱為截?cái)嗪灻╰runcated signature）。使用截?cái)嗪灻麃泶嬖几呔S路徑的數(shù)據(jù)信息便是對(duì)其進(jìn)行降維。

計(jì)算粗糙路徑的（截?cái)啵┖灻枰玫綇埩看鷶?shù)（Tensor algebra），十分復(fù)雜，本文不加贅述。假設(shè)原始路徑是 n × N 維的，它的簽名是通過將這個(gè)路徑不斷的向其原始的 n 維坐標(biāo)系上投影得到的。下面以 n = 2 為例說明如何求解一個(gè)路徑的（截?cái)啵┖灻?。假設(shè)一個(gè)二維粗糙路徑如下圖所示。

它的 2 階截?cái)嗪灻?S 是由 7 個(gè)實(shí)數(shù)構(gòu)成的集合：

這 7 個(gè)實(shí)數(shù)的幾何意義總結(jié)如下：

其中，S^(1,2) 和 S^(2,1) 表示該路徑按特定形式與坐標(biāo)軸構(gòu)成的區(qū)域的面積，如下圖所示。

用一句話總結(jié)來說，這個(gè) 2 階截?cái)嗪灻械?7 個(gè)數(shù)每個(gè)都有明確的幾何含義，并且由原始粗糙路徑計(jì)算而來；這 7 個(gè)數(shù)構(gòu)成的簽名是對(duì)原始路徑信息的高度概括。當(dāng)我們用簽名代替原始路徑作為輸入特征時(shí)，一個(gè)必須要搞清楚的前提是：簽名和路徑是一一對(duì)應(yīng)的嗎？路徑可以有千千萬萬，如果不同的路徑有相似的簽名，那么用簽名代替路徑的效果就要打折扣了。另外，不要忘了，我們使用的是截?cái)嗪灻校巧釛壛烁唠A的信息。即便非截?cái)嗪灻吐窂揭灰粚?duì)應(yīng)，截?cái)嗪灻质欠衲芎芎玫拿枋鲈悸窂侥兀亢孟⑹?，?shù)學(xué)上可以證明粗糙路徑的簽名是唯一的，因此簽名很好的反應(yīng)了原始路徑的信息。那么，截?cái)嗪灻趺礃幽?？事?shí)上，高階簽名所包含的信息量按照階數(shù)的階乘衰減（factorial decay）。這意味著高階簽名包含的信息較低階簽名來說可以忽略不計(jì)，因此即便是使用低階的截?cái)嗪灻?，我們也可以預(yù)期它有效的保留了原始路徑的信息。在上面這個(gè)例子當(dāng)中，原始的路徑就可以由它的截?cái)嗪灻?{1, 7, 5, 24.5, 19, 16, 12.5} 表示。

3 領(lǐng)先 —— 滯后變形

截?cái)嗪灻菍?duì)原始粗糙路徑的有效降維。這為我們使用它進(jìn)行投資品價(jià)格數(shù)據(jù)分析打下了良好的基礎(chǔ)。不過在這之前，還需要做一步鋪墊。投資品的價(jià)格時(shí)間序列對(duì)原始“未知路徑”按一種特定頻率的采樣。當(dāng)使用最高頻率采樣時(shí)，得到的就是 tick 數(shù)據(jù)；當(dāng)使用 1 分鐘頻率采樣時(shí)，得到的就是 1 分鐘 K 線數(shù)據(jù)；當(dāng)使用日頻采樣時(shí)，得到的就是日頻 K 線數(shù)據(jù)，以此類推。換句話說，我們的價(jià)格數(shù)據(jù)僅僅是一些列來自未知路徑的離散點(diǎn)，它們并不是連續(xù)的。粗糙路徑雖然處處高波動(dòng)，但它是連續(xù)的。因此，在使用簽名分析價(jià)格時(shí)，必須先將離散的價(jià)格時(shí)間序列轉(zhuǎn)化為連續(xù)的路徑。

在這方面，一個(gè)常見的方法是領(lǐng)先 —— 滯后變形（lead-lag transformation）。假設(shè) t_0，t_1，…，t_N 為 N 個(gè)離散時(shí)間點(diǎn)，定義在之上的價(jià)格序列為 {t_i, X_(t_i)}, i = 0，1，…，N，該變形的定義如下：

從圖形上直觀的來說，該變形將原來長(zhǎng)度為 N + 1（0 到 N）的價(jià)格序列轉(zhuǎn)變?yōu)殚L(zhǎng)度為 2N + 1（0 到 2N）的新序列。在這個(gè)新序列中，每個(gè)點(diǎn)由一對(duì)兒領(lǐng)先價(jià)格（X^Lead）和滯后價(jià)格（X^Lag）來表示。在這個(gè)新序列中的第 0，2，…，2N 這些序列標(biāo)號(hào)為偶數(shù)的點(diǎn)上，X^Lead 和 X^Lag 的取值就是原始序列中的 X_{j/2}；在這個(gè)新序列中的第 1，3，…，2N - 1 這些序列標(biāo)號(hào)為奇數(shù)的點(diǎn)上，第 j（某奇數(shù)）個(gè)點(diǎn)的 X^Lead 取值等于第 j + 1 個(gè)點(diǎn)的 X^Lead 值，而它的 X^Lag 取值等于第 j - 1 個(gè)點(diǎn)的 X^Lag 值。如果我們比較這 2N 個(gè)點(diǎn)的 X^Lead 和 X^Lag 序列，不難發(fā)現(xiàn) X^Lag 永遠(yuǎn)比 X^Lead 落后一位；這便解釋了為什么它們有“領(lǐng)先”和“滯后”之分。這 2N 個(gè)由 {X^Lead, X^Lag} 兩兩配對(duì)兒構(gòu)成的新序列就是對(duì)原始離散價(jià)格時(shí)間序列的連續(xù)化處理，將其轉(zhuǎn)化為一個(gè)連續(xù)的路徑。下圖為上證指數(shù)在 2016 年 7 月內(nèi)收盤價(jià)的日數(shù)據(jù)和通過領(lǐng)先 —— 滯后變形產(chǎn)生的連續(xù)路徑。

為什么要采用如此變化得到路徑呢？對(duì)于投資品價(jià)格這種粗糙路徑來說，由于其劇烈的波動(dòng)，它的二次變分不為零，這個(gè)數(shù)學(xué)上的特性反映著價(jià)格變化中非常重要的性質(zhì)（見《布朗運(yùn)動(dòng)、伊藤引理、BS 公式（前篇）》）。因此，我們希望路徑簽名也能反映原始軌跡非零二次變分的特征。通過領(lǐng)先 —— 滯后變形得到的路徑，并計(jì)算其簽名，就可以很好的捕捉到原始價(jià)格序列的二次變分。好了，現(xiàn)在我們已經(jīng)萬事俱備了：對(duì)于一個(gè)投資品價(jià)格序列，首先應(yīng)用領(lǐng)先 —— 滯后變形將其轉(zhuǎn)換為連續(xù)路徑；然后計(jì)算截?cái)嗪灻麑?duì)該路徑降維；最后使用該簽名作為特征輸入到機(jī)器學(xué)習(xí)算法中建模。下面就來看一個(gè)簡(jiǎn)單的應(yīng)用。

4 應(yīng)用舉例

本節(jié)介紹一個(gè)使用路徑簽名分析價(jià)格規(guī)律的例子。我們的目的并非構(gòu)建一個(gè)策略，而是為了說明路徑簽名確實(shí)能夠反應(yīng)出價(jià)格的某些內(nèi)在規(guī)律。A 股中有不同的板塊，雖然不同的板塊在絕大多數(shù)時(shí)候相關(guān)度非常高，但是在某些特定的時(shí)期還是存在明顯的分化。比如在 2013 年，創(chuàng)業(yè)板就走出了獨(dú)立行情。因此，我們猜測(cè)在這個(gè)時(shí)間內(nèi)，屬于創(chuàng)業(yè)板的股票的價(jià)格和其他版塊的股票的價(jià)格就有不同的內(nèi)在規(guī)律。下面就來簡(jiǎn)單驗(yàn)證看看。

考慮來自上交所和創(chuàng)業(yè)板的 356 支股票（其中上交所 220 支，創(chuàng)業(yè)板 136 支），使用它們?cè)?2013 年 1 月 1 日到 2014 年 1 月 1 日期間的日數(shù)據(jù)作為各自的原始價(jià)格序列（用各自的最大值進(jìn)行標(biāo)準(zhǔn)化）。經(jīng)過領(lǐng)先 —— 滯后變形后得到各自的連續(xù)路徑，并選擇階數(shù) 3 計(jì)算路徑簽名（簽名維數(shù)為 14）。之后，將這 356 支股票打亂順序，隨機(jī)挑選 220 支作為訓(xùn)練集，剩余 136 支作為測(cè)試集。我們希望通過訓(xùn)練集構(gòu)建一個(gè)分類模型。該分類模型使用訓(xùn)練集中股票的路徑簽名作為輸入，以股票的出處（即上交所或創(chuàng)業(yè)板）作為標(biāo)簽，挖掘輸入和標(biāo)簽之間的關(guān)系：

其中 Y_i 是第 i 支股票的標(biāo)簽，X_i 是第 i 支股票的原始價(jià)格序列，S(X_i) 是它的路徑簽名，f 則是我們希望通過機(jī)器學(xué)習(xí)擬合出來的函數(shù)。數(shù)學(xué)上的相關(guān)定理（Levin et al. 2016）指出，線性方程就可以很好的滿足我們的目標(biāo)，因此在本例中我們采用線性回歸作為機(jī)器學(xué)習(xí)的算法。使用訓(xùn)練集的 220 支股票建模。之后，使用該模型對(duì)測(cè)試集中的 136 支股票分類，并將模型分類結(jié)果和真實(shí)類別比較。該判斷該模型在樣本外的準(zhǔn)確性為 84.56%。讓我們從準(zhǔn)確率和召回率兩方面進(jìn)一步評(píng)價(jià)。該模型在測(cè)試集上的分類結(jié)果如下表所示。

從上面的結(jié)果可知，對(duì)于猜上交所的預(yù)測(cè)來說，其準(zhǔn)確率為 83.90%，召回率為 91.25%；對(duì)于猜創(chuàng)業(yè)板的預(yù)測(cè)來說，其準(zhǔn)確率為 85.71%，召回率為 75%。可見，對(duì)于這兩類股票中，該模型在樣本外均有不錯(cuò)的表現(xiàn)。這說明使用路徑簽名有效的捕捉了不同板塊中股票價(jià)格的內(nèi)在運(yùn)動(dòng)規(guī)律，它作為機(jī)器學(xué)習(xí)算法的輸入是合適的。

5 結(jié)語

本文介紹了粗糙路徑理論及其在分析投資品價(jià)格走勢(shì)方面的應(yīng)用。對(duì)于一個(gè)成功的機(jī)器學(xué)習(xí)應(yīng)用來說，找尋合適的輸入特征是最重要的一步。特征的維數(shù)不能過高，且需要最大可能的保存原始數(shù)據(jù)的信息。舉例來說，如果我們想建模對(duì)人的性別進(jìn)行分類，我們可以采用任何和人相關(guān)的屬性，比如身高或者膚色。顯然，身高就比膚色更有效，因?yàn)槟行暂^女性更高，但每個(gè)膚色中的男女比例都差不多。在當(dāng)下流行人工智能卷積神經(jīng)網(wǎng)絡(luò)中，池化（pooling）就是為了減少特征的維數(shù)。在分類領(lǐng)域，有一個(gè)著名的概念叫做維數(shù)災(zāi)難（curse of dimensionality）：分類器的性能隨著特征個(gè)數(shù)的變化不斷增加，過了某一個(gè)值后，性能不升反降（下圖，橫坐標(biāo)是維數(shù)，縱坐標(biāo)是分類器的表現(xiàn)）。

對(duì)于分析價(jià)格序列來說，如何給數(shù)據(jù)降維自然是重中之重。粗糙路徑的截?cái)嗪灻ㄟ^有限個(gè)具備明確幾何意義的實(shí)數(shù)，有效的捕捉了原始序列的信息、降低了特征的維數(shù)，這是它對(duì)于后續(xù)機(jī)器學(xué)習(xí)建模的最大價(jià)值。

參考文獻(xiàn)

Levin, D., T. Lyons, and H. Ni (2016). Learning from the past, predicting the statistics for the future, learning an evolving system.?Working paper.

Lyons, T. (1998). Differential equations driven by rough signals.?Revista Matemática Iberoamericana 14(2), 215 – 310.

免責(zé)聲明：入市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

粗糙路徑理論 —— 價(jià)格序列降維利器