如果能夠正確預(yù)測(cè)基本面因子

發(fā)布時(shí)間：2019-01-09 | 來源: 川總寫量化

作者：石川

摘要：使用歷史基本面信息來預(yù)測(cè)未來的基本面，并基于預(yù)測(cè)值選股；如果能夠預(yù)測(cè)準(zhǔn)確，便可在價(jià)格修正以反映最新的基本面時(shí)獲得超額收益。

1 引言

基于基本面的量化多因子選股一直是市場(chǎng)中研究和實(shí)踐的重點(diǎn)，其核心邏輯是找到并配置能夠預(yù)測(cè)股票未來收益率的因子。隨著機(jī)器學(xué)習(xí)技術(shù)的飛速發(fā)展，越來越多的先進(jìn)算法（比如各種神經(jīng)網(wǎng)絡(luò)）被用于挖掘基本面因子和股票未來收益率之間的非線性關(guān)系。誠然，股票的價(jià)格和上市公司的基本面密切相關(guān)。但是在選股時(shí)，我們很難準(zhǔn)確判斷模型的有效輸入。對(duì)于投資這種開放性問題，大千世界的任何信息都有可能會(huì)對(duì)決策產(chǎn)生影響，信息量巨大而信噪比極低。

如下圖所示，基本面信息僅僅是現(xiàn)實(shí)世界全部信息的一小部分，其中還包含了大量的無用噪音甚至是虛假、錯(cuò)誤信息。股票未來的價(jià)格反映了全部信息中的一小撮有用信息；然而具體哪些信息有用是未知的，該信息和基本面信息有交集，但后者遠(yuǎn)飛前者的全部。直接使用基本面信息來選股（即預(yù)測(cè)股票未來的價(jià)格或收益率）將受到高信噪比的影響。

此外，雖然市場(chǎng)上存在一些異象無法被有效市場(chǎng)假說（EMH）解釋（它們?cè)醋孕袨榻鹑趯W(xué)中的各種認(rèn)知偏差），但 EMH 仍然在大部分時(shí)間相對(duì)有效，是主宰市場(chǎng)的第一范式。這就意味著最新的基本面信息已經(jīng)一定程度上反映在價(jià)格之中了；再使用它們來預(yù)測(cè)未來的價(jià)格，其效果會(huì)打一定的折扣。為了應(yīng)對(duì)上述種種困難，學(xué)術(shù)界和業(yè)界在最近幾年提出了一個(gè)新的思路（如下圖所示）：使用歷史基本面信息來預(yù)測(cè)未來的基本面，并基于預(yù)測(cè)值選股；如果能夠預(yù)測(cè)準(zhǔn)確，當(dāng)最新財(cái)報(bào)被公布的時(shí)候，價(jià)格發(fā)生修正以反映最新的基本面信息，使得那些提前布局的投資者獲得超額收益。

這種做法背后的假設(shè)是能夠通過歷史基本面信息預(yù)測(cè)出未來的基本面。我對(duì)此的看法是，這絕不容易，但與使用歷史基本面信息預(yù)測(cè)未來收益率相比，它背后的邏輯更直接、純粹，而不像基本面和收益率之間還隔了一層。由此可以猜想，過去和未來基本面之間的信噪比比過去基本面和未來價(jià)格之間的信噪比更高。

本文的目的有如下兩個(gè)：

1. 海外的業(yè)界基于上述思路，通過機(jī)器學(xué)習(xí)算法預(yù)測(cè)未來基本面信息、提出了前視因子模型（Lookahead Factor Model，LFM）的概念。本文對(duì)這個(gè)方法進(jìn)行簡(jiǎn)要介紹。

2. 本文的題目中用了“如果”（if），而不是“如何”（how）。我希望首先定量探討通過預(yù)知未來 —— 完美以及不完美的情況下 —— 能否帶來超額收益。只有這個(gè) if 的前提成立了，以后的 how 才有意義（而且這個(gè) how 也并不一定非要通過機(jī)器學(xué)習(xí)實(shí)現(xiàn)）。在這方面，本文基于中證 500 做一些簡(jiǎn)單實(shí)證。

下面首先來看看 Lookahead Factor Model。

2 Lookahead Factor Model

2017 年，Alberg and Lipton (2017) 在 NIPS Time Series Workshop 上報(bào)告了一篇題為《Improving factor-based quantitative investing by forecasting company fundamentals》的文章。本節(jié)對(duì)它做簡(jiǎn)要介紹。之所以不花太多的篇幅，是因?yàn)檫@畢竟不是發(fā)表在 NIPS 正會(huì)上的，而且它僅僅是一個(gè) poster session，文章本身也很短，所以其效果的可靠性仍有待檢驗(yàn)。但我仍希望它能給小伙伴們帶來一些啟發(fā)。Alberg and Lipton (2017) 的研究動(dòng)機(jī)是觀察到，如果能夠開天眼知道未來一段時(shí)間的基本面信息（包括 Book-to-Market、EBIT/EV、Net Income/EV 以及 Sales/EV 這些），并通過它們來選股，則可以在美股上獲得更高的收益，且預(yù)知未來的時(shí)間越長（用 months of clairvoyance 表示）收益越高（下圖）。

以此為動(dòng)機(jī)，他們使用了 Multilayer Perceptrons（MLPs）以及 Recurrent Neural Networks（RNNs）兩種算法構(gòu)建了預(yù)測(cè)模型，使用歷史基本面信息來預(yù)測(cè)未來的基本面信息。在回測(cè)中，二位作者使用了 1970 年 1 月至 2017 年 9 月 NYSE、NASDAQ 以及 AMEX 上的股票（排除了非美國的公司、金融行業(yè)公司以及超小市值公司）。模型的輸入特征包括 16 個(gè)基本面變量和 4 個(gè)價(jià)格時(shí)序變量（全部是動(dòng)量類的）。這 16 個(gè)基本面特征包括：

1. Revenue (TTM)；

2. Cost of good sold (TTM)；

3. SG&A (TTM)；

4. EBIT (TTM)；

5. Net income (TTM)；

6. Cash and cash equivalents (當(dāng)季)；

7. Receivables (當(dāng)季)；

8. Inventories (當(dāng)季)；

9. Other current assets (當(dāng)季)；

10. PP&E (當(dāng)季)；

11. Other assets (當(dāng)季)；

12. Debt in current liabilities (當(dāng)季)；

13. Accounts payable (當(dāng)季)；

14. Taxes payable (當(dāng)季)；

15. Other current liabilities (當(dāng)季)；

16. Total liabilities (當(dāng)季)。

在建模時(shí)，所有特征均經(jīng)過必要的標(biāo)準(zhǔn)化處理；整個(gè)回測(cè)期被分為樣本內(nèi)（1970 - 1999）和樣本外（2000 - 2017）兩部分；樣本內(nèi)被進(jìn)一步分為 training set 和 validation set 兩部分。Alberg and Lipton (2017) 使用樣本內(nèi)的 validation set 確定模型的超參數(shù) —— 包括 learning rate、model architecture、objective function weighting —— 以及 early stopping criteria。為了解決 RNN 容易過擬合的問題，Alberg and Lipton (2017) 特意指出他們的模型是多任務(wù)學(xué)習(xí)，同時(shí)預(yù)測(cè) 16 個(gè)基本面指標(biāo)；損失函數(shù)為預(yù)測(cè)值和實(shí)際值之間的均方誤差（MSE）。不過作者也指出，在全部 16 個(gè)基本面指標(biāo)中，他們最終用來選股的是 EBIT/EV，因此在損失函數(shù)中對(duì)該項(xiàng)賦予了更高的權(quán)重。實(shí)證結(jié)果顯示，基于神經(jīng)網(wǎng)絡(luò)的復(fù)雜算法在樣本外取得了比 na?ve 算法（即使用當(dāng)期數(shù)據(jù)猜下一期）更低的MSE。相比 S&P500 指數(shù)本身以及傳統(tǒng)的因子選股（基于當(dāng)期 EBIT/EV 選股），兩個(gè) lookahead factor models 都取得了更高的年化收益率和夏普率（下表）。以上就是關(guān)于 Alberg and Lipton (2017) 這篇文章的簡(jiǎn)要介紹。國內(nèi)的一些量化論壇基于該方法在 A 股上做了實(shí)證，感興趣的朋友可以找來看看。

3 假如開天眼

本節(jié)和下一節(jié)來回答本文關(guān)注的 if 問題。我們以中證 500 成分股為選股池，回測(cè)期為 2009 年 12 月到 2018 年 12 月，選擇 Earnings per Share (EPS) 作為目標(biāo)基本面因子來考察成功預(yù)測(cè)未來 EPS 能否獲得超額收益。首先，來看看常規(guī)做法：每月末按最新 EPS 數(shù)據(jù)選取該指標(biāo)最高的 20 支股票等權(quán)配置，按月調(diào)倉，不考慮任何交易成本。該選股的效果如下。

接下來，假設(shè)開天眼已知未來一個(gè)月的 EPS，并基于此選擇 20 支 EPS 最大的股票等權(quán)配置、按月調(diào)倉。該策略的表現(xiàn)如下。

將這兩個(gè)選股策略和中證 500 指數(shù)本身放在一起比較，高下立判。無疑，EPS 本身是一個(gè)非常優(yōu)秀的選股因子，而如果能預(yù)知未來 EPS 則可以獲得更大的優(yōu)勢(shì)、更高的收益。

發(fā)生這種現(xiàn)象背后的原因是什么呢？下圖顯示了使用當(dāng)期 EPS 選股時(shí)，回測(cè)期內(nèi)每月平均換股的數(shù)量。其中變化最多的是五月份。這是因?yàn)樯鲜泄拘枰诿磕?4 月 30 日之前披露上一年的年報(bào)。因此在每年四月底，使用最新披露的 EPS 選出的股票往往較之前的選擇有較大變化，這便解釋了五月份的持股較四月份的持股變化最大。其他月份的股票變化和季報(bào)、中報(bào)披露以及中證 500 調(diào)整成分股有關(guān)。

類似的，下圖顯示了使用下個(gè)月 EPS 選股時(shí)，每月平均換股的數(shù)量。比較這前后兩張圖，其中最大的區(qū)別就是正常情況下五月份的變化提前在四月發(fā)生（因?yàn)槲覀兗僭O(shè)在三月底就知道四月最新披露的 EPS 中最大的股票）。

對(duì)比使用當(dāng)期 EPS 選股和使用未來 EPS 選股的每月平均收益率，可以看到前面提到的這種前移帶來的巨大差異。正如下圖所示，開天眼（圖中 Oracle）選股的四月份收益率較正常（圖中 Regular）選股的收益率有巨大提升。此外，開天眼選股在八月份也有巨大的提升（8 月 30 日是中報(bào)披露的截止日期）。

以上結(jié)果說明，如果能準(zhǔn)確的預(yù)測(cè)并使用未來的 EPS 選股，確實(shí)能夠獲得更高的收益。不幸的是，現(xiàn)實(shí)中我們不能開天眼。

4 不完美預(yù)測(cè)

第三節(jié)的結(jié)果僅僅是一個(gè)美好的愿景。在實(shí)際中，即便能夠在一定程度上預(yù)測(cè)未來的 EPS（或其他基本面信息），其準(zhǔn)確性也難以保證。在不完美的預(yù)測(cè)下，這種努力是否能夠帶來超額收益呢？這就是本節(jié)探討的問題。以開天眼的結(jié)果作為 EPS 選股的標(biāo)準(zhǔn)答案，可以計(jì)算出使用歷史 EPS 選股的錯(cuò)誤率。從下圖不難看出，由于基本面指標(biāo)變動(dòng)的頻率較低，在很多沒有新信息披露的月份里，選股的錯(cuò)誤率也很低，但是這并沒有什么作用（這一點(diǎn)在構(gòu)建損失函數(shù)的時(shí)候值得考慮）。起決定性作用的是錯(cuò)誤率高的那些月份。

上一節(jié)的分析指出，使用未來 EPS 選股的優(yōu)勢(shì)在于提前知道年報(bào)和中報(bào)（特別是前者）中最新的 EPS，因此四月和八月貢獻(xiàn)了巨大的超額收益。觀察上圖不難發(fā)現(xiàn)，使用歷史 EPS 選股時(shí)，四月份的錯(cuò)誤率也是全部十二個(gè)月份中最高的。下表統(tǒng)計(jì)了回測(cè)期內(nèi)每年四月和八月使用歷史 EPS 選股的錯(cuò)誤率。由此可見，預(yù)測(cè) EPS 的努力可以考慮以降低四月和（或）八月選股的錯(cuò)誤率為目標(biāo)。為了回答“不完美預(yù)測(cè)能否帶來提高”這個(gè)問題，首先考慮四月為目標(biāo)并按照以下邏輯進(jìn)行模擬。

對(duì)于給定的正確率 c，在回測(cè)中每年的三月底從四月 EPS 最高的 20 支股票中隨機(jī)選出 20 × c 支，作為預(yù)測(cè)模型正確的部分；從剩余 480 支股票中隨機(jī)選出 20 × (1 - c) 支作為預(yù)測(cè)模型錯(cuò)誤的部分；如此便完成一次選?。ㄟ@是一個(gè)非常粗糙的處理方式，因?yàn)閺氖Ｓ?480 支股票中隨機(jī)選出的可能是 EPS 非常差的股票；實(shí)際的預(yù)測(cè)模型 —— 無論是機(jī)器學(xué)習(xí)或者其他方法 —— 應(yīng)該會(huì)比這種處理好一些）。為了降低隨機(jī)性的影響，在每個(gè)四月進(jìn)行 100 次模擬，取它們的平均值作為正確率 c 下該預(yù)測(cè)模型的選股結(jié)果，以此考察 EPS 預(yù)測(cè)正確率和選股效果的關(guān)系。

下表中 Panel A 展示了四月份 EPS 預(yù)測(cè)不同正確率下選股的效果。結(jié)果表明，隨著正確率的提升，收益率和夏普率逐漸增加，選股效果遠(yuǎn)強(qiáng)于使用當(dāng)前 EPS 的表現(xiàn)（使用當(dāng)前 EPS 的年化收益率為 6.33%；夏普率為 0.37）。同時(shí)也看到，即便是把正確率提高到 90%，其選股效果也顯著弱于全部使用未來 EPS 的情況，這說明僅僅改進(jìn)四月份的正確率是不夠的。

上表中 Panel B 展示了同時(shí)提高四月和八月正確率的結(jié)果。隨著年報(bào)和中報(bào)披露月份的同時(shí)改進(jìn)，選股效果較 Panel A 中的結(jié)果進(jìn)一步顯著提升。當(dāng)然，我們也必須注意到，正確率的邊際效應(yīng)在逐漸減小。上述結(jié)果留給我們的啟發(fā)有以下兩點(diǎn)：

1. 以月頻進(jìn)行基本面預(yù)測(cè)時(shí)，應(yīng)該著重考慮年報(bào)和季報(bào)集中披露的月份的正確率；

2. 正確率對(duì)選股效果提升的邊際效應(yīng)逐漸減弱，當(dāng)對(duì)重點(diǎn)月份預(yù)測(cè)的正確率提高到一定水平后，可考慮提升其他月份預(yù)測(cè)的正確性。

從實(shí)證結(jié)果來看，即便是不完美的預(yù)測(cè)也是值得嘗試的。

5 結(jié)語

上周的文章中提到了預(yù)期差的概念 —— 如果我們能找到市場(chǎng)中的預(yù)期差，便可以利用它來獲得超額收益。本文提到的準(zhǔn)確預(yù)測(cè) EPS 其實(shí)質(zhì)也是提前捕捉預(yù)期差，等待價(jià)格向價(jià)值修正。想再次強(qiáng)調(diào)的是，針對(duì)預(yù)測(cè)基本面這個(gè)話題，本文探討的是 if 的問題，而不是 how 的問題，并通過實(shí)證給出了預(yù)測(cè)中一些可能需要關(guān)注的地方。在 how 的問題上，希望文中介紹的 Alberg and Lipton (2017) 給大家提供一些思路。

在基本面的預(yù)測(cè)方面，無論采用什么方法，預(yù)測(cè)準(zhǔn)確才是最關(guān)鍵的。這就是為什么優(yōu)秀分析師的盈利預(yù)測(cè)（一致預(yù)期數(shù)據(jù)）是很值錢的，因?yàn)檫@些數(shù)據(jù)確實(shí)能夠帶來 α。只不過很多時(shí)候，這些 α 的成本太高了。這就給了機(jī)器學(xué)習(xí)契機(jī)。希望在未來能夠看到學(xué)術(shù)界和業(yè)界在這方面的更多突破，將先進(jìn)機(jī)器學(xué)習(xí)算法運(yùn)用到上市公司財(cái)務(wù)數(shù)據(jù)的預(yù)測(cè)中，為低成本的獲取 α 提供新的可能性。

參考文獻(xiàn)

Alberg, J. and Z. C. Lipton (2017). Improving factor-based quantitative investing by forecasting company fundamentals. NIPS Time Series Workshop 2017.

免責(zé)聲明：入市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對(duì)任何人的投資建議。在任何情況下，本文作者及所屬機(jī)構(gòu)不對(duì)任何人因使用本文的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

如果能夠正確預(yù)測(cè)基本面因子