量化選股 101

發(fā)布時間：2016-09-27 | 來源: 川總寫量化

作者：石川

摘要：本文介紹基礎(chǔ)量化選股模型。

1 Alpha 收益率

一般認為股票的收益率分為?alpha?和?beta?兩個部分。每支股票的?beta?收益率來自市場，而?alpha?部分則是它的超額收益率。買股票就是買公司，每個基金經(jīng)理都在努力尋求有真正?alpha?收益率的優(yōu)秀股票。大型的公募基金和券商有足夠的人力和財力來組建自己的行業(yè)專家團隊，還有很多基金經(jīng)理絞盡腦汁成為上市公司董秘肚子里的蛔蟲，以希望能挖掘優(yōu)秀的個股。但小型的私募或者資管公司如果沒有能力來構(gòu)建團隊呢，量化選股就成為一個低成本的必然選擇。本文介紹基本量化選股方法。

2 量化選股模型

量化選股的核心是找到能挖掘出股票超額收益率的選股因子（因此這種方法稱為多因子選股），這些因子可以是基本面的財務因子或者是技術(shù)面的因子；黑貓白貓，抓到耗子就是好貓。確定有效因子以后，用這些因子給每個股票打分，選出得分高的那些股票進行投資。選股模型每隔一段時間就會重新運行一次，以確定新的股票池子。這么做的原因主要有兩個：

1. 不管是財務因子還是技術(shù)因子，任何一個因子都很難持續(xù)有效。因此必須定期對因子的選股小姑進行評估，剔除逐漸失效的因子，選入新的有效的因子。

2. 股模型中用到了大量的財務因子，因此當上市公司披露新的財報時，需根據(jù)新的因子數(shù)據(jù)重新運行。

基于上述原因，量化選股模型一般在公司披露財報的時點更新股票池子。量化選股模型的流程圖如下圖所示。下面一一簡要說明。

2.1 確定備選因子

從大類上說，因子主要包括基本面和技術(shù)面兩類?；久嬉蜃邮呛蜕鲜泄矩攧障嚓P(guān)的因子，又可以細分為盈利因子（如 ROE、ROA 等）、估值因子（如 PE、PB 等）、規(guī)模因子等；技術(shù)面因子主要是和股票量價相關(guān)的因子，可以分為波動類、動量類和反轉(zhuǎn)類。除了這兩類主要因子外，還可以考慮其他一些因子，包括券商評級、市場情緒等。

2.2 計算每個因子的選股能力

計算每個因子的選股能力是量化選股模型的核心。我們以 ROE 為例說明這個過程。

第一步，因子預處理：首先對 ROE 因子進行預處理，這里可以去掉一些 ROE 取異常值（極大或極小值）的那些股票，它們可能對選股造成干擾；另外，可以對剩余股票的 ROE 進行歸一化處理。

第二步，將股票排序：預處理之后，按照因子的業(yè)務邏輯給所有個股排序。由于 ROE 是盈利因子，因此其業(yè)務邏輯是 ROE 越大，上市公司的價值應該越好，其股票的超額收益率就應該越高。因此，按照 ROE 的大小給個股排序。

第三步，構(gòu)造投資組合：排序后，選出排名前 1/5 的股票做多，選出排名后 1/5 的股票做空（假設(shè)可以做空），這就是我們當期的投資組合。注意，你當然也可以選前后 1/10，而非 1/5。

第四步，計算投資組合收益率：計算回測區(qū)間內(nèi)內(nèi)該因子的選股效果。在實證中，隨著財報數(shù)據(jù)的逐步披露，我們會得到新的 ROE 數(shù)據(jù)。每次得到新的 ROE，重新對股票排序并構(gòu)建當期的投資組合。這也被稱為投資組合再平衡。

第五步，檢驗收益率：檢驗收益率均值是否顯著大于零，以此作為評價因子的基準。

2.3 選出最好的 n 個因子并賦權(quán)

由于備選的因子可以有上百個，因此我們必須擇優(yōu)選出 n 個有效的因子。這里主要有兩個方法：

1. 設(shè)定因子選股能力閾值，如果一個因子的選股能力高于該閾值則選為有效因子，因子的個數(shù) n 不固定。

2. 設(shè)定固定的因子個數(shù) n（n 一般取 10 到 20 個之間）。將所有因子按其選股能力從高到低排序，選出前 n 個因子作為有效因子。

選出 n 個因子后，為這些因子賦權(quán)，以便最后一步中給個股打分。在賦權(quán)之前，值得一提的是，選出的 n 個因子之間可能存在多重共線性。換句話說，有些因子之間可能存在很高的相關(guān)性，這對于選股是不利的，應該給予考慮。（我們將在第 4 節(jié)說明多重共線性的缺點。）賦權(quán)有以下兩種常規(guī)方法：

1. 等權(quán)，所有優(yōu)選出來的因子一視同仁；因此每個因子的權(quán)重是 1 或者 1/n。

2. 正比于每個因子的選股能力賦權(quán)；因此每個因子的權(quán)重等于“該因子的選股能力”除以“所有因子中最大的選股能力”。

2.4 為股票打分

為股票打分分為兩步。第一步使用每個因子對每支個股獨立打分，即用選出的 n 個因子為個股打分。對于每一個因子，按其業(yè)務邏輯對個股排序，并打分如下：最好的 10% 的股票得 10 分，次好的 10% 的股票的 9 分，以此類推，最差的 10% 的股票得 1 分。第二步為計算每支股票的總分，即用每支股票在每個因子上的得分乘以該因子的權(quán)重就得到這支股票在該因子上的得分。將該股票在所有 n 個因子上的得分相加就得到該股票的總分。最終，按總分對所有股票排序，然后選擇排名最高的 m 支股票作為最終的量化選股結(jié)果。同樣，m 的確定可以有兩種方法：

1. 設(shè)定優(yōu)秀股票得分閾值，如果一個股票的總分高于該閾值則入選，因此 m 不固定。如果閾值選取的不好，那么可能出現(xiàn)選出來的股票個數(shù)過少甚至無法選出股票的情況。我們會在后面說明，這也不一定完全是缺點。

2. 設(shè)定固定的股票個數(shù) m（考慮到分散個股風險，m 一般取 50 到 100 之間）。將所有股票按其總分從高到低排序，選出前 m 個股票。

因為在現(xiàn)實中無法做空個股，因此在實際操作中，投資者可以買入選股模型優(yōu)選出的 m 支股票，并持有到下一次選股模型重新選擇。

3 問題和討論

上述量化選股模型存在以下幾個問題：

1. 僅僅使用了有限個選股因子：無論是固定因子個數(shù)或者使用因子選股能力閾值，最終使用的都是有限的 n 個因子，從 n+1 之后的因子就被舍棄了。因此，剩余因子的選股作用不作考慮，造成模型設(shè)定偏誤。

2. 假設(shè)因子間的作用是獨立的：模型在選擇因子時，逐一獨立地考慮每個因子，完全忽視因子之間的非線性關(guān)系。這也是選股模型的局限性之一。

3. 因子可能存在多重共線性（即獨立性的假設(shè)不成立）：如果兩個或多個優(yōu)選出來的因子有很高的線性相關(guān)性，則它們的效果相似。如果不作處理而把它們當做獨立的因子，則會加強選股在這類因子上的偏重程度，造成偏差。因此必須要檢驗并剔除多重共線性，確保最終選出的因子之間是相互獨立的。

4. 小市值高 beta 股傾向：眾所周知，由于高 beta 股承擔了更高的市場風險，它們有著更高的收益。在量化選股模型中，股票按因子排名，而非按股票對 beta 修正后的收益率排名，然后按排名前后 1/5 股票的絕對收益率對因子效果評價。因此這會造對成市值類因子選股能力的高估，從而選出的股票大多也都是小市值股票。

5. 固定的選股個數(shù)：無論市場行情如何，這個選股模型通常選擇前 50 到 100 相對優(yōu)秀的股票。但我們知道，當市場很差的時候，即便得分最高的那些股票的分值可能也會很低、后市走勢也會隨大盤一樣下跌。在這種情況下，如果仍然偏執(zhí)的選出 50 到 100 支股票，效果可想而知。

針對這些問題，可以考慮以下幾方面：

1. 綜合考慮多個因子，而非獨立篩選單一因子，捕捉因子之間的相互作用。

2. 使用非線性的有監(jiān)督學習算法對股票進行分類，捕捉高收益率股票的特征，進而選股。

3. 用選股模型作為另類擇時工具。當某期股票的打分都很低的時候，不一定要刻意的非要選出多少支股票。不妨認為這恰恰說明了市場的弱勢，不應持股。在這種情況下，選股模型便成為了一個擇時工具。

4. 提高選股模型的使用頻率：雖然財務因子在財報披露時才能更新，但技術(shù)類或者其他類因子迭代的更頻繁。因此可以考慮提高選股頻率。當然，選股頻率提高并不意味著我們應該提高股票池內(nèi)股票的輪動頻率，仍應該保證每支選出的股票被持有一段時間，再被新的股票替代。因此可以考慮滾動輪動的方法，比如每一個月重新選股一次，然后每次從投資組合中替換最早進入的 1/3 的股票，這樣可以保證每支股票至少在投資組合中持有 3 個月。

免責聲明：入市有風險，投資需謹慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下，本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外，文中圖表均直接或間接來自于相應論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

量化選股 101