另類數(shù)據(jù)的前景和陷阱
發(fā)布時間:2020-03-02 | 來源: 川總寫量化
作者:石川
摘要:本文探討對另類數(shù)據(jù)的五點思考??茖W的使用 + 正確的預期,另類數(shù)據(jù)或大有可為。
0 特斯拉工廠上空的“天眼”
美國時間 2018 年 10 月 25 日,困境中的特斯拉(Tesla)股票錄得 9.14% 的大漲,只因為在前一個交易日盤后發(fā)布的 2018 Q3 財報大超華爾街預期。財報顯示,爆款 Model 3 的產(chǎn)量在過去一個季度較之前幾乎翻番,這無疑給了投資人注入了一劑強心針,也引得市場一片狂歡。
面對 Model 3 產(chǎn)量的大增以及 9+% 大漲反映出的市場信心,最高興的人當屬 Tesla 的掌門人 Elon Musk。然而,除了 Musk 之外,同樣高興的另一群人大概要數(shù)另類數(shù)據(jù)公司 Thasos 以及它的很多對沖基金客戶們。因為在 Tesla 發(fā)布 Q3 財報之前,這群人恐怕早就憑借著信息優(yōu)勢預判到了這一點,并提前在二級市場布局了。
Thasos 是怎么做到的?
他們在一張在線地圖上環(huán)繞 Tesla 位于 Fremont,California 的占地 370 英畝的工廠,創(chuàng)建了一個數(shù)字圍欄,以隔離從 Tesla 工廠范圍內(nèi)發(fā)出的智能手機位置信號。Thasos 租賃了數(shù)不勝數(shù)的智能手機 APP 收集到的數(shù)萬億個地理坐標的數(shù)據(jù)庫,并通過電腦程序密切監(jiān)測從 Tesla 工廠中發(fā)出的手機信號。使用手機信號量進行估計,他們發(fā)現(xiàn)從 2018 年 6 月到 10 月,Tesla 工廠夜間輪班時間增加了 30%。
上圖中左側(cè),橫坐標 J、F、M 等為月份的英文首字母縮寫。深藍色曲線為通過手機信號估計出來的夜班(weekday late)工作時間。從圖中清晰可見,在 6 月到 10 月之間,夜班工作時間較 Q2 有了大幅增長,意味著產(chǎn)能的提高。Thasos 將這個數(shù)據(jù)分享給了它的一些對沖基金客戶。毫無疑問,這一數(shù)據(jù)發(fā)揮了巨大的作用。
這是將另類數(shù)據(jù)應用于二級市場投資的一個經(jīng)典案例。
近年來,另類數(shù)據(jù)逐漸走進了二級市場投資的視線。隨著使用常規(guī)數(shù)據(jù) —— 量價、財務等 —— 構(gòu)建交易信號、進行交易變得越來越擁擠,所獲得的超額收益越來越被稀釋,人們把目光投入到了另類數(shù)據(jù)上,希望通過獨門數(shù)據(jù)源獲取別人不知道的 α。另類數(shù)據(jù)也在借著這個風口獲得了巨大的發(fā)展。來自 AlternativeData.org 的數(shù)據(jù)顯示,在最近幾年,另類數(shù)據(jù) providers 的數(shù)量也出現(xiàn)了激增。
其實,另類數(shù)據(jù)并非什么新鮮概念。在幾十年前,當我們只有量價數(shù)據(jù)計算均值、布林帶的時候,財務報表數(shù)據(jù)就是另類數(shù)據(jù);當財務數(shù)據(jù)被廣泛使用后,分析師一致預期就是另類數(shù)據(jù);當分析師一致預期家喻戶曉之后,網(wǎng)絡(luò)輿情數(shù)據(jù)就成了另類數(shù)據(jù);當人們對網(wǎng)絡(luò)輿情不再陌生之后,非結(jié)構(gòu)化的文本數(shù)據(jù)就變成了另類數(shù)據(jù)……
當人們接觸到新的數(shù)據(jù)源的時候,一般的反應都是“兩眼發(fā)光”。誠然,在市場變得更加有效的今天,新的數(shù)據(jù)源無疑是尚未被過度使用的“凈土”、充滿潛在的機會。但是,另類數(shù)據(jù)真的像人們想象的那樣前景一片光明嗎?是否任意一個新的數(shù)據(jù)源都能拿過來加工出一個靠譜的 α 因子?另類數(shù)據(jù)能否成為二級市場的 silver bullet?面對這些問題,海外業(yè)界也不乏爭議之聲,有人支持也有人反對。
本文以“另類數(shù)據(jù)的前景和陷阱”為題,闡述對另類數(shù)據(jù)的五點思考(下文第 1 到 5 節(jié)),僅是希望拋磚引玉。由于知識和資歷有限,可能有些觀點不盡完善,也歡迎各位小伙伴指正。
1?技術(shù)和數(shù)據(jù)需匹配
關(guān)于另類數(shù)據(jù)的第一個思考是新的數(shù)據(jù)類型需要相應的分析技術(shù)。當我們僅有量、價數(shù)據(jù)的時候,傳統(tǒng)的技術(shù)分析,如均線、布林帶就能發(fā)揮很大的作用。然而,這些技術(shù)分析對結(jié)構(gòu)化的會計報表數(shù)據(jù)卻難有作為。為此,相應的分析手段也應運而生,比如多因子模型等。而如今,如果想要分析非結(jié)構(gòu)化文本數(shù)據(jù)以及更 general 的多媒體數(shù)據(jù),則更是需要相應的技術(shù),如自然語言處理和廣義人工智能。顯然,這對管理人和投資者都提出了越來越高的要求。
隨著另類數(shù)據(jù)量的爆發(fā),另一個需要面對的問題則是維數(shù)災難。以預測股票收益率為例,另類數(shù)據(jù)代表著不同的因變量。由于股票的樣本數(shù)據(jù)就那么多,隨著自變量的增加,則股票樣本數(shù)據(jù)在這些變量構(gòu)成的空間內(nèi)將會越來越稀疏。參數(shù)的激增使得預測模型存在更高的過擬合風險,且預測的 bias 和 variance 都會變大。此外,使用不同另類數(shù)據(jù)構(gòu)建因子也會出現(xiàn)之前公眾號強調(diào)多次的多重檢驗(multiple testing)的問題。當使用大量模型分析同樣的數(shù)據(jù)時,總會出現(xiàn)僅僅因為運氣就十分顯著的因子。這要求人們在統(tǒng)計手段上盡可能排除這種 lucky factor,而在金融學業(yè)務上去真正理解另類數(shù)據(jù)和未來預期收益率之間的邏輯。這也引出了第二點思考,使用另類數(shù)據(jù)需要很強的 domain knowledge。
2?Domain Knowledge
全新的數(shù)據(jù)是一把“雙刃劍”。一方面,因為還沒有人用過,因此它不存在“擁擠”的問題;而另一方面,如果使用者不具備該數(shù)據(jù)所要求的 domain knowledge,那很可能不知道從何下手。在我們的想象中,另類數(shù)據(jù)也許是這樣的:有令人興奮的故事、而且是已經(jīng)被 vendors 處理好的結(jié)構(gòu)化數(shù)據(jù),我們能直接拿來當成因子對資產(chǎn)排排序,就能一頓操作猛如虎。然而,在實際中,另類數(shù)據(jù)更像是在一個沒人去過的地方發(fā)現(xiàn)了一座山。然而,這座山里有沒有礦、從哪里開始挖、到底能挖出什么,更多的要看使用者自己的本事。
There are plenty of inputs. But how do investors go about filtering the signal from the noise?
在海外業(yè)界,實力充沛的大型資產(chǎn)管理公司由于具備足夠的人才儲備,通常自己進行數(shù)據(jù)分析。另一方面,另類數(shù)據(jù) vendors 也會通過推出一些聽上去十分有希望的 scenarios 從而推銷數(shù)據(jù)。除了買方、賣方外,市場上也涌現(xiàn)出了第三方研究機構(gòu),投資者會委托他們進行另類數(shù)據(jù)的研究。對于另類數(shù)據(jù)的使用者來說,使用 vendors 或者第三方提供的加工后的數(shù)據(jù)無疑是最方便的。但這種做法存在的問題是,這些 use cases 會被賣給很多不同的使用者。這會增加另類數(shù)據(jù)的擁擠度,降低其在未來獲取收益的能力。因此,對于使用者來說,掌握 domain knowledge —— 包括另類數(shù)據(jù)如何產(chǎn)生、背后的業(yè)務流程是什么、金融學含義有哪些等 —— 無疑是最重要的,這可以掌握研究的主動權(quán),并更有可能挖出獨門的 α。
What we're generally looking for is something a little bit more raw, a bit more unprocessed, where we can really understand what the data is.?We can dive into it, we can do our analysis, we can do cleaning, we can apply it and back-test it with the goal of figuring out whether the data will provide a useful signal.
在這方面,公眾號之前介紹的 Lee et al. (2019) 一文是一個很好的例子(見《科技關(guān)聯(lián)度》)。該文針對美股,使用專利數(shù)據(jù)創(chuàng)造性的構(gòu)建了科技關(guān)聯(lián)度指標,獲得了其他常見因子無法解釋的超額收益。這個 idea 本身是需要對專利數(shù)據(jù)背后代表的業(yè)務邏輯,以及公司之間的關(guān)聯(lián)有深刻的認識的。如果沒有這種 domain knowledge,只是把專利數(shù)據(jù)拿來簡單的統(tǒng)計哪個公司專利多、哪個公司專利少,恐怕并不能獲得可觀的 α。
3?數(shù)據(jù)是否無偏
關(guān)于另類數(shù)據(jù)的第三個思考是,數(shù)據(jù)的生成(采集)過程是否 unbiased,能否很好的代表總體。為了說明這一點,不妨來看一個例子。Green et al. (2019) 使用 Glassdoor 數(shù)據(jù)研究了員工評價與股票收益率之間的關(guān)系([因子動物園] 的文章《烏合之眾 or 群眾的智慧:員工評價與股票收益》對該文進行了詳細介紹)。Glassdoor 提供了員工對公司的綜合評價和五個標準化評價指標,包括職業(yè)機會,薪酬福利,工作/生活平衡度,高層管理,企業(yè)文化與價值,所有評價皆為 1 至 5 星。
為了研究員工評價和股票收益率的關(guān)系,Green et al. (2019) 依據(jù)員工評價變化高低將股票分為三組(top 20%,middle 60%,bottom 20%),并用 high – low 構(gòu)建了因子。理論上,員工評價變高,意味著經(jīng)濟環(huán)境及公司前景很可能在變好,在其他條件相同的情況下,公司應有更好的表現(xiàn),因此預期收益率更高。實證結(jié)果支持了他們的猜想。
結(jié)果顯示,無論是等權(quán)還是市值加權(quán),該因子確實能夠獲得顯著的超額收益。此外,高、低評價變化組合的主要公司特征(如 beta、規(guī)模和 BM)基本一致,動量也非常接近,而員工評價變化平均相差超過 1 星,意味著其他常見因子無法解釋公司評價它。這一點也進一步被 Fama and MacBeth (1973) regression 結(jié)果所驗證:無論是單變量回歸,還是控制了不同的公司特征后,員工評價變化都有顯著的風險溢價。毫無疑問,Green et al. (2019) 是一篇有趣的發(fā)現(xiàn)。不過我們?nèi)匀徊唤獙?Glassdoor 的數(shù)據(jù)進行靈魂發(fā)問:員工評價數(shù)據(jù)是否無偏呢?是否是可信的?Glassdoor 的數(shù)據(jù)存在以下一些潛在問題:
1. 沒有員工認證系統(tǒng):這意味著任何人,可以在任何時間,對任何公司進行評價,而沒有機制來保證這個人確實是或曾是該公司的員工。
2. 人們更容易在對雇主不滿時更容易發(fā)表(負面)評價。
3. 人們往往過度夸大感受:Glassdoor 上有很多 1 星和 5 星評價。
4. 評分體系本身并無科學依據(jù)。Glassdoor 并沒有給出明確的說明每個星級到底代表什么。評分者可以任意的根據(jù)主觀感受來選擇 1 星到 5 星。工資不錯?5 星!餐廳免費?5 星!免費健身房?5 星!…… 5 星可以代表任何事,但顯然不是所有的 5 星和股票收益率的關(guān)系都是一致的。但我們不知道每個 5 星背后到底意味著什么。
5. 有些雇主有獎勵機制、鼓勵員工提交 5 星評價。曾經(jīng)有一個公司的評分大概 1.5 分左右,后來管理層發(fā)話說,如果員工僅發(fā)布經(jīng)管理層審批后通過的留言,那么員工將得到 250 美元的獎勵。這個公司后來的評分上升至 4.2。
這些問題說明,Glassdoor 的數(shù)據(jù)的無偏性令人擔憂。除此之外,我對其的另一個猜想是涉及到的公司的行業(yè)分布是否也會不均勻?比如,互聯(lián)網(wǎng)或者科技公司的員工更容易也更愿意參與網(wǎng)上評價?而傳統(tǒng)制造業(yè)企業(yè)的員工則沒那么熱衷?如果行業(yè)分布不均,那么 Green et al. (2019) 的研究結(jié)果將會由于沒有控制行業(yè)影響而大打折扣。
4?歷史數(shù)據(jù)太短
對于大多數(shù)另類數(shù)據(jù)來說,一個不得不面對的問題是數(shù)據(jù)長度往往很短。據(jù)我(有限)的調(diào)研發(fā)現(xiàn),通常來說另類數(shù)據(jù)集的歷史數(shù)據(jù)長度是 5 年以內(nèi)(2 到 3 年很常見);5 年以上就是很長的了。歷史數(shù)據(jù)太短會加劇多重檢驗的危害,增加過擬合問題。下圖結(jié)果來自 Bailey and Lopez de Prado (2012) 的研究。假設(shè)數(shù)據(jù)無法預測收益率,該研究發(fā)現(xiàn),如果數(shù)據(jù)的長度僅有 2 年,則僅需要通過 7 個檢驗就能找到夏普率為 1 的策略;而如果數(shù)據(jù)的長度提高到 5 年,達到同樣的效果則需要 45 個檢驗 —— 其實也非常很容易。這個例子說明,數(shù)據(jù)量越少,越容易出現(xiàn)過擬合。在這個時候,如果沒有對另類數(shù)據(jù)背后邏輯的認知,則難以辨別出找到的信號是否真的有效。
5?是否有增量貢獻
對于另類數(shù)據(jù)的最后一個思考是檢驗其對預測收益率是否有增量貢獻。我曾經(jīng)給期刊審稿了一篇文章,它講的是使用網(wǎng)絡(luò)論壇上的股票情緒構(gòu)建策略獲得超額收益。該文以論壇大 V 對股票的評價為輸入,提出了一個專家系統(tǒng)進行選股。仔細讀下來,該文可謂是“千瘡百孔”,然而它最大的問題是沒有進行業(yè)績歸因。該文構(gòu)建的策略確實跑贏了 benchmark,但是它沒有用常見的多因子模型來進行分析、檢驗其是否在控制了其他因子后仍然能夠獲得超額收益,無法判斷該數(shù)據(jù)對預測收益率是否有增量貢獻。
同樣作為研究網(wǎng)絡(luò)輿情數(shù)據(jù)的研究,Liew and Budavari (2017) 這篇文章使用 tweet sentiments 數(shù)據(jù),在 Fama and French (2015) 五因子基礎(chǔ)上加入了第六個因子,指出該因子能在五因子之外解釋個股收益率的時序波動。不過有意思的是,該文并沒有研究該因子在解釋個股預期收益率截面差異上的作用,所以 read/use with care……
不管怎樣,它比我審稿的那篇還是靠譜多了。(不過插句題外話,JPM 這幾年的水平似乎有所下降。)
Alternative data aren't necessarily better when it comes to providing performance-enhancing insight, they are different.
上面這句話很好的總結(jié)了業(yè)界對于另類數(shù)據(jù)的合理期望。另類數(shù)據(jù),顧名思義,它首先需要另類。如果繞了一大圈后發(fā)現(xiàn),它背后的收益率驅(qū)動和其他收益源相同,那么它就沒有什么額外的價值。在投資中,多樣化被認為是唯一的“free lunch”。同樣的道理對數(shù)據(jù)也成立。只有當另類數(shù)據(jù)和現(xiàn)有數(shù)據(jù)盡可能不相關(guān),它才有可能捕捉到其他收益源之外的收益,提高投資組合的風險收益特征。
6?結(jié)語
以上就是對另類數(shù)據(jù)的五點思考。在本文最后,簡單總結(jié)下另類數(shù)據(jù)的四大主流應用場景(其實前文的舉例中有些已經(jīng)涉及到了),包括網(wǎng)絡(luò)抓取、情緒、衛(wèi)星數(shù)據(jù)以及消費數(shù)據(jù)。
金融行業(yè)的數(shù)據(jù)研究機構(gòu) Greenwich Associates 的研究表明,網(wǎng)絡(luò)抓取是目前使用最廣泛的另類數(shù)據(jù)。它從目標網(wǎng)站收集數(shù)據(jù),以獲取有關(guān)品牌、公司和企業(yè)活動的信息。在這其中,最熱門的數(shù)據(jù)包括 job listing 和 company review,它們能夠為公司的增長前景提供一定的線索(但小心 Glassdoor 的問題)。此外,有關(guān)產(chǎn)品排名和促銷活動的數(shù)據(jù)也極具價值,人們可以從中找尋公司表現(xiàn)的蛛絲馬跡。情緒數(shù)據(jù)則代表了另一大類的常見的另類數(shù)據(jù)。像社交媒體、新聞流、公司公告這些自不必說了,有很多相關(guān)的研究。除此之外,海外也開始對上市公司 earnings call 的 transcript 進行文本分析、捕捉高管的用詞和語言,以此推斷公司的前景。不過,在這方面,英文相較于中文有較大的優(yōu)勢,可操作性高不少。衛(wèi)星圖像聽上去很玄幻,但你幾乎能在所有 leading 另類數(shù)據(jù)提供商的樣例中找到它的身影。比如,衛(wèi)星圖像數(shù)據(jù)會被用來跟蹤船只,監(jiān)測農(nóng)作物,并探測港口和油田的活動,推斷大宗商品的庫存等。信用卡和借記卡的交易數(shù)據(jù)中也存在巨大的價值。在海外,一些另類數(shù)據(jù)商網(wǎng)羅了很多消費者,他們同意分享其消費數(shù)據(jù)。這類數(shù)據(jù)可以被用來追蹤零售行業(yè)的收入,通過更細的粒度以及更高的頻率來預測相關(guān)公司的基本面。不過,這類數(shù)據(jù)的可得性比較低。AlternativeData.org 的調(diào)研指出,這類數(shù)據(jù)往往非常昂貴。
讀到這里有小伙伴也許會問“你這題目文章叫前景和陷阱,這前面 blabla 說了五點都是陷阱啊,前景在哪里?”其實,把坑都填上、科學的使用再加之正確的預期,那么這些“陷阱”就將變成“前景”。據(jù)來自 AlternativeData.org 的統(tǒng)計數(shù)據(jù)顯示,海外買方在購買另類數(shù)據(jù)上的支出在最近幾年逐年增長。
我們有理由對另類數(shù)據(jù)的未來充滿希望。
參考文獻
Bailey, D. H. and M. Lopez de Prado (2012). The Sharpe ratio efficient frontier.?Journal of Risk?15(2), 3 – 44.
Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: empirical tests.?Journal of Political Economy?81(3), 607 – 636.
Fama, E. F. and K. R. French (2015). A five-factor asset pricing model.?Journal of Financial Economics?116(1), 1 – 22.
Green, T. C., R. Huang, Q. Wen, and D. Zhou (2019). Crowdsourced employer reviews and stock returns. Journal of Financial Economics?134(1), 236 – 251.
Lee, C. M. C., S. Teng, R. Wang, and R. Zhang (2019). Technological links and predictable returns. Journal of Financial Economics?132(3), 76 – 96.
Liew, J. and T. Budavari (2017). The "six" factor – A social media factor derived directly from tweet sentiments. The Journal of Portfolio Management?43(3), 102 – 111.
免責聲明:入市有風險,投資需謹慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外,文中圖表均直接或間接來自于相應論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。