亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

A 股市場中的科技動量

發(fā)布時間:2024-07-27  |   來源: 川總寫量化

作者:石川

摘要:本文針對 A 股,使用?BGE?大語言模型構(gòu)造并檢驗科技動量效應(yīng)。實證結(jié)果表明,基于 BGE 和基于 IPC 分類構(gòu)造的科技動量是互補而非替代關(guān)系。二者均含有關(guān)于 cross-section 的預(yù)測信息。


0 引言


如今,各位對另類數(shù)據(jù)早已不再陌生。在另類數(shù)據(jù)的應(yīng)用中,各種“花式動量”(即從不同信息源所構(gòu)造的企業(yè)間關(guān)聯(lián)導(dǎo)致的動量溢出效應(yīng))最深入人心。


早在幾年前,Lee et al. (2019)?使用專利數(shù)據(jù)針對美股構(gòu)造了科技動量異象,它可以獲得常見風(fēng)險因子無法解釋的超額收益。在構(gòu)造科技動量時,該文使用專利的 IPC 分類(本文附錄 A 對 IPC 分類進行了簡介),得到每個公司的專利分類分布,然后計算公司分布之間的兩兩余弦相似度(相似度越高說明二者的關(guān)聯(lián)越強)。之后,Bekkerman et al. (2023)?升級了度量相似度的方法。與前文不同,該文沒有使用 IPC 分類,而是直接對專利進行文本分析,通過提取專業(yè)術(shù)語并計算其重合度來描述公司之間的相似程度。


一旦有了相似度,便可以按照如下的方法構(gòu)造科技動量變量:


??


式中??表示??期和焦點公司i相關(guān)聯(lián)的關(guān)聯(lián)公司集合,??為??期關(guān)聯(lián)公司??和焦點公司??的專利相似度(關(guān)聯(lián)度)指標,??為??期關(guān)聯(lián)公司??的收益率。由該定義可知,焦點公司的科技動量是??期其關(guān)聯(lián)公司收益率的加權(quán)平均(即關(guān)聯(lián)收益率),權(quán)重由關(guān)聯(lián)度強弱決定。利用??,做多科技動量高的股票,同時做空科技動量低的股票。實證結(jié)果表明,科技動量包含了關(guān)于預(yù)期收益率截面差異的增量信息。


近年來,專利數(shù)據(jù)在 A 股市場中的實證研究也不在少數(shù)。鑒于這個趨勢,我和秩鼎(QuantData)的劉相峰和趙爽兩位老師合作,利用秩鼎高質(zhì)量和長跨度的專利數(shù)據(jù)進行了科技動量的實證分析(專利數(shù)據(jù)質(zhì)量對于實證研究至關(guān)重要,附錄 B 對此進行了介紹)。從上面的介紹可知,構(gòu)造科技動量的核心是通過專利數(shù)據(jù)刻畫公司之間的相似度;而公司相似度的計算依賴于公司在不同專利主題上的分布。所以,實證的重點就是專利主題的劃分。


與 Lee et al. (2019) 和 Bekkerman et al. (2023) 不同,我們最初的構(gòu)想是借鑒?Bybee et al. (forthcoming)?在新聞數(shù)據(jù)上使用?LDA?的方法來將專利數(shù)據(jù)劃分為不同的主題,并基于 LDA 主題取代 IPC 分類計算公司的相似度。不過,專利的文本信息有一些自身的特性使得 LDA 的效果并不理想。之后,我們轉(zhuǎn)而使用了 BGE 大語言模型構(gòu)建語義向量并劃分主題,取得了不錯的結(jié)果。作為對比,我們也仿照 Lee et al. (2019) 使用了 IPC 分類。實證結(jié)果表明,無論在全 A 股還是寬基指數(shù)成分股,使用 BGE 模型和 IPC 分類并不沖突,二者獨立來看都可以獲得顯著的超額收益,且在控制了彼此之后仍有顯著的預(yù)測性。


下面就來介紹實證分析中的踩過的坑和重要的發(fā)現(xiàn)。讓我們先從 LDA 說起。


1 LDA


首先對每個專利的摘要數(shù)據(jù)分詞,之后去除 stop words。接著構(gòu)建詞典,并將分詞后的文本轉(zhuǎn)換為文檔-詞矩陣,使用 LDA 建模。這其中的坑是專利文本有很多特定的專有名詞,但它們對于專利的分類并無實質(zhì)的幫助,例如“裝置”、“設(shè)備”、“系統(tǒng)”等。下圖展示了保留這些特定詞匯時,LDA 的分類結(jié)果中不同主題的關(guān)鍵詞,其中“裝置”一詞出現(xiàn)在了圖中幾乎所有主題當中。


f1.png


因此,我們需要對這些并沒有多少信息含量的特定詞匯進行剔除。為了識別它們,最直觀的方法是考察詞頻,此外也可以使用信息熵的方法篩選。這二者的相關(guān)性很高(下圖)。以信息熵為例,挑選出的詞匯包括:設(shè)置、技術(shù)、結(jié)構(gòu)、系統(tǒng)、利用、領(lǐng)域、表面、設(shè)備、產(chǎn)生、特征、步驟、過程、部分、材料、生產(chǎn)、工藝、數(shù)據(jù)等。


f2.png


排除特定詞匯后,再次利用 LDA 建模,得到不同主題的關(guān)鍵詞更加合理。例如:


f3.png


在使用信息熵去除了 500 個特定詞匯之后,利用 Jensen–Shannon divergence(JS 散度)確定最優(yōu)的主題個數(shù)。JS 散度是一個對稱的 measure,常用于比較兩個概率分布的相似性。在 LDA 模型中,我們計算不同主題中詞分布的 JS 散度,并使用平均散度衡量不同主題的整體差異程度,其取值越高,說明主題之間的差異越大。下圖結(jié)果表明,當主題個數(shù)在 350 個左右時,平均區(qū)分度最優(yōu)。


f4.png


值得一提的是,上述結(jié)果是剔除了 500 個特有詞匯之后的結(jié)果。為了考察結(jié)果的穩(wěn)健性,進一步查看剔除不同個數(shù)的特有詞匯和最優(yōu)主題個數(shù)的關(guān)系(下圖)。結(jié)果表明,隨著剔除的詞的增多,最優(yōu)主題個數(shù)從 500 下降至 300 左右。這個結(jié)果在一定程度上是合理的,因為剔除的特定詞匯越多,剩下的詞越有代表性,因此不需要得到更多的主題,就能發(fā)揮區(qū)分作用。作為對比,如果使用 IPC subclass 分類,那么在 A 股上的主題個數(shù)為 584 個,在量級上和 300 到 500 相當(官方當前版本 IPC subclass 類別數(shù)量為 651)。


f5.png


似乎到目前為止,LDA 這條技術(shù)路線還是 OK 的。但上述處理完全是基于文本分析的統(tǒng)計處理,沒有引入任何先驗信息。為了驗證 LDA 是否靠譜,下面引入先驗信息 —— 使用 IPC 的 subclass 作為主題的 benchmark —— 來考察 LDA 的分類結(jié)果。


具體而言,我們的分析目標如下:基于 LDA 和 IPC 主題都可以給每個專利分類;基于分類計算專利之間的相似度。之后,對于每個專利,找出兩個方法得到的和其相似度最高的??個專利,然后計算這兩個集合之間的 Jaccard 相似度。結(jié)果顯示,對于絕大多數(shù)專利而言,Jaccard 相似度都是零,表明基于 LDA 和 IPC 主題而計算的專利相似度差異巨大。所以,盡管 IPC 主題并非“標準答案”,但無論如何 LDA 的結(jié)果并沒有得到先驗信息的支持。有鑒于此,我們轉(zhuǎn)向大語言模型技術(shù)路線。


2 BGE


本節(jié)介紹如何使用大語言模型對專利摘要文本構(gòu)建語義向量,進而進行專利分類。實證中選擇了智源研究院發(fā)布的 BGE(BAAI General Embedding)通用語義向量模型 bge-large-zh-v1.5。選擇該模型的原因如下:該模型為語義向量模型,區(qū)別于詞向量模型,不僅考慮詞匯信息,而且考慮詞匯在文本中的位置,對文本理解更為精準和合理。此外,該模型在中英文語義檢索精度與整體語義表征能力均超越了社區(qū)所有同類模型,如?OpenAI?的 text embedding 002 等。最后,BGE 保持了同等參數(shù)量級模型中的最小向量維度,使用成本更低。


利用該模型,我們對專利摘要文本進行處理,構(gòu)建 1024 維語義向量。由于當前模型只能處理小于等于 520 個字的文本內(nèi)容,因此超過的部分會被截掉。由于專利摘要內(nèi)容通常在 500 字以內(nèi),因此該處理不會造成實質(zhì)性損失。在得到語義向量之后,對它們進行 K-means 聚類分析,得到最后的專利主題。其中,最優(yōu)的主題數(shù)??用肘部法則計算得出。實證結(jié)果顯示,??維時有明顯肘部效應(yīng)(如下圖)。這個結(jié)果和 LDA 的最優(yōu)主題個數(shù)相一致。


f6.png


作為 double check,我們依然使用 IPC 作為先驗信息,比較了 BGE 和 IPC 兩種方法。結(jié)果表明,BGE 的分類結(jié)果和 IPC 的匹配程度遠遠高于 LDA,從側(cè)面印證了 BGE 比 LDA 更適用于我們的研究目標。


另外需要說明的是,考慮到整體專利數(shù)量超過 600 萬條,數(shù)據(jù)量極大;且專利本身處于持續(xù)新增狀態(tài),因此整體來看不適合整體進行聚類。因此實證中隨機抽取了 10 萬條為樣本,并基于該樣本進行聚類,然后將其他專利和后續(xù)新增專利對應(yīng)到分好的類別中。完成聚類后,共得到 500 個專利主題,然后將每個專利劃分到其中一個主題。


最后,由于我們的目標是構(gòu)造科技動量,因此把專利的分類結(jié)果向上聚合到公司層面。為此,考察公司過去一年新增專利,構(gòu)造 500 維的主題向量。之后,便可以通過比較兩兩公司之間的專利主題向量的相似性來構(gòu)造科技動量指標。計算科技動量時,關(guān)聯(lián)公司的歷史收益率使用的是過去 1 個月的收益率,與 Lee et al. (2019) 一致。


3 實證結(jié)果


為檢驗科技動量是否有效,每月末依照科技動量取值將股票排序,進行 portfolio sort test。實證區(qū)間為 2015 年 3 月到 2024 年 3 月,每月末再平衡。多空投資組合均使用等權(quán)加權(quán)。下圖繪制了全 A 股(在針對全 A 構(gòu)造多空組合的時候,剔除了市值最低的 20% 股票,以排除殼價值的影響)、中證 500 成分股以及滬深 300 成分股中,科技動量多空組合的累計收益曲線。


f7.png


需要說明的是,對于寬基指數(shù)成分股而言,實證結(jié)果中是依然在全 A 范圍內(nèi)計算焦點公司的關(guān)聯(lián)公司,并計算科技動量。作為穩(wěn)健性檢驗,我們也將上述計算僅僅限制在寬基指數(shù)成分股之內(nèi)(但圖中并未匯報)。以中證 500 成分股為例,在這種情況下,我們僅僅在 500 的成分股的范圍內(nèi)計算焦點公司的關(guān)聯(lián)公司。結(jié)果表明當采用這種方法時,結(jié)果也是穩(wěn)健的。為了和 BGE 對比,實證中還考察了基于 IPC 分類的科技動量。圖中結(jié)果所示,無論是 BGE 還是 IPC,無論是全 A 還是寬基指數(shù)成分股,科技動量的累計超額收益率都呈現(xiàn)上行趨勢。


下面進一步通過 time-series regression 檢驗不同多空組合的月均超額收益率(下表)。結(jié)果顯示,除了針對滬深 300 使用 IPC 分類之外,其他五個組合的月均超額收益率均在 10% 或 5% 的顯著性水平下顯著,且基于 BGE 的結(jié)果普遍優(yōu)于基于 IPC 的結(jié)果。以中證 500 為例,使用 BGE 構(gòu)造主題時,科技動量的月均超額收益率為 0.88%,t-statistic 為 2.22。


f8.png


鑒于上述 portfolio sort 所構(gòu)造的組合容易受到對其他風(fēng)格因子暴露的影響,下面進一步使用?Fama-MacBeth regression?考察在控制了常見的 Barra 風(fēng)格因子之后,使用 BGE 和 IPC 構(gòu)造的科技動量是否還能夠為解釋 cross-section 提供增量信息,特別是當同時考察了二者之后的結(jié)果又會如何。下表總結(jié)了 Fama-MacBeth regression 的?t-statistics。


f9.png


無論是 Panel A 還是 Panel B,基于 IPC 和 BGE 構(gòu)造的科技動量因子的?t-statistics 均表明二者包含了關(guān)于 cross-section 的信息。其中最重要的結(jié)果是,當同時考慮了兩者之后,這兩種方法構(gòu)造的因子依然能夠為預(yù)測股票預(yù)期收益率提供增量信息。進一步,考慮到這兩個因子的相關(guān)系數(shù)在 0.57 左右,因此上述結(jié)果意味著它們并非替代而是互補的關(guān)系。


基于行為金融學(xué)的研究表明,“花式動量”的機制和投資者有限注意力以及信息擴散的速度有關(guān)。可以想見,基于 IPC 的科技動量計算方法簡單直觀,因此其所包含的收益率預(yù)測信息可能更容易被 priced in(正如 Bekkerman et al. 2023 在美股上針對 Lee et al. 2019 的 comment 一樣),而基于 BGE 的構(gòu)造方法由于數(shù)據(jù)處理和技術(shù)分析的難度更大,因此其信息擴散速度會更加緩慢,因此其所包含的預(yù)測信息或許不會很快消失。


本文拋磚引玉,使用 BGE 模型對專利數(shù)據(jù)進行分類,并檢驗了 A 股的科技動量效應(yīng)。相信隨著對另類數(shù)據(jù)的使用越來越深入,專利數(shù)據(jù)無論是自廣度還是深度上,都能夠發(fā)揮更大的作用。例如,以科技動量為例,我們可以在相似度的基礎(chǔ)上結(jié)合專利質(zhì)量得分的信息,通過相似度和質(zhì)量二者的協(xié)同來構(gòu)造風(fēng)險調(diào)整后收益更優(yōu)的投資策略。


附錄 A IPC


國際專利分類(IPC)由《斯特拉斯堡協(xié)定》建立,提供了一種由獨立于語言的符號構(gòu)成的分級系統(tǒng),用于根據(jù)專利和實用新型所涉不同技術(shù)領(lǐng)域,對專利和實用新型進行分類。IPC 將技術(shù)分為 8 個部類,約七萬個復(fù)分類。每個復(fù)分類都有一個由阿拉伯數(shù)字和拉丁字母組成的分類號。


IPC 八個部類:


f10.png


IPC 號結(jié)構(gòu)說明:


f11.png


作為科技動量的 benchmark,使用 IPC 的構(gòu)建方法為:基于每條專利 IPC 號前四位(層級:Subclass),作為專利所屬分類,然后以公司過去一年新增專利為基礎(chǔ),構(gòu)建公司層面的 IPC 向量并計算科技動量。


附錄 B 專利數(shù)據(jù)處理


秩鼎(https://www.quantdata.com.cn/)提供超過 600 萬條發(fā)明專利數(shù)據(jù),涵蓋了 A 股 / 港股 / 中概股 / 發(fā)債企業(yè) / 其他非上市公司。歷史數(shù)據(jù)可回溯到 1990 年,更新頻率為周頻。


就專利數(shù)據(jù)而言,最大的處理難點是股權(quán)穿透處理。由于上市公司的專利多數(shù)由子公司持有(約 60%),例如百度這樣的公司,專利幾乎均為子公司持有,因此在上市公司層面,將子公司專利準確對應(yīng)到母公司(上市公司)上十分重要。秩鼎通過完善的實體公司庫和自動化引擎,將國內(nèi)外上市公司及其子公司的專利歸屬到母公司。數(shù)據(jù)處理覆蓋了超過 50 萬家企業(yè),采用多源數(shù)據(jù)包括上市公司年報和工商信息,構(gòu)建了詳細的股權(quán)關(guān)系,包括 1-5 級的股權(quán)關(guān)聯(lián)度,以確保專利數(shù)據(jù)的準確性和歷史數(shù)據(jù)的穩(wěn)定性。


經(jīng)過以上處理后,專利數(shù)據(jù)有較好的覆蓋率。以下基于每年年末報告期,按 A 股公司及其股權(quán)關(guān)聯(lián)度為 1-3 級子公司的專利持有情況進行覆蓋率統(tǒng)計;其中行業(yè)覆蓋率按 2023 年最后一個報告期的情況統(tǒng)計。可見,個股層面覆蓋程度逐年提升,行業(yè)層面覆蓋程度整體保持高位,這些均為實證分析結(jié)果的可靠性提供了保障。


f12.png


f13.png


參考文獻

Bekkerman, R., E. M. Fich, and N. V. Khimich (2023). The effect of innovation similarity on asset prices: Evidence from patents'?big data.?Review of Asset Pricing Studies?13(1), 99-145.

Bybee, L., B. T. Kelly, A. Manela, and D. Xiu (forthcoming). Business news and business cycles.?Journal of Finance.

Lee, C. M. C., S. T. Sun, R. Wang, and R. Zhang (2019). Technological links and predictable returns.?Journal of Financial Economics?132(3), 76-96.



免責(zé)聲明:入市有風(fēng)險,投資需謹慎。在任何情況下,本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下,本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責(zé)任。除特別說明外,文中圖表均直接或間接來自于相應(yīng)論文,僅為介紹之用,版權(quán)歸原作者和期刊所有。