機器學習能否助力風險投資？

發(fā)布時間：2018-04-27 | 來源: 川總寫量化

作者：石川

摘要：本文介紹一個純量化的風險投資框架。它挑出的創(chuàng)業(yè)公司最終成功上市或被收購的比例高達 60%。

1 引言

近幾年，以機器學習、特別是深度學習為代表的人工智能（AI）得到了長足的發(fā)展，機器學習和人工智能也成為出現在街頭巷尾的高頻詞匯。在《AI 投資言過其實》這篇文章中，我們理性的分析了機器學習在二級市場中面對的困難。今天我們把目光放在風險投資（venture capital），看看機器學習能否在一級市場有所作為。

寫本文的動機源自我最近讀到的一篇來自 MIT 的論文 Hunter and Zaman (2017)。該文提出了一個挑選優(yōu)秀早期創(chuàng)業(yè)公司的量化分析框架，利用機器學習算法進行參數估計以及最優(yōu)投資組合的構建，從而挑出那些最有可能成功的初創(chuàng)公司（成功的標準是風險投資人因該公司上市或者被收購而退出）。因為文章很新（2017 年的），而且將機器學習應用于了一個比較新的場景，讀來讓人耳目一新，因此希望把它介紹給關注公眾號的小伙伴，開闊大家的視野。最重要的是，它在樣本外挑出的創(chuàng)業(yè)公司的退出成功率高達驚人的 60%。

這篇論文本身非常 technical，因為一些建模的細節(jié)問題，我還和作者進行了郵件溝通，確保正確的領會了文章傳達的內容。本文將避免涉及太多大數學公式（會有少量必要的），但會不吝篇幅、力爭把該分析框架的重點 —— 包括如何構建特征、如何對參數建模求解、以及選取什么樣的目標函數 —— 解釋清楚。文章最后是關于這個話題的思考。在介紹這個框架之前，首先來看看相較于二級市場，風險投資為什么適合機器學習。

2 風險投資適合機器學習

2016 年，AlphaGo 以無可爭議的優(yōu)勢戰(zhàn)勝了李世石；2017 年它的升級版更是風卷殘云一般戰(zhàn)勝了以柯潔為代表的中方各路圍棋高手。AI 在圍棋領域的大獲全勝給了我們很大的啟發(fā)，一個適合使用機器學習來解決的問題應該包括以下三個性質：

1. 信息邊界明確，狀態(tài)有限；

2. 所有信息完全公開透明；

3. 有明確的勝負判斷標準。

我們來看看風險投資是否滿足這三個條件。根據百度百科，風險投資的定義如下：

風險投資主要是指向初創(chuàng)企業(yè)提供資金支持并取得該公司股份的一種融資方式。風險投資公司為一專業(yè)的投資公司，由一群具有科技及財務相關知識與經驗的人所組合而成的，經由直接投資被投資公司股權的方式，提供資金給需要資金者（被投資公司）。風投公司的資金大多用于投資新創(chuàng)事業(yè)或是未上市企業(yè)，并不以經營被投資公司為目的，僅是提供資金及專業(yè)上的知識與經驗，以協助被投資公司獲取更大的利潤為目的，所以是一追求長期利潤的高風險高報酬事業(yè)。

在一個創(chuàng)業(yè)公司融資的過程中，通常分為種子輪（seed）、A 輪、B 輪、……、F 輪（一般 IPO 前不超過 F 輪）、最后是 IPO。以 IPO 上市退出無疑會帶給投資人最大的收益；在上市無望的情況下，被收購也是一種比較好的退出方式。根據上面的定義，風投的手段是投資有希望的早期創(chuàng)業(yè)公司，目的是在退出時為投資人牟取超高額收益。

從機器學習問題的角度來說，我們需要挖掘初創(chuàng)公司具備的特征與該公司最終能否為投資人帶來了豐厚的報酬之間的關系：Y = f(X)，即回答“什么樣的公司能在未來成為獨角獸”這個問題（X 代表特征向量，Y 代表是否帶來了豐厚回報這件事兒）。訓練這個模型是一個典型的有監(jiān)督學習問題。更重要的是，風險投資比較好的滿足上面提到的三個條件：

1. 一個初創(chuàng)公司是否能夠成功大概率受以下幾方面的影響：所處的行業(yè)是否是風口行業(yè)、產品是否有核心競爭力、創(chuàng)始團隊是否出色、是否有知名早期投資者扶持。與二級市場投資相比，風險投資問題的邊界相對明確且狀態(tài)有限。

2. 關于初創(chuàng)公司的團隊和融資路徑數據，雖然還遠非盡善盡美，但是也有足夠多的數據（包括公開的和可花錢購買的）來建模。在美國，初創(chuàng)公司這方面數據的可得性（availability）可能更高一些，但是在國內也有像鯨準、IT 桔子、鉛筆道這樣的關于創(chuàng)業(yè)團隊相關數據的提供方。

3. 對于風投來說，成功的標準比較明確，就是成功退出（包括 IPO 退出或者被收購退出）。更加發(fā)散一步，在建模和參數估計時，也可以使用創(chuàng)業(yè)公司完成了哪一輪的融資作為判別的依據。

需要明確說明一下 Hunter and Zaman (2017) 研究的樣本對象。該文的樣本點僅考慮了 2000 年之后在美國創(chuàng)辦的、且從數據庫中可以獲得其可靠種子輪或 A 輪融資數據的公司；作者關注的是早期融資成功的那些公司中，哪些更有可能最終脫穎而出。滿足上述條件的公司超過 24,000 個。以它們?yōu)闃颖?，該文作者使用機器學習算法找到了最有可能在未來成功的創(chuàng)業(yè)公司應具備的特質。由于樣本中的公司都已完成了種子輪或 A 輪融資，因此早期投資人的背景和能力也成為對公司建模的一個特征維度。下面就來說說 Hunter and Zaman (2017) 考慮的特征。

3 特征選擇

上一節(jié)提到，創(chuàng)業(yè)公司的特征可以從以下四個方面考慮：

1. 行業(yè)

2. 產品

3. 領導團隊（包括高管和顧問）

4. 早期投資者（首輪融資）的資源和經驗

Hunter and Zaman (2017) 在構建特征時并沒有獨立考慮產品這個維度（也沒有過多的加以說明）。我的猜想可能是行業(yè)已經是產品的一個有效代理指標，話句話說，產品和行業(yè)維度比較相關。另外的原因就是在產品初期，能客觀定量評價它的指標可能非常有限；產品本身太過細分，難以橫向比較。事實上，馬上我們將看到，Hunter and Zaman (2017) 考慮的行業(yè)已經非常細致，這也暗示了無需再進一步考慮產品這個維度了。接下來，分別從行業(yè)、領導團隊以及早期投資者三個維度介紹特征。這些數據來自 Crunchbase 數據庫以及 Linkedin（領英）。

3.1 行業(yè)

Hunter and Zaman (2017) 考慮了如下這些行業(yè)。當一個創(chuàng)業(yè)公司所屬于某個行業(yè)時，它對應的行業(yè)特征取 1，否則為 0。這些行業(yè)包括：3D 打印、廣告、分析、動畫、Apps 應用程序開發(fā)、人工智能、汽車、無人駕駛汽車、大數據、生物信息、生物技術、比特幣、商業(yè)智能、云計算、計算機、計算機視覺、約會交友、開發(fā)者 API、電子商務、線上學習、教育、線上虛擬體育、時尚、金融、金融服務、金融科技，健身、GPU、硬件、保健、健康診斷、醫(yī)院、保險業(yè)、互聯網、物聯網、iOS 開發(fā)、生活方式、物流、機器學習、醫(yī)療、醫(yī)療設備、信息派送、移動通訊、納米技術、網絡安全、開放源碼、個人健康、寵物、照片共享、可再生能源、共享出行、機器人、搜索引擎、社交媒體、社交網絡、軟件、太陽能、體育、交通、視頻游戲、虛擬現實和虛擬化。

3.2 領導團隊

領導團隊籠統的包括高管（含創(chuàng)始人）以及顧問。主要考慮的角度包括，團隊成員在過去是否有成功的創(chuàng)業(yè)經驗、團隊成員之間工作和教育背景的相似性和互補性、團隊和公司所處行業(yè)的符合度、以及團隊的平均年齡。下面分別說明。首先，團隊成員過去的創(chuàng)業(yè)經驗包括如下六個指標。

其次，利用 Linkedin 的數據，Hunter and Zaman (2017) 抓取了所有領導團隊成員在成立/加入本公司之前的工作經歷，并從中計算出了如下代表他們工作經驗和背景的特征。

在計算工作重合度時，Hunter and Zaman (2017) 采用了 Jaccard Index（一種評價兩個集合中元素相似度的常見方法）。具體方法為，領導團隊成員兩兩配對，找出他們之前工作單位的交集和并集，用交集中成員的數量除以并集中成員的數量求出 Jaccard Index。這個指標的取值在 0 到 1 之間，是工作重合度的度量，越高說明重合度越高。對于每個配對，都能得到一個 Jaccard Index，然后計算這些 Jaccard Index 的均值和標準差，作為工作重合度的均值和標準差。

在領導團隊的教育背景方面，Hunter and Zaman (2017) 考慮了最高學歷、是否畢業(yè)于名校、以及教育背景重合度等特征。這些特征包括：

在名校的表單中，Hunter and Zaman (2017) 僅考慮了美國的學校（這是個不足？），它們包括：伯克利、布朗大學、加州理工、卡耐基梅隆、哥倫比亞、康奈爾、達特茅斯、杜克大學、哈佛大學、約翰霍普金斯、麻省理工、西北大學、普林斯頓、斯坦福、芝加哥大學、賓夕法尼亞大學、以及耶魯大學。在計算教育背景重合度時，同樣采用的是 Jaccard Index，不再贅述。

對于團隊教育背景和公司所處行業(yè)的相似性，Hunter and Zaman (2017) 使用了 WordNet 詞匯數據庫，計算每個領導團隊成員學術專業(yè)和公司所處行業(yè)之間的語義相似度（具體方法是 Palmer-Wu 相似度分數，見 Wu and Palmer 1994）。得到由每個成員計算出的相似度后，取它們的均值作為團隊教育背景和公司行業(yè)的相似性的度量。最后一個關于創(chuàng)始團隊的指標是在成立該公司時，團隊的平均年齡。出于年齡數據不全的考量，作者假設團隊成員 18 歲高中畢業(yè)、22 歲本科畢業(yè)，然后根據他們獲得相應學位的年份和公司創(chuàng)辦的年份計算出目標年齡。

3.3 早期投資者

在早期投資者這個維度，Hunter and Zaman (2017) 著實花了一番功夫，使用約 83,000 個公司和 48,000 個投資者數據構建了一個公司和投資者關系的動態(tài)知識圖譜。該圖譜隨時間變化，對于任意給定的時間點，圖譜中的給定節(jié)點表示在那個時刻某個投資者投資了某個公司。通過這個圖譜，作者計算了兩個評價早期投資者能力的指標：投資人的參與度和投資人的成功率。

以上介紹了從行業(yè)、團隊和早期投資者這三個維度如何構建創(chuàng)業(yè)公司的特征。其中的難點在于數據的抓取、數據的清洗（提高數據質量）、以及投資人和公司關系圖譜的構建。

4 構建參數模型

有了特征之后，下一步就是要把特征和最終模型學習的目標聯系起來。對于選擇優(yōu)秀的初創(chuàng)公司這件事兒，目標應該是什么呢？我們最終的目標是找到最有希望 IPO 的公司。但是使用上述特征直接映射到創(chuàng)業(yè)公司能否 IPO （比如使用邏輯回歸）太過簡單粗暴了。下圖顯示了在 Hunter and Zaman (2017) 的樣本中，自 2000 年以來每年新成立的公司的數量以及每年處于各輪融資的公司的數量（從種子輪、A 輪、一直到被收購或者 IPO）。

從上面的右圖可見，能夠最終 IPO 的獨角獸公司鳳毛麟角。如果僅僅以一個公司是否 IPO 作為標簽的話，這樣的樣本數據是非常不均衡的。以此來訓練分類模型的話，常規(guī)的方法會過度的考慮對非 IPO 公司（占絕大多數）分類的準確性，而忽視對少數 IPO 公司的準確性。從直覺上來看，我們似乎應關心對 IPO 公司預測的準確率，并為此可以犧牲對該類預測的召回率，以及對非 IPO 公司預測的精度。但是不要忘記，IPO 的回報是非常高的 —— 不夸張的說，早期 VC 投 100 個公司，有一個能夠最終 IPO 就足夠覆蓋其他 99 個失敗造成的損失并給他帶來豐厚的收益了。這樣的收益特性稱為 top-heavy payoff structure?；诖?，我們似乎更應該關注對 IPO 公司分類的召回率。無論如何，直接以是否 IPO 作為標簽來訓練一個有監(jiān)督分類問題是過于簡化了。更合理的建模思路應該是什么呢？從業(yè)務上來考慮，一個創(chuàng)業(yè)公司在成功的歷經各輪融資后，它的估值是在逐步提升的。因此，使用創(chuàng)業(yè)公司的特征來對它估值的變化建模似乎是一條可行并合理的路徑。Hunter and Zaman (2017) 正是這么做的。

Hunter and Zaman (2017) 假設一個公司的估值 V(t) 隨時間的變化可以由一個布朗運動描述，該布朗運動的漂移率和擴散率同樣為時間 t 的函數，分別為 μ(t) 和 σ(t)。假設在成立時，公司的估值為 0，即 V(0) = 0，隨著時間的推移，V(t) 按布朗運動波動。進一步假設不同的融資輪對應不同的估值閾值，當 V(t) 超過某輪閾值就意味著該公司成功完成該輪融資。經過這樣的假設，一個公司每完成新一輪融資所需要的時間就是這個布朗運動的 first passage time（首達時間）。在進一步的數學假設下，作者給出了布朗運動首達時間的概率分布函數 f 以及累計分布函數 F（公式本身太“感人”了，因此我們僅僅給出它們的數學符號，具體表達式就不列出來了，感興趣的讀者請參考原文）：

其中 t_0 表示下一輪融資的起始時間、α 表示估值 V(t) 需要達到的閾值。結合創(chuàng)業(yè)公司的融資數據，作者觀察到了如下特征，并將它們用于對 μ(t) 和 σ(t) 的建模中：

1. 大多數成功的創(chuàng)業(yè)公司在早期幾輪融資中的間隔時間大致相同，這說明我們可以假設在一段時間內，μ(t) 和 σ(t) 保持不變；

2. 很多公司雖然在前幾輪融資成功，但是隨著時間的推移，越來越多的不免走向失敗，無法繼續(xù)獲得融資。這意味著當過一個公司發(fā)展了幾年后，布朗運動的漂移率開始下降；

3. 隨著時間進一步推移，一個公司能夠成功（IPO 或者被收購）的可能性越來越低（說明其估值 V(t) 到達某個極限，很難繼續(xù)增長），這意味著 μ(t) 和 σ(t) 將隨著 t 的增大趨近于 0。

考慮到這些特性，Hunter and Zaman (2017) 對 μ(t) 和 σ(t) 的表達式總結如下：

這表明當 t ≤ ν 時，μ(t) 和 σ(t) 為常數；而當 t ＞ ν 時，μ(t) 和 σ(t) 按指數衰減。ν、τ、μ_0 及 σ_0 需要根據訓練集數據得到，其中 ν 和 τ 的取值對所有公司相同，而 μ_0 及 σ_0 是每個公司特有的參數。用什么來決定每個公司的 μ_0 和 σ_0 呢？你一定已經猜到了：公司的特征！如此一來，公司特征就和上述布朗運動有機的結合起來了。對于 μ_0 和 σ_0，分別考慮兩組參數向量 β 和 γ，并令 μ_0 和 σ_0 是特征向量 X 以 β 和 γ 分別為權重的線性組合：

此外，Hunter and Zaman (2017) 認為外部環(huán)境的改變會影響公司特征對于公司能否成功的重要性。為此，他們假設同年成立的公司共享一組 β，但不同年份之間 β 向量是不同的（當然不同年的 β 之間是不獨立的）。對于給定年份，所有在該年成立的創(chuàng)業(yè)公司使用該年的 β 向量和自身的特征向量 X 來求解漂移率 μ_0。

最終需要根據訓練集來估計的參數包括 β 和 γ，以及用來描述漂移率和擴散率隨時間變化結構的 ν 和 τ。對于給定的參數，可以求出描述公司估值變化的布朗運動的漂移率和擴散率，即 μ(t) 和 σ(t)，從而計算出估值 V(t) 到達各輪融資閾值的首達時間的概率分布；有了這個概率分布便能求出每個創(chuàng)業(yè)公司在個給定的時間內是否能成功完成指定輪融資的概率。在參數估計中，目標函數就是最大化所有訓練集樣本點各輪融資發(fā)生的概率。為了計算概率，需要給定各輪融資的閾值。Hunter and Zaman (2017) 將這些閾值作為模型的超參數直接給定，但他們也強調模型對融資閾值的選擇并不敏感。由于在模型中融資閾值對所有公司都一樣，因此它們僅對 β 和 γ 參數的大小起縮放（scaling）作用，并不影響特征和目標函數之間的內在關系。由于目標函數太復雜，作者采用了 Broyden-Fletcher-Goldfarb-Shanno 算法（一種求解無約束非線性優(yōu)化問題的迭代算法，見 Yuan 1991），它能比傳統的梯度法更快的找到最優(yōu)解。

5 構建最優(yōu)投資組合

通過上述參數模型，作者構建了公司特征和公司估值 V 變化之間的關系。但到了這一步還沒結束，僅僅有了這個關系，我們只能大致知道哪個公司可能更有希望獲得融資。為了從成千上萬的創(chuàng)業(yè)公司中找出獨角獸，我們最關心的是每個創(chuàng)業(yè)公司最終能夠在有限時間內實現 IPO 的概率。有了首達時間的概率分布函數 F 和模型的參數，很容易通過下式求出任何公司 i 最終 IPO 的概率，記為 p_i（其中 H 為實現 IPO 所需要的閾值）：

有了每個公司成功的概率 p_i，那么 VC 是不是只需要將有限的資金投入給成功概率最高的那些公司就可以了呢？答案并非那么簡單。假設一共有 m 個創(chuàng)業(yè)公司，由于資金有限制，VC 需要從中選出 k 個，目標是這 k 個里面至少有一個最終會 IPO。這個問題類似背包問題（knapsack problem）或集合覆蓋問題（set covering problem），其目標函數可以寫成：

其中 [m] = {1, 2, …, m} 構成了所有公司的集合，S 是 [m] 的子集、大小為 k，E_i 代表公司 i 成功 IPO（其概率為 p_i）。由于我們希望至少有一個 IPO 成功，因此只需要將不同的 E_i 求交集。U(S) 就是選出的 k 個公司中，至少有一個 IPO 成功的概率，所以我們希望最大化 U(S)。這個問題是 HP-hard，難以求解。但是，該問題具備一些不錯的數學性質使得貪心算法（greedy）可以找到不錯的次優(yōu)解。使用貪心算法，每一輪從所有剩余公司中選擇一個，選出來的應該是能夠最大化目標函數的邊際增長，直到 k 輪后，一共選擇 k 個公司構成 S。

如果令 S_G 和 S_W 分別表示貪心算法的解和全局最優(yōu)解，那么可以證明，目標函數的準確性是有下界的：

當 E_i 之間獨立時 S_G 和 S_W 完全一致。在實際的求解中，Hunter and Zaman (2017) 假設公司之間能否 IPO 是獨立的。利用獨立性可以把目標函數表示成 p_i 的形式（p_i 是公司 i 成功 IPO 的概率）：

最后需要指出的一點是，在上一節(jié)的建模中，作者令系數 β 隨時間變化。因此在計算目標函數 U(S) 的時候必須考慮 β 的變化引入的隨機性。這意味著 U(S) 實際是關于 β 的期望，即我們最終要最大化的是按照 β 的概率分布計算出來的至少有一家創(chuàng)業(yè)公司成功 IPO 的期望概率：

這個期望可以使用蒙特卡洛積分求解。這就是這個量化風投框架的全部內容。

6 量化效果

Hunter and Zaman (2017) 使用 2000 到 2010 年的數據作為訓練集，之后的數據作為測試集，檢驗了他們提出的量化框架。通過在訓練集上訓練模型，他們得到了每個公司估值布朗運動的漂移率 μ_0 和擴散率 σ_0。將所有公司按照其最高的融資輪次分組，并考察每組中公司的 μ_0 和 σ_0 的中位數有：

觀察這張圖可以得到如下啟發(fā)：

1. 表現較差的創(chuàng)業(yè)公司（最高融資輪止步于種子輪或者 A 輪）通常有較低的漂移率；

2. 表現一般的創(chuàng)業(yè)公司（最高融資輪為 B 到 F 輪）通常有較高的漂移率，但是較低的擴散率；

3. 表現最好的公司（以 IPO 或者被收購退出）的漂移率僅僅是一般水平，但是卻有很大的擴散率。

這似乎說明足夠大的擴散率是成功的必要條件。這讓我們自然的提出下一個問題：什么樣的公司特征可能帶來比較大的擴散率（和漂移率）？作者給出了 2010 年對漂移率產生最大影響的五個行業(yè)和非行業(yè)特征及它們的系數（別忘了 β 每年是變的），以及對擴散率產生最大影響的五個行業(yè)和非行業(yè)特征及它們的系數：

從行業(yè)的角度來說，在 2010 年，影響漂移率的五大行業(yè)是線上學習、共享出行、開源、云計算以及生物信息學；影響擴散率的五大行業(yè)是社交媒體、信息派送、社交網絡、APPs 應用程序開發(fā)以及云計算。這意味著這些行業(yè)的想象空間（波動）比較大。從非行業(yè)特征角度來說，無論是對于漂移率還是擴散率，最重要的特征就是創(chuàng)始團隊的經驗，特別是管理團隊成員是否在成立本公司之前有過成功的創(chuàng)業(yè)經歷。除此之外，教育背景（是否畢業(yè)于名校），和早期投資者過往的成功率（maximum acquisition fraction）也尤為重要。

根據訓練模型和最優(yōu)投資組合的優(yōu)化函數，作者分別在 2011 年和 2012 年構建了兩個投資組合，每個里面包含 10 個創(chuàng)業(yè)公司。這兩個組合如下表所示，其中第二列為到 2016 年底每個公司最終的融資或退出情況，第三列為模型預測的退出概率 p_i，第四列為組合中依次加入每個公司之后目標函數 U(S) 的變化。

結果顯示，在 2011 年選出來的 10 個公司中，有 6 個如今已經成功退出了（包括 1 個 IPO 和 5 個被收購）；在 2012 年選出的 10 個公司中，有 4 個已經退出了（均是被收購）。這可以說是令人稱奇的結果了。為了橫向比較，Hunter and Zaman (2017) 把他們的模型和頂級 VC 以及一個基準模型比較。基準模型采用了 ordered logistic regression 算法，它使用每個公司最高的融資輪作為標簽，進行有監(jiān)督分類。

上圖中，左側的為 2011 年的結果，右側為 2012 年的結果。橫坐標表示所投公司數量，縱坐標為成功退出公司的數量。其中紅線和藍線為基于 Hunter and Zaman (2017) 框架的兩個版本的模型的結果，它們的成功率遠超基準模型以及頂級 VC；在 2011 年的組合中，當投資個數增加時，基準模型 ordered logistic regression 也取得了不錯的效果，但是當投資的創(chuàng)業(yè)公司較少時，Hunter and Zaman (2017) 的框架仍然是最出色的。

7 啟發(fā)與思考

Hunter and Zaman (2017) 在這個量化風險投資框架中集成了大量的機器學習和數學優(yōu)化算法。對它們的梳理如下：

1. 從創(chuàng)業(yè)公司數據庫（如作者采用的 Crunchbase）和 Linkedin 抓取創(chuàng)業(yè)公司和創(chuàng)業(yè)者、投資人的數據；從行業(yè)、團隊、早期投資人三個維度構建特征；這其中運用了知識圖譜的構建以及語義分析等技術；

2. 使用帶漂移率和擴散率的布朗運動來建模創(chuàng)業(yè)公司估值的變化，以最大化訓練集中所有公司各輪融資發(fā)生的概率為目標訓練模型參數，這是一個有監(jiān)督學習問題，求解時采用了 BFGS 算法；

3. 根據模型的參數，使用布朗運動首達時間的概率分布計算出每個公司實現 IPO 的概率。

4. 使用貪心算法和蒙特卡洛積分求解公司選取最優(yōu)化問題，最優(yōu)化的目標是最大化選出來的公司中至少有一個能夠實現 IPO 的概率。

一個優(yōu)秀的風險投資公司必備的兩點是一套科學的方法論（來洞察投資熱點和評估創(chuàng)業(yè)團隊），和豐富的資源（無論是募資能力還是社會資源）。沒有前者，它找不到好的項目；沒有后者，好的項目不找它。本文介紹的這個量化框架可以是這套科學方法論的有利助力。為什么這么說呢？因為哪怕是拋開該框架在樣本外的預測效果而言，它通過訓練集建模得到的參數就能給 VC 們帶來很多非常有幫助的啟發(fā)，這其中包括對熱點行業(yè)的追蹤以及對優(yōu)秀創(chuàng)業(yè)公司必備的特征的精準定位。比如，通過模型的參數可以找出時下最熱門的行業(yè)，并指出一個創(chuàng)業(yè)公司想要成功必備的特質是創(chuàng)始人的工作經歷和教育背景 —— 資本尤其青睞連續(xù)創(chuàng)業(yè)者。這些發(fā)現和國內很多頂級 VC 的“投的是人，而不是項目”的理念不謀而合。

當然在現階段，純量化的風投框架無法解決一個風投公司的資源問題。換句話說，一個量化型風投基金如果沒人脈沒資源、沒有足夠的募資能力，那即便是它找到了最具成功潛質的公司，也很難得到股權投資的機會。但是對于那些已在市場中站穩(wěn)腳跟的 VC 們，掌握一套量化的科學評估體系（無論是對行業(yè)還是對創(chuàng)業(yè)公司） —— 即便該體系沒有本文介紹的這么復雜 —— 也都是大有裨益的。該體系一定會在當下的風投界為這些 VC 們贏得一定的 edge。如果有一天，機器學習（或更廣義的，人工智能）真的在投資界大有作為，那么一級市場的 VC 們恐怕會比二級市場的基金經理們率先“淪陷”，而“干掉”他們的正是他們扶持起來的這些人工智能領域的獨角獸們。

猶未可知。

參考文獻

Hunter, D. and T. Zaman (2017). Picking winners: a framework for venture capital investment. Working paper.

Wu, Z. and M. Palmer (1994). Verbs semantics and lexical selection. In Proceedings of the 32th annual meeting on association for computational linguistics, 133?–?138.

Yuan, Y.X. (1991). A modified BFGS algorithm for unconstrained optimization. IMA Journal of Numerical Analysis 11(3), 325 – 332.

免責聲明：入市有風險，投資需謹慎。在任何情況下，本文的內容、信息及數據或所表述的意見并不構成對任何人的投資建議。在任何情況下，本文作者及所屬機構不對任何人因使用本文的任何內容所引致的任何損失負任何責任。除特別說明外，文中圖表均直接或間接來自于相應論文，僅為介紹之用，版權歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

機器學習能否助力風險投資？