用 Venn Diagram 理解多元線性回歸的 OLS 估計

發(fā)布時間：2020-10-12 | 來源: 川總寫量化

作者：石川

摘要：Venn diagram 為理解多元回歸模型的 OLS 估計提供了直觀思路。通過它，人們很容易搞懂共線性、遺漏變量造成的問題，并直觀的感受 R-squared、回歸系數(shù)估計以及其誤差的高低。

1?引言

線性回歸模型以及其估計方法 OLS 在實證資產(chǎn)定價中發(fā)揮了重要的作用。例如傳統(tǒng) Fama-French 三因子時序回歸模型以及 Fama and MacBeth (1973) 截面回歸都是這樣的例子。相信各位小伙伴對此都不陌生。

今天這篇小文將從一個非常直觀的角度解釋多元線性回歸背后的機制，并探討常見的多重共線性以及遺漏變量將會對回歸系數(shù)估計造成何種影響。這個直觀的角度就是 Venn Diagram（韋恩圖）。必須強調(diào)的是，Venn diagram 的目的是提供直觀理解，加深人們對 OLS 估計機理的認知。Venn Diagram 由英國數(shù)學(xué)家 John Venn 發(fā)明，用于展示在不同的事物群組（集合）之間的數(shù)學(xué)或邏輯聯(lián)系。

A?Venn diagram, also called?primary diagram,?set diagram?or?logic diagram, is a?diagram?that shows?all?possible?logical?relations between a finite collection of different?sets.

例如下面這組圖就展示了兩個集合之間的不同關(guān)系（出處：wikipedia）：

那么 Venn diagram 和 OLS 又有什么關(guān)系？將 Venn diagram 用于解釋多元線性回歸可以追溯到 Cohen and Cohen (1975)，之后 Kennedy (1981, 2002)、Ip (2001) 等在其基礎(chǔ)上又有了大量的拓展。此外，邱嘉平教授的《因果推斷實用計量方法》一書對 Venn diagram 也有涉及。下面就先來說說基本要素。

2?基本要素

當使用 Venn diagram 研究回歸問題時，每個變量可被表示成一個圓圈，而圓圈的面積則用來表示每個變量的方差 —— 面積越大表示方差越大；而兩個圓圈重疊的部分則表示兩變量相互關(guān)聯(lián)的部分，即協(xié)方差。以上就是研究的基本要素。以下圖為例，考慮解釋變量 x 和被解釋變量 y。兩個圓圈分別表示它們各自的方差，重疊的部分 B 則表示它們共同運動的部分，即 x 和 y 的協(xié)方差。

依照圖中信息，y 的方差 var(y) 為 A + B 的面積；x 的方差 var(x) 為 B + C 的面積；x 和 y 的協(xié)方差 cov(x, y) 為 B 的面積。帶著這些要素，馬上來看單一解釋變量的情況。

3?單個解釋變量

假設(shè) y 和 x 滿足以下線性回歸模型：

通過 OLS 對其進行估計可得（這里我們只關(guān)心 x_i 的回歸系數(shù) b 的估計）：

對應(yīng)上一節(jié)的 Venn diagram 中的定義，馬上可以看出 b 的估計為 B 的面積和 B + C 面積之比：

結(jié)合 Venn diagram 和 b 估計量的定義可以總結(jié)出以下三點：

1. 在 OLS 估計時，x 和 y 重疊的部分 B 將被用來估計 x 的系數(shù) b；如果 B 所包含的信息僅和 x 有關(guān)（而和其他解釋變量無關(guān)；多元回歸問題將在下一節(jié)說明），那么使用這部分信息得到的 b 的估計就是無偏的；

2. 若 B 的面積越大，則用來估計回歸系數(shù) b 的信息越多，因此 \hat b 的 standard error 就越?。ㄈ绾瓮ㄟ^ Venn diagram 中不同部分的面積推斷 standard error 的大小將在多元回歸中說明）。

3. 圖中，A 是 x 無法解釋的 y 的波動，即回歸模型中擾動項 e 的方差。

以上就是一元回歸的直觀理解。

4?多元回歸

下面來看多元回歸的情況。多元回歸要比一元回歸有（fu）趣（za）的多。為了便于理解，考慮兩個不完全獨立的解釋變量 x_1 和 x_2，以及被解釋變量 y。它們之間的關(guān)系滿足以下線性回歸模型：

當使用 Venn diagram 時，它們的關(guān)系如下圖所示。

從圖中可知，x_1 和 y 相關(guān)聯(lián)的部分可通過 B + D 的面積表示，而 x_2 和 y 相關(guān)聯(lián)的部分則可由 F + D 表示。而這其中 D 是共有的部分，即 D 部分表示的 y 的波動是由 x_1 和 x_2 共同驅(qū)動的。那么問題來了，在 OLS 估計 b_1 和 b_2 時，應(yīng)該用到 Venn diagram 中的哪部分信息？得到的估計又是否是無偏的？考慮以下三個選項，你認為哪個是正確的？

1. 使用 B + D 包含的信息估計 x_1 的系數(shù) b_1、F + D 包含的信息估計 x_2 的系數(shù) b_2；

2.?通過某種巧妙的方法分割 D 的信息，使之一部分和 B 一起估計 x_1 的系數(shù) b_1、另一部分和 F 一起估計 x_2 的系數(shù) b_2；

3. 舍棄 D，僅使用 B 的信息來估計 x_1 的系數(shù) b_1、僅使用 F 包含的信息估計 x_2 的系數(shù) b_2。

怎么樣？思考一下。如果你選擇了 3，那么恭喜你！1 和 2 之所以不對，恰恰是因為 D 部分表示的 y 的波動是由 x_1 和 x_2 共同驅(qū)動的，因此難以分清兩個解釋變量各自的貢獻；D 又被稱為被污染的信息。此外，當僅使用 B 和 F 分別估計 b_1 和 b_2 時，由于 B 和 x_2 無關(guān)，F(xiàn) 和 x_1 無關(guān)，因此得到的 b_1 和 b_2 的估計也都是無偏的。OLS 背后的數(shù)學(xué)原理也恰恰保證了這一點。如果用 Venn diagram 圖中的部分表示，則 b_1 和 b_2 的估計量分別為：

除此之外，和一元回歸類似，在上圖中 A 的部分代表 y 中無法被 x_1 和 x_2 解釋的部分，因此它是擾動項 e 的方差。此外，通過 Venn diagram 也可以方便的看出可決系數(shù) R-squared 的定義，它是 B、D、F 三部分面積之和與 A、B、D、F 四部分面積之和之比：

有的小伙伴可能已經(jīng)注意到了，雖然在估計回歸系數(shù)時舍棄了 D，但是在計算 R-squared 時卻沒有。這是因為 D 是兩個解釋變量共同解釋 y 的部分。雖然我們無法分清每個變量貢獻了多少，但它們作為一個整體依然對解釋 y 的波動有貢獻，因此在計算 R-squared 時應(yīng)考慮 Venn diagram 中 D 的面積。

回到我們關(guān)注的問題 —— 實證資產(chǎn)定價，僅僅得到回歸系數(shù)的估計是不夠的，很多時候都要知道估計的 standard error，才能進行檢驗。由 OLS 性質(zhì)可知，對于回歸系數(shù) b_i，其估計值的方差可由下式?jīng)Q定：

式中的分子是模型中隨機擾動項的方差（實際中代入樣本方差即可，再對上式開根號就得到 standard error）。R_i^2 為用 x_i 對其他所有 x_j 回歸的可決系數(shù)；R_i^2 越高說明 x_i 和其他解釋變量相關(guān)性越高。最后，SST_i 是變量 x_i 的 total sample variation（不難看出它和 x_i 的方差就差一個系數(shù)）：

Var(\hat b_i) 的表達式說明，當 x_i 自身的波動越大且/或 x_i 和其他解釋變量的相關(guān)性越低時，其估計誤差越小。

由于 Venn diagram 中的面積表示方差或協(xié)方差，且結(jié)合前述 R-squared 的定義，就可以通過 Venn diagram 中的元素清晰的反映出 var(\hat b_i) 的表達式。舉例來說，在本節(jié)考慮的二元回歸模型中，x_1 的回歸系數(shù)估計 \hat b_1 的方差如下圖所示。

顯然，當 B + C 的面積非常小時，var(\hat b_1) 就會非常大。什么時候 B + C 會非常小呢？解釋變量之間存在高度相關(guān)時就會出現(xiàn)這種情況。下面就來討論這一問題。

5?高度共線性

多元回歸中，經(jīng)常遇到的問題就是解釋變量之間高度相關(guān)。以下面兩圖為例，左邊是一個 x_1 和 x_2 有正常關(guān)系的 Venn diagram，右側(cè)則是 x_1 和 x_2 高度共線性的 Venn diagram。二者的相關(guān)性體現(xiàn)在 x_1 和 x_2 的圓圈重疊部分非常大（即 D + E 的面積非常大）。

由 OLS 可知，由于 D 部分是被污染的信息，因此在估計 b_1 和 b_2 時被舍棄了。如果 D 的面積非常大（解釋變量高度相關(guān)），那么剩余的面積（上圖中的 B 和 F）就會很少，相當于只有很少的信息用來估計 b_1 和 b_2，因此可想而知估計誤差就會更高。在極端情況下，當 x_1 和 x_2 完全共線性時（即代表它們的兩個圓圈完全重合），則 B 和 F 均消失，這時將沒有任何信息用來估計 b_1 和 b_2。依照上一節(jié)給出的 var(\hat b_i) 的直觀解釋，var(\hat b_1) 和 var(\hat b_2) 分別滿足：

當存在高度共線性時，B、C、F、G 都會變得非常小，因此上述中的分母就會非常小，導(dǎo)致很大的方差。但需要強調(diào)的是，即便存在高度共線性，但上述 OLS 中 b_1 和 b_2 的估計也是無偏的，因為依然僅使用了 B 和 F 來分別估計，而沒有用到被污染的信息 D。另一方面，由 R-squared 的定義可知，在計算它時無需剔除 D。因此，這將會造成一個非常有意思的現(xiàn)象，即當高度共線性存在時，R-squared 很大（即所有解釋變量有很好的共同解釋力），但每個解釋變量的回歸系數(shù)卻都不顯著（因為 standard error 太大）。在實際數(shù)據(jù)中，如果發(fā)現(xiàn)這個現(xiàn)象，很可能是多重共線性惹的禍。

既然談到相關(guān)性，再捎帶手聊一下正交化的問題。假設(shè)使用 x_2 對 x_1 回歸，求出殘差作為正交化之后的 x_2，記為 ox_2。下圖中右側(cè) Venn diagram 中的紅色“月牙”就是 ox_2，綠色是不受影響的 x_1。

從 Venn diagram 不難看出，當不正交化時（上方左圖），會使用 B 和 F 分別估計 b_1 和 b_2；而當對 x_2 正交化之后（上方右圖），則會使用 B + D 估計 b_1、使用 F 來估計 b_2。因此對 x_2 正交化對 b_2 的估計是沒有影響的，但其依然會影響 b_1 的估計結(jié)果。以下是一個簡單的例子說明上述這一點。

由于正交化后的 ox_2 和 x_1 不相關(guān)（體現(xiàn)在圖上就是兩者不相交），因此模型一（僅有 x_1）和模型三（包含 x_1 和 ox_2）中 b_1 的估計值是一樣的。另一方面，由于正交化 x_2 不改變 x_2 的估計，因此在模型二（包含 x_1 和 x_2）和三中，b_2 的估計值是一樣的。最后，由于在模型三中，x_2 被正交化，因此 B + D 被用來估計 b_1，因此相比模型二，其估計值的 standard error 更低。

6?遺漏變量

通過下圖解釋遺漏變量問題。假設(shè)解釋變量 x_1、x_2 以及被解釋變量 y 的關(guān)系如 Venn diagram 所示，并考慮圖中兩個模型，其中模型一因為僅考慮了 x_1，因此存在遺漏變量問題。

對 x_1 的系數(shù) b_1 來說，在這兩個模型中，其 OLS 估計分別為：

由于遺漏變量，第一個模型錯誤的使用 D 所包含的信息（被污染的信息），因此第一個模型中 b_1 的估計是有偏的（例外是 x_1 和 x_2 不相關(guān)，則 D 不存在）。然而，遺漏變量也并非都是缺點，其優(yōu)點（姑且算作優(yōu)點）是由于更多的信息（D）被用來估計 b_1，因此它的 standard error 更低。另一點值得說明的是，當遺漏 x_2 時，由 Venn diagram 可知，圖中 A + F 的面積被錯誤的當作擾動項 e 的方差；而實際當同時使用 x_1 和 x_2 時，其方差應(yīng)為 A。遺漏變量造成擾動項 e 的方差被高估。

最后，若 x_1 和 x_2 不相關(guān)時（下圖；解釋變量不相關(guān)體現(xiàn)在 Venn diagram 上代表 x_1 和 x_2 的兩個圓圈沒有重疊），則遺漏 x_2 不會對 b_1 的估計造成影響。這是因為無論是 y 僅對 x_1 回歸還是同時對 x_1 和 x_2 回歸，在估計 b_1 時用到的均是 B 的信息。由于 x_1 和 x_2 不相關(guān)，因此區(qū)域 B 不受 x_2 的影響。

7?結(jié)語

通過利用 Venn diagram，人們很容易搞懂共線性、遺漏變量造成的問題，并直觀的感受 R-squared、回歸系數(shù)估計以及其誤差的高低。照例總結(jié)一下：當存在共線性時，估計依然是無偏的，但是 standard error 會變大；而當存在遺漏變量且遺漏的變量和現(xiàn)有的解釋變量相關(guān)時，那么估計將會是有偏的、但 standard error 會降低，且 y 的擾動項的方差會被高估。

不過 Venn diagram 也絕非無所不能。比如圖中重疊的部分僅僅表示兩個變量之間存在相關(guān)性，但它無法說明是正相關(guān)還是負相關(guān)。無論如何，Venn diagram 為加深人們對多元回歸模型的 OLS 估計的理解提供了非常直觀的思路，是一個非常好用的思考工具。希望本文的介紹能帶給你這種體會。

參考文獻

Cohen, J. and P. Cohen (1975). Applied Multiple Regression/Correlation Analysis for the Behavioral Science. Hillside, NJ: Lawrence Erlbaum Associates.

Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: Empirical tests.?Journal of Political Economy 81(3), 607 – 636.

Ip, E. H. S. (2001). Visualizing multiple regression. Journal of Statistics Education 9(1).

Kennedy, P. E. (1981). The “Ballentine”: A graphical aid for econometrics. Australian Economic Papers 20(37), 414 – 416.

Kennedy, P. E. (2002). More on Venn Diagrams for regression. Journal of Statistics Education 10(1).

邱嘉平 (2020). 因果推斷實用計量方法.?上海財經(jīng)大學(xué)出版社.

免責聲明：入市有風險，投資需謹慎。在任何情況下，本文的內(nèi)容、信息及數(shù)據(jù)或所表述的意見并不構(gòu)成對任何人的投資建議。在任何情況下，本文作者及所屬機構(gòu)不對任何人因使用本文的任何內(nèi)容所引致的任何損失負任何責任。除特別說明外，文中圖表均直接或間接來自于相應(yīng)論文，僅為介紹之用，版權(quán)歸原作者和期刊所有。

亚洲精品国产精品制服丝袜,亚洲欧美日韩精品a∨,97在线热免费视频精品视频,亚洲人成在线观看网站不卡

合格投資者聲明

用 Venn Diagram 理解多元線性回歸的 OLS 估計