首頁 > 留學資訊 > 留學新聞 > 留學生想要學好回歸分析，這些關鍵詞和統(tǒng)計量不得不知！

留學生想要學好回歸分析，這些關鍵詞和統(tǒng)計量不得不知！

作者：發(fā)布時間：2019-11-13 14:50:30

很多小伙伴閱讀文獻的時候

經(jīng)常會遇到這樣的表述：

“當我們控制了某某變量之后，如何如何...”

一頭霧水有木有？

控制？綁架？不讓動彈？

（瑟瑟發(fā)抖.jpg）

還有人說：

“回歸分析是量化分析的基石，

不懂回歸，猶如學音樂不懂音律。”

（貌似很嚴重，繼續(xù)瑟瑟發(fā)抖.jpg）

同學們普遍感覺回歸分析好難

腫么辦？

其實并沒有那么高深哦

掌握以下統(tǒng)計量和關鍵詞

讓你學起來更輕松！

· 回歸分析統(tǒng)計量

01 回歸系數(shù)

注意回歸系數(shù)的正負要符合理論和實際。截距項的回歸系數(shù)無論是否通過T檢驗都沒有實際的經(jīng)濟意義。

02 回歸系數(shù)的標準差

標準誤差越大，回歸系數(shù)的估計值越不可靠，這可以通過T值的計算公式可知（自查）。

03 T檢驗

T值檢驗回歸系數(shù)是否等于某一特定值，在回歸方程中這一特定值為0，因此T值=回歸系數(shù)/回歸系數(shù)的標準誤差，因此T值的正負應該與回歸系數(shù)的正負一致，回歸系數(shù)的標準誤差越大，T值越小，回歸系數(shù)的估計值越不可靠，越接近于0。另外，回歸系數(shù)的絕對值越大，T值的絕對值越大。

04 P值

P值為理論T值超越樣本T值的概率，應該聯(lián)系顯著性水平α相比，α表示原假設成立的前提下，理論T值超過樣本T值的概率，當P值<α值，說明這種結果實際出現(xiàn)的概率的概率比在原假設成立的前提下這種結果出現(xiàn)的可能性還小但它偏偏出現(xiàn)了，因此拒絕接受原假設。

05 可決系數(shù)(R-squared)

都知道可決系數(shù)表示解釋變量對被解釋變量的解釋貢獻，其實質(zhì)就是看（y尖-y均）與（y=y均）的一致程度。y尖為y的估計值，y均為y的總體均值。

06 調(diào)整后的可決系數(shù)

即經(jīng)自由度修正后的可決系數(shù)，從計算公式可知調(diào)整后的可決系數(shù)小于可決系數(shù)，并且可決系數(shù)可能為負，此時說明模型極不可靠。

07 回歸殘差的標準誤

殘差的經(jīng)自由度修正后的標準差，OLS的實質(zhì)其實就是使得均方差最小化，而均方差與此的區(qū)別就是沒有經(jīng)過自由度修正。

08 對數(shù)似然估計函數(shù)值

首先，理解極大似然估計法。極大似然估計法雖然沒有OLS運用廣泛，但它是一個具有更強理論性質(zhì)的點估計方法。極大似然估計的出發(fā)點是已知被觀測現(xiàn)象的分布，但不知道其參數(shù)。極大似然法用得到觀測值（樣本）最高概率（離散分布以概率聚集函數(shù)表示，連續(xù)分布以概率密度函數(shù)表示。因為要使得樣本中所有樣本點都出現(xiàn)，假定抽樣是隨機的則各個樣本點的是獨立同分布的，所以最后總的概率表現(xiàn)為概率聚集函數(shù)或者概率密度函數(shù)的連乘形式，稱之為似然函數(shù)。要取最大概率，即將似然函數(shù)對未知參數(shù)求導令導數(shù)等于0即可獲得極大似然函數(shù)。一般為簡化函數(shù)的處理過程都會對似然函數(shù)進行對數(shù)化處理，這樣最后得到的極大似然函數(shù)就稱之為對數(shù)極大似然函數(shù)）的那些參數(shù)的值來估計該分布的參數(shù)，從而提供一種用于估計刻畫一個分布的一組參數(shù)的方法。

其次，理解對數(shù)似然估計函數(shù)值。對數(shù)似然估計函數(shù)值一般取負值，實際值（不是絕對值）越大越好。第一，基本推理。對于似然函數(shù)，如果是離散分布，最后得到的數(shù)值直接就是概率，取值區(qū)間為0-1，對數(shù)化之后的值就是負數(shù)了；如果是連續(xù)變量，因為概率密度函數(shù)的取值區(qū)間并不局限于0-1，所以最后得到的似然函數(shù)值不是概率而只是概率密度函數(shù)值，這樣對數(shù)化之后的正負就不確定了。第二，Eviews的計算公式解釋。公式值的大小關鍵取之于殘差平方和（以及樣本容量），只有當殘差平方和與樣本容量的比之很小時，括號內(nèi)的值才可能為負，從而公式值為正，這時說明參數(shù)擬合效度很高；反之公式值為負，但其絕對值越小表示殘差平方和越小，因而參數(shù)擬合效度越高。

09 DW檢驗值

DW統(tǒng)計量用于檢驗序列的自相關，公式就是測度殘差序列與殘差的滯后一期序列之間的差異大小，經(jīng)過推導可以得出DW值與兩者相關系數(shù)的等式關系，因而很容易判斷。DW值的取值區(qū)間為0-4，當DW值很小時（大致<1）表明序列可能存在正自相關；當DW值很大時（大致>3）表明序列可能存在負自相關；當DW值在2附近時（大致在1.5到2.5之間）表明序列無自相關；其余的取值區(qū)間表明無法確定序列是否存在自相關。當然，DW具體的臨界值還需要根據(jù)樣本容量和解釋變量的個數(shù)通過查表來確定。

DW值并不是一個很適用的檢驗手段，因為它存在苛刻的假設條件：解釋變量為非隨機的；隨機擾動項為一階自回歸形式；解釋變量不能包含滯后的被解釋變量；必須有截距項；數(shù)據(jù)無缺失值。當然，可以通過DW-h檢驗來檢驗包含滯后被解釋變量作為解釋變量的序列是否存在自相關。h統(tǒng)計量與滯后被解釋變量的回歸系數(shù)的方差呈正相關關系，可以消除其影響。

10 被解釋變量的樣本均值

被解釋變量的樣本均值

（Mean Dependent Var）

11 被解釋變量的樣本標準誤差

被解釋變量的樣本標準誤差（S.D.Dependent Var）

12 赤池信息準則（AIC）

AIC和SC在時間序列分析過程中的滯后階數(shù)確定過程中非常重要，一般是越小越好。

一般理解：根據(jù)AIC的計算公式（-2*L/N+2*k/N，L為對數(shù)似然估計函數(shù)值，k為滯后階數(shù)，N為樣本容量）可知：當滯后階數(shù)小時，2*k/N小，但因為模型的模擬效果會比較差所以L（負值）會比較小，加上負號之后則變得較大，因此最后的AIC有可能較大；當滯后階數(shù)大時，模型的模擬效果會比較好所以L（負值）會比較大，加上負號之后則變得較小，但是2*k/N過大（損失自由度的代價），因此最后的AIC也有可能較大。綜上，AIC較小意味著滯后階數(shù)較為合適。

13 施瓦茨信息準則(SC)

與AIC沒有任何本質(zhì)區(qū)別，只是加入樣本容量的對數(shù)值以修正損失自由度的代價。

14 F統(tǒng)計量(F-statistic)

F統(tǒng)計量考量的是所有解釋變量整體的顯著性，所以F檢驗通過并不代表每個解釋變量的t值都通過檢驗。當然，對于一元線性回歸，T檢驗與F檢驗是等價的。

15 prob(F-statistic)

F統(tǒng)計量的P值，一切的P值都是同樣的實質(zhì)意義。

· 回歸分析關鍵詞

01回歸（regression）：發(fā)生倒退或表現(xiàn)倒退；常指趨于接近或退回到中間狀態(tài)。在線性回歸中，回歸指各個觀察值都圍繞、靠近估計直線的現(xiàn)象。

02多元回歸模型（multiple regression model）：包含多個自變量的回歸模型，用于分析一個因變量與多個自變量之間的關系。它與一元回歸模型的區(qū)別在于，多元回歸模型體現(xiàn)了統(tǒng)計控制的思想。

03因變量（dependent variable）：也稱為依變量或結果變量，它隨著自變量的變化而變化。從試驗設計角度來講，因變量也就是被試的反應變量，它是自變量造成的結果，是主試觀測或測量的行為變量。

04自變量（independent variable）：在一項研究中被假定作為原因的變量，能夠預測其他變量的值，并且在數(shù)值或?qū)傩陨峡梢愿淖儭?nbsp;

05隨機變量（random variable）：即隨機事件的數(shù)量表現(xiàn)。這種變量在不同的條件下由于偶然因素影響，可能取各種不同的值，具有不確定性和隨機性，但這些取值落在某個范圍的概率是一定的。

06連續(xù)變量（continuous variable）：在一定區(qū)間內(nèi)可以任意取值的變量，其數(shù)值是連續(xù)不斷的，相鄰兩個數(shù)值可作無限分割，即可取無限個數(shù)值，比如身高、體重等。

07名義變量（nominal variable）：本身的編碼不包含任何具有實際意義的數(shù)量關系，變量值之間不存在大小、加減或乘除的運算關系。

08截距（intercept）：函數(shù)與y坐標軸的相交點，即回歸方程中的常數(shù)項。

09斜率（slope）：即回歸方程中各自變量的系數(shù)。它表示自變量一個單位的變化所引起的因變量的變化量，如果是線性模型，則在坐標圖上表現(xiàn)為兩個變量擬合直線之斜率。

10偏效應（partial effect）：在控制其他變量的情況下，或者說在其他條件相同的情況下，各自變量X對因變量Y的凈效應（net effect）或獨特效應（unique effect）。

11效應幅度（size of effect）：指反映變量作用大小的具體數(shù)值。一個變量的系數(shù)可能在統(tǒng)計上顯著地區(qū)別于0，但是該系數(shù)的值卻不大，即效應幅度很小，從而不具有很大的實質(zhì)性意義。

12擬合優(yōu)度（goodness of fit）：指回歸模型對觀察數(shù)據(jù)的概括擬合程度，反映的是模型的效率，即模型在多大程度上解釋了因變量的變化。

13誤差（error）：指可以避免或不可避免的觀測值和真實值之間的差。

14預測值（predicted values）：通過根據(jù)估計的回歸模型代入解釋變量觀察值后計算得到的因變量值。

15總平方和（sum of squares total）：即因變量觀察值與其平均值的離差平方和，是需要解釋的因變量的變異總量。

16殘差平方和（sum of squares error）：因變量觀察值與對應的回歸模型預測值的離差平方和。是觀察值落在回歸線（面）之外而引起的，是模型中各自變量對因變量線性影響之外的其他因素對因變量總平方和的影響。

17回歸平方和（sum of squares regression）：通過回歸模型計算得到的因變量預測值與因變量觀察值的均值的離差平方和。這是由自變量變化引起的，是回歸模型所解釋的部分。

18均方（mean square）：離差平方和除以相應的自由度即可得到均方。在回歸分析中，研究者感興趣的是回歸均方（mean square regression，簡寫為MSR）和均方誤（mean square error，簡寫為MSE）。

19判定系數(shù)（coefficient of determination）：回歸平方和占總平方和的比例，記為R2。通常把它理解為回歸方程解釋掉的平方和占其總平方和的比例。判定系數(shù)被用來作為對方程擬合優(yōu)度進行測量的指標，取值在`0，1`之間，值越大表明回歸方程的解釋能力越強。

20判定系數(shù)增量（increamental R2）：在原有回歸模型基礎上，通過加入新的自變量所帶來的判定系數(shù)的增加量。

21嵌套模型（nested models）：如果一個模型（模型一）中的自變量為另一個模型（模型二）中自變量的子集或子集的線性組合，我們就稱這兩個模型是嵌套模型。模型一稱為限制性模型（restricted model），模型二稱為非限制性模型（unrestricted model）。限制性模型嵌套于非限制性模型中。

22虛擬編碼（dummy coding）：依據(jù)名義變量各類別對其進行重新編碼從而令其能夠作為自變量納入回歸方程的編碼方式。對于一個包含J個類別的名義變量，理論上可以得到J個取值為0或1的虛擬變量，但在回歸分析中，通常只建構J-1個虛擬變量”。每一虛擬變量對應著原名義變量的一個類別，如果屬于該類別則虛擬變量取值為1，否則取值為0。

23虛擬變量（dummy variable）：也稱作指示變量（indicator），取值為0或1的變量，故也被稱作0-1變量。

24二分變量（dichotomous variable）：即只有兩種可能取值的變量，如性別。

25參照組（reference group）：被排除出回歸模型的那個虛擬變量所對應的類別，亦即所有虛擬變量取值全部為零的類別。

26交互項（interaction term）:在操作上，交互項就是兩個或多個（一般不多于三個）自變量的乘積。在回歸模型中引入交互項后，參與構造交互項的各自變量對因變量的作用依賴于交互項中其他自變量的取值。

27交互效應（interaction effect）：也稱為調(diào)節(jié)效應或條件效應，指一個自變量對因變量的效應依賴于另一個自變量的取值。回歸分析中通常設定相應的交互項來探究某個自變量的條件效應。

28常規(guī)最小二乘法（ordinaryleast squares，OLS）

：線性回歸中求解參數(shù)的常用方法。該方法的基本思路為：根據(jù)從總體中隨機抽出的一個樣本，在平面直角坐標系中找到一條直線，使得觀測值和擬合值之間的距離最短，即兩者之間殘差的平方和最小。

29線性（linearity）：指自變量與因變量之間的關系為單調(diào)的一次函數(shù)關系，因變量取值隨著自變量而變化的速率不隨自變量取值的大小不同而存在差異。另外，線性也指回歸分析中因變量為各回歸系數(shù)的線性組合。

30無偏性（unbiasedness）：當樣本統(tǒng)計量的期望值等于總體真值時，該統(tǒng)計量具有無偏性。無偏性是選擇估計量的首要標準。

31偏誤（bias）：統(tǒng)計估計中的估計值和真實值之間的差。

32忽略變量偏誤（omitted variable bias）：回歸模型設定中，由于忽略了某些本該納入?yún)s未納入的相關自變量，而該自變量又與模型中其他自變量存在相關，導致回歸參數(shù)估計值存在一定的誤差，則這一誤差被稱作忽略變量偏誤。偏誤的方向取決于被忽略變量對因變量效應的方向以及該自變量與已納入模型中自變量之間關系的方向；而偏誤的大小則直接取決于該忽略自變量對因變量的效應的大小以及與模型中其他自變量之間的相關關系的強弱，它們之間的相關性越強，則忽略變量偏誤越大。

33相關條件（correlation condition）：判斷回歸模型中存在忽略變量偏誤的條件之一，指的是被忽略的自變量與已納入模型中的關鍵自變量之間相關。

34有關條件（relevance condition）：判斷回歸模型中存在忽略變量偏誤的條件之一，指的是被忽略的自變量會影響因變量。

35有效性（efficiency）：對總體參數(shù)進行估計時，在所有可能得到的無偏估計量中，抽樣分布方差最小的無偏估計量，就具有有效性，是選擇估計量的另一個標準。

36獨立同分布假定（assumption ofindependent identical distributed errors）：或稱i.i.d.假定，假定一般線性模型中的隨機誤差項獨立（彼此獨立且獨立于自變量）并且服從零均值等方差的同質(zhì)性分布。

37一致性（consistency）：是選擇估計量的第三個標準。一致性表達的是，估計量以概率方式收斂于參數(shù)真值。

38最佳線性無偏估計（best linear unbiasedestimator）：在滿足所需假定條件的情況下，回歸參數(shù)的常規(guī)最小二乘估計是所有無偏線性估計中方差最小的，因此，將其稱作最佳線性無偏估計。

39近似多重共線性（approximatemulticollinearity）：當數(shù)據(jù)矩陣中一個或幾個自變量列向量可以近似表示成其他自變量列向量的線性組合時，就會出現(xiàn)近似多重共線性問題。此時，模型仍是可以估計的，只是參數(shù)估計值的標準誤過大，從而會造成統(tǒng)計檢驗和推論的不可靠。

40完全多重共線性（perfectmulticollinearity）：當數(shù)據(jù)矩陣中一個或幾個自變量列向量可以表示成其他自變量列向量的線性組合時，自變量矩陣X’X會嚴格不可逆，就出現(xiàn)了完全多重共線性。當發(fā)生完全多重共線性時，直接導致模型參數(shù)無解，即出現(xiàn)模型識別問題。

41復相關系數(shù)（multiple correlation coefficient）：度量復相關程度的指標。它是一個變量同時與數(shù)個變量之間的相關程度，可利用單相關系數(shù)和偏相關系數(shù)求得。復相關系數(shù)越大，表明變量之間的線性相關程度越高。

42容許度（tolerance）：回歸分析中反映自變量之間存在多重共線性程度的統(tǒng)計量之一。對每一個變量，定義容許度為1減去模型中其他自變量之間的復相關系數(shù)。顯然，當容許度越小，越接近０時，多重共線性就越嚴重。當容許度嚴格等于０時，也就是復相關系數(shù)嚴格等于１時，就意味著完全多重共線性的存在。

43方差膨脹因子（variance inflation factor）：回歸分析中反映自變量之間存在多重共線性程度的統(tǒng)計量之一，它等于容許度的倒數(shù)。對于某個自變量，其方差膨脹因子可定義為容許度的倒數(shù)。

· 回歸模型殘差檢驗

回歸模型估計完畢后，通常研究者會對模型估計的殘差進行檢驗，通過回歸殘差的性質(zhì)來判斷模型估計的效果。常用的檢驗有：Q檢驗和LM檢驗用來判斷殘差是否違背無相關假定、異方差檢驗用來判斷殘差是否違背同方差假定、正態(tài)性檢驗用于判斷殘差的分布。檢驗的一般程序（適用于絕大部分統(tǒng)計量檢驗）是計算相關統(tǒng)計量的原假設成立的概率P值，如果該概率P值小于某個設定顯著水平（通常為5%）,則拒絕原假設，認為備擇假設成立；反之，則不能拒絕原假設。

殘差自相關的Q檢驗

檢驗目的：Q統(tǒng)計量的全稱是Ljung-Box Q，該統(tǒng)計量一般用于檢驗序列是否存在自相關。檢驗假設：該統(tǒng)計量的原假設H0為：殘差序列不存在自相關；備擇假設H1為：殘差序列存在自相關。

殘差自相關的LM檢驗

LM檢驗是Breush-Godfrey Lagrange Multiplier的簡稱，主要用于檢驗殘差序列是否存在高階自相關的重要假設。該統(tǒng)計量的計算首先必須利用OLS估計出原模型的殘差序列u；然后以u為被解釋變量，以u的1到P階滯后項為解釋變量再次進行回歸，同時記錄該回歸的擬合優(yōu)度R方。LM檢驗統(tǒng)計量的原假設為H0為：殘差序列直到P階不存在自相關；備擇假設H1為：殘差序列P階內(nèi)存在自相關。

殘差的正態(tài)性檢驗

檢驗目的：Histogram-Normality Test檢驗主要是通過計算JB統(tǒng)計量實現(xiàn)的，JB統(tǒng)計量用來檢驗序列觀測值是否服從正態(tài)分布，在零假設下，JB統(tǒng)計量服從χ2(2)分布。檢驗假設：該檢驗的原假設H0為：樣本殘差服從正態(tài)分布。備擇假設H1為：殘差序列不服從正態(tài)分布。

殘差的異方差檢驗

檢驗目的：由于最小二乘方法是建立在殘差同方差假設基礎上的，一旦出現(xiàn)異方差就說明OLS方法就不可靠了，需要利用加權最小二乘方法進行糾正。異方差檢驗是利用輔助回歸的方法進行的，該統(tǒng)計量服從卡方分布。檢驗假設：懷特異方差檢驗的原假設H0為：殘差序列不存在異方差。備擇假設H1為：殘差序列存在異方差。

來源：計量經(jīng)濟學綜合整理

對于學習量化方法的小伙伴來說

回歸分析是必經(jīng)之路

路漫漫其修遠兮

小伙伴們繼續(xù)加油鴨！

相關熱詞搜索：留學論文干貨|