一元線性回歸模型檢驗_第1頁
一元線性回歸模型檢驗_第2頁
一元線性回歸模型檢驗_第3頁
一元線性回歸模型檢驗_第4頁
一元線性回歸模型檢驗_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、§2.4 一元線性回歸的模型檢驗一、經(jīng)濟意義檢驗。二、在一元回歸模型的統(tǒng)計檢驗主要包括如下幾種檢驗1、擬合優(yōu)度檢驗(R2檢驗;2、自變量顯著性檢驗(t檢驗;3、殘差標準差檢驗(SE檢驗。主要檢驗模型參數(shù)的符號、大小和變量之間的相關關系是否與經(jīng)濟理論和實際經(jīng)驗相符合。一、經(jīng)濟意義檢驗ii X Y 67.04.142+=在此例中,如果家庭可支配收入增加1元則家庭消費支出增加0.67元。經(jīng)濟意義檢驗通過。二、統(tǒng)計檢驗回歸分析是要通過樣本所估計的參數(shù)來代替總體的真實參數(shù),或者說是用樣本回歸線代替總體回歸線。盡管從統(tǒng)計性質上已知,如果有足夠多的重復抽樣,參數(shù)的估計值的期望(均值就等于其總體的參

2、數(shù)真值,但在一次抽樣中,估計值不一定就等于該真值。那么,在一次抽樣中,參數(shù)的估計值與真值的差異有多大,是否顯著,這就需要進一步進行統(tǒng)計檢驗。1、擬合優(yōu)度檢驗擬合優(yōu)度檢驗:對樣本回歸直線與樣本觀測值之間擬合程度的檢驗。度量擬合優(yōu)度的指標:判定系數(shù)(可決系數(shù)R2(1、總離差平方和的分解已知由一組樣本觀測值(X i ,Y i ,通過估計得到如下樣本回歸直線i i X Y 10+=i i i i i i i y e Y Y Y Y Y Y y (+=-+-=-=總離差平方和的分解i i X Y 10+=(Y Y y i i -=i i i i i i i ye Y Y Y Y Y Y y (+=-+-

3、=-=Y 的i 個觀測值與樣本均值的離差由回歸直線解釋的部分回歸直線不能解釋的部分離差分解為兩部分之和 總離差平方和的分解公式:TSS=RSS+ESS,TSS 總離差平方和,ESS 為回歸平方和,RSS 為殘差平方和.(0,0.0(2: 1022222222=+=-=-=-+=+=-+-=-+-+-=-+-=-=ii i i i i ii i i i i i i i i i i i i i i i i i i i i i X e e Y e e e Y Y e Y Y e Y Y ESS RSS y e Y Y Y Y TSS Y Y Y YY Y Y YY Y Y Y Y Y Y Y 而因為

4、證明TSS=ESS+RSSY的觀測值圍繞其均值的總離差(total variation可分解為兩部分:一部分來自回歸線(ESS,另一部分則來自隨機部分(RSS。在給定樣本中,TSS不變,如果實際觀測點離樣本回歸線越近,則ESS在TSS中占的比重越大,因此擬合優(yōu)度:回歸平方和ESS/Y的總離差TSSTSS RSS TSS ESS R -=1記2(2、擬合優(yōu)度(或者稱為可決系數(shù),決定系數(shù)等R 2統(tǒng)計量稱R 2 為(樣本可決系數(shù)/判定系數(shù)(coefficient of determination??蓻Q系數(shù)的取值范圍:0,1 ,可決系數(shù)是一個非負的統(tǒng)計量。它也是隨著抽樣的不同而不同。R 2越接近1,說

5、明實際觀測點離樣本線越近,擬合優(yōu)度越高。一般地要求R 20.7R 2表示解釋變量引起的變動占總變動的百分比。R 2表明用X 解釋Y 所達到的百分比。從而可看出解釋變量是否選擇完整。2、變量的顯著性檢驗(T 檢驗回歸模型是否可靠的另一個檢驗是:判斷解釋變量X 是否是被解釋變量Y 的一個顯著性的影響因素。目的:檢驗X i 是否為Y 的自變量。其作用是剔除模型中回歸系數(shù)不顯著的解釋變量,使模型更簡潔實用。在一元線性模型中,就是要判斷X 是否對Y 具有顯著的線性性影響。這就需要進行變量的顯著性檢驗。變量的顯著性檢驗所應用的方法是數(shù)理統(tǒng)計學中的假設檢驗。假設檢驗的復習所謂假設檢驗,就是事先對總體參數(shù)或總

6、體分布形式作出一個假設,然后利用樣本信息來判斷原假設是否合理,即判斷樣本信息與原假設是否有顯著差異,從而決定是否接受或否定原假設。先假定原假設正確,然后根據(jù)樣本信息,觀察由此假設而導致的結果是否合理,從而判斷是否接受原假設。判斷結果合理與否,是基于“小概率事件是不可能發(fā)生”這一原理。檢驗原理:2(,2,var(var(var(,var(,1,0(var(1,0(var(,2222212220-=-=-=n t S t t n S t :,S ,x x n X N Z i :N ,ii ii i i i i i i i i ii i ii i i 即分布的自由度為可以證明該統(tǒng)計量服從構造統(tǒng)計量來

7、代替用樣本方差即代替現(xiàn)用也未知故未知由于其中從標準正態(tài)分布則其標準化隨機變量服即服從正態(tài)分布回歸系數(shù)由于在基本假設下注:自由度是指統(tǒng)計量中可自由變化的樣本觀測值的個數(shù),它等于所用樣本觀測值的個數(shù)減去對觀測值的約束條件的個數(shù)。自由度是指變量可以自由取值得個數(shù),例如我們要測量學生的身高X,隨機抽取10名學生,如果沒有任何限制,則X可以自由取值10個值,自由度為10;但是如果我們限定10名同學的平均身高,那么隨機抽取9名后,最后一名的身高則不能隨意取值了,此時自由度減少一個,為10-1=9。在多元回歸模型中,對于一個包含k個解釋變量的回歸方程而言,待估計的參數(shù)個數(shù)為k+1(包括常數(shù)項,在我們根據(jù)最小

8、殘差平方和求偏導的過程中,會得到(k+1個方程構成的方程組,這k+1個方程實際上構成了對殘差的k+1個限制條件,所以凡是涉及到殘差構成的統(tǒng)計量,自由度就會減少k+1個,例如顯著性檢驗中的t檢驗和f檢驗的自由度等。假設檢驗過程如下:1、提出假設H 0:i =0, i=0,1,H 1:i 0, i=0,12、在H 0成立的條件下,有2(0-=-=n t S S t i i i i 根據(jù)樣本觀測值,計算t 統(tǒng)計量的值220( level(2ii i i t significance t n S P t t H =->=,然后給出顯著性水平,這個又決定了臨界值因為由數(shù)理統(tǒng)計的區(qū)間估計原理有從而可

9、以進一步檢驗是否成立注意,不同的研究者偏好不同的顯著性水平,沒有一個“標準”的顯著性水平,一般情況下取0.05或者0.01統(tǒng)計檢驗的原理(例如t 檢驗1、提出原假設:H 0:i =0, i=0,12、給定顯著水平(小概率3、在H 0成立下,收集數(shù)據(jù),構造檢驗用的t 統(tǒng)計量,4、查表得小概率發(fā)生的臨界值t /2。5、將計算結果(t 統(tǒng)計量與臨界值比較,若大于臨界值,小概率事件發(fā)生,根據(jù)小概率原理,在一次試驗中小概率事件是不會發(fā)生的?,F(xiàn)在,居然發(fā)生了。錯在哪里?6、原來是假設H 0錯了,因為一切都是在H 0成立下推證的,于是拒絕H 0。否則,不拒絕H 0.。=>2t t P 因為檢驗步驟:(

10、1對總體參數(shù)提出假設H 0:1=0,H 1:10(2以原假設H 0構造t 統(tǒng)計量,并由樣本計算其值111S t =(3給定顯著性水平,查t 分布表,得臨界值t /2(n-2(4 比較,判斷若|t 1|> t /2(n-2,則拒絕H 0,接受H 1;若|t 1|t /2(n-2,則拒絕H 1,接受H 0;對于一元線性回歸方程中的0和1,可構造如下t 統(tǒng)計量進行顯著性檢驗:1111110000,S S t S S t =-=-=在上述收入-消費支出例中,首先計算2的估計值273421021872222=-=-=n e i 019.07425000/2734221=ixS 45.4474250

11、0010/(536500002734(2220=iix n X S t 統(tǒng)計量的計算結果分別為:給定顯著性水平=0.05,查t 分布表得臨界值t 0.05/2(8=2.306|t 1|>2.306,說明家庭可支配收入在95%的置信度下顯著,即是消費支出的主要解釋變量;|t 0|>2.306,表明在95%的置信度下,無法拒絕截距項為零的假設,應該有常數(shù)項。其它的檢驗在多元中介紹.92.34019.067.0111=S t 2.345.444.14200=S t 書上P48有錯不用查表,直接從軟件計算中進行檢驗2.2-=n e E S iiS t i =P 值的含義:X 的系數(shù)等于0概

12、率為0_cons 142.4 44.44673 3.20 0.013 39.90565 244.8944 x .67 .0191891 34.92 0.000 .6257498 .7142502 y Coef. Std. Err. t P>|t| 95% Conf. Interval Total 3354954.9 9 372772.767 Root MSE = 52.288 Adj R-squared = 0.9927 Residual 21872.4 8 2734.05 R-squared = 0.9935 Model 3333082.5 1 3333082.5 Prob >

13、F = 0.0000 F( 1, 8 = 1219.10 Source SS df MS Number of obs = 10. reg y x面積0.985 面積 0.00625 面積 0.00625 -3.20 y x _cons Coef. .67 142.4 Std. Err. .0191891 44.44673 t 0 P>|t| 0.000 0.013 3.20 95% Conf. Interval .6257498 39.90565 .7142502 244.8944 34.92 3.20 P值(Prob=P-value)的含義是給定t統(tǒng)計量的觀測值,拒絕原假設的最小顯 著

14、性水平。 以上例為例,當自由度為8(=n-2時,t統(tǒng)計量為3.20,其對應的單邊區(qū)域面積為 0.00625(可由計算機算出,因此: p值=P(t>3.20=2*P (t>3.20=2*0.00625=0.013, 從系數(shù)的檢驗來看, P值的含義:X的系數(shù)等于0概率為0,常數(shù)項等于0的概 率為0.013。 P值的理解(不知分布函數(shù) 1、我們來檢驗姚明的身高(226)與中國男性平均身高是否有 差異。 原假設:H0: 姚明的身高(226)與中國男性平均身高無差異。 假設我們抽取10000個中國男性身高,可能有0個人的身高比姚 明高。則P值=0/10000,則p-value=0,落入5%區(qū)間,因此姚明的 身高(226)與中國男性身高有顯著差異,否定原假設。 2、我們來檢驗王中昭的身高(175)與中國男性平均身高是否 有差異。 原假設:H0:王中昭的身高(175)與中國男性平均身高無差異。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論