第五章 回歸分析_第1頁
第五章 回歸分析_第2頁
第五章 回歸分析_第3頁
第五章 回歸分析_第4頁
第五章 回歸分析_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第五章回歸分析§1.回歸分析的數(shù)學(xué)模型1.1.線性統(tǒng)計模型1.線性回歸方程從一個簡單的例子談起個人的消費水平Y(jié)與他的收入水平X間的關(guān)系,大體上可以描述:收入水平高,一般消費水平也高。但和X絕不是簡單的線性關(guān)系,這從常識便能判別;而且也不是一種確定的數(shù)學(xué)關(guān)系,兩個收入水平完全一樣的個人,他們的消費水平可能有很大的差異。比較合理的看法是:個人的消費水平是一個隨機變量,從平均的意義上看,應(yīng)與收入水平成正比。因此,我們可以給出以下模型:Y=b+bX+£⑴01其中b。,%是待定常數(shù)疋是隨機變量,且有E(e)=0,這樣就能保證(2)E(Y)=b+bX(2)01即從平均意義上Y和X線性相關(guān)。等式⑵稱為變量Y對于變量X的線性回歸方程。一般情況下,一個隨機變量與變量X1?X2,?,X有12p關(guān)系Y=b+bX+bX+??+bX+€(3)01122pp隨機變量E的期望E(€)=0,即有:E(Y)=b+bX+bX+?+bX(4)01122pp從平均意義上,,與X1,X2,…,X呈線性關(guān)系。(4)式稱為變量Y對12p于變量xi,x2,…,X的線性回歸方程,=1時,稱方程是一元的;pMTOC\o"1-5"\h\z12p2時,稱方程是多元的;bo,bi,?,b稱為回歸系數(shù)。01p2.統(tǒng)計模型的假設(shè)設(shè)變量Y與X1,X2,…,X之間有關(guān)系(3),對(X1,X2,?,X,Y)做n12p12p次觀察,得到一個容量為n的樣本:(x,x,…,x.,y.)i=l,2,…,n,i1i2ipi按(4)式給出的關(guān)系,這些樣本觀察值應(yīng)有:y=b+bx+bx+…+bx+E0111212p1p1y=b+bx+bx+…+bx+E(5)0121222p2p2y=b+bx+bx+…+bx+En01n12n2pnpn其中的Ei=1,2,…,n是隨機誤差,出于數(shù)學(xué)上推導(dǎo)的需要假設(shè):.E(e)=0,i=1,2,…,n?即觀察結(jié)果沒有系統(tǒng)誤差;.Var(E)p2,i=1,2,…,n?這個性質(zhì)叫做方差齊性;.第#頁共21頁Cov@)=0,iHj?由假設(shè)1),它等價于隨機誤差項互相不ij相關(guān)。3.矩陣表示以上模型與假設(shè),可以用矩陣表示。用矩陣表示有利于數(shù)學(xué)推導(dǎo)以及結(jié)果的表示。記向量,b疋和矩陣X分別為:丫二儀,y丫二儀,y2,…,y)“b=(b,bi?…,bp)“01pe=<£j,,???,€)/12nx11x21xn1xx11x21xn11px2pxnp模型(5)的矩陣表示便是Y=Xb+e(6)假設(shè)1)—3)便是E(e)=0Var(e)=a2I其中I是n級單位矩陣。1.2.回歸系數(shù)的最小二乘估計對于回歸方程(4),有兩個明顯的問題要解決:1)回歸系數(shù)如何確定?這基本上是一個參數(shù)估計問題2;)當回歸系數(shù)估計出結(jié)果后,回歸方程能在多大程度上代表變量與X”X2,…,X的真實關(guān)系,12p也就是所謂回歸方程的顯著性檢驗問題。先解決回歸系數(shù)的估計問題。設(shè)b=(b0,bi,?,b”的估計為01pb=(b,b,…,b)/01p估計值y二b+bx+bx+???+bx,i二1,2,???,n.i01i12i2pip最小二乘估計應(yīng)使Q=yn(y-y戶i=111最小,據(jù)此,經(jīng)數(shù)學(xué)推導(dǎo)可得b=(XX)-1XY這就是參數(shù)b的最小二乘估計,其中的逆矩陣X'X)-i稱為信息矩陣,用C=(c..),i,j=0,1,2,???,n表示。它在以后的估計與檢驗中經(jīng)ij常用到。1.3.回歸方程的顯著性檢驗1.復(fù)相關(guān)系數(shù)平方和分解公式設(shè)由樣本y=b+bx+bx+…+bx+e,i=1,2,…,ni01i12i2pipi得到的回歸方程是y=b+bx+bx+?…+bx,i=1,2,…,ni01i12i2pip由此得到的y.的估計值便是iy=b+bx+bx+???+bx01122pp數(shù)學(xué)上可以證明以下的“平方和分解公式”匹i=1(yi-亍)工n(-y)=En(y-y匹i=1(yi-亍)i=1ii=1ii誤差項E是不可直接觀察到的它只能從yi—yi的估計值中估計出來。Ei稱為殘差。我們記Total(TSS)=工n\—yi=1Residual(ESS)=n(y-y)2i=1iiRegression(RSS)=Yn(一y)i=1i其中Total為平方總和(TSS),Residual為殘差平方和(ESS),Regression為回歸平方和RSS)。(2)復(fù)相關(guān)系數(shù)平方和分解公式給出:TSS=ESS+RSS其中的TSS完全由樣本觀察值決定,在取定一組樣本后,它是一個常量。ESS是觀察值與估計值的誤差平方和,表示回歸直線的擬合誤差,ESS越?。≧SS的值就越大)回歸直線的擬合質(zhì)量就越好;反之,ESS越大(RSS就越小)回歸直線的擬合質(zhì)量就越差。所以,RSS的大小或RSS/TSS的大小,就成了衡量回歸方程好壞的尺度。記:RSSR2=-ESS+RSS稱它的算術(shù)平方根R為復(fù)相關(guān)系數(shù)(恰好康earson相關(guān)系數(shù)的絕對值)。這是一個從直觀上判斷回歸方程擬合好壞的尺度,有WRW1,顯然R值越大,回歸方程擬合越好。R2的校正值(AdjustedRSquare)由于多元線性回歸方程的復(fù)相關(guān)系數(shù)有隨著自變量個數(shù))增加

而增大的趨勢,為了準確反映模型的擬合程度,引入校正的判決系數(shù),即R2的校正值。這是一個更精確的2估計值它的計算公式是p(1—R2)

n—p—12.假設(shè)檢驗回歸方程擬合的好壞(也稱顯著與否)可以進行假設(shè)檢驗。假設(shè)為:H0:b1=b2=?=bp=0(意為:回歸方程不顯著)H:H不對10用F檢驗,統(tǒng)計量為:RSS/pF—-ESS/(n—p—1)其中,P為自變量的個數(shù)。若H為真,則F?F(p,n-p-1),檢驗臨界域由P(F>f)P確定。a1.4.回歸系數(shù)的顯著性檢驗1.檢驗的意義回歸系數(shù)的顯著性檢驗的目的是檢驗自變量對因變量作用的顯著程度,從而剔除回歸方程中那些對因變量作用不顯著的變量,簡化回歸方程。2.偏回歸平方和(1)偏回歸平方和的意義在平方和分解公式中,已經(jīng)得到:回歸平方和RSS是回歸方程擬合好壞的一個衡量尺度。設(shè)RSS是由包含全部自變量的回歸方程所計算的回歸平方和,而RSS(i)是剔除了自變量X.后,所得的回歸方程i計算而得的回歸平方和。差:△二RSS-RSS)表示在變量X.被剔除后,回歸平方和減少了多少顯然,AQ.越大,..說明變量X.越重要?!?.稱為變量X.的偏回歸平方和。...(2)計算公式b2亠,i=12,Pcii3.假設(shè)檢驗回歸系數(shù)的顯著性檢驗,假設(shè)為:H:b=0(即變量X不顯著)H:b豐00jj1j檢驗統(tǒng)計量為△b△btj若Ho為真,便有t?t(n-p-1),檢驗的臨界域由0jP(|t|>t)=a確定。a1.5.回歸方程的診斷1?共線性(Collinearit)y診斷1)共線性的含義p?2)元線性回歸方程YY二b+bX+bX+…+bX01122pp中,如果自變量X1,X2,?,X也構(gòu)成一個顯著的線性模型。換言之:12p存在一個自變量,不妨設(shè)它是],如果用首作因變量,對于剩下的自變量X2,…,X構(gòu)成一個顯著的-1元線性回歸方程:2p八X=c+cX+…+cXTOC\o"1-5"\h\z1022pp2)變量X的容限(Tolerancej設(shè)R是以自變量X.為因變量,與其他p-1個自變量構(gòu)成的-1R2jj元線性回歸方程的判決系數(shù),稱Tol(X)二1-R2jj為變量X.的容限。它是判斷回歸方程共線性的重要指標。顯然有:.0<Tol(X)<1。并且:Tol(X)的值越小,自變量(?的共線性越j(luò)..顯著。2.殘差分析1)殘差殘差(Residual)指實際觀察值與預(yù)測值之差:e=Y—Y,i=1,2,...,niii殘差向量:e=Y—Y=[I—X(XX)-1X']Yn殘差的均值為零,即有:E(e)=0。殘差的協(xié)方差矩陣D(e)j2[I—X(XX)-1Xqn2)Durbin-Watso統(tǒng)計量"(e—e)2d=1=p__t1—1乂ne2t=it當n充分大時,d-2(1-/),其中的j是殘差序列的一階自相關(guān)系數(shù)的估計。可見此時的值大約在區(qū)間[0,4]之內(nèi),而當d=2時,可判定殘差序列獨立?!?.命令Regression初步2.1.線性回歸分析命令使用1?命令調(diào)用Statistics^Regression^LinearLinearRegression對話框的使用Dependent是因變量框,Independent是自變量框。在使用的時候,只需要將因變量、自變量輸入各自的框中Method是方法選擇框,包括有Enter(直接進入)Stepwise(逐步回歸)Remove(移出)、Backward(向后剔除)和Forward(向前剔除)五種建立回歸方程的方法。系統(tǒng)默認的是Enter法。點擊網(wǎng)按鈕,系統(tǒng)將按照直接進入法進行回歸分析。下面詳細說明對話框中各部分的功能和使用方法。[Independent框]:用于選入回歸分析的自變量?!綧ethod下拉列表】用于選擇對自變量的選入方法,有Enter(強行進入法)Stepwis(逐步法)Remov(強制剔除法)Backward(向后法)Forward(向前法)五種。該選項對當前Independent框中的所有變量均有效。[SelectionVariable框1選入一個篩選變量,并利用右側(cè)的Rules鈕建立一個選擇條件,這樣,只有滿足該條件的記錄才會進入回歸分析?!綜aseLabels框】:選擇一個變量,他的取值將作為每條記錄的標簽。最典型的情況是使用記剝號的變量。【W(wǎng)LS>>鈕】:可利用該按鈕進行權(quán)重最小二乘法的回歸分析單擊該按鈕會擴展當前對話框,出現(xiàn)LSWeight框,在該框內(nèi)選入權(quán)重變量即可。【Statistics鈕】彈出Statistics對話框,用于選擇所需要的描述統(tǒng)計量?!綪lot鈕】:彈出Plot對話框,用于選擇需要繪制的回歸分析診斷或預(yù)測圖??衫L制的有標準化殘差的直方圖和正態(tài)分布圖,應(yīng)變量、預(yù)測值和各自變量殘差間兩兩的散點圖等?!維ave鈕】:可以存儲的有:預(yù)測值系列、殘差系列、距離(Distances)系列、預(yù)測值可信區(qū)間系列、波動統(tǒng)計量系列。下方的按鈕可以讓我們選擇將這些新變量存儲到一個新的PSS數(shù)據(jù)文件或XML中?!綩ptions鈕】設(shè)置回歸分析的一些選項3、利用回歸方程進行預(yù)測所謂預(yù)測即是對給定的=x。,利用回歸方程求Y的點估計與區(qū)間估計。(1)點估計當X=x0時,Y的點估計為:y°=b0+b1x°它也叫Y在X=x0的預(yù)測值。(2)區(qū)間估計設(shè)Y。是X=x。時變量Y的實際觀察值,則有Y的置信度為1-0的置信區(qū)間為:y°一J<Y°<y°+5o

其中5af(1,n-其中5af(1,n-2)&2[1+L+a(X-X)2—]n(X-X)2k=1kSE而其中的…=E1zn-2它是方差2的無偏估計。例1〗打開數(shù)據(jù)文件“多元回歸分析例題,”該文件記錄了某地區(qū)15年的國民收入(百億元),工業(yè)產(chǎn)值(百億元)X,農(nóng)業(yè)12產(chǎn)值(百億元)x3,就業(yè)人數(shù)(百萬人)x4,固定資產(chǎn)(百億元)x5345和財政收入(百億元)Y的年度數(shù)據(jù)。試建立Y對X的線性回歸方程,并對回歸方程及回歸系數(shù)的顯著性進行檢驗。調(diào)用線性回歸命令:Statistic尸Regression*Linear出現(xiàn)對話框后,將原變量框中的因變量財政收入(Y)輸入Dependent再將自變量:國民收入、工業(yè)產(chǎn)值、農(nóng)業(yè)產(chǎn)值、就業(yè)人數(shù)及固定資產(chǎn)輸入Independent原問題沒有規(guī)定用何種方法,用系統(tǒng)默認方法Enter,最后點擊匹按鈕,命令被執(zhí)行,系統(tǒng)輸出執(zhí)行清單Regression。清單第一部分是擬合過程中變量進入和移出情況表VariablesEntered/Removed,清單的第二部分模型概況odelSummary,是擬合模型的情況簡報,清單第三部分NOVA是方差分析表,這是所用模型的檢驗結(jié)果,可以看到這就是一個標準的方差分析表!清單第四部分Coefficients是有關(guān)回歸方程的內(nèi)容解決對系數(shù)的估計。給出了包括常數(shù)項在內(nèi)的所有系數(shù)的檢驗結(jié)果,用的是檢驗,根據(jù)這些數(shù)據(jù)就可以確定所求的線性回歸方程,這里是Y二4.759+0.631X+0.0005335X-1.094X-0.007073X+0.417X12345第二部分是Std.Error,它所列的數(shù)據(jù)是對應(yīng)各變量系數(shù)估計值的標準差;第三歹!StandardizedCoefficient是標準化回歸系數(shù),所謂標準化回歸方程是對觀察數(shù)據(jù)先進行標準化處理:X-Xy—Yx=—“,y=i,i=1,2.…,n;j—1,2,…,pijSiSXY然后,用標準化處理過的數(shù)據(jù)C,X,…,x,y)i—1,2,…,n;j—1,2,…,pi1i2ipi作回歸方程,這樣的回歸方程稱為標準化的回歸方程,y—1.759x+0.005x-1.016x-0.180x+0.347x12345它沒有常數(shù)項,Beta是它的回歸系數(shù),因此標準化回歸方程是第四、五列分別是回歸系數(shù)檢驗的值和對應(yīng)水平值Sig,可見:在a=0?05的顯著性水平下,只有國民收入(Sig=0.009和農(nóng)業(yè)產(chǎn)值(Sig=0.049)的回歸系數(shù)顯著。2?2.Method選擇回歸方法命令(回歸方程的優(yōu)化)對話框LinearRegession中的Method是選擇回歸方法的命令它為我們提供了五個建立回歸方程的方法Enter(也是系統(tǒng)默認的方法);Stepwise;Forward;BackwardRemove。以下重點介紹BackwordForward和Stepwise三種方法。1?自后淘汰變量法:BackwardBackward也稱自后淘汰變量法、消元法。它的工作過程是第一步:將所有的自變量引入回歸方程;第二步:對方程中的所有自變量作回歸系數(shù)的顯著性檢驗把,最不顯著的變量從方程中剔除;第三步:用未被剔除的所有變量,重新作一個回歸方程,重復(fù)第二步,一直到方程中包含的變量都顯著為止?!祭?〗數(shù)據(jù)文件同例1。用Backward方法建立回歸方程。從結(jié)果輸出中的Coefficients欄目內(nèi)容(附后)中可以看到:在Model1中,最不顯著的變量是“工業(yè)產(chǎn)值”ig=0?996),應(yīng)該剔除,所以在Model2中就沒有“工業(yè)產(chǎn)值”變量。在odel2中,最不顯著變量是“固定資產(chǎn)”(Sig=0?168),應(yīng)于剔除,所以在中便沒有“固定資產(chǎn)”變量。以下類同。最后iMbdel4中,所有變量都顯著,Backward過程停止。附表:〖例2〗輸出結(jié)果的Coefficients表2.向前選擇變量法:ForwardForward方法也稱向前選擇變量法,它的工作過程是第一步:將自變量中與因變量相關(guān)系數(shù)絕對值最大的變量引入方程;第二步:在剩下的自變量中,把與因變量偏相關(guān)系數(shù)(回歸方程中已包含的變量做控制變量)最大的變量變引入方程;第三步:重復(fù)第二步的做法,直到剩余自變量與因變量的偏相關(guān)系數(shù)都達不到指定的水平為止。〖例3〗數(shù)據(jù)文件同例1。用Forward方法建立回歸方程。從結(jié)果輸出的Coefficients表可以看出:回歸方程是Y=1.957+1.148X5t檢驗在0.01水平之下顯著(Sig?=0?000)。3.逐步回歸法:StepwiseStepwise方法也稱逐步引入剔除法,它的工作過程是:將向前引入法和向后剔除法結(jié)合起來,在向前引入的每一步都要考慮從已

引入方程的變量中剔除作用不顯著者,直到?jīng)]有一個自變量能引入方程和沒有一個自變量能從方程中剔除為止?!?.殘差3.1.殘差的獨立性診斷用Durbin-Watson檢驗法進行診斷。計算統(tǒng)計量DW,當|DW-2|過大時,拒絕原假設(shè),認為殘差之間是相關(guān)的:正相關(guān);當DW〉2時,殘差負相關(guān)。當DW^2時,認為殘差之間是獨立的。3.2.殘差的方差齊性診斷通過分析標準化預(yù)測值X通過分析標準化預(yù)測值X軸)學(xué)生化殘差Y軸)散點圖來實現(xiàn)。當圖中各點分布沒有明顯的規(guī)律性,即殘差的分布不隨預(yù)測值的變化而增大或減小時,或圖中各點在縱軸零點對應(yīng)的直線上下基本均勻分布),因此可以認為方差齊性的假設(shè)成立。3.3.殘差的正態(tài)性診斷殘差的正態(tài)性診斷可以通過直方圖和-P正態(tài)概率圖來實現(xiàn)當P-P圖基本成一直線時,正態(tài)性診斷通過。

附錄:1.最小二乘估計可形式定義p(y一乙bx)2

ijijxi0=1,i=1,2?ni=10bknp可形式定義p(y一乙bx)2

ijijxi0=1,i=1,2?ni=10bknp=-2乙(y-乙bx)x=0,jijikk=0,1,…pi=1i=1j=0yx=iiknp乙(乙bx)x,kjijik0,1,…pi=1j=0xy=ikipn乙(乙xx)b,kijjiko,l,…pi=1i=1j=0i=1Y=Xb=X(XX)-iXY定義11x定義11xn=(1,1,…1)1xnZpZpny=乙(乙inpxx)b=乙乙xbikijjijji=1i=1j=0i=1i=1j=01xn1xnZny=1Xb=乙yi1xni=1i=1i=1i=122.估計參數(shù)無偏性:Eb=ELXX)-1XY]的性質(zhì)=(XX)-1XEY=(XX)-1XXb=b協(xié)方差矩陣:工"=Cov(b,b)b=Cov((XX)-1XY,(XX)-1XY)=(XX)-1XCov(Y,Y)X(XX)-1=(XX)-1X21?X(XX)-1n=G2(XX)-1

3.平方和n于,3.平方和TSS=L(y-y)2=乙((y-y)+(y-y))2TOC\o"1-5"\h\ziiiii=1i=1=ESS+RSS+2乙(y-y)(y-y)iiii=1???L(y-y)(y-y)=L(y-y)y-yL(y-y)iiiiiiiii=1i=1ii=1Lnnn(y-y)=Ly-乙y=0iiiii=1i=1i=1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論