現(xiàn)代統(tǒng)計方法-多元回歸spss軟件實際操作過程全解_第1頁
現(xiàn)代統(tǒng)計方法-多元回歸spss軟件實際操作過程全解_第2頁
現(xiàn)代統(tǒng)計方法-多元回歸spss軟件實際操作過程全解_第3頁
現(xiàn)代統(tǒng)計方法-多元回歸spss軟件實際操作過程全解_第4頁
現(xiàn)代統(tǒng)計方法-多元回歸spss軟件實際操作過程全解_第5頁
全文預覽已結(jié)束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 第九部分多元線性回歸一、多元線性回歸模型多元線性理論回歸模型的一般形式y(tǒng)=卩+卩x+卩x+卩x+01122ppE(e)=0Var(e)=c2,y),上式可寫成方程組形式n對n組試驗數(shù)據(jù)(xn,怙,,xip,y)(G,B,,X2p,Xn1,怙,XpTOC o 1-5 h zy=卩+卩x+卩x+卩x+e0111212p1p1y=卩+卩x+卩x+卩x+e0121222p2p2y=P0+P,n01xn1P2xn2+Pxpnp+en寫成矩陣形式為y=XP+e其中y1rixiiy=y221xn1xpxp,P=p1,e=(e)1e2x丿penp丿p丿,n丿基本假設條件(1)rank(X)=p+1n,該假設

2、條件的成立說明自變量x,x,,x不相關12p(2)E(e)=0i=1,2,ni/、b2i=jCOV(e.,e.)=Ij0i工j、J違反(1)稱為多重共線性,違反(2)稱為序列相關和異方差。我們將在后面內(nèi)容的討論不滿足條件的處理辦法。(3Je.N(0,b2)i=1,2,.,n(3)p+1,所以有基本假設np+1。三、多元回歸的顯著性檢驗多元回歸的顯著性檢驗包括回歸方程的顯著性檢驗和回歸系數(shù)的顯著性檢驗,兩者既有相同之處,也有不同之處。1.回歸方程顯著性的F檢驗多元回歸方程的顯著性檢驗就是看自變量x,x,,x從整體上對隨機變量y是否有顯著的影響,而提出假設12pH0:卩1=卩2=Pp=0如果H被接

3、受,則表明隨機變量y與自變量x,x,x之間的關系由線性回歸模型表示不合適。012p同一元回歸討論類似,有平方和分解公式工(yi-y)2=工(yi-y)2+工(yi-y.)2iiii簡寫為SST=SSR+SSE在正態(tài)假設下,當H0成立時,統(tǒng)計量F=SSR/pSSE/(n-p-1)F(p,n-p-1)對給定的檢驗水平,檢驗規(guī)則為:當FF“(p,n-p-1)時,拒絕H,否則就接受H.vX002.回歸系數(shù)顯著性的t檢驗在多元線性回歸中,雖然通過了回歸方程的顯著性檢驗(拒絕H0),但并不意味著每個自變量對y的影響都是顯著的,因此要對每個自變量進行顯著性檢驗。而提出假設H00.=0,j=1,2,p0jj如

4、果H0被接受,則表明自變量x對隨機變量y的影響不顯著;如果H0被拒絕,則表明自變量x對隨機變量y的影響時0jj0jj顯著的。由0N(P,b2(XTX)-1),記(XTX)-1=C=(c),則N(0,ca2),j=1,2,p,因此,在假設H成立下,ijjjjj0jt=.t(n-p-1)佟a,c.jj對給定的檢驗水平X,檢驗規(guī)則為:當111tX(n-p-1)時,拒絕H,否則就接受H。X20j0j盡管回歸方程通過了顯著性檢驗,但也會出現(xiàn)某個自變量x(甚至于每個自變量x)對隨機變量y的影響不顯著的情況;jj在實際問題中可以刪除一些不顯著的變量(逐步回歸),從而簡化而突出主要變量;例1本例研究第三產(chǎn)業(yè)對

5、旅游外匯收入的影響。中國統(tǒng)計年鑒把第三產(chǎn)業(yè)劃分為12個組成部分,分別為x1-農(nóng)林牧漁服務業(yè),x-地質(zhì)勘查水利管理業(yè),x-交通運輸倉儲和郵電通信業(yè),x-批發(fā)零售貿(mào)易和餐飲業(yè),x-金融保險2345業(yè),x-房地產(chǎn)業(yè),x-社會服務業(yè),x-衛(wèi)生體育和社會福利業(yè),x-教育文化藝術和廣播,x-科學研究和綜合藝678910術,x-黨政機關,x-其他行業(yè)。y-國際旅游外匯收入(百萬美元),自變量單位為億元人民幣。1112執(zhí)行SPSS操作得回歸方程為y=205.552-1.495x+2.649x+1.360 x1212由Anova表可以看到通過了檢驗(12個自變量作為一個整體對因變量影響顯著)。由系數(shù)表可以看到1

6、2個自變量都沒有通過檢驗。四、數(shù)據(jù)處理的基本方法1.數(shù)據(jù)標準化對樣本數(shù)據(jù)x,y,i=1,2,n;j=1,2,p,記ijix.-xiyi-yx*=jij,y*=ij.si-sssj/yy稱x*ijy*,為標準化后的數(shù)據(jù)。其中s/j=沽丫(xj-xj)2為變量xj對應的樣本數(shù)據(jù)的樣本方差,syy=沽丫(yj-y)2l=(y.-y)2,稱為樣本離差。yyji=1i=1i=1n為變量y對應的樣本數(shù)據(jù)的樣本方差。有時記1丄(x.-x.)2jjijji=12.標準化回歸系數(shù)對擬合回歸方程y=0+0 x+0 xH0 x,由于y=0+0 x.+0 x2H0 x,兩式相減得中心化回歸方程01122pp01122

7、ppTOC o 1-5 h z夕=0 xf+0 x,0 x1122pp再除以/syy,整理得標準化回歸方程AAAAy*=0*x*+0*x*0*x*1122ppAS八lA其中,0*=-=0.=0.,j=1,2,pJ右JJlJyyyy例1的標準化回歸方程為y*=-0.013xi*+.23x2+.42xi*2AA普通最小二乘估計0表示在其他變量不變下,自變量x的每單位絕對變化引起的因變量均值的絕對變化量,而0*則jjj表示自變量xj的每單位相對變化(1%)引起的因變量均值的相對變化量的百分比??偨Y(jié)普通最小二乘估計的系數(shù)不具有可比性,如y=200+200 x1+2x2。用標準化回歸系數(shù)解釋變量的相對重

8、要性就比較理想了,但要注意的是,當變量之間具有相關性時,會影響標準化回歸系數(shù)的大小。五、相關系數(shù)與決定系數(shù)1.簡單相關系數(shù)在一元線性回歸中,定義x與y的樣本相關系數(shù)為lr=xy、:;llxxyy及樣本決定系數(shù)r2,并有r2=5SR=1-5SEr=SST=SST因此,樣本決定系數(shù)r2反映了x與y的相關關系,且r2越接近1,表示回歸擬合效果越好,如r2=90%可解釋為,因為x的變化而引起y的90%的變化,另10%的變化是由其他因素引起的,或敘述為x解釋了y的90%的變差。類似于上面定義,可定義任意變量x與x的簡單相關系數(shù)r和決定系數(shù)及變量x與y的簡單相關系數(shù)r和決定系數(shù)ijijiiy1212r2=

9、jr2=iyijlliylliijjiiyy2.復相關系數(shù)在多元線性回歸中,類似定義y與x,x,x的樣本復決定系數(shù)為12pR2=趣=1-亞SSTSST及樣本復相關系數(shù)為模:型匯總模型RR方調(diào)整R方標準估計誤差1.935a.875.792304.680復相關系數(shù)R反映了y與一組變量x,x,,x的相關關系。例1的R2=0.875,R=0.935。12p實際問題中,當然R越接近1越好,但有時顧及到模型結(jié)構的合理解釋,R2能在0.7左右也是可以接受的,當樣本容量與自變量的個數(shù)接近時,R2很容易接近1,因此不能僅以R2的大小來決定模型的優(yōu)劣。例2在建立建筑業(yè)降低成本率對流動資金、固定資金、優(yōu)良品率、竣工

10、面積、勞動生產(chǎn)率和施工產(chǎn)值的關系時,利用數(shù)據(jù)進行回歸。從輸出結(jié)果中可以看出,雖然R2=0.92679,但方程沒有通過F檢驗(p=0.207)。六、偏決定系數(shù)在多元線性回歸分析中,由于自變量之間的相關性的產(chǎn)生,不但使一些量會發(fā)生變化,解釋上也有所不同。比如在考慮y與x和x的關系時,r2=90%,解釋為x影響了y的90%,x與其他因素一共影響10%,但r2=90%,又說明x的12y112121變化有90%是由x引起的,即x通過x就影響了y的81%,現(xiàn)在再說x是影響y的主要因素就不合適了。2211因此,當自變量有自相關時,y與一組變量x,x,,x的擬合方程中x的回歸系數(shù)0不能完全反映x對y的內(nèi)在效1

11、2pjjj應,而只反映邊際的或部分的效應。一項生產(chǎn)任務由10人完成,甲完成其中10%,如果甲與其他人沒有協(xié)作,則甲的能力與其他人相當,但如果甲有幫助其他人的現(xiàn)象,則甲的能力就不止10%。如何測算出甲的能力呢?設總量為,那就是先讓其他9人去生產(chǎn)得產(chǎn)量,然9A-A后將甲加進去去生產(chǎn)得產(chǎn)量A,則A-A就是甲的貢獻,或A10A9X100%就是甲的能力。TOC o 1-5 h z10109A余定義記2SSR(x(,x.)-SSR(xjr2=12y2:1SSE(x1)稱為x1已在回歸模型中,y與x2之間的偏決定系數(shù)。同理,設模型中已含有x,,x時,再加入x時,y與x的偏決定系數(shù)為2p11SSE(x,,x)

12、一SSE(x,x,,x)r2=2p+2yh2,3,PSSE(x,,x)2p它反映了在其它變量不變的情況下,x1對y回歸的邊際貢獻。類似定義偏相關系數(shù)為偏決定系數(shù)的平方根,其符號與相應的回歸系數(shù)的符號相同。根據(jù)偏相關系數(shù)的大小,可以判定哪些自變量對因變量的影響較大。比如r2r2,則說明x對y的影響要強于xy2:1y1:221例3研究北京市各經(jīng)濟開發(fā)區(qū)經(jīng)濟發(fā)展與招商投資的關系,因變量y為各開發(fā)區(qū)的銷售收入(百萬元),自變量x1為招商企業(yè)數(shù)目,x2為招商企業(yè)注冊資本(百萬元),以y對、x2進行二元回歸。SPSS操作:進入數(shù)據(jù)編輯器界面,點擊【分析】T【回歸】T【統(tǒng)計量】,在打開的統(tǒng)計量框中點選【部分

13、相關和偏相關】,確定即可。x1和x2共消除了y的84.2%變差。由模型匯總表知:R2=0.842,即y對和x2進行回歸時,由系數(shù)表知:y對x的決定系數(shù)為r2=(0.807)2=65.1%,偏決定系數(shù)為r2=(0.802)2=64.3%;1y1y1:2同理可得y對x決定系數(shù)為r2=(0.746)2=55.7%,偏決定系數(shù)為r2=(0.739)2=54.6%。TOC o 1-5 h z2y2y2:1解釋如下:y單獨對x回歸時,x消除了y的r2=(0.807)2=65.1%總變差,加入x后,x又消除了剩余的34.9%中的11y122r2=(0.739)2=54.6%的變差,即消除34.9%X54.6%=19.1%的總變差,因此,共消除65.1%+19.1%=84.2%總變差;y2:1同理,y單獨對x回歸時,x消除了y的r2=(0.746)2=55.7%總變差,加入x后,x又消除了剩余的44.3%中的22y211r2=(0.802)2=64.3%的變差,即消除44.3%X64.3%=28.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論