多元線性回歸分析課件_第1頁
多元線性回歸分析課件_第2頁
多元線性回歸分析課件_第3頁
多元線性回歸分析課件_第4頁
多元線性回歸分析課件_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多元線性回歸模型(一)對多變量資料進(jìn)行多元分析的優(yōu)點(diǎn):1、減少假陽性錯誤;2、可以得到一個綜合結(jié)論;3、考慮了變量間的相互關(guān)系??偠灾?,是對多個相關(guān)變量同時進(jìn)行分析。(二)多元線性回歸分析的應(yīng)用條件1.應(yīng)變量與自變量之間的關(guān)系是線性的(linear)2.各自變量之間相互獨(dú)立(indedpendent)3.各變量滿足正態(tài)性(此條件可以放寬)(normality)4.方差齊性(homogeneityorequalvariance)簡稱為LINE復(fù)習(xí)直線回歸(一)直線回歸是研究一個因變量與一個自變量之間線性趨勢數(shù)量關(guān)系的回歸分析方法。1、直線回歸方程為?=a+b*x,反映的是x和y之間數(shù)量依存變化關(guān)系;2、a是截距,b是回歸系數(shù),a和b是利用最小二乘法原理計(jì)算而來;3、用決定系數(shù)R2來說明回歸模型的好壞,R2=SS回/SS總。復(fù)習(xí)直線回歸(二)PAN.sav數(shù)據(jù)庫是某地29名13歲男童的體重x

(kg)和肺活量y(L)資料,試建立體重與肺活量的直線回歸方程。SPSS程序:AnalyzeRegressionLinear,打開對話框,把肺活量y放入應(yīng)變量欄中,體重x放入自變量欄中。建立的直線回歸方程為:?=-0.009+0.060xa=-0.009;b=0.060,表示體重每增加1kg,肺活量平均增加0.060L。R2=0.542。經(jīng)t檢驗(yàn),體重對肺活量有影響,P=0.000<0.05。多元線性回歸模型(一)舉例(見PAN.sav):根據(jù)某地29名13歲男童的身高x1(kg)、體重x2(cm)和肺活量y(L)建立的二元線性回歸方程為:?=-0.577+0.005x1+0.054x2

a=-0.577;

b1=0.005,表示在體重不變的情況下,身高每增加1cm,肺活量平均增加0.005L;

b2=0.054,表示在身高不變的情況下,體重每增加1kg,肺活量平均增加0.054L。多元線性回歸模型(二)

設(shè)因變量為y,自變量為xi(i=1,….,m),m元線性回歸方程為:?=a+b1*x1+b2*x2+….+bm*xm,或y=?+e。?

是y的估計(jì)值或預(yù)測值;e是殘差,不能由現(xiàn)有的自變量決定的部分;a為常數(shù)項(xiàng)或截距;bi為樣本偏回歸系數(shù),即在其它自變量固定不變情況下,xi改變一個單位,因變量平均改變bi個單位。對應(yīng)的總體偏回歸系數(shù)為βi,若βi=0,則該自變量xi與因變量y之間無線性關(guān)系,即xi對因變量y無影響。建立線性回歸方程(一)即計(jì)算截距a和回歸系數(shù)bi,應(yīng)用最小二乘法原理,即要求殘差平方和達(dá)到最小。以PAN.sav為例,作身高、體重對肺活量影響的多元線性回歸分析。選擇變量的方法有強(qiáng)迫引入法(系統(tǒng)默認(rèn))、強(qiáng)迫剔除法、向前引入法、向后剔除法、逐步回歸法。建立線性回歸方程(三)SPSS中常用的對話框有:“Statistics”對話框中的“Estimates”和“Confidenceintervals”、“Model”選項(xiàng)。自變量只有兩個,應(yīng)用系統(tǒng)默認(rèn)的強(qiáng)迫引入法進(jìn)行分析,得出二元線性回歸方程為:

?=-0.577+0.005x1+0.054x2

對應(yīng)SPSS的結(jié)果中標(biāo)題為“Coefficients”的表格。回歸方程的假設(shè)檢驗(yàn)(一)與直線回歸類似,根據(jù)y總變異的分解對回歸方程進(jìn)行方差分析。在回歸分析中,y方面的總變異lyy分解為回歸貢獻(xiàn)U和剩余變異Q:lyy=U+QQ是總變異中不能由自變量解釋的殘差平方和,U是總變異中由自變量所引起的一部分變異。自變量的作用是否顯著,或整個方程是否有意義,就看回歸所能解釋的變異U比剩余變異Q大多少而定,即進(jìn)行方差分析。回歸方程的假設(shè)檢驗(yàn)(二)方差分析的步驟如下:H0:總體中所有偏回歸系數(shù)均為0;H1:總體中偏回歸系數(shù)不為0或不全為0。α=0.05。F=MS回歸/MS剩余,得P值大小;若P≤0.05,則拒絕H0,接受H1,說明回歸方程成立,因變量與自變量之間有線性關(guān)系;若P>0.05,則不拒絕H0,說明回歸方程不成立,因變量與自變量之間無線性關(guān)系。對應(yīng)SPSS的結(jié)果中標(biāo)題為“ANOVA”的表格,p=0.000。SPSS的結(jié)果中標(biāo)題為“ANOVA”的表格衡量回歸方程的標(biāo)準(zhǔn)

建立回歸方程時要求:既要盡可能提高擬合的精度,又要盡可能使模型簡單。常用的衡量方程“優(yōu)劣”的標(biāo)準(zhǔn)有:1、決定系數(shù)(R2);2、復(fù)相關(guān)系數(shù)R3、調(diào)整決定系數(shù)(R2adj);4、剩余標(biāo)準(zhǔn)差(sy.x1x2…xp)。5、赤池信息準(zhǔn)則(AIC)6、Cp統(tǒng)計(jì)量衡量回歸方程的標(biāo)準(zhǔn)根據(jù)R2大小判斷方程優(yōu)劣時的缺點(diǎn)是:變量最多的方程最好,即使所增加的變量無統(tǒng)計(jì)學(xué)意義。根據(jù)R2adj大小判斷方程優(yōu)劣時的優(yōu)點(diǎn):當(dāng)有統(tǒng)計(jì)學(xué)意義的變量進(jìn)入方程,R2adj增加;當(dāng)無統(tǒng)計(jì)學(xué)意義的變量進(jìn)入方程,R2adj反而減少。根據(jù)sy.x1x2…xp大小判斷方程優(yōu)劣時的優(yōu)點(diǎn):一般隨著自變量的增加而減少,但當(dāng)增加一些無統(tǒng)計(jì)學(xué)意義的自變量后,剩余標(biāo)準(zhǔn)差反而增大。根據(jù)復(fù)相關(guān)系數(shù)R來判斷,但只反映密切程度,不反應(yīng)方向偏回歸系數(shù)的假設(shè)檢驗(yàn)

回歸方程有統(tǒng)計(jì)學(xué)意義,并不等于方程中每個變量都有統(tǒng)計(jì)學(xué)意義,因此要分別檢驗(yàn)每個偏回歸系數(shù)是否均為0,用t檢驗(yàn):H0:βi=0,H1:βi≠0;α=0.05。

ti=bi/sbi

,得P值大小,若P≤0.05,則拒絕H0,接受H1,說明該變量有統(tǒng)計(jì)學(xué)意義;若P>0.05,則不拒絕H0,說明該變量無統(tǒng)計(jì)學(xué)意義。對應(yīng)SPSS的結(jié)果中標(biāo)題為“Coefficients”的表格,經(jīng)t檢驗(yàn),身高變量無統(tǒng)計(jì)學(xué)意義,而體重變量有統(tǒng)計(jì)學(xué)意義。偏回歸系數(shù)的區(qū)間估計(jì)sbi為樣本偏回歸系數(shù)bi的標(biāo)準(zhǔn)誤,總體偏回歸系數(shù)βi的可信區(qū)間(即按照一定的概率,由bi估計(jì)βi所在的可能范圍)為:

bi±tα,(n-m-1)*sbi,樣本含量為n,自變量數(shù)為m。

bi的可信區(qū)間若包含了0,則該變量無統(tǒng)計(jì)學(xué)意義;若不包含0,則該變量有統(tǒng)計(jì)學(xué)意義,與假設(shè)檢驗(yàn)的結(jié)果一致。對應(yīng)SPSS的結(jié)果中標(biāo)題為“Coefficients”的表格里。自變量的貢獻(xiàn)(二)一個自變量對因變量y的作用除了直接作用外,還有該變量通過其它自變量對y的間接作用。如:x1、x2是自變量,y為應(yīng)變量,x1與y之間的相關(guān)系數(shù)為r1y,x1與x2的相關(guān)系數(shù)為r12X1b1’x1的標(biāo)準(zhǔn)偏回歸系數(shù)為b1’r12Yx2的標(biāo)準(zhǔn)偏回歸系數(shù)為b2’X2b2’則:x1對y的直接作用=b1’x1對y的間接作用=b2’*r12x1對y的總作用

r1y=b1’+b2’*r12。因變量的區(qū)間估計(jì)由回歸方程計(jì)算的?值,是在自變量取值一定的條件下y的均數(shù)的一個點(diǎn)估計(jì),但自變量取值一定時,y一般不會正好等于?,因此需估計(jì)y的可信區(qū)間和容許區(qū)間,(1-α)%可信區(qū)間為:?±tα,(n-m-1)*s?(1-α)%容許區(qū)間為:?±tα,(n-m-1)*syα一般取0.05。SPSS軟件中,選中“Save”對話框中的“Mean”、“Individual”選項(xiàng),結(jié)果(兩個區(qū)間的上、下限值)已保存到數(shù)據(jù)文件中,分別對應(yīng)(lmci

1,umci

1)和(lici

1,uici

1)。標(biāo)準(zhǔn)化殘差,對應(yīng)SPSS結(jié)果中的“Residual”逐步回歸(一)

Stepwise(逐步回歸法)是一種從眾多的回歸模型中快速選擇“最優(yōu)”模型的統(tǒng)計(jì)思維方法或建模策略,保證“最優(yōu)”模型中的自變量少而精。它的作用主要是篩選回歸自變量。方法有:逐步向前法和逐步向后法。逐步回歸(二)步驟(介紹逐步向前法):1、事先給定一個剔除變量的標(biāo)準(zhǔn);2、按自變量對因變量的貢獻(xiàn)大小,由大到小依次進(jìn)入方程;3、每當(dāng)一個自變量進(jìn)入方程,重新對方程內(nèi)的自變量進(jìn)行假設(shè)檢驗(yàn),有統(tǒng)計(jì)學(xué)意義的自變量繼續(xù)留在方程中,無統(tǒng)計(jì)學(xué)意義的自變量則被剔除;4、如此邊引入邊剔除,直到既沒有新的有統(tǒng)計(jì)學(xué)意義的自變量可引入方程內(nèi),也沒有無統(tǒng)計(jì)學(xué)意義的自變量被剔除方程外為止。指標(biāo)的量化(一)應(yīng)用線性回歸時要求因變量是定量指標(biāo),自變量與因變量的關(guān)系為線性的。1、對定量指標(biāo):符合線性要求的,直接以原變量形式進(jìn)入分析;若不符合線性要求的,作適當(dāng)變量變換,直到符合線性關(guān)系時,方可作回歸分析。2、對定性指標(biāo):(1)二分類指標(biāo):若變量x為性別,則女性為x=0,男性為x=1,作出的回歸方程中x的系數(shù)b表示男性的因變量y比女性平均多b個單位。指標(biāo)的量化(二)(2)多分類指標(biāo):若變量x為血型(A、B、AB、O型四種),則需用3個啞變量(或指示變量)表示四種血型:x1=0、x2=0、x3=0,表示O型;x1=1、x2=0、x3=0,表示A型;x1=0、x2=1、x3=0,表示B型;x1=0、x2=0、x3=1,表示AB型。O型為對比的基礎(chǔ),方程中x1的系數(shù)b1表示A型血者的因變量y比O型血者平均多b1個單位;x2的系數(shù)b2表示B型血者的y比O型血者平均多b2個單位;x3的系數(shù)b3表示AB型血者的y比O型血者平均多b3個單位。指標(biāo)的量化(三)

3、對等級資料(1)若變量x為文化程度,而且因變量y的改變在每個等級上是近似相等的,則將等級數(shù)量化后直接進(jìn)入分析。如:x=0表示文盲,x=1表示小學(xué),x=2表示中學(xué),x=3表示中學(xué),x=4表示大學(xué)本科,x=5表示碩士、博士。結(jié)果中x的系數(shù)b表示:文化程度每上升一個等級,則因變量增加b個單位;(2)若因變量y的改變在每個等級上是不相等的,則與多分類指標(biāo)一樣要設(shè)啞變量,結(jié)果解釋也與其一樣?;貧w系數(shù)反常的原因回歸方程建立后,可能發(fā)現(xiàn)回歸系數(shù)從專業(yè)知識上解釋不通;或整個方程顯著,但每個變量均沒有顯著性;或有些變量從專業(yè)上看很重要,卻選不進(jìn)方程。原因主要有:1、數(shù)據(jù)中有離群值或異常值;2、樣本含量不夠,或自變量數(shù)太多;3、自變量的觀察范圍太窄,或方差太??;4、自變量之間存在共線性。多元共線性會導(dǎo)致的現(xiàn)象:1.符號與實(shí)際不符合2.回歸系數(shù)的估計(jì)值與實(shí)際相差太大3.回歸系數(shù)的標(biāo)準(zhǔn)誤太大,重要變量選不進(jìn)方程4.整個方程有顯著性,而每一個自變量均無顯著性多重共線性(一)例如試建立由外形指標(biāo)(x1、x2、x3分別為身長、頭圍、體重)推測胎兒周齡y的回歸方程:y對x1、x2、x3的一般多元線性回歸分析,建立方程為?=11.0117+1.6927x1-2.1589x2+0.0075x3,出現(xiàn)頭圍的回歸系數(shù)為負(fù)的不合理現(xiàn)象。懷疑3個自變量之間存在共線性。共線性的主要解決方法:嶺回歸或主成分回歸。多重共線性(二)多重共線性一詞最早由R.弗里希于1934年提出,它指的是回歸模型中某些或所有自變量間存在完全或近似完全的線性關(guān)系。目前常用的多重共線性診斷方法有:1.自變量的相關(guān)系數(shù)矩陣診斷法:研究變量的兩兩相關(guān)分析,如果自變量間的相關(guān)系數(shù)很大,則認(rèn)為存在多重共線性。2.方差膨脹因子(thevarianceinflationfactor,VIF)診斷法:方差膨脹因子表達(dá)式為:VIFi=1/(1-R2i)。其中Ri為自變量xi對其余自變量作回歸分析的復(fù)相關(guān)系數(shù)。當(dāng)VIFi很大時,表明自變量間存在多重共線性。

多重共線性(三)

3.容忍值(Tolerance,簡記為Tol)法:容忍值實(shí)際上是VIF的倒數(shù),即Tol=1/VIF。其取值在0~1之間,Tol越接近1,說明自變量間的共線性越弱;Tol越接近0,說明自變量間的共線性越強(qiáng)。在應(yīng)用時一般先預(yù)先指定一個Tol值,容忍值小于指定值的變量不能進(jìn)入方程,計(jì)算結(jié)果具有穩(wěn)定性。4.條件數(shù):某些維度該指標(biāo)的數(shù)值大于30,則說明存在共線性5.特征根分析法:如果相當(dāng)多維度的特征根約等于0SPSS過程:在打開按鈕“Statistics”后的對話框中,選中“CollinearityDiagnostics”和“PartandPartialCorrelations”即可;結(jié)果中有相關(guān)系數(shù)矩陣、VIF、Tol、條件數(shù)。嶺回歸簡介關(guān)鍵:確定嶺參數(shù)k。步驟:1、選擇不同的嶺參數(shù)k,估計(jì)相應(yīng)的回歸系數(shù);2、將不同k值時的回歸系數(shù)連成一條曲線,即嶺跡;3、觀察嶺跡穩(wěn)定(或各回歸系數(shù)穩(wěn)定)時所對應(yīng)的k值即為嶺參數(shù)k;4、建立嶺參數(shù)k下的回歸方程。優(yōu)點(diǎn):嶺回歸分析所得的回歸方程符合實(shí)際情況。不同嶺參數(shù)時各自變量的回歸系數(shù)KRSQX1X2X3VIF_1VIF_2VIF_3.000.9752.39347-2.1557.751090200.0209.49.688.010.959.607980-.28363.6578969.7519.8687.383.020.954.426266-.06436.6161193.9973.9045.875.030.952.363391.0262

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論