多元線性回歸分析xin_第1頁
多元線性回歸分析xin_第2頁
多元線性回歸分析xin_第3頁
多元線性回歸分析xin_第4頁
多元線性回歸分析xin_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多元線性回歸分析xin第1頁,共43頁,2023年,2月20日,星期四(一)對多變量資料進行多元分析的優(yōu)點:1、減少假陽性錯誤;2、可以得到一個綜合結(jié)論;3、考慮了變量間的相互關(guān)系??偠灾?,是對多個相關(guān)變量同時進行分析。第2頁,共43頁,2023年,2月20日,星期四(二)多元線性回歸分析的應用條件1.應變量與自變量之間的關(guān)系是線性的(linear)2.各自變量之間相互獨立(indedpendent)3.各變量滿足正態(tài)性(此條件可以放寬)(normality)4.方差齊性(homogeneityorequalvariance)

簡稱為LINE第3頁,共43頁,2023年,2月20日,星期四

多元線性回歸多元線性回歸是用線性方程表達一個因變量與多個自變量之間數(shù)量關(guān)系的統(tǒng)計分析方法。如:兒童的心象面積,除與年齡有關(guān)外,還與性別、身高、體重、胸圍等因素有關(guān)。第4頁,共43頁,2023年,2月20日,星期四復習直線回歸(一)直線回歸是研究一個因變量與一個自變量之間線性趨勢數(shù)量關(guān)系的回歸分析方法。1、直線回歸方程為?=a+b*x,反映的是x和y之間數(shù)量依存變化關(guān)系;2、a是截距,b是回歸系數(shù),a和b是利用最小二乘法原理計算而來;3、用決定系數(shù)R2來說明回歸模型的好壞,R2=SS回/SS總。第5頁,共43頁,2023年,2月20日,星期四復習直線回歸(二)PAN.sav數(shù)據(jù)庫是某地29名13歲男童的體重x

(kg)和肺活量y(L)資料,試建立體重與肺活量的直線回歸方程。SPSS程序:AnalyzeRegressionLinear,打開對話框,把肺活量y放入應變量欄中,體重x放入自變量欄中。建立的直線回歸方程為:?=-0.009+0.060xa=-0.009;b=0.060,表示體重每增加1kg,肺活量平均增加0.060L。R2=0.542。經(jīng)t檢驗,體重對肺活量有影響,P=0.000<0.05。第6頁,共43頁,2023年,2月20日,星期四多元線性回歸模型(一)舉例(見PAN.sav):根據(jù)某地29名13歲男童的身高x1(kg)、體重x2(cm)和肺活量y(L)建立的二元線性回歸方程為:?=-0.577+0.005x1+0.054x2

a=-0.577;

b1=0.005,表示在體重不變的情況下,身高每增加1cm,肺活量平均增加0.005L;

b2=0.054,表示在身高不變的情況下,體重每增加1kg,肺活量平均增加0.054L。第7頁,共43頁,2023年,2月20日,星期四多元線性回歸模型(二)

設(shè)因變量為y,自變量為xi(i=1,….,m),m元線性回歸方程為:?=a+b1*x1+b2*x2+….+bm*xm,或y=?+e

。

?

是y的估計值或預測值;

e是殘差,不能由現(xiàn)有的自變量決定的部分;

a為常數(shù)項或截距;

bi為樣本偏回歸系數(shù),即在其它自變量固定不變情況下,xi改變一個單位,因變量平均改變bi個單位。對應的總體偏回歸系數(shù)為βi,若βi=0,則該自變量xi與因變量y之間無線性關(guān)系,即xi對因變量y無影響。第8頁,共43頁,2023年,2月20日,星期四回歸分析的步驟1、建立線性回歸方程;2、回歸方程的假設(shè)檢驗;3、偏回歸系數(shù)的假設(shè)檢驗與區(qū)間估計;4、比較自變量對因變量的作用大小;5、因變量的區(qū)間估計;6、殘差分析。Analyze→Regression→Linear

第9頁,共43頁,2023年,2月20日,星期四建立線性回歸方程(一)即計算截距a和回歸系數(shù)bi,應用最小二乘法原理,即要求殘差平方和達到最小。以PAN.sav為例,作身高、體重對肺活量影響的多元線性回歸分析。選擇變量的方法有強迫引入法(系統(tǒng)默認)、強迫剔除法、向前引入法、向后剔除法、逐步回歸法。第10頁,共43頁,2023年,2月20日,星期四建立線性回歸方程(二)

前進法:事先給一個挑選自變量進入方程的標準,開始時方程中除常數(shù)項外沒有自變量,然后按自變量對Y的貢獻大小依次挑選進入方程,一直到方程外沒有變量進入為止,進入變量不再刪除;

后退法:事先給一個剔除自變量的標準,開始時自變量全部在方程中,然后按自變量對Y的貢獻從小到大依次刪除,一直到方程內(nèi)沒有變量刪除入為止;刪除變量不再進入方程;

逐步向前法:每進入一個變量都要對已經(jīng)在模型中的變量進行檢驗,對低于剔除標準的變量要逐一剔除,直到方程內(nèi)沒有變量被剔除,方程外沒有變量被引入為止;

逐步向后法:是每剔除一個變量,都要對方程外的變量進行檢驗,對符合入選標準的變量都要重新考慮引入。直到方程內(nèi)沒有變量被剔除,方程外沒有變量被引入為止;建議用各種方法、多種引入或剔除水準處理同一問題,若一些變量常被選中,它們就值得重視。第11頁,共43頁,2023年,2月20日,星期四建立線性回歸方程(三)SPSS中常用的對話框有:“Statistics”對話框中的“Estimates”

和“Confidenceintervals”

、“Model”

選項。自變量只有兩個,應用系統(tǒng)默認的強迫引入法進行分析,得出二元線性回歸方程為:

?=-0.577+0.005x1+0.054x2

對應SPSS的結(jié)果中標題為“Coefficients”的表格。第12頁,共43頁,2023年,2月20日,星期四“Coefficients”的表格第13頁,共43頁,2023年,2月20日,星期四回歸方程的假設(shè)檢驗(一)與直線回歸類似,根據(jù)y總變異的分解對回歸方程進行方差分析。在回歸分析中,y方面的總變異lyy分解為回歸貢獻U和剩余變異Q:lyy=U+QQ是總變異中不能由自變量解釋的殘差平方和,U是總變異中由自變量所引起的一部分變異。自變量的作用是否顯著,或整個方程是否有意義,就看回歸所能解釋的變異U比剩余變異Q大多少而定,即進行方差分析。第14頁,共43頁,2023年,2月20日,星期四回歸方程的假設(shè)檢驗(二)方差分析的步驟如下:H0:總體中所有偏回歸系數(shù)均為0;H1:總體中偏回歸系數(shù)不為0或不全為0。α=0.05。F=MS回歸/MS剩余,得P值大??;若P≤0.05,則拒絕H0,接受H1,說明回歸方程成立,因變量與自變量之間有線性關(guān)系;若P>0.05,則不拒絕H0,說明回歸方程不成立,因變量與自變量之間無線性關(guān)系。對應SPSS的結(jié)果中標題為“ANOVA”的表格,p=0.000。第15頁,共43頁,2023年,2月20日,星期四SPSS的結(jié)果中標題為“ANOVA”的表格第16頁,共43頁,2023年,2月20日,星期四衡量回歸方程的標準

建立回歸方程時要求:既要盡可能提高擬合的精度,又要盡可能使模型簡單。常用的衡量方程“優(yōu)劣”的標準有:

1、決定系數(shù)(R2);

2、復相關(guān)系數(shù)R3、調(diào)整決定系數(shù)(R2adj);

4、剩余標準差(sy.x1x2…xp)。

5、赤池信息準則(AIC)

6、Cp統(tǒng)計量第17頁,共43頁,2023年,2月20日,星期四衡量回歸方程的標準根據(jù)R2大小判斷方程優(yōu)劣時的缺點是:變量最多的方程最好,即使所增加的變量無統(tǒng)計學意義。根據(jù)R2adj大小判斷方程優(yōu)劣時的優(yōu)點:當有統(tǒng)計學意義的變量進入方程,R2adj增加;當無統(tǒng)計學意義的變量進入方程,R2adj反而減少。根據(jù)sy.x1x2…xp大小判斷方程優(yōu)劣時的優(yōu)點:一般隨著自變量的增加而減少,但當增加一些無統(tǒng)計學意義的自變量后,剩余標準差反而增大。根據(jù)復相關(guān)系數(shù)R來判斷,但只反映密切程度,不反應方向第18頁,共43頁,2023年,2月20日,星期四根據(jù)sy.x1x2…xp大小判斷方程優(yōu)劣時的優(yōu)點:一般隨著自變量的增加而減少,但當增加一些無統(tǒng)計學意義的自變量后,剩余標準差反而增大。根據(jù)復相關(guān)系數(shù)R來判斷,但只反映密切程度,不反應方向

AIC準則:日本學者提出的(越小越好)

Cp統(tǒng)計量:選擇Cp最接近P(變量個數(shù))的那個模型第19頁,共43頁,2023年,2月20日,星期四偏回歸系數(shù)的假設(shè)檢驗

回歸方程有統(tǒng)計學意義,并不等于方程中每個變量都有統(tǒng)計學意義,因此要分別檢驗每個偏回歸系數(shù)是否均為0,用t檢驗:

H0:βi=0,H1:βi≠0;α=0.05。

ti=bi/sbi

,得P值大小,若P≤0.05,則拒絕H0,接受H1,說明該變量有統(tǒng)計學意義;若P>0.05,則不拒絕H0,說明該變量無統(tǒng)計學意義。對應SPSS的結(jié)果中標題為“Coefficients”的表格,經(jīng)t檢驗,身高變量無統(tǒng)計學意義,而體重變量有統(tǒng)計學意義。第20頁,共43頁,2023年,2月20日,星期四偏回歸系數(shù)的區(qū)間估計sbi為樣本偏回歸系數(shù)bi的標準誤,總體偏回歸系數(shù)βi的可信區(qū)間(即按照一定的概率,由bi估計βi所在的可能范圍)為:

bi±tα,(n-m-1)*sbi,樣本含量為n,自變量數(shù)為m。

bi的可信區(qū)間若包含了0,則該變量無統(tǒng)計學意義;若不包含0,則該變量有統(tǒng)計學意義,與假設(shè)檢驗的結(jié)果一致。對應SPSS的結(jié)果中標題為“Coefficients”的表格里。第21頁,共43頁,2023年,2月20日,星期四自變量的貢獻(一)偏回歸系數(shù)反映了自變量對應變量的作用大小;但在多元回歸方程中,偏回歸系數(shù)是隨自變量所帶單位的不同而改變。所以,要比較不同自變量對應變量的作用大小,不能直接比較它們的偏回歸系數(shù)大小,必須將其標準化,使之成為無量綱的標準偏回歸系數(shù),直接比較大小。

bi’:標準化偏回歸系數(shù),比較度量衡單位不同的自變量對因變量的貢獻大小。

bi’

=bi*(ιii1/2

/ιyy1/2)。

標準偏回歸系數(shù)反映的是自變量對因變量y的直接作用。第22頁,共43頁,2023年,2月20日,星期四自變量的貢獻(二)一個自變量對因變量y的作用除了直接作用外,還有該變量通過其它自變量對y的間接作用。如:x1、x2是自變量,y為應變量,x1與y之間的相關(guān)系數(shù)為r1y,x1與x2的相關(guān)系數(shù)為r12X1b1’x1的標準偏回歸系數(shù)為b1’

r12Yx2的標準偏回歸系數(shù)為b2’

X2b2’則:x1對y的直接作用=b1’x1對y的間接作用=b2’*r12x1對y的總作用

r1y=b1’+b2’*r12。第23頁,共43頁,2023年,2月20日,星期四因變量的區(qū)間估計由回歸方程計算的?值,是在自變量取值一定的條件下y的均數(shù)的一個點估計,但自變量取值一定時,y一般不會正好等于?,因此需估計y的可信區(qū)間和容許區(qū)間,(1-α)%可信區(qū)間為:?±tα,(n-m-1)*s?(1-α)%容許區(qū)間為:?±tα,(n-m-1)*syα一般取0.05。

SPSS軟件中,選中“Save”對話框中的“Mean”

、“Individual”選項,結(jié)果(兩個區(qū)間的上、下限值)已保存到數(shù)據(jù)文件中,分別對應(lmci

1,umci

1)和(lici

1,uici

1)。第24頁,共43頁,2023年,2月20日,星期四殘差分析計算應變量的預測值以及殘差e=(yi-?i)、標準化殘差,對應SPSS結(jié)果中的“Residual”表格里“StdResidual”值大小,觀察標準化殘差的最大值是否大于系統(tǒng)默認的“3”,若大于3,則資料中有可疑的異常點;否則無。第25頁,共43頁,2023年,2月20日,星期四標準化殘差,對應SPSS結(jié)果中的“Residual”第26頁,共43頁,2023年,2月20日,星期四逐步回歸(一)

Stepwise(逐步回歸法)是一種從眾多的回歸模型中快速選擇“最優(yōu)”模型的統(tǒng)計思維方法或建模策略,保證“最優(yōu)”模型中的自變量少而精。它的作用主要是篩選回歸自變量。方法有:逐步向前法和逐步向后法。第27頁,共43頁,2023年,2月20日,星期四逐步回歸(二)步驟(介紹逐步向前法):1、事先給定一個剔除變量的標準;2、按自變量對因變量的貢獻大小,由大到小依次進入方程;3、每當一個自變量進入方程,重新對方程內(nèi)的自變量進行假設(shè)檢驗,有統(tǒng)計學意義的自變量繼續(xù)留在方程中,無統(tǒng)計學意義的自變量則被剔除;4、如此邊引入邊剔除,直到既沒有新的有統(tǒng)計學意義的自變量可引入方程內(nèi),也沒有無統(tǒng)計學意義的自變量被剔除方程外為止。第28頁,共43頁,2023年,2月20日,星期四逐步回歸(三)一、引入和剔除變量的標準:1、假設(shè)檢驗的P值:對偏回歸系數(shù)進行假設(shè)檢驗,P值越小,說明對因變量的貢獻越大;2、偏回歸平方和的檢驗統(tǒng)計量F值:對偏回歸系數(shù)進行假設(shè)檢驗,F(xiàn)值越大,說明對因變量的貢獻越大。二、偏回歸平方和的概念:所有自變量都在方程內(nèi)算出回歸平方和SS回,把xi除去再算出回歸平方和SS回-i,兩者之差即為xi的偏回歸平方和。三、檢驗水準剔除變量的水準P剔和引入變量的水準P選,為了防止計算機進入“死循環(huán)”,要求前者略大于后者。第29頁,共43頁,2023年,2月20日,星期四指標的量化(一)應用線性回歸時要求因變量是定量指標,自變量與因變量的關(guān)系為線性的。1、對定量指標:符合線性要求的,直接以原變量形式進入分析;若不符合線性要求的,作適當變量變換,直到符合線性關(guān)系時,方可作回歸分析。2、對定性指標:(1)二分類指標:若變量x為性別,則女性為x=0,男性為x=1,作出的回歸方程中x的系數(shù)b表示男性的因變量y比女性平均多b個單位。第30頁,共43頁,2023年,2月20日,星期四指標的量化(二)(2)多分類指標:若變量x為血型(A、B、AB、O型四種),則需用3個啞變量(或指示變量)表示四種血型:x1=0、x2=0、x3=0,表示O型;

x1=1、x2=0、x3=0,表示A型;

x1=0、x2=1、x3=0,表示B型;

x1=0、x2=0、x3=1,表示AB型。

O型為對比的基礎(chǔ),方程中x1的系數(shù)b1表示A型血者的因變量y比O型血者平均多b1個單位;x2的系數(shù)b2表示B型血者的y比O型血者平均多b2個單位;x3的系數(shù)b3表示AB型血者的y比O型血者平均多b3個單位。第31頁,共43頁,2023年,2月20日,星期四指標的量化(三)

3、對等級資料(1)若變量x為文化程度,而且因變量y的改變在每個等級上是近似相等的,則將等級數(shù)量化后直接進入分析。如:x=0表示文盲,x=1表示小學,x=2表示中學,

x=3表示中學,x=4表示大學本科,x=5表示碩士、博士。結(jié)果中x的系數(shù)b表示:文化程度每上升一個等級,則因變量增加b個單位;(2)若因變量y的改變在每個等級上是不相等的,則與多分類指標一樣要設(shè)啞變量,結(jié)果解釋也與其一樣。第32頁,共43頁,2023年,2月20日,星期四回歸系數(shù)反常的原因回歸方程建立后,可能發(fā)現(xiàn)回歸系數(shù)從專業(yè)知識上解釋不通;或整個方程顯著,但每個變量均沒有顯著性;或有些變量從專業(yè)上看很重要,卻選不進方程。原因主要有:1、數(shù)據(jù)中有離群值或異常值;2、樣本含量不夠,或自變量數(shù)太多;3、自變量的觀察范圍太窄,或方差太小;4、自變量之間存在共線性。第33頁,共43頁,2023年,2月20日,星期四多元共線性會導致的現(xiàn)象:1.符號與實際不符合2.回歸系數(shù)的估計值與實際相差太大3.回歸系數(shù)的標準誤太大,重要變量選不進方程4.整個方程有顯著性,而每一個自變量均無顯著性第34頁,共43頁,2023年,2月20日,星期四多重共線性(一)例如試建立由外形指標(x1、x2、x3分別為身長、頭圍、體重)推測胎兒周齡y的回歸方程:

y對x1、x2、x3的一般多元線性回歸分析,建立方程為?=11.0117+1.6927x1-2.1589x2+0.0075x3,出現(xiàn)頭圍的回歸系數(shù)為負的不合理現(xiàn)象。懷疑3個自變量之間存在共線性。共線性的主要解決方法:嶺回歸或主成分回歸。第35頁,共43頁,2023年,2月20日,星期四多重共線性(二)多重共線性一詞最早由R.弗里希于1934年提出,它指的是回歸模型中某些或所有自變量間存在完全或近似完全的線性關(guān)系。目前常用的多重共線性診斷方法有:

1.自變量的相關(guān)系數(shù)矩陣診斷法:研究變量的兩兩相關(guān)分析,如果自變量間的相關(guān)系數(shù)很大,則認為存在多重共線性。

2.方差膨脹因子(thevarianceinflationfactor,VIF)診斷法:方差膨脹因子表達式為:VIFi=1/(1-R2i)。其中Ri為自變量xi對其余自變量作回歸分析的復相關(guān)系數(shù)。當VIFi很大時,表明自變量間存在多重共線性。

第36頁,共43頁,2023年,2月20日,星期四多重共線性(三)

3.容忍值(Tolerance,簡記為Tol)法:容忍值實際上是VIF的倒數(shù),即Tol=1/VIF。其取值在0~1之間,Tol越接近1,說明自變量間的共線性越弱;Tol越接近0,說明自變量間的共線性越強。在應用時一般先預先指定一個Tol值,容忍值小于指定值的變量不能進入方程,計算結(jié)果具有穩(wěn)定性。

4.條件數(shù):某些維度該指標的數(shù)值大于30,則說明存在共線性

5.特征根分析法:如果相當多維度的特征根約等于0SPSS過程:在打開按鈕“Statistics”后的對話框中,選中“CollinearityDiagnostics”和“PartandPartialCorrelations”即可;結(jié)果中有相關(guān)系數(shù)矩陣、VIF、Tol、條件數(shù)。第37頁,共43頁,2023年,2月20日,星期四嶺回歸簡介關(guān)鍵:確定嶺參數(shù)k。步驟:1、選擇不同的嶺參數(shù)k,估計相應的回歸系數(shù);2、將不同k值時的回歸系數(shù)連成一條曲線,即嶺跡;3、觀察嶺跡穩(wěn)定(或各回歸系數(shù)穩(wěn)定)時所對應的k值即為嶺參數(shù)k;4、建立嶺參數(shù)k下的回歸方程。優(yōu)點:嶺回歸分析所得的回歸方程符合實際情況。第38頁,共43頁,2023年,2月20日,星期四第39頁,共43頁,2023年,2月20日,星期四不同嶺參數(shù)時各自變量的回歸系數(shù)

KRSQX1X

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論