第十一章多元線形回歸分析報告報告材料_第1頁
第十一章多元線形回歸分析報告報告材料_第2頁
第十一章多元線形回歸分析報告報告材料_第3頁
第十一章多元線形回歸分析報告報告材料_第4頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、實用標(biāo)準(zhǔn)文案第十一章 多元相關(guān)與回歸分析第一節(jié) 多元線性回歸模型多元線性回歸即多個自變量對一個因變量的線性回歸。一、多元線性回歸模型概念以兩個自變量的二元回歸為例,如 X1、X2 和 Y 的關(guān)系存在關(guān)系式: E(Y) =+ 1X1+ 2X2,則 Y 與 X1 和 X2 之間存在多元線性相關(guān)關(guān)系,這一方程即多元線性回歸模型。多元線性回歸是多維空間中的超平面,如二元回歸是三維空間中的一個平面。對于任意的 (X1, X2),Y 的期望值就是該平面上正對 (X1, X2)的那個點的 Y 軸值,其與實際觀測點之間存在隨機誤差,實際觀測點 Yi= + 1X1+ 2 X2+ i。二、 模型的建立總體未知情況

2、下,以樣本構(gòu)造出一個平面來估計總體真實平面,即以平面?= a+b 1x1+ b 2x2 去擬合原始觀測數(shù)據(jù)。擬合的準(zhǔn)則是最小二乘法原理,使各觀測值距離擬合值的偏差平方和最小,即(yi- ?)2 最小。由此計算出的 a,b1, b2 是對, 1, 2 的最佳估計。例如對施肥量 X1、降雨量 X2 和產(chǎn)量 Y 的數(shù)據(jù),SPSS輸出結(jié)果( 表 1):Variable B SE.B Beta TX1 3.81 0.583 0.59 6.532X2 3.33 0.617 0.49 5.4Constant 266.7 32.077 8.313即得到?= 266.7+3.81x 1+3.33x 2三、回歸系

3、數(shù)的意義精彩文檔實用標(biāo)準(zhǔn)文案對于模型? = a+b 1x1+ b 2x2,b1 可以解釋為:當(dāng) X2 不變的情況下, X1 每變化一個單位, Y 將平均發(fā)生 b1 個單位的變化。如果所有自變量都同時變化,那么 Y= b 1X1+ b 2X2+ . biXi。例題 :如果對產(chǎn)量、施肥量、降雨量做出了簡單回歸和多元回歸模型:A 模型:產(chǎn)量 =287+5.9 施肥量;B 模型:產(chǎn)量 =400+6.0 降雨量;C 模型:產(chǎn)量 =267+3.81 施肥量+3.33 降雨量;請計算:(1)如果在每畝土地上多施 10 斤肥料,可以期望產(chǎn)量增加多少?(2)如果在每畝土地上多灌溉 5 厘米的水,可以期望產(chǎn)量增加

4、多少?(3)如果同時在每畝土地上多施 10 斤肥料,并且多灌溉 5 厘米的水,可以期望產(chǎn)量增加多少?(4)由原始數(shù)據(jù)發(fā)現(xiàn)較高的施肥量和較高的降雨量是有聯(lián)系的,如果照這樣的趨勢下去,那么在每畝土地上多灌溉 5 厘米的水,可以期望產(chǎn)量增加多少?解:(1)Y=3.81(10)=38.1 斤。(2)Y=3.33(5)=16.65 斤。(3)Y=3.81(10)+ 3.33(5)= 38. 1+16.65=54.75 斤(4)Y=6.0(5)=30 斤。采用 B 模型中的簡單回歸系數(shù) 6.0,它表示當(dāng)施肥量也變化時,產(chǎn)量怎樣隨著降雨量的變化而變化。比較題 2 和題 4,30 斤的增產(chǎn)不只歸功于降雨量,也

5、包含施肥量的影響;而 16.65 斤的增產(chǎn)則是在施肥量不變的情況下,伴隨著降雨量的增加而產(chǎn)生的。四、自變量為定類變量時回歸系數(shù)的解釋線形回歸要求自變量和因變量都是定距變量, 但當(dāng)自變量為二項變量或定類變量時,可以將其轉(zhuǎn)化為 0-1 變量/虛擬變量后再進行回歸。精彩文檔實用標(biāo)準(zhǔn)文案1、自變量為二項變量時:如研究存款額 Y(百元)和年齡 X1、性別 X2 之間的關(guān)系,令男性 =1 ,女性 =0 (對照組)。如果得到如下多元回歸方程:? =33+12x 1-9.1x 2,則 x2 的回歸系數(shù) -9.1 表示,對于同年齡的人來說,男性的存款額比女性平均減少 910 元。2、自變量為定類變量時: 如研究

6、收入 Y(百元)和文化程度 X 之間的關(guān)系,1, 中學(xué) 1,大學(xué)假設(shè)文化程度包括小學(xué)、中學(xué)、大學(xué),可將文化程度轉(zhuǎn)化為兩個虛擬變量,0,其他 0,其他D1= D2= ,D1=D 2=0 代表小學(xué)程度(對照組) ,D1=1 ,D2 =0 表示中學(xué)文化程度; D1=0 ,D2=1 表示大學(xué)文化程度。假如得到回歸方程?= 33+12D 1+30D 2,D1 的回歸系數(shù)表示中學(xué)文化程度的人比小學(xué)文化程度的人收入平均多 1200 元;D2 的回歸系數(shù)表示大學(xué)文化程度的人比小學(xué)文化程度的人收入平均多 3000 元。3、如果自變量為連續(xù)變量,但其與因變量的關(guān)系并不是線形關(guān)系,例如年齡 X 和身高 Y 的關(guān)系,

7、可以把年齡劃分成年齡段做為定類變量。對于有個水平的定類變量,需要設(shè)計 n-1 個虛擬變量來描述。第二節(jié) 多元線性回歸模型檢驗一、回歸系數(shù)的估計和檢驗在多元回歸中,各個回歸系數(shù)的估計值 b1,b2都圍繞總體回歸系數(shù)1,2近似正態(tài)波動,所以可以用樣本回歸系數(shù)的標(biāo)準(zhǔn)誤差來構(gòu)造總體回歸系數(shù)的置信區(qū)間。標(biāo)準(zhǔn)誤差為表 1 中的第二列輸出結(jié)果 SE.B??傮w回歸系數(shù)置信區(qū)間公式: i= b i±t/2 SEi,其中,i=1,2, .k;查 t 分布表時的自由度為 n-k-1 。精彩文檔實用標(biāo)準(zhǔn)文案例題 :以表 1 為例,計算每個回歸系數(shù)的 95% 的置信區(qū)間 (k=1,2 ),已知 n=7 :解:

8、df=7-2-1=4 ;查表得 t0.025 =2.776 ;1= 3.81 ±2.776(0.583)=3.81 ±1.618 ;2= 3.33 ±2.776(0.617)=3.33 ±1.713對回歸系數(shù)進行檢驗即檢驗 H0:i=0 ;H1:i 0,即檢驗自變量和因變量之間是否存在線形相關(guān)關(guān)系。檢驗方法:計算檢驗統(tǒng)計量為 t= b i-0/ SE i,計算出相應(yīng)概值。 SPSS可以輸出 t 值和概值 P。二、回歸模型的檢驗即檢驗 H0:1= 2= = i= 0 。對多元回歸做方差分析及顯著性檢驗:將總偏差平方和2(yi y) 分解為( yi ?i )

9、2(不能由回歸解釋的偏差)和 ( ?i- y )2(可以由對 X1,X2Xk 的回歸解釋的偏差)。計算 F 值=可以由回歸解釋的方差 /不能解釋的方差,然后對 F值與臨界值進行比較,也可計算 F 值的概值。表 2:對改革時間 Y 與公司規(guī)模 X1 和公司類型 X2 的二元回歸作出方差分析表,包括求出概值和進行 95% 置信水平下的檢驗。SS df MS F 概值回歸誤差 1504.41 2 752.20 72.47 0.001殘差 176.39 17 10.38總誤差 1680.80 19在 95% 的置信水平下可以拒絕原假設(shè),說明回歸效果是顯著的,即回歸模型有意義。精彩文檔實用標(biāo)準(zhǔn)文案第三節(jié)

10、 相關(guān)系數(shù)和決定系數(shù)一、復(fù)相關(guān)系數(shù)和決定系數(shù)2 決定系數(shù) R22= 可以由回歸解釋的偏差 /總偏差= (?i- y )2/(yi y) ;R2 的平方根 R 為復(fù)相關(guān)系數(shù),取值范圍 0-1 。R2=1 時,說明 Y 的全部偏差都可以用回歸方程解釋,以二元回歸為例,表明全部觀測點正好落在擬合的回歸平面上。R2 越大,能用回歸來解釋的部分就越大, 表示 Y 和X1,X2, Xi 的線形關(guān)系越強,回歸效果越好, R2 也具有消減誤差比例的意義。例如根據(jù)表 2 計算出:R2=1504.41/1680.80=0.8950559 ;R=0.9460739解釋:應(yīng)用二元回歸可以解釋總偏差中的 89.5% ,

11、以改革時間對公司規(guī)模和公司類型作二元回歸,效果是很好的。二、偏相關(guān)系數(shù)和偏決定系數(shù)決定系數(shù)反映了一組自變量對回歸模型的貢獻。 如果想知道某一個自變量的貢獻,需計算引進這個變量后,所減少的殘差的相對比例。以二元回歸為例,設(shè)? =a+b 1x1+b 2 x2,用 RSS(X1,X2)表示殘差;如果只對自變量 X2 做簡單回歸模型? =a+b 2x2,用 RSS(X2) 表示殘差。 則 RSS(X2)肯定大于 RSS(X1,X2),在已有 X2 的模型中再引入 X1 變量后,所減少的殘差為 RSS(X2)-RSS(X1,X2)。減少的相對殘差 R2Y1.2= (RSS(X2)- RSS(X1,X2)

12、 )/ RSS(X2)就是偏決定系數(shù),表示 X2 已在模型當(dāng)中時,再引入變量 X1 后,能夠減少百分之多少的殘差。偏決定系數(shù)的平方根為偏相關(guān)系數(shù), 其符號與擬合回歸函數(shù)中相應(yīng)的回歸系數(shù)符號一致。 偏相關(guān)系數(shù)可以看作是消除了 X2 的影響效應(yīng)后, 對Y 和 X1 之間的關(guān)聯(lián)程度的度量,也稱凈相關(guān)。精彩文檔實用標(biāo)準(zhǔn)文案三、標(biāo)準(zhǔn)化回歸系數(shù)將所有變量 Y,X1,X2Xi 標(biāo)準(zhǔn)化,然后對標(biāo)準(zhǔn)化后的 Y*,Xi*進行回歸擬合得:Y*= a*+b 1* X 1*+.+ b i* X i*b1*,b2*bi *就是標(biāo)準(zhǔn)回歸系數(shù),其大小說明了各自對應(yīng)的自變量對 Y 的影響大小, 標(biāo)準(zhǔn)回歸系數(shù)絕對值越大, 該自變

13、量的影響就越大。 例如表 1 第四列的標(biāo)準(zhǔn)回歸系數(shù) Beta ,施肥量( 0.59 )對產(chǎn)量的影響比降雨量( 0.49)更大。但注意:這種方法只有當(dāng)自變量之間的相關(guān)性較小時才正確。第四節(jié) 非線性相關(guān)與回歸分析對于變量之間會的非線性的關(guān)系,可將其變換為線性關(guān)系再處理。一、冪函數(shù)冪函數(shù)基本形式為: Yi= 1Xi2eui,ui 為隨機誤差項,和1 為2 參數(shù)。參數(shù)2 度量了變量 Y 對變量 X 的彈性,即 X 的單位百分比變動引起 Y 變動的百分比,2=Y / YX / X=Y XX Y。由于 Y 和 X 之間是非線性關(guān)系,為了將其變?yōu)榫€形形式,可以對方程兩邊取對數(shù),轉(zhuǎn)換為雙對數(shù)函數(shù)形式,即 In

14、Yi =In 1+ 2InX i+ui ,把 InYi 和 InXi 視為新的變量,則新變量之間成為線形關(guān)系,可以按照線形回歸的方式估計參數(shù)。也可拓展到多元的情況,如 InYi =In 1+ 2InX1i+ 3InX2i+u i 。例如 :根據(jù)天津市 1980-1996 年的經(jīng)濟統(tǒng)計資料,想研究天津市國內(nèi)生產(chǎn)總值GDP 和資金投入量及從業(yè)人員數(shù)量之間的關(guān)系,可運用柯柏道格拉斯生產(chǎn)函數(shù)建立理論回歸方程: Yi=AK iLieui ,Y 是 GDP,K 是資金投入量, L 是從業(yè)人數(shù),ui 是隨機誤差項。為了便于估計參數(shù),將該方程轉(zhuǎn)換為線性方程:精彩文檔實用標(biāo)準(zhǔn)文案InYi=InA+ InKi+

15、InLi+ui ,設(shè) Yi*= InY i,Ki*= InK i,Li*= InL i,1=InA ,2= ,3= ,則上式變?yōu)?Yi*= 1+ 2 Ki*+ 3Li*+u i,用線形回歸分析得出結(jié)果:?i*=-10.4639+1.021124 K i+1.471943 L i*因為1=InA=-10.4639 ,所以 A=0.0000285 ,這樣所估計的生產(chǎn)函數(shù)為:?i*=0.0000285K i1.021124 Li 1.471943二、對數(shù)函數(shù)對數(shù)函數(shù)關(guān)系包括自變量為對數(shù)和因變量為對數(shù)兩種情況。自變量為對數(shù)時,方程為 Yi= + InXi+u i,參數(shù)表示自變量 X 每變動一個百分點時

16、,會引起因變量 Y 絕對值的變動量。若把 InXi 視為新變量,可以作為線形回歸去處理。當(dāng)因變量為對數(shù)時,方程為 InYi= + Xi+u i,參數(shù)表示自變量 X 每變動一個單位時,會引起因變量 Y 發(fā)生幾個百分比的變動。如把 InYi 視為新變量,可以作為線形回歸去處理。例如:美國聯(lián)邦儲備管理委員會要研究 GDP 和貨幣供應(yīng)量 X 的關(guān)系,建立對數(shù)方程 Yi= 1+ 2InXi+u i,可先將貨幣供應(yīng)量數(shù)據(jù) Xi 轉(zhuǎn)變?yōu)?InXi,再按照線性回歸方法作 GDP 對 InXi 的回歸,得到? i=-16329+2584.79 InXi,表明貨幣供應(yīng)量每增加一個百分點, GDP 的絕對量將增加

17、2584.79 億美元。三、指數(shù)函數(shù)指數(shù)函數(shù)的形式為 Yi=ab Xieui 。指數(shù)函數(shù)通常用于描述產(chǎn)量、成本等現(xiàn)象的變動趨勢。對方程兩邊取對數(shù)可轉(zhuǎn)化為線性函數(shù): InYi=Ina+X iInb+u i,這時的變量為 InYi 和 Xi,參數(shù)為 Ina 和 Inb ??梢栽O(shè) Yi*= InY i,1=Ina ,2=Inb ,得到 Yi*= 1+ 2Xi+u i。對于非線性關(guān)系, 用相關(guān)指數(shù)度量其相關(guān)程度, 相關(guān)指數(shù)就是非線性回歸的精彩文檔實用標(biāo)準(zhǔn)文案決定系數(shù) R2 或者決定系數(shù)的平方根 R。R2 和R 越大,表明變量間的非線性相關(guān)程度越高,反之越低。 R 取值范圍 0-1 。四、logisti

18、c 回歸(因變量為二項變量時的回歸)當(dāng)因變量為二項變量時, 可將其轉(zhuǎn)化為定距變量。 其他定類變量也可以轉(zhuǎn)化1, 成功 為二項變量來研究。0,失敗用虛擬變量的形式來表示因變量 Y,即 Y= ,并設(shè)成功的概率P(Y=1)= ,失敗的概率 P(Y=0)=1- ,根據(jù)二項分布特征, 可知 Y 的期望值 E(Y)= ,Y 的方差 D(Y)= (1- )。設(shè) Y(二項變量)對自變量的回歸模型為: E(Y) =+ 1X1+ + iXi如果擬合的方程為:? = a+b 1x1+ + b ixi那么,擬合值 ?就表示成功概率E即(Y)的估計值。所以自變量對 Y 的影響就轉(zhuǎn)化為了自變量對成功概率的影響。然而,對于

19、二項變量來說,其 E(Y)的取值范圍只能是 0-1 ,這樣就不能很好適應(yīng)線形回歸模型(線形回歸要求因變量連續(xù)取值) ,所以考慮對 E(Y)進行數(shù)值變換,可以將其轉(zhuǎn)化為 P*=ln(1PP), P 即ln(1PP)=Logit(P)= + 1X1+ + iXi 就是 logistic 回歸模型。當(dāng) P 趨于 0時,Logit(P) 趨于- ,當(dāng) P 趨于 1 時,Logit(P) 趨于+ 。通過這樣的變換,使得因變量原本在 (0,1)的取值范圍變成了 (- ,+)。logistic 回歸最常用于流行病學(xué)研究,用來探討某種疾病的危險因素,或者根據(jù)危險因素來預(yù)測患病概率。根據(jù)模型得 P=e (+ 1

20、X1+ + iXi) /1+e (+ 1X1+ +iXi) ,可預(yù)測發(fā)生概率。精彩文檔實用標(biāo)準(zhǔn)文案對于 logistic 回歸,用 Odds Ratio 發(fā)生比來解釋回歸系數(shù), OR:發(fā)生概率與不發(fā)生概率的比值。 OR=e ;lnOR= 。表示自變量每增加一個單位,其相對危險度為 e 。例如 :研究吸煙年數(shù) X 與是否患肺癌 Y 的關(guān)系,若根據(jù)= 1 計算出OR=2.72 ,則表明吸煙年數(shù)每增加一年,患肺癌的危險性是之前的 2.72 倍。如果研究是否吸煙與肺癌的關(guān)系, 令 X=1 吸煙,X=0 不吸煙;Y=1 患肺癌,Y=0 不患肺癌,若求得 OR=2.72 ,則表明吸煙的人患肺癌癥的危險性是不吸煙的 2.72 倍。如果令 X=1 不吸煙,X=0 吸煙;Y=1 患肺癌 Y=0 ,不患肺癌,若求得 OR=0.3637 ,則表明不吸煙的人患肺癌癥的危險性是吸煙的 36.37% ,或不吸煙的人患肺癌的危險性比吸煙者降低了 63.63% 。注意區(qū)分 X 變量的賦值。第五節(jié) 自變量的選擇SPSS提供的 5 種選擇變量的方法:1、向前加入變量法( FORWARD )。將自變量逐個引入方程,每次增加一個。第一步是從所有 K 個自變量中引入一個,使它與 Y 組成的一元方程比其他更好(即可用回歸解釋的偏差比例更大) ;第二步是從未引入的 K-1 個自變量中再選一個,使它和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論