第13部分多重回歸與相關(guān)_第1頁
第13部分多重回歸與相關(guān)_第2頁
第13部分多重回歸與相關(guān)_第3頁
第13部分多重回歸與相關(guān)_第4頁
第13部分多重回歸與相關(guān)_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第第13章章 多重線性回歸與相關(guān)多重線性回歸與相關(guān)(multiple linear regression & multiple correlation)content第一節(jié)第一節(jié) 多重線性回歸的概念與統(tǒng)計推斷多重線性回歸的概念與統(tǒng)計推斷第二節(jié) 假設(shè)檢驗及其評價第三節(jié)第三節(jié) 復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù)復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù)第四節(jié) 自變量篩選第五節(jié)第五節(jié) 多元線性回歸的應(yīng)用與注意事項多元線性回歸的應(yīng)用與注意事項目的:作出以多個自變量估計應(yīng)變量的多元線性回歸方程。資料:應(yīng)變量為定量指標(biāo);自變量全部或大部分為定量指標(biāo),若有少量定性或等級指標(biāo)需作轉(zhuǎn)換。用途:解釋和預(yù)報。更精確意義:由于事物間的聯(lián)系常

2、常是多方面的,一個應(yīng)變量的變化可能受到其它多個自變量的影響,如糖尿病人的血糖變化可能受胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂等多種生化指標(biāo)的影響。第一節(jié)第一節(jié) 多重線性回歸的概念多重線性回歸的概念與統(tǒng)計推斷與統(tǒng)計推斷 變量:變量:應(yīng)變量應(yīng)變量 1 個,自變量個,自變量k 個,共個,共 k+1 個。個。 樣本含量:樣本含量:n 數(shù)據(jù)格式見表數(shù)據(jù)格式見表13-1 回歸模型一般形式:回歸模型一般形式:一、數(shù)據(jù)與多元線性回歸模型一、數(shù)據(jù)與多元線性回歸模型ikikiiixxxy.22110多元回歸分析數(shù)據(jù)格式 條件條件車流(x1)氣溫(x2)氣濕(x3)風(fēng)速(x4)一氧化氮(y)車流(x1)氣溫(

3、x2)氣濕(x3)風(fēng)速(x4)一氧化氮(y)130020.0800.450.06694822.5692.000.005144423.0570.500.076144021.5792.400.01178626.5641.500.001108428.5593.000.003165223.0840.400.170184426.0731.000.140175629.5720.900.156111635.0922.800.039175430.0760.800.120165620.0831.450.059120022.5691.800.040153623.0571.500.087150021.8770.60

4、0.12096024.8671.500.039120027.0581.700.100178423.3830.900.222147627.0650.650.129149627.0650.650.145182022.0830.400.135106026.0581.830.029143628.0682.000.099143628.0682.000.099一般步驟一般步驟01122kkybb xb xb x建立回歸方程(樣本)(2)檢驗并評價回歸方程檢驗并評價回歸方程及各自變量的作用大小及各自變量的作用大小 二、多元線性回歸方程的建立樣本估計而得的多重線性回歸方程bj為自變量xj 的偏回歸系數(shù)(par

5、tial regression coefficient),是j的估計值,表示當(dāng)方程中其他自變量保持常量時,自變量xj變化一個計量單位,反應(yīng)變量y的平均值變化的單位數(shù)。 kkxbxbxbby.221102201122()()kkqyyybb xb xb x11 11221121 1222221 122kkykkykkkkkkyl bl bl bll bl bl bll bl bl bl01122()kkbyb xb xb x求偏導(dǎo)數(shù)(一階)()() , , j=1,2,k()(), 1,2,ijijiijjijjjyjjjxxlxxxxx xinxylxxyyx yjkn1234014166 0

6、00011619000449000000655003468y.x.x.x.x原 理最小二乘法統(tǒng)計軟件包統(tǒng)計軟件包第二節(jié) 假設(shè)檢驗及其評價 1. 方差分析法:方差分析法:殘回總ssssss/1)sskmsfssnkms回回殘殘(一)對回歸方程 ( ,1)f f k nk 多元線性回歸方差分析表(0.05)變異來源自由度ssmsfp回歸模型4 40.063960.063960.015990.0159917.5917.59.0001.0001殘差19190.017270.017270.000909030.00090903總變異23230.081230.08123表13-2顯示,p 0.0001,拒絕

7、h0。說明從整體上而言,用這四個自變量構(gòu)成的回歸方程解釋空氣中no濃度的變化是有統(tǒng)計學(xué)意義的。偏回歸系數(shù)的偏回歸系數(shù)的t檢驗檢驗 偏回歸系數(shù)的t檢驗是在回歸方程具有統(tǒng)計學(xué)意義的情況下,檢驗?zāi)硞€總體偏回歸系數(shù)等于零的假設(shè),以判斷是否相應(yīng)的那個自變量對回歸確有貢獻 biibisbt利用sas對例13-1的四個偏回歸系數(shù)進行t檢驗與標(biāo)準(zhǔn)化偏回歸系數(shù)的結(jié)果如表13-3所示。變量自由度回歸系數(shù)標(biāo)準(zhǔn)誤t值p值標(biāo)準(zhǔn)化偏回歸系數(shù)截距1-0.141660.06916-2.050.05460x110.000116190.000027484.230.00050.59249x210.004490.001902.360

8、.02890.27274x31-0.000006550.00069083-0.010.9925-0.00110x41-0.034680.01081-3.210.0046-0.4477021ssssrssss回殘總總第三節(jié)第三節(jié) 復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù)復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù) 確定系數(shù)、復(fù)相關(guān)系數(shù)與調(diào)整確定系數(shù)復(fù)相關(guān)系數(shù)的平方稱為確定系數(shù)(coefficient of determination), 或決定系數(shù),記為r2,用以反映線性回歸模型能在多大程度上解釋反應(yīng)變量y的變異性。其定義為 復(fù)相關(guān)系數(shù):復(fù)相關(guān)系數(shù):確定系數(shù)的算術(shù)平方根確定系數(shù)的算術(shù)平方根 對例13-1,由方差分析表可得:ssr=0.

9、06396 sse=0.01727 sst=0.081237874. 008123. 001727. 0108123. 006396. 02rsstssrr表示變量y與k個自變量(x1,x2,xk)的線性相關(guān)的密切程度。說明,用包含氣車流量、氣溫、氣濕與風(fēng)速這四個自變量的回歸方程可解釋交通點空氣no濃度變異性的78.74%。8703. 07574. 0r表示交通點空氣no濃度與氣車流量、氣溫、氣濕與風(fēng)速等四個變量的復(fù)相關(guān)系數(shù)為0.8703 調(diào)整的r2(adjusted r-square) 當(dāng)回歸方程中包含有很多自變量,即使其中有一些自變量(如本例中的x3 )對解釋反應(yīng)變量變異的貢獻極小,隨著回

10、歸方程的自變量的增加,r2 值表現(xiàn)為只增不減,這是復(fù)相關(guān)系數(shù)r2的缺點。調(diào)整的r2定義為 1)1 (222knrkrra7426. 004475789. 07874. 01424)7874. 01 (47874. 02ar偏相關(guān)系數(shù)偏相關(guān)系數(shù)冷飲銷售量(元)x1游泳人數(shù)(人)x2氣溫 (oc)x32672677227222929397397814814303045145192492431315285281066106632326186181253125333336556551369136934346906901593159335357407401761176136367807801931193

11、13737889889223122313838996996274927493939 偏相關(guān)系數(shù)(partial correlation coefficient ):一般地,扣除其他變量的影響后,變量y與x的相關(guān).表13-5 空氣中no濃度與各自變量的相關(guān)系數(shù)和偏相關(guān)系數(shù)自變量相關(guān)系數(shù)偏相關(guān)系數(shù)偏相關(guān)系數(shù)p值車流x10.808000.808000.696200.696200.00050.0005氣溫x20.017240.017240.476700.476700.02890.0289氣濕x30.278540.27854-0.00218-0.002180.99250.9925風(fēng)速x4-0.67957

12、-0.67957-0.59275-0.592750.00460.0046汽車流量(x1)4002000-200-400-600一氧化氮濃度(y).2.10.0-.1氣溫(一氧化氮濃度()氣 濕 ()一氧化氮濃度()風(fēng)速(x4)1.51.0.50.0-.5-1.0一氧化氮濃度(y).10.08.06.04.020.00-.02-.04-.06-.08(二)對各自變量 指明方程中的每一個自變量對y的影響(即方差分析和決定系數(shù)檢驗整體)。1. 偏回歸平方和 )(jxss回表示偏回歸平方和,其值愈大說明相應(yīng)的自變量愈重要。 ()/1/(1)jjssxfssnk回殘12 1, 1nk平方和(變異) 回歸

13、方程中 包含的自變量 ss回 ss殘 4321x,x,x,x 133.7107 88.8412 432x,x,x 133.0978 89.4540 431xx,x 121.7480 100.8038 421xx,x 113.6472 108.9047 321xx,x 105.9168 116.6351 各自變量的偏回歸平方和可以通過擬合包含不同各自變量的偏回歸平方和可以通過擬合包含不同自變量的回歸方程計算得到自變量的回歸方程計算得到 11234234()(,)(,) 133.7107-133.0978=0.6129ssxssxxxxssx xx回回回 21234134()(,)(,) 133.

14、7107-121.748011.9627ssxssxxxxssx xx回回回 31234124()(,)(,) 133.7107-113.647220.0635ssxssxxxxssx xx回回回 41234123()(,)(,) 133.7107-105.916827.7939ssxssxxxxssx xx回回回 152. 0) 1427( /8412.881/6129. 01f, 962. 2) 1427/(8412.881/9627.112f 968. 4) 1427/(8412.881/0635.203f , 883. 6) 1427/(8412.881/7939.274f 結(jié)結(jié)果果2

15、. t 檢驗法 是一種與偏回歸平方和檢驗完全等價的一種方法。計算公式為jbjjsbtjb為偏回歸系數(shù)的估計值,jbs是jb的標(biāo)準(zhǔn)誤。 結(jié)結(jié) 論論標(biāo)準(zhǔn)化回歸系數(shù) 變量標(biāo)準(zhǔn)化是將原始數(shù)據(jù)減去相應(yīng)變量的均數(shù),然后再除以該變量的標(biāo)準(zhǔn)差。()jjjjxxxs 計算得到的回歸方程稱作標(biāo)準(zhǔn)化回歸方程,相應(yīng)的回歸系數(shù)即為標(biāo)準(zhǔn)化回歸系數(shù)。 yjjyyjjjjssbllbb注意:注意: 一般回歸系數(shù)一般回歸系數(shù)有單位,用來解釋各自有單位,用來解釋各自變量對應(yīng)變量的影響,表示在其它自變量保變量對應(yīng)變量的影響,表示在其它自變量保持不變時,持不變時, 增加或減少一個單位時增加或減少一個單位時y y的平的平均變化量均變化

16、量 。不能用各。不能用各 來比較各來比較各 對對 的影響大小。的影響大小。 標(biāo)準(zhǔn)化回歸系數(shù)標(biāo)準(zhǔn)化回歸系數(shù)無單位,用來比較各無單位,用來比較各自變量對應(yīng)變量的影響大小,自變量對應(yīng)變量的影響大小, 越大,越大, 對對 的影響越大。的影響越大。jxjbjxyjbjxy第四節(jié) 自變量篩選目的目的:使得預(yù)報和(或)解釋效果好自變量篩選的標(biāo)準(zhǔn)與原則自變量篩選的標(biāo)準(zhǔn)與原則 1.殘差平方和(sse)縮小與確定系數(shù)(r2)增大2.殘差均方( sse )縮小與調(diào)整確定系數(shù)增大3. cp統(tǒng)計量 選擇既具有較小cp值,在圖中又接近于cp =q直線的模型作為“最優(yōu)”的準(zhǔn)則 sstsser121pnssemsenqsse

17、cqp22全局擇優(yōu)法目的:預(yù)報效果好意義:對自變量各種不同的組合所建立 的回歸方程進行比較 擇優(yōu)。選擇方法:2. pc選擇法 )1(2)()(pnmssscmpp殘殘 pss)(殘是由)(mpp個自變量作回歸 的誤差平方和,mms)(殘是從全部 m 個自 變量的回歸模型中得到的殘差均方。 當(dāng)由 p 個自變量擬合的方程理論上為最優(yōu)時,pc的期望值是 p+1,因此應(yīng)選擇pc最接近 p+1 的回歸方程為最優(yōu)方程。 如果全部自變量中沒有包含對 y有主要作用的變量,則不宜用pc方法選擇自變量。 逐步選擇法1. 1.前進法,回歸方程中的自變量從無到有、從少到多逐個引入回歸方程。這種選擇自變量的方法基于殘差

18、均方縮小的準(zhǔn)則,不一定能保證“最優(yōu)” . 此法已基本淘汰。 2. 后退法,先將全部自變量選入方程,然后逐步剔除無統(tǒng)計學(xué)意義的自變量。 剔除自變量的方法是在方程中選一個偏回歸平方和最小的變量,作f檢驗決定它是否剔除,若無統(tǒng)計學(xué)意義則將其剔除,然后對剩余的自變量建立新的回歸方程。重復(fù)這一過程,直至方程中所有的自變量都不能剔除為止。理論上最好,建議使用采用此法。 3.逐步回歸法,逐步回歸法是在前述兩種方法的基礎(chǔ)上,進行雙向篩選的一種方法。該方法本質(zhì)上是前進法。 檢 驗 水 準(zhǔn)的 設(shè) 置 :小 樣 本 定 為 0.10 或 0.15,大 樣 本 定 為 0.05。 值 定 得 越 小 表 示 選 取

19、自 變 量 的 標(biāo) 準(zhǔn) 越 嚴 ,被選 入 的 自 變 量 個 數(shù) 相 對 也 較 少 ;反 之 ,值 定 得 越大 表 示 選 取 自 變 量 的 標(biāo) 準(zhǔn) 越 寬 , 被 選 入 的 自 變 量 個數(shù) 也 就 相 對 較 多 。 注 意 : 選 入 自 變 量 的 檢 驗 水 準(zhǔn)入要 小 于 或 等于 剔 除 自 變 量 的 檢 驗 水 準(zhǔn)出。 第五節(jié)第五節(jié) 多元線性回歸的應(yīng)用與注意事項多元線性回歸的應(yīng)用與注意事項1. 影響因素分析 解釋應(yīng)變量。 2. 估計與預(yù)測 3. 統(tǒng)計控制 逆估計,少用。 多元線性回歸的應(yīng)用多元線性回歸的應(yīng)用多元線性回歸應(yīng)用的注意事項多元線性回歸應(yīng)用的注意事項1、非同質(zhì)資料的合并問題、非同質(zhì)資料的合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論