版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第四章 多元線性回歸模型n經(jīng)典多元回歸模型n回歸分析的機(jī)理n經(jīng)典回歸模型及其參數(shù)估計(jì)n殘差分析與假設(shè)檢驗(yàn)n偏回歸系數(shù)的經(jīng)濟(jì)含義n含有虛擬變量的回歸n線性回歸過程一、回歸分析的機(jī)理n任意抽出一個(gè)婦女,試猜測其體重n如何猜?準(zhǔn)確性如何?n猜平均體重,最大偏差:31n如何猜得更準(zhǔn)確?n影響體重的最直接因素是身高:一般身高高的人體重大。n平均身高:62.85inch, 標(biāo)準(zhǔn)差:3.3n以平均身高分界:最大偏差21nE(weight/height)=b0+b1height,09. 4,13410bbn例:20個(gè)婦女的體重資料如表,n 平均體重:123.6pound,標(biāo)準(zhǔn)差:15.5n 最低體重:93po
2、und, 最大體重:155一個(gè)身高60的婦女體重平均111.5,最大偏差12heighttweigh09. 4134身高I N CH7068666462605856體重P O UN1601501401301201101009093155體重均值體重均值123.6猜體重平均值,最大偏差:猜體重平均值,最大偏差:318 .4606)(2wwi總變異身高I N CH7068666462605856體重P O UN16015014013012011010090身高相同的人體重不一定相同平均來看,體重隨身高的增加而增加身高I N CH7068666462605856體重P O UN16015014013
3、012011010090平均身高62.85134.0113.2以平均身高分界,高于平均身高猜以平均身高分界,高于平均身高猜134,低于平均,低于平均身高猜身高猜113.2:最大偏差:最大偏差21身高I N CH7068666462605856體重P O UN16015014013012011010090heighttweigh09. 4134這條直線的含這條直線的含義是什么?義是什么?一個(gè)身高一個(gè)身高60的婦女體重平均的婦女體重平均111.5,最大偏差最大偏差12觀測值weighti估計(jì)值weight殘差iiietweighweight身高I N CH7068666462605856體重P O
4、 UN16015014013012011010090highttweigh09. 4134%8 .73%100*8 .46063 .33995 .1207)(3 .3399)(8 .4606)(2222Rwwwwwwiii回歸線的解釋程度殘差平方和)剩余變異身高解釋的變異總變異身高身高體重體重總體回歸線總體回歸線通常,身高高的人體重大。同樣身高的人體重不同,即在給定通常,身高高的人體重大。同樣身高的人體重不同,即在給定身高下,體重有一個(gè)分布。大樣本下為正態(tài)分布。身高下,體重有一個(gè)分布。大樣本下為正態(tài)分布。總體回歸線反映了給定身高下,體重的平均水平總體回歸線反映了給定身高下,體重的平均水平: E
5、(weight/height)=b0+b1height ,b0,b1是未知的參數(shù)iiiheightbbweight10實(shí)際體重:已知已知20個(gè)婦女的身高體重資個(gè)婦女的身高體重資料以此為樣本估計(jì)總體參數(shù)料以此為樣本估計(jì)總體參數(shù)樣本回歸線樣本回歸線iiieheightbbweightheightbbtweigh1010為什么為什么要有要有 回歸分析的任務(wù):從樣本回歸線估計(jì)總體回歸線heighttweigh09. 4134heightbbweightheightbbheightweightE1010)/(因變量觀測值:總體回歸函數(shù):n總體回歸函數(shù)說明在給定的身高總體回歸函數(shù)說明在給定的身高下,體重平
6、均下,體重平均水平。水平。n但對(duì)某一個(gè)婦女,其體重可能與該平均水平有但對(duì)某一個(gè)婦女,其體重可能與該平均水平有偏差。偏差。n被解釋變量觀察值圍繞其期望值的被解釋變量觀察值圍繞其期望值的離差離差,是一,是一個(gè)不可觀測的隨機(jī)變量,稱為個(gè)不可觀測的隨機(jī)變量,稱為隨機(jī)誤差項(xiàng)隨機(jī)誤差項(xiàng)。)()/(10iiiiiheightbbweightheightweightEweightweightheight為什么要設(shè)隨機(jī)誤差項(xiàng)?n在解釋變量中被忽略的因素的影響;在解釋變量中被忽略的因素的影響;n變量觀測值的觀測誤差的影響;變量觀測值的觀測誤差的影響;n模型關(guān)系的設(shè)定誤差的影響;模型關(guān)系的設(shè)定誤差的影響;n其它隨機(jī)
7、因素的影響。其它隨機(jī)因素的影響。n產(chǎn)生并設(shè)計(jì)隨機(jī)誤差項(xiàng)的主要原因:產(chǎn)生并設(shè)計(jì)隨機(jī)誤差項(xiàng)的主要原因:n理論的模糊性;理論的模糊性;n數(shù)據(jù)的欠缺;數(shù)據(jù)的欠缺;n節(jié)省原則;節(jié)省原則;weightheight樣本回歸函數(shù)n從被研究總體中隨機(jī)抽取n個(gè)樣本(本例n=20),利用樣本觀測數(shù)據(jù)可得到樣本回歸函數(shù):n樣本回歸函數(shù)是對(duì)總體回歸函數(shù)的一個(gè)估計(jì)n對(duì)某一個(gè)婦女,其體重觀測值不會(huì)恰好等于估計(jì)值,而是會(huì)有殘差:n殘差是對(duì)隨機(jī)誤差項(xiàng)的一個(gè)估計(jì)heightbbtweigh10iiiieheightbbetweighweight10tweighweightein回歸分析的主要目的:回歸分析的主要目的:根據(jù)樣本回歸
8、函數(shù)根據(jù)樣本回歸函數(shù)SRF,估計(jì)總體回歸函數(shù)估計(jì)總體回歸函數(shù)PRF。iiiiieXeYY10iiiiiXXYEY10)|(一、回歸分析的機(jī)理n任意抽出一個(gè)婦女,試猜測其體重n影響體重的最直接因素是身高:利用身高與體重的關(guān)系推測n如何猜得更準(zhǔn)確(提高回歸線的解釋程度R2)?n除了身高,還有哪些因素影響體重?n例:20個(gè)婦女的體重資料hightbbweight10實(shí)際體重:%8 .73%100*8 .46063 .33992R回歸線的解釋程度iimotherhightweight210實(shí)際體重:heighttweigh09. 4134回歸建模過程模型設(shè)定n確定模型包含的變量:n回歸模型自變量:導(dǎo)致
9、因變量變化的重要因素n綜合考慮數(shù)據(jù)的可獲得性和數(shù)據(jù)質(zhì)量n模型設(shè)定錯(cuò)誤:美國人均CO2排放與中國人均GDP(謬誤回歸)n確定模型的數(shù)學(xué)形式n確定隨機(jī)擾動(dòng)項(xiàng)的概率分布特性n擬定模型中待估計(jì)參數(shù)的理論期望值區(qū)間回歸分析vs方差分析n方差分析n因素不同水平(分類變量)對(duì)響應(yīng)變量的影響n總變異分解為組間變異(因素影響)與組內(nèi)變異(隨機(jī)因素影響)n模型檢驗(yàn):nF檢驗(yàn)組間變異是否顯著大于組內(nèi)變異n回歸n自變量不同水平(連續(xù)變量)對(duì)因變量的影響n總變異分解為自變量影響(回歸平方和)與隨機(jī)因素影響(殘差平方和)n模型總體顯著性檢驗(yàn)nF檢驗(yàn):回歸平方和是否顯著大于殘差平方和估計(jì)效應(yīng)量二、經(jīng)典回歸模型及其參數(shù)估計(jì)n
10、多元回歸模型n多元回歸模型的參數(shù)估計(jì)n經(jīng)典假設(shè)及參數(shù)估計(jì)量的性質(zhì)n樣本容量問題1.多元回歸模型n找到導(dǎo)致被解釋變量變化的主要因素作為解釋變量,構(gòu)建多元回歸模型:n設(shè)因變量Y是k個(gè)解釋變量X1, Xk和誤差項(xiàng)的線性函數(shù): 其中:0為常數(shù)項(xiàng),1 , k為偏回歸系數(shù),i為隨機(jī)誤差項(xiàng)n對(duì)容量為n的樣本,這一模型實(shí)際上包含n個(gè)方程: y1=0+1x11+kxk1+1 yn=0+1x1n+kxkn+n總體回歸模型ikikiiXXY110多元回歸模型的矩陣表示nkknnkknxxxxxxyy21101212111111111)1()1(1nkknnxy樣本回歸函數(shù)樣本回歸函數(shù)(SRF)kikiiiiXXXY
11、22110ikikiiiieXXXY22110ei稱為稱為殘差殘差或或剩余項(xiàng)剩余項(xiàng)(residuals),可看成是總體,可看成是總體回歸函數(shù)中隨機(jī)擾動(dòng)項(xiàng)回歸函數(shù)中隨機(jī)擾動(dòng)項(xiàng) i的一個(gè)點(diǎn)估計(jì)。的一個(gè)點(diǎn)估計(jì)。 樣本回歸函數(shù)樣本回歸函數(shù)的的矩陣表達(dá)矩陣表達(dá): : XYeXYk10neee21e2.2.回歸參數(shù)的普通最小二乘估計(jì):殘差平方回歸參數(shù)的普通最小二乘估計(jì):殘差平方和最小和最小kjniXYjii,2, 1 ,0,2, 1),(KikiiiiXXXY221100000210QQQQk2112)(niiiniiYYeQ2122110)(nikikiiiXXXY已知已知假定假定kiikikikiii
12、iikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)()()()(221102222110112211022110kjj,2,1 ,0,正規(guī)方程組正規(guī)方程組正規(guī)方程組正規(guī)方程組的的矩陣形式矩陣形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111YXX)X(YXXX1)(條件?條件?點(diǎn)估計(jì)點(diǎn)估計(jì) OLSOLS估計(jì)的矩陣表示估計(jì)的矩陣表示 0)()(XYXY0)(XXXYYXYY0XXYXYXXX1)(XXYX)()(12XYXYeeniieQH)y(IyyexxxxHHyyxxxx
13、xyxxyxxx,)(,)()()var()(11121正規(guī)方程組的另一種表達(dá)XXYXXXeXXX0eX 001,2,iiij iieX ejk該正規(guī)方程該正規(guī)方程組成立的條組成立的條件是什么?件是什么? 可以證明,隨機(jī)誤差項(xiàng)的方差的無偏估計(jì)量為: 1122knkneiee隨機(jī)誤差項(xiàng)隨機(jī)誤差項(xiàng) 的方差的方差 的無偏估計(jì)的無偏估計(jì) 例:二元回歸模型的參數(shù)估計(jì)iiiiixxy22110)1 ()(2212121rxVari2212221212211)()()()(iiiiiiiiiiixxxxxxxyxxy1的置信區(qū)間:)()(1211121SetSet)()(OLS111VarSe估計(jì)量的標(biāo)準(zhǔn)誤
14、為:的3.3. 經(jīng)典假設(shè)與參數(shù)估計(jì)量的性質(zhì)經(jīng)典假設(shè)與參數(shù)估計(jì)量的性質(zhì) 在滿足基本假設(shè)的情況下,其結(jié)構(gòu)參數(shù) 的普通最小二乘估計(jì)具有: 線性性線性性、無偏性無偏性、有效性有效性( (最優(yōu)最優(yōu)線性無偏估計(jì)量線性無偏估計(jì)量BLUEBLUE)。 同時(shí),隨著樣本容量增加,參數(shù)估計(jì)量具有: 漸近無偏性、漸近有效性、一致性漸近無偏性、漸近有效性、一致性。多元回歸模型的經(jīng)典假設(shè)n假設(shè)1: x1,x3, xk是非隨機(jī)的。n假設(shè)2:E(i)=0 i=1,2, nn假設(shè)3:同方差Var(i)=2 (E(ii)= 2 )n假設(shè)4:無序列相關(guān), cov (ij)=E(ij)=0n假設(shè)5:x諸變量間無準(zhǔn)確的線性關(guān)系,即:無
15、多重共線性。n不存在一組不全為零的數(shù)1、2、 k,使得: 1x1i+ 2x2i+ + kxki=0n假設(shè)6:i N(0, 2)ikikiiXXY110關(guān)于多重共線性的進(jìn)一步說明n如果存在一組不全為零的數(shù)1、2、 k,使得: 1x1i+ 2x2i+ + kxki=0 n不妨設(shè)10,則上式可變?yōu)椋?x1i=-(2x2i+ + kxki)/1稱解釋變量之間存在完全共線性,此時(shí),某個(gè)解釋變量可以寫為其它解釋變量的線性組合。n如果 ,會(huì)不會(huì)破壞無多重共線假定?223iixx不會(huì),因?yàn)檫@兩個(gè)變量的關(guān)系是非線性的!經(jīng)典假設(shè)的矩陣表示n假設(shè)2:0000)()()()(2121nnEEEEEnnnnnnnnEE
16、EI222222122212121212121000000) (n假設(shè)3和4:n假設(shè)5:矩陣x的秩等于回歸參數(shù)的個(gè)數(shù)(或解釋變量個(gè)數(shù)加1),R(x)=k+1 , nk 4. 4.樣本容量問題樣本容量問題 所謂“最小樣本容量”,即從最小二乘原理出發(fā),欲得到參數(shù)估計(jì)量,不管其質(zhì)量如何,所要求的樣本容量的下限。 1) 最小樣本容量最小樣本容量 樣本最小容量必須不少于模型中解釋變量樣本最小容量必須不少于模型中解釋變量的數(shù)目(包括常數(shù)項(xiàng))的數(shù)目(包括常數(shù)項(xiàng)),即 n k+1因?yàn)?,無多重共線性要求:秩(X)=k+1 2 2)、滿足基本要求的樣本容量)、滿足基本要求的樣本容量 從統(tǒng)計(jì)檢驗(yàn)的角度從統(tǒng)計(jì)檢驗(yàn)的角
17、度: n30 時(shí),Z檢驗(yàn)才能應(yīng)用; n-k8時(shí), t分布較為穩(wěn)定 一般經(jīng)驗(yàn)認(rèn)為一般經(jīng)驗(yàn)認(rèn)為: 當(dāng)n30或者至少n3(k+1)時(shí),才能說滿足模型估計(jì)的基本要求。 模型的良好性質(zhì)只有在大樣本下才能得到理模型的良好性質(zhì)只有在大樣本下才能得到理論上的證明論上的證明三、殘差分析與假設(shè)檢驗(yàn)n假設(shè)檢驗(yàn)必要性及檢驗(yàn)內(nèi)容n統(tǒng)計(jì)檢驗(yàn)及經(jīng)濟(jì)意義檢驗(yàn)n經(jīng)典假設(shè)的檢驗(yàn)n模型的修正1.假設(shè)檢驗(yàn)的必要性和檢驗(yàn)內(nèi)容n回歸建模過程1.假設(shè)檢驗(yàn)的必要性和檢驗(yàn)內(nèi)容n為什么需要檢驗(yàn)?n回歸分析是要通過樣本來估計(jì)總體的真實(shí)參數(shù),或回歸分析是要通過樣本來估計(jì)總體的真實(shí)參數(shù),或者說是用樣本回歸線估計(jì)總體回歸線者說是用樣本回歸線估計(jì)總體回歸
18、線n模型可能違反OLS估計(jì)的基本假定n結(jié)論只是一次抽樣的某種偶然結(jié)果n檢驗(yàn)內(nèi)容:n經(jīng)典假設(shè)檢驗(yàn):保證統(tǒng)計(jì)量良好統(tǒng)計(jì)性質(zhì)n異方差、序列相關(guān)、多重共線n統(tǒng)計(jì)檢驗(yàn):推斷總體模型設(shè)定的合理性n經(jīng)濟(jì)意義檢驗(yàn):模型經(jīng)濟(jì)意義的合理性假設(shè)檢驗(yàn)的內(nèi)容1:經(jīng)典假設(shè)檢驗(yàn)n檢驗(yàn)經(jīng)典線性回歸模型的假定是否成立:保證參數(shù)估計(jì)量的良好性質(zhì)n按照線性模型的假定,模型隨機(jī)誤差項(xiàng)應(yīng)相互獨(dú)立,且服從均值為0,等方差的正態(tài)分布。n如果假定不成立,如果假定不成立,OLS估計(jì)量不再有效,回歸分估計(jì)量不再有效,回歸分析的統(tǒng)計(jì)檢驗(yàn)結(jié)果再顯著也不能說明問題析的統(tǒng)計(jì)檢驗(yàn)結(jié)果再顯著也不能說明問題。因?yàn)闅埐钇椒胶椭屑扔杏^測誤差,又有模型誤差,t,F(xiàn)
19、檢驗(yàn)的p值再小,也不意味模型正確。n內(nèi)容:是否存在共線性、序列相關(guān)、異方差,是否正態(tài)分布假設(shè)檢驗(yàn)的內(nèi)容2:統(tǒng)計(jì)檢驗(yàn)n統(tǒng)計(jì)檢驗(yàn)n盡管從統(tǒng)計(jì)性質(zhì)上已知,對(duì)無偏估計(jì)量,如果有足夠多的重復(fù)抽樣,參數(shù)的估計(jì)值的期望(均值)就等于其總體的參數(shù)真值,但一次抽樣,估計(jì)值不會(huì)等于該真值。抽樣具有偶然性。n因此,根據(jù)一次抽樣結(jié)果不能直接下結(jié)論,需要進(jìn)一步進(jìn)行統(tǒng)計(jì)檢驗(yàn)。n主要包括方程顯著性檢驗(yàn)、變量的顯著性檢驗(yàn)、擬合優(yōu)度檢驗(yàn)及參數(shù)的區(qū)間估計(jì)。ikikiiXXY110假設(shè)檢驗(yàn)的內(nèi)容3:經(jīng)濟(jì)意義檢驗(yàn)n經(jīng)濟(jì)意義檢驗(yàn)n檢驗(yàn)各個(gè)參數(shù)是否與經(jīng)濟(jì)理論和實(shí)際經(jīng)驗(yàn)相符消費(fèi)函數(shù)例:消費(fèi)函數(shù)例: =232.8+0.771X ,011?例
20、如:例如:ln(人均食品需求量人均食品需求量)=2.00.5ln(人均收入人均收入)4.5ln(食品價(jià)格食品價(jià)格) +0.8ln(其它商品價(jià)格其它商品價(jià)格) ln(人均食品需求量人均食品需求量)=2.0+0.5ln(人均收入人均收入)4.5ln(食品價(jià)格食品價(jià)格)+0.8ln(其它商品價(jià)格其它商品價(jià)格) ln(人均食品需求量人均食品需求量)=2.0+0.5ln(人均收入人均收入)0.8ln(食品價(jià)格食品價(jià)格) +0.8ln(其它商品價(jià)格其它商品價(jià)格)2. 統(tǒng)計(jì)檢驗(yàn)及經(jīng)濟(jì)意義檢驗(yàn)前提條件:經(jīng)典假設(shè)滿足n擬合優(yōu)度檢驗(yàn)n方程顯著性檢驗(yàn)n變量顯著性檢驗(yàn)n經(jīng)濟(jì)意義檢驗(yàn)(1)擬合優(yōu)度檢驗(yàn)n判定系數(shù)和調(diào)整的
21、判定系數(shù):方差分析2222)()(2)()()()(YYYYYYYYYYYYYYTSSiiiiiiiiii 總離差平總離差平方和的分解方和的分解ESSRSSYYYYTSSiii22)()(證明:證明:該項(xiàng)等于該項(xiàng)等于0TSSRSSTSSESSR12該統(tǒng)計(jì)量越接近于1,模型的擬合優(yōu)度越高。 從R2的表達(dá)式中發(fā)現(xiàn),如果在模型中增加解釋變量, R2往往增大。 這就給人一個(gè)錯(cuò)覺:要使得模型擬合得好,只要增加解釋變量即可。 但是,由增加解釋變量引起的R2的增大與擬合好壞無關(guān),所以R2需調(diào)整。 判定系數(shù)(可決系數(shù))判定系數(shù)(可決系數(shù)) 調(diào)整的可決系數(shù)調(diào)整的可決系數(shù)(adjusted coefficient
22、 of determination) ) 1/() 1/(12nTSSknRSSR其中:n-k-1為殘差平方和的自由度,n-1為總體平方和的自由度。(2)方程顯著性的)方程顯著性的F檢驗(yàn)檢驗(yàn)n 方程的顯著性檢驗(yàn),旨在對(duì)模型中被解釋變量方程的顯著性檢驗(yàn),旨在對(duì)模型中被解釋變量與解釋變量之間的線性關(guān)系與解釋變量之間的線性關(guān)系在總體上在總體上是否顯著成是否顯著成立作出推斷。立作出推斷。n 在多元模型中,即檢驗(yàn)?zāi)P驮诙嘣P椭?,即檢驗(yàn)?zāi)P椭械闹械膮?shù)參數(shù) j是否顯是否顯著不為著不為0。ikikiiiXXXY22110Hk012000:,0), 2 , 1(:1不全為kjHj 在原假設(shè)在原假設(shè)H0成立的
23、條件下成立的條件下,統(tǒng)計(jì)量,統(tǒng)計(jì)量 給定顯著性水平,可得到臨界值F(k,n-k-1),由樣本求出統(tǒng)計(jì)量F的數(shù)值,通過 F F(k,n-k-1) 或 FF(k,n-k-1)來拒絕或接受原假設(shè)H0,以判定原方程總體上總體上的線性關(guān)系是否顯著成立。 ) 1,() 1/(/knkFknRSSkESSF F F檢驗(yàn)的思想檢驗(yàn)的思想來自于總離差平方和的分解式來自于總離差平方和的分解式 TSS=ESS+RSS 關(guān)于擬合優(yōu)度檢驗(yàn)與方程顯著性檢驗(yàn)關(guān)系關(guān)于擬合優(yōu)度檢驗(yàn)與方程顯著性檢驗(yàn)關(guān)系的討論的討論 n從上式可看出,F(xiàn)與R2是同向變化的:n當(dāng)R2 =0時(shí),F(xiàn)=0nR2越大,F(xiàn)值也越大。當(dāng)R2=1時(shí),F(xiàn)) 1,()
24、 1/()1 (/) 1/(/22knkFknRkRknRSSkESSF 對(duì)于一般的實(shí)際問題,在對(duì)于一般的實(shí)際問題,在5%5%的顯著性水平下,的顯著性水平下,F(xiàn) F統(tǒng)計(jì)量的臨界值所對(duì)應(yīng)的統(tǒng)計(jì)量的臨界值所對(duì)應(yīng)的R R2 2的水平是較低的。的水平是較低的。所以,不宜過分注重所以,不宜過分注重R R2 2值,應(yīng)注重模型的經(jīng)濟(jì)意值,應(yīng)注重模型的經(jīng)濟(jì)意義;在進(jìn)行總體顯著性檢驗(yàn)時(shí),顯著性水平應(yīng)該義;在進(jìn)行總體顯著性檢驗(yàn)時(shí),顯著性水平應(yīng)該控制在控制在5%5%以內(nèi)。以內(nèi)。(3 3)變量的顯著性檢驗(yàn)()變量的顯著性檢驗(yàn)(t t檢驗(yàn))檢驗(yàn))n方程的方程的總體線性關(guān)系總體線性關(guān)系顯著顯著不等于不等于每個(gè)解釋變每個(gè)解
25、釋變量量對(duì)被解釋變量的影響都是顯著的。對(duì)被解釋變量的影響都是顯著的。n必須對(duì)每個(gè)解釋變量進(jìn)行顯著性檢驗(yàn),以決必須對(duì)每個(gè)解釋變量進(jìn)行顯著性檢驗(yàn),以決定是否作為解釋變量被保留在模型中。定是否作為解釋變量被保留在模型中。n這一檢驗(yàn)是由對(duì)變量的這一檢驗(yàn)是由對(duì)變量的 t 檢驗(yàn)完成的。檢驗(yàn)完成的。ikikiiiXXXY22110 設(shè)計(jì)原假設(shè)與備擇假設(shè): H1:i0 給定顯著性水平,可得到臨界值t/2(n-k-1),由樣本求出統(tǒng)計(jì)量t的數(shù)值,通過 |t| t/2(n-k-1) 或 |t|t/2(n-k-1) p判斷拒絕或不拒絕原假設(shè)H0,從而判定對(duì)應(yīng)的解判定對(duì)應(yīng)的解釋變量是否應(yīng)包括在模型中。釋變量是否應(yīng)包括
26、在模型中。 H0:i=0 (i=1,2k) )(iiset例. 凱恩斯消費(fèi)函數(shù)n每周家庭消費(fèi)支出exp和每周家庭收入income的數(shù)據(jù)如表,求凱恩斯消費(fèi)函數(shù)。n建立二元線性回歸模型n模型估計(jì)結(jié)果: ) 1(210expincomeexp系數(shù)系數(shù)a a26.2497.9313.310.016.851.1971.5744.327.005-.599.359-.607-1.668.146(常量)每周家庭收入($)LAGS(exp,1)模型1B標(biāo)準(zhǔn)誤非標(biāo)準(zhǔn)化系數(shù)Beta標(biāo)準(zhǔn)化系數(shù)t顯著性因變量: 每周家庭消費(fèi)支出($)a. ANOVAANOVAb b6816.06723408.03399.188.000
27、a206.155634.3597022.2228回歸殘差合計(jì)模型1平方和df均方F顯著性預(yù)測變量:(常量), LAGS(exp,1), 每周家庭收入($)。a. 模型摘要模型摘要b b.985a.971.9615.862模型1RR 方調(diào)整的 R 方估計(jì)的標(biāo)準(zhǔn)差a. 參數(shù)估計(jì)值參數(shù)估計(jì)的標(biāo)準(zhǔn)誤單零檢驗(yàn)之t統(tǒng)計(jì)量:H0:B=0方程顯著性檢驗(yàn)之F統(tǒng)計(jì)量判定系數(shù)n邊際消費(fèi)傾向11的假設(shè)檢驗(yàn)?nH0: 11 H1: 11 (4 4)經(jīng)濟(jì)意義檢驗(yàn):一般)經(jīng)濟(jì)意義檢驗(yàn):一般t t檢驗(yàn)檢驗(yàn)Ttn一般回歸系數(shù)的顯著性檢驗(yàn)用t檢驗(yàn):)(:H1*11*110Set7 . 0197. 01851. 0)(111Set
28、拒絕域:=0.05, T=-1.94 統(tǒng)計(jì)上不顯著,不能拒絕原假設(shè)) 1(210expincomeexp系數(shù)系數(shù)a a24.4556.4143.813.005.509.036.98114.243.000(常量)每周家庭收入($)模型1B標(biāo)準(zhǔn)誤非標(biāo)準(zhǔn)化系數(shù)Beta標(biāo)準(zhǔn)化系數(shù)t顯著性因變量: 每周家庭消費(fèi)支出($)a. ANOVAANOVAb b8552.72718552.727202.868.000a337.273842.1598890.0009回歸殘差合計(jì)模型1平方和df均方F顯著性a. 模型摘要模型摘要b b.981a.962.9576.493模型1RR 方調(diào)整的 R 方估計(jì)的標(biāo)準(zhǔn)差預(yù)測變量
29、:(常量), 每周家庭收入($)。a. 剔除不顯著變量incomeexp10n邊際消費(fèi)傾向11的假設(shè)檢驗(yàn)?nH0: 11 H1: 1樣本容量iiiixxy2210多重共線的識(shí)別n注意:多重共線是程度問題,而不是有無問題。n識(shí)別方法:nR2值高,F(xiàn)檢驗(yàn)顯著,但顯著t值少。n容許度與方差膨脹因子n特征根(eigenvalues)和病態(tài)指數(shù)(condition index)最小特征根最大特征根病態(tài)指數(shù)CI病態(tài)指數(shù)CI在10-30之間,中強(qiáng)多重共線;CI30,嚴(yán)重多重共線iiiiiTOLRVIFR111)1 (TOL22方差膨脹因子容許度共線性診斷共線性診斷a a2.9301.000.01.00.00
30、.0706.483.98.00.00.000166.245.001.001.00維123模型1特征值條件索引(常量)收入財(cái)富方差比例因變量: 消費(fèi)支出a. 系系 數(shù)數(shù)a a24.7756.7523.669.008.942.8231.8141.144.290.002482.128-.042.081-.834-.526.615.002482.128(常量)收入財(cái)富模型1B標(biāo)準(zhǔn)誤非標(biāo)準(zhǔn)化系數(shù)Beta標(biāo)準(zhǔn)化系數(shù)t顯著性容差VIF共線性統(tǒng)計(jì)量因變量: 消費(fèi)支出a. 消費(fèi)支出與收入和財(cái)富關(guān)系例4. 模型的修正n模型存在異方差和序列相關(guān)n模型存在多重共線n模型存在不顯著變量(無多重共線)n剔除不顯著變量n參
31、數(shù)經(jīng)濟(jì)意義不合理n變量選擇不當(dāng)、函數(shù)形式不當(dāng)重新設(shè)定模型(1)模型存在異方差和序列相關(guān)n如果模型中存在異方差和序列相關(guān),則t檢驗(yàn)和F檢驗(yàn)均無效,區(qū)間預(yù)測無效,模型必須修正n識(shí)別異方差和序列相關(guān)的原因n遺漏重要變量修改模型,引入遺漏變量n樣本數(shù)據(jù)自身特征n異方差修正:加權(quán)最小二乘法n序列相關(guān)修正:廣義差分方程(2)多重共線的克服a. 橫截面數(shù)據(jù)與時(shí)間序列數(shù)據(jù)并用n例:汽車需求,假定有銷售量、平均價(jià)格和消費(fèi)者收入的時(shí)間序列數(shù)據(jù),模型為:ttttIpylnlnln321時(shí)間序列數(shù)據(jù),價(jià)格和收入變量一般有高度共線的趨勢(shì)??衫脵M截面數(shù)據(jù)估計(jì)收入彈性3,因?yàn)檫@些數(shù)據(jù)都產(chǎn)生于一個(gè)時(shí)間點(diǎn)上,價(jià)格還不至于有多
32、大變化。令收入彈性的橫截面估計(jì)為 ,原回歸可化為:3ttttttIyypylnlnln3*21*其中:多重共線的克服b. 差分法:時(shí)間序列數(shù)據(jù)間往往有較強(qiáng)的相關(guān)性,減小相關(guān)性的方法是形成一次差分方程:11, 3331, 2221)()(ttttttttttxxxxyy其中:雖然x2和x3的水平之可能高度相關(guān),但是,其差分形式相關(guān)程度往往較低。因此,一階差分回歸常能減低多重共線性的嚴(yán)重程度。(對(duì)于橫截面數(shù)據(jù),一階差分不適用。)差分法的問題:隨機(jī)誤差項(xiàng)可能存在序列相關(guān);損失了一次觀測值,因而減少了一個(gè)自由度,如果樣本容量本身就不大,這可能會(huì)有影響。多重共線的克服c. 補(bǔ)充新數(shù)據(jù):以二元回歸為例)1
33、 ()(2232222rxVart當(dāng)r23給定時(shí),增加新樣本,通??梢允?增大,從而減少 的方差,使我們能更準(zhǔn)確地估計(jì)2。22tx 2e. 剔除變量:要慎重,設(shè)定偏誤(偏回歸系數(shù)估計(jì)量有偏)d. 主成分回歸*嶺回歸法嶺回歸法(Ridge Regression)n 20世紀(jì)70年代發(fā)展,以引入偏誤為代價(jià)減小參數(shù)以引入偏誤為代價(jià)減小參數(shù)估計(jì)量的方差估計(jì)量的方差。n 具體方法是:引入矩陣D,使參數(shù)估計(jì)量為 其中矩陣D一般選擇為主對(duì)角陣,即D=aI,a為大于0的常數(shù)。YXDXX1)( 顯然,與未含顯然,與未含D D的參數(shù)的參數(shù)B B的估計(jì)量相比,估計(jì)量有的估計(jì)量相比,估計(jì)量有較小的方差。較小的方差。例
34、 醫(yī)院生產(chǎn)率n研究醫(yī)院人員配備n因變量:manhrs(醫(yī)院要求的工時(shí)數(shù)),n解釋變量:nLoad:平均日均病人數(shù)nXray:每月x光的使用次數(shù),nBeddays:病床占用日,nStay:病人的平均停留時(shí)間,n elgpop :該地區(qū)人口n 做線性模型:elgpopstaybeddaysxrayloadmanhrs543210ANOVAANOVAb b490177043598035409237.767.000a4535497.411412317.9549471254016回歸殘差合計(jì)模型1平方和df均方F顯著性預(yù)測變量:(常量), stay, xray, elgpop, beddays, loa
35、d。a. 因變量: manhrsb. 模型摘要模型摘要b b.995a.991.987642.119892.733模型1RR 方調(diào)整的 R 方估計(jì)的標(biāo)準(zhǔn)差Durbin-Watson預(yù)測變量:(常量), stay, xray, elgpop, beddays, load。a. 因變量: manhrsb. elgpopstaybeddaysxrayloadmanhrs543210系數(shù)系數(shù)a a1964.3581071.4721.833.094-15.52497.661-.450-.159.877.0009598.207.056.021.2142.631.023.1267.9401.5793.092
36、1.394.511.620.0008933.554-4.2357.177-.082-.590.567.04323.292-394.635209.666-.112-1.882.087.2344.280(常量)loadxraybeddayselgpopstay模型1B標(biāo)準(zhǔn)誤非標(biāo)準(zhǔn)化系數(shù)Beta標(biāo)準(zhǔn)化系數(shù)t顯著性容差VIF共線性統(tǒng)計(jì)量a. 共線性診斷共線性診斷a a5.2011.000.00.00.00.00.00.00.6672.793.01.00.01.00.00.01.0798.109.03.00.38.00.01.02.04510.781.01.00.46.00.29.02.00825.16
37、2.80.00.14.00.25.762.848E-05427.339.151.00.001.00.44.20維123456模型1特征值條件索引(常量)loadxraybeddayselgpopstay方差比例因變量: manhrsa. 系數(shù)系數(shù)a a2032.188942.0752.157.052.056.020.2152.755.017.1267.9261.088.153.9607.095.000.04223.927-5.0045.081-.097-.985.344.07912.706-410.083178.078-.117-2.303.040.2983.361(常量)xraybedday
38、selgpopstay模型1B標(biāo)準(zhǔn)誤非標(biāo)準(zhǔn)化系數(shù)Beta標(biāo)準(zhǔn)化系數(shù)t顯著性容差VIF共線性統(tǒng)計(jì)量因變量: manhrsa. 模型摘要模型摘要b b.995a.991.988615.488682.739模型1RR 方調(diào)整的 R 方估計(jì)的標(biāo)準(zhǔn)差Durbin-Watson預(yù)測變量:(常量), stay, xray, elgpop, beddays。a. 多重共線修正:剔除變量nLoad(平均日均病人數(shù))和Beddays(病床占用日)高度共線,剔除LoadF=323.447下章:主成分回歸31033. 0088. 1的系數(shù)估計(jì)值BEDDAYS多重共線是否一定要修正?nOLS估計(jì)仍然是BLUE,參數(shù)估計(jì)
39、量方差大n視情況而定:n預(yù)測n結(jié)構(gòu)分析nt是否顯著四、偏回歸系數(shù)的含義n二元回歸模型為:二元回歸模型為:yi= 1+ 2x2i+ 3x3i+ i 1) 偏相關(guān)系數(shù)n簡單相關(guān):兩個(gè)變量之間線性關(guān)聯(lián)的緊密程度n偏相關(guān)定義:在多個(gè)變量y,x1,x2,xk之間,如果只考慮兩個(gè)變量之間的真實(shí)相關(guān)關(guān)系,而排除其他變量對(duì)它們的影響(或者說其他變量保持不變),這種相關(guān)成為偏相關(guān)。例 控制第三變量n某地15名13歲男童身高x1(cm)、體重x2(kg)、和肺活量y(ml)的數(shù)據(jù)如表。試對(duì)該資料做控制體重影響的身高與肺活量的偏相關(guān)分析。n步驟: AnalyzeCorelatePartialn選“身高”和“肺活量”
40、為分析變量,“體重”為控制變量,“雙尾檢驗(yàn)”,“顯示實(shí)際顯著性水平”n選項(xiàng):同時(shí)輸出均值和標(biāo)準(zhǔn)差及零階相關(guān)系數(shù)肺活量身高體重?偏相關(guān)系數(shù)n在偏相關(guān)中,根據(jù)被固定的變量數(shù)目的多少,可分為零階偏相關(guān)(即簡單相關(guān))、一階偏相關(guān)、二階偏相關(guān)、(k-1)階偏相關(guān)等。n偏相關(guān)系數(shù):用來衡量偏相關(guān)程度的數(shù)量指標(biāo)。n例: 為x3保持不變下y和x2的一階偏相關(guān)系數(shù)32xyxr簡單相關(guān)系數(shù)vs偏相關(guān)系數(shù)nr123與r12的關(guān)系nr12=0時(shí), r123并不為0,除非r13或r23為0。nr123與r12不一定同號(hào)。)1)(1()1)(1()1)(1(21321213122312322321223121321322
41、3213231312312rrrrrrrrrrrrrrrrrr如果如果x x1 1與與x x2 2的偏相關(guān)系數(shù)為的偏相關(guān)系數(shù)為0 0,意味著在消,意味著在消除了除了x x3 3對(duì)每個(gè)變量的線性影響后,對(duì)每個(gè)變量的線性影響后, x x1 1與與x x2 2之之間沒有線性關(guān)聯(lián),這時(shí)我們可以下結(jié)論說:間沒有線性關(guān)聯(lián),這時(shí)我們可以下結(jié)論說:在模型中在模型中x x2 2對(duì)對(duì)x x1 1沒有直接影響。沒有直接影響。例1 “期望擴(kuò)充”菲利普斯曲線n菲利普斯曲線表明:通貨膨脹率和失業(yè)率是反向變化的。期望擴(kuò)充菲利普斯曲線增加了預(yù)期通貨膨脹率的影響。n1970-1982年美國真實(shí)通貨膨脹率y(%)、失業(yè)率x2(%
42、)和預(yù)期通貨膨脹率x3(%)數(shù)據(jù)如表,作菲利普斯曲線。n原始菲利普斯曲線:yt=b1+b12x2t+1tn期望擴(kuò)充菲利普斯曲線:yt=1+2x2t+3x3t+t b12、 2的經(jīng)濟(jì)涵義、先驗(yàn)符號(hào)?2) 偏回歸系數(shù)b12 2估計(jì)值為正,失業(yè)率與通脹率同方向?估計(jì)值為正,失業(yè)率與通脹率同方向?符號(hào)正確,統(tǒng)計(jì)顯著。符號(hào)正確,統(tǒng)計(jì)顯著。統(tǒng)計(jì)上不顯著異于統(tǒng)計(jì)上不顯著異于0例1 “期望擴(kuò)充”菲利普斯曲線n估計(jì)結(jié)果n原始菲利普斯曲線n 期望擴(kuò)充菲利普斯曲線設(shè)定偏誤設(shè)定偏誤?000029. 0)(51521.35000008. 0001034. 0001125. 0:876590. 0362633. 8565
43、214. 4594789. 4:175786. 0305018. 0594789. 1:470032. 1392472. 1193357. 7232FpFpRtsexxyttt705058. 0)(150934. 0705058. 0180552. 0:013536. 0388502. 0429817. 1:630456. 0285283. 4:244934. 0127172. 622FpFpRtsexyttE(b12 ) = 2 + 3 b32 b12不僅度量了不僅度量了x2對(duì)對(duì)y的凈影響,還包括了的凈影響,還包括了x2對(duì)對(duì)x3的的影響而間接對(duì)影響而間接對(duì)y產(chǎn)生的影響產(chǎn)生的影響yt=b1+b
44、12x2t+1tyt=1+2x2t+3x3t+tb12=0.2449342=-1.392472nx3t=b2+b32x2t+2t x3t =-0.725280+1.113857x2ttttxxy32470032. 1392472. 1193357. 7ttxy2244934. 0127172. 6通脹通脹y失業(yè)率失業(yè)率x2預(yù)期預(yù)期通脹通脹x320B320偏回歸系數(shù)n偏回歸系數(shù)表示了其他因素不變時(shí),相應(yīng)解釋變量對(duì)因變量的“凈影響”。n2反映了x3不變的條件下,x2對(duì)y的凈影響n偏回歸系數(shù)-偏相關(guān):控制第三變量n多元回歸與一元回歸的區(qū)別:為什么要作多元回歸tttxxy32470032. 13924
45、72. 1193357. 7yt=1+2x2t+3x3t+t選擇恰當(dāng)?shù)淖冞x擇恰當(dāng)?shù)淖兞恐陵P(guān)重要量至關(guān)重要例1:在研究生產(chǎn)中的勞動(dòng)在經(jīng)濟(jì)附加值(EVA)中所占分額(即勞動(dòng)份額)的變動(dòng)時(shí),古扎拉蒂考慮如下模型:例2:n根據(jù)美國30所知名學(xué)校的MBA學(xué)生1994年基本年薪(ASP)、GPA分?jǐn)?shù)做回歸模型n估計(jì)輸出結(jié)果如圖n分析GPA是否對(duì)ASP有影響?GPAASP10模型摘要模型摘要b b.602a.362.34014779.439201.879模型1RR 方調(diào)整的 R 方估計(jì)的標(biāo)準(zhǔn)差Durbin-Watson預(yù)測變量:(常量), gpa。a. 因變量: aspb. 系數(shù)系數(shù)a a-273722.5
46、85758.314105117.5826347.086(常量)gpa模型1B標(biāo)準(zhǔn)誤非標(biāo)準(zhǔn)化系數(shù)因變量: aspa. n進(jìn)一步引入GMAT分?jǐn)?shù)以及每年學(xué)費(fèi)COST的數(shù)據(jù)建立一個(gè)多元回歸模型,解釋MBA畢業(yè)生的平均初職工資ASP,并且求出回歸結(jié)果n分別做方程和變量顯著性檢驗(yàn) n分析GPA是否對(duì)ASP有影響?為什么與一元回歸結(jié)果不一樣?n如果學(xué)費(fèi)這一變量的系數(shù)為正、并且在統(tǒng)計(jì)上是顯著的,是否表示進(jìn)入最昂貴的商業(yè)學(xué)校是值得的? 模型摘要模型摘要b b.876a.768.7419248.370221.938模型1RR 方調(diào)整的 R 方估計(jì)的標(biāo)準(zhǔn)差Durbin-Watson預(yù)測變量:(常量), cost,
47、 gpa, gmat。a. 因變量: aspb. 系數(shù)系數(shù)a a-310301.558715.98025676.00622106.479442.845115.9221.084.476(常量)gpagmatcost模型1B標(biāo)準(zhǔn)誤非標(biāo)準(zhǔn)化系數(shù)因變量: aspa. 五、含虛擬變量的回歸n一些影響經(jīng)濟(jì)變量的因素是無法定量度量。為了在模型中能夠反映這些因素的影響,并提高模型的精度,需要將它們“量化”。n虛擬變量(定類尺度變量、范疇變量):n用來表示某一“性質(zhì)”或?qū)傩猿霈F(xiàn)或不出現(xiàn),通常取值0或1,因而也稱兩值變量或兩分變量。n如:x表示性別,0=男性,1=女性n或x=0表示政策實(shí)施前,x=1表示政策實(shí)施后
48、。n同時(shí)含有一般解釋變量與虛擬變量的模型稱為虛擬變量模型或者方差分析(analysis-of variance: ANOVA)模型。被賦予0值的類別是基底(基準(zhǔn)),1是基底類的截距。1、虛擬變量的性質(zhì)n例:教授薪金與性別、教齡的關(guān)系nYi=1+2Di+Xi+I (1)n其中:Yi=教授的薪金, Xi=教齡, Di=性別,若是女性,若是男性01iDiiiiiiiiXDXYEXDXYE)(男教授平均薪金:女教授平均薪金:211) 1,|()0,|(教齡X年薪Y(jié)0女教授男教授12男教授平均薪金和女教授平均薪金水平相差2,但平均年薪對(duì)教齡的變化率是一樣的2:級(jí)差截距系數(shù)薪金與性別:估計(jì)結(jié)果993. 0
49、)455.21()45.38()61.93(:)155. 0()036. 0()192. 0(:334. 3371. 1969.172rtseDXYiii,若是女性,若是男性01iD993. 0)455.21()45.38()2 .117(:)155. 0()036. 0()182. 0(:334. 3371. 1303.212rtseDXYiii,若是男性,若是女性01iD男教授平均薪金水平比女教授顯著高$3.334K(男:21.3,女:17.969)2、含有虛擬變量的回歸問題n虛擬變量的設(shè)計(jì)n對(duì)多分定性變量,按照虛擬變量的個(gè)數(shù)比變量分類數(shù)少一的規(guī)則設(shè)虛擬變量。n例如受教育程度分為:博士、碩
50、士和本科三類,則應(yīng)設(shè)兩個(gè)虛擬變量:,不然的話,如果是碩士,不然的話,如果是博士010132DDYi=1+2D2i+3D3i+Xi+i“本科”類為基底iiiiiiiiiXDDXYEXDDXYEXDDXYE)()(31322132132) 1, 0,|()0, 1,|()0, 0,|(2、含有虛擬變量的回歸問題n美國制造業(yè)的利潤-銷售額行為季節(jié)調(diào)整例ttttttDDD銷售利潤4433221D2=1, 第2季度 ; D3=1, 第3季度; D4=1, 第4季度 =0, 其他季度; =0, 其他季度; =0, 其他季度5255. 0)3313. 3()281. 0()34. 0()072. 2()90
51、82. 3(:)0115. 0() 3 .654() 3 .632()5 .638()4 .1711(:0383. 086.18380.2179 .13224 .66882432rtseDDDttttt(銷售)潤利515. 0)7173. 3()7004. 2()0143. 4(:)0106. 0()02.493() 1 .1623(:0393. 0352.1331581.651522rtseDttt銷售利潤剔除季節(jié)影響,銷售額增加1美元,利潤可望增加4美分美國戰(zhàn)爭時(shí)期消費(fèi)模型1940-1950n建模:C=+X+3、比較兩個(gè)回歸n比較英國在第二次大戰(zhàn)后重建時(shí)期和重建后時(shí)期的總儲(chǔ)蓄-收入關(guān)系是否
52、發(fā)生變化。數(shù)據(jù)如表。D=1,重建時(shí)期 =0,重建后時(shí)期級(jí)差截距:區(qū)分兩個(gè)時(shí)期的截距級(jí)差斜率系數(shù):區(qū)分兩個(gè)時(shí)期的斜率ttttttXDXDY)(2121953. 0)109. 3()238. 9()155. 3()27. 5(:)033. 0()016. 0()47. 0()332. 0(:103. 015. 0484. 175. 12rtseXDXDYtttttttttttttXXDYEXXDYE)()(), 1|(), 0|(212111D=1D=0例:現(xiàn)有如下估計(jì)的利潤函數(shù)n新食品定價(jià)和廣告策略研究例參數(shù)估計(jì)參數(shù)估計(jì)因變量: sale350.00071.2554.912.000200.299
53、499.701507.000100.7705.031.000295.291718.709160.750100.7701.595.128-50.959372.4590a.86.500100.770.858.402-125.209298.2090a.-245.250142.510-1.721.102-544.65254.1520a.-21.250142.510-.149.883-320.652278.1520a.0a.0a.參數(shù)截距price=1price=2price=3advertis=1advertis=2price=1 *advertis=1price=1 *advertis=2price
54、=2 *advertis=1price=2 *advertis=2price=3 *advertis=1price=3 *advertis=2B標(biāo)準(zhǔn)誤tSig.下限上限95% 置信區(qū)間此參數(shù)為冗余參數(shù),將被設(shè)為零。a. 虛擬變量模型與方差分析協(xié)變量調(diào)整前協(xié)變量調(diào)整后參數(shù)估計(jì)參數(shù)估計(jì)因變量: sale-246.389146.159-1.686.110-554.75961.98022.5055.1764.348.00011.58433.427428.23273.6165.817.000272.915583.548160.75071.3522.253.03810.211311.2890a.-116.
55、04785.215-1.362.191-295.83463.7400a.-211.492101.205-2.090.052-425.0162.0320a.-77.513101.733-.762.457-292.152137.1250a.0a.0a.參數(shù)截距storesizprice=1price=2price=3advertis=1advertis=2price=1 *advertis=1price=1 *advertis=2price=2 *advertis=1price=2 *advertis=2price=3 *advertis=1price=3 *advertis=2B標(biāo)準(zhǔn)誤tSig.
56、下限上限95% 置信區(qū)間此參數(shù)為冗余參數(shù),將被設(shè)為零。a. 六、線性回歸過程選擇建立回歸方程的方法可以對(duì)不同的自變量采用不同的引入方法選擇進(jìn)入回歸分析的樣本點(diǎn)加權(quán)最小二乘法,單擊此按鈕可輸入加權(quán)變量方法選擇框:n建立回歸方程的方法有五種可供選擇:n進(jìn)入(強(qiáng)迫引入法):定義的全部自變量均引入方程。n移去(強(qiáng)迫剔除法):定義的全部自變量均剔除。n向前(向前引入法):自變量由少到多一個(gè)一個(gè)引入回歸方程,直到不能按檢驗(yàn)水準(zhǔn)引入新的變量為止。缺點(diǎn):當(dāng)兩個(gè)變量一起時(shí)效果好,單獨(dú)時(shí)效果不好,有可能只引入其中一個(gè)變量,或兩個(gè)變量都不能引入。方法選擇框:n向后(向后剔除法):自變量由多到少一個(gè)一個(gè)從回歸方程中剔
57、除,直到不能按檢驗(yàn)水準(zhǔn)剔除為止。能克服向前引入的缺點(diǎn)。n逐步(逐步回歸):將向前引入法和向后剔除法結(jié)合起來,在向前引入的每一步之后都要考慮從已引入方程的變量中剔除作用不顯著的變量,直到?jīng)]有一個(gè)自變量能引入方程,也沒有一個(gè)自變量能從方程中剔除為止。缺點(diǎn)同向前引入法,但選中的變量比較精悍?!敖y(tǒng)計(jì)量”對(duì)話框D-W檢驗(yàn):檢驗(yàn)隨機(jī)誤差項(xiàng)的獨(dú)立性(序列相關(guān)性)個(gè)案診斷:特異值或全部樣本,顯示其標(biāo)準(zhǔn)化殘差、實(shí)測值、預(yù)測值和殘差。默認(rèn)選項(xiàng)共線診斷“圖”對(duì)話框散點(diǎn)圖:輸入縱坐標(biāo)和橫坐標(biāo)。為獲得更多散點(diǎn)圖,可單擊“next”按鈕標(biāo)準(zhǔn)化殘差圖直方圖殘差的正態(tài)概率圖DEPENDENT:因變量,*ZPRED:標(biāo)準(zhǔn)化預(yù)測
58、值,*ZRESID:標(biāo)準(zhǔn)化殘差,*DRESID:刪除的殘差,*ADJPRED:調(diào)整預(yù)測值,*SRESID:student氏殘差,*SDRESID: student氏刪除殘差。預(yù)測值的標(biāo)準(zhǔn)誤預(yù)測區(qū)間估計(jì):均值的預(yù)測區(qū)間和個(gè)體y值的預(yù)測區(qū)間“保存”對(duì)話框“選項(xiàng)”對(duì)話框逐步方法準(zhǔn)則:以F的概率p值為準(zhǔn)則或以F值為準(zhǔn)則(均給出引入值和剔除值),當(dāng)F的p值小于等于引入值時(shí),引入相應(yīng)變量;當(dāng)F的p值大于等于剔除值時(shí),剔除相應(yīng)變量。本章小結(jié) 多元回歸模型n多元回歸模型描述了被解釋變量與諸解釋變量的依賴關(guān)系n偏回歸系數(shù)i表示其它解釋變量不變的條件下,第i個(gè)解釋變量變化對(duì)被解釋變量的 “凈” 影響。n偏回歸系數(shù)
59、的估計(jì)方法:最小二乘估計(jì)n當(dāng)經(jīng)典假設(shè)滿足時(shí),OLS估計(jì)量為最優(yōu)線性無偏估計(jì)量111nkknnxy121)()var()(xxyxxx多元回歸模型的建模過程n明確所研究的問題,確定因變量n通過定性分析,找到導(dǎo)致因變量變化的主要影響因素,作為解釋變量n收集數(shù)據(jù),整理數(shù)據(jù),數(shù)據(jù)的初步分析n分析因變量與各解釋變量間關(guān)系的性質(zhì),確定模型的函數(shù)形式n建立計(jì)量模型,確定各偏回歸系數(shù)的先驗(yàn)符號(hào)多元回歸模型的建模過程(續(xù))n用OLS估計(jì)模型的參數(shù),并作各種檢驗(yàn)n經(jīng)典假設(shè)檢驗(yàn):多重共線、異方差、序列相關(guān)n如果存在異方差/序列相關(guān),統(tǒng)計(jì)檢驗(yàn)無效n統(tǒng)計(jì)檢驗(yàn):t檢驗(yàn),F(xiàn)檢驗(yàn),判定系數(shù)n經(jīng)濟(jì)意義檢驗(yàn):各偏回歸系數(shù)的符號(hào)是
60、否與預(yù)期一致n篩選完善模型:n不遺漏重要變量,無多余變量,參數(shù)經(jīng)濟(jì)意義合理n模型的應(yīng)用:預(yù)測、結(jié)構(gòu)分析、政策建議n注意:不同形式模型偏回歸系數(shù)的經(jīng)濟(jì)含義回歸建模示例1:糧食生產(chǎn)模型n根據(jù)理論和經(jīng)驗(yàn)分析,影響糧食生產(chǎn)(Y)的主要因素有:n農(nóng)業(yè)化肥施用量(X1), 糧食播種面積(X2),成災(zāi)面積(X3),農(nóng)業(yè)機(jī)械總動(dòng)力(X4), 農(nóng)業(yè)勞動(dòng)力(X5)n已知中國糧食生產(chǎn)的已知中國糧食生產(chǎn)的相關(guān)數(shù)據(jù)相關(guān)數(shù)據(jù),建立中,建立中國糧食生產(chǎn)函數(shù)國糧食生產(chǎn)函數(shù): Y= 0+ 1 X1 + 2 X2 + 3 X3 + 4 X4 + 4 X5 + ANOVAANOVAb b324797742564959548137.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年新教材高中生物第6章細(xì)胞的生命歷程第2節(jié)細(xì)胞的分化課后提升訓(xùn)練含解析新人教版必修第一冊(cè)
- 2023年足球腳內(nèi)側(cè)傳球技術(shù)教案
- 2025年武漢貨運(yùn)叢業(yè)資格證試題及答案
- 2025年惠州貨運(yùn)資格證模擬考試題
- 2025農(nóng)村民間私人購房合同范本
- 2025成品油供油合同(中石油、中石化、加油買賣油協(xié)議)空白版
- 中國金頭黑色密胺筷項(xiàng)目投資可行性研究報(bào)告
- 中國電腦成型切割機(jī)項(xiàng)目投資可行性研究報(bào)告
- 投影機(jī)屏幕行業(yè)深度研究報(bào)告
- 上?,F(xiàn)代化工職業(yè)學(xué)院《機(jī)械裝備失效診斷技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 量具使用方法的培訓(xùn)
- 泰坦尼克號(hào)英文ppt
- 探尋中國茶一片樹葉的傳奇之旅2023章節(jié)測試答案-探尋中國茶一片樹葉的傳奇之旅超星爾雅答案
- 部編版初中語文七至九年級(jí)語文教材各冊(cè)人文主題與語文要素匯總一覽表合集單元目標(biāo)能力點(diǎn)
- 社會(huì)保險(xiǎn)業(yè)務(wù)申報(bào)表(填表說明)
- 02S701磚砌化糞池標(biāo)準(zhǔn)圖集
- 陜西西安未央?yún)^(qū)2021-2022學(xué)年度第一學(xué)期期末質(zhì)量檢測五年級(jí)英語試卷(人教PEP版含答案)
- 大疆開 FCC BOOST 教程指南
- C++面向?qū)ο蟪绦蛟O(shè)計(jì)(第二版)課件整套電子教案
- YY/T 0506.3-2005病人、醫(yī)護(hù)人員和器械用手術(shù)單、手術(shù)衣和潔凈服 第3部分:試驗(yàn)方法
- 醫(yī)院行風(fēng)建設(shè)及行風(fēng)示范窗口建設(shè)工作計(jì)劃
評(píng)論
0/150
提交評(píng)論