版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、3.1 +即y=x+基本假定(1)解釋變量x1,x2.,xp是確定性變量,不是隨機(jī)變量,且要求rank(X)=p+1<n,表明設(shè)計矩陣X中自變量列之間不相關(guān),樣本量的個數(shù)應(yīng)大于解釋變量的個數(shù)(2) 隨機(jī)誤差項具有零均值和等方差,即高斯馬爾柯夫條件 (3) 對于多元線性回歸的正態(tài)分布假定條件的矩陣模型為 N(0,) 隨即向量yN(X)3.2 當(dāng)存在時,回歸參數(shù)的最小二乘估計為,要求出回歸參數(shù),即要求是一個非奇異矩陣,所以可逆矩陣為p+1階的滿秩矩陣,又根據(jù)兩個矩陣乘積的秩不大于每一因子的秩rank(X)p+1,而X為n(p+1)階矩陣,于是應(yīng)有np+1結(jié)論說明,要想用最小二乘法估計多元線性
2、回歸模型的未知參數(shù),樣本量n必須大于模型自變量p的個數(shù)。3.3 3.4不能斷定這個方程一定很理想,因為樣本決定系數(shù)與回歸方程中自變量的數(shù)目以及樣本量n有關(guān),當(dāng)樣本量個數(shù)n太小,而自變量又較多,使樣本量與自變量的個數(shù)接近時,易接近1,其中隱藏一些虛假成分。3.5當(dāng)接受H時,認(rèn)定在給定的顯著性水平下,自變量x1,x2,xp對因變量y無顯著影響,于是通過x1,x2,xp去推斷y也就無多大意義,在這種情況下,一方面可能這個問題本來應(yīng)該用非線性模型去描述,而誤用了線性模型,使得自變量對因變量無顯著影響;另一方面可能是在考慮自變量時,把影響因變量y的自變量漏掉了,可以重新考慮建模問題。 當(dāng)拒絕H時,我們也
3、不能過于相信這個檢驗,認(rèn)為這個回歸模型已經(jīng)完美了,當(dāng)拒絕H時,我們只能認(rèn)為這個模型在一定程度上說明了自變量x1,x2,xp與自變量y的線性關(guān)系,這時仍不能排除排除我們漏掉了一些重要的自變量。3.6中心化經(jīng)驗回歸方程的常數(shù)項為0,回歸方程只包含p個參數(shù)估計值比一般的經(jīng)驗回歸方程減少了一個未知參數(shù),在變量較多時,減少一個未知參數(shù),計算的工作量會減少許多,對手工計算尤為重要。 在用多元線性回歸方程描述某種經(jīng)濟(jì)現(xiàn)象時,由于自變量所用的單位大都不同,數(shù)據(jù)的大小差異也往往很大,這就不利于在同一標(biāo)準(zhǔn)上進(jìn)行比較,為了消除量綱不同和數(shù)量級的差異帶來的影響,就需要將樣本數(shù)據(jù)標(biāo)準(zhǔn)化處理,然后用最小二乘法估計未知參數(shù)
4、,求得標(biāo)準(zhǔn)化回歸系數(shù)。3.7對進(jìn)行中心化處理得再將等式除以因變量的樣本標(biāo)準(zhǔn)差則有=所以3.8 (為相關(guān)陣()第i行,第j列的代數(shù)余子式)=3.9 F=小于1,F(xiàn)與一一對應(yīng),所以F與等價3.10 證得3.11 (1)相關(guān)性yx1x2x3yPearson 相關(guān)性1.556.731*.724*顯著性(雙側(cè)).095.016.018N10101010x1Pearson 相關(guān)性.5561.113.398顯著性(雙側(cè)).095.756.254N10101010x2Pearson 相關(guān)性.731*.1131.547顯著性(雙側(cè)).016.756.101N10101010x3Pearson 相關(guān)性.724*.
5、398.5471顯著性(雙側(cè)).018.254.101N10101010*. 在 0.05 水平(雙側(cè))上顯著相關(guān)。(2)(3)(4)(5)(6)模型匯總模型RR 方調(diào)整 R 方標(biāo)準(zhǔn) 估計的誤差1.898a.806.70823.44188a. 預(yù)測變量: (常量), x3, x1, x2。Anovab模型平方和df均方FSig.1回歸13655.37034551.7908.283.015a殘差3297.1306549.522總計16952.5009a. 預(yù)測變量: (常量), x3, x1, x2。b. 因變量: y系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量)-348.
6、280176.459-1.974.096x13.7541.933.3851.942.100x27.1012.880.5352.465.049x312.44710.569.2771.178.284a. 因變量: y1回歸方程為 y= -348.280+3.754x1+7.101x2+12.447x32復(fù)相關(guān)系數(shù)R=0.898,決定系數(shù)為0.806,擬合度較高。3方差分析表,F(xiàn)=8.283,P值=0.015<0.05,表明回歸方程高度顯著,說明x1,x2,x3,整體上對y有高度顯著的線性影響4回歸系數(shù)的顯著性檢驗x1工業(yè)總產(chǎn)值的P值=0.100 X2農(nóng)業(yè)總產(chǎn)值的P值=0.049 X3居民非產(chǎn)
7、品支出的P值=0.284在0.1的顯著性水平上,x3未通過檢驗,應(yīng)將其剔除掉輸入移去的變量b模型輸入的變量移去的變量方法1x2, x1a.輸入a. 已輸入所有請求的變量。b. 因變量: y模型匯總模型RR 方調(diào)整 R 方標(biāo)準(zhǔn) 估計的誤差1.872a.761.69224.08112a. 預(yù)測變量: (常量), x2, x1。Anovab模型平方和df均方FSig.1回歸12893.19926446.60011.117.007a殘差4059.3017579.900總計16952.5009a. 預(yù)測變量: (常量), x2, x1。b. 因變量: y系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤
8、差試用版1(常量)-459.624153.058-3.003.020x14.6761.816.4792.575.037x28.9712.468.6763.634.008a. 因變量: y1回歸方程為 y= -459.624+4.676x1+8.971x22復(fù)相關(guān)系數(shù)R=0.872,決定系數(shù)為0.761,由決定系數(shù)看回歸方程接近高度相關(guān)3方差分析表,F(xiàn)=11.117,P值=0.007,表明回歸方程高度顯著說明x1,x2,整體上對y有高度顯著的線性影響4回歸系數(shù)的顯著性檢驗x1工業(yè)總產(chǎn)值的P值=0.037 X2農(nóng)業(yè)總產(chǎn)值的P值=0.008 在0.05的顯著性水平上,自變量x1,x2對y均有顯著影響
9、(7) 系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B 的 95.0% 置信區(qū)間B標(biāo)準(zhǔn) 誤差試用版下限上限1(常量)-459.624153.058-3.003.020-821.547-97.700x14.6761.816.4792.575.037.3818.970x28.9712.468.6763.634.0083.13414.808a. 因變量: y ( 8 ) 標(biāo)準(zhǔn)化回歸方程y=0.479x1+0.676x2(9) 把x01=75,x02=42帶入y= -459.624+4.676x1+8.971x2得y=267.86y置信水平95%的區(qū)間估計為(211.09492 , 324.57506)y
10、置信水平95%的近似區(qū)間估計為(219.6978 , 316.0222)E(y)置信水平95%的區(qū)間估計為(245.00541 ,290.66457) (10)由于X3的回歸系數(shù)顯著性檢驗未通過,所以居民非商品支出對貨運(yùn)總量影響不大,但是回歸方程整體對數(shù)據(jù)擬合較好。3.12輸入移去的變量b模型輸入的變量移去的變量方法1x2, x1a.輸入a. 已輸入所有請求的變量。b. 因變量: y模型匯總模型RR 方調(diào)整 R 方標(biāo)準(zhǔn) 估計的誤差11.000a.999.9991189.51547a. 預(yù)測變量: (常量), x2, x1。Anovab模型平方和df均方FSig.1回歸1.809E1029.04
11、6E96393.516.000a殘差16979364.566121414947.047總計1.811E1014a. 預(yù)測變量: (常量), x2, x1。b. 因變量: y系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.共線性統(tǒng)計量B標(biāo)準(zhǔn) 誤差試用版容差VIF1(常量)2914.6461337.4662.179.050x1.607.299.0812.034.065.05020.196x21.709.074.92123.175.000.05020.196a. 因變量: yVIF的值都大于10,所以變量之間存在多重共線性共線性診斷a模型維數(shù)特征值條件索引方差比例(常量)x1x2 112.8711.000.
12、01.00.002.1254.795.26.00.033.00427.651.731.00.97a. 因變量: y表中第三行x0(常數(shù)項),x1,x2的系數(shù)分別為0.73,1.00,0.97,說明x0(常數(shù)項),x1,x2之間存在多重共線性?;貧w方程為y=2914.646+0.607x1+1.709x2,第一產(chǎn)業(yè)的增加值x1的P值=0.065第二產(chǎn)業(yè)的增加值x2的P值=0.000 在0.05的顯著性水平上x1對y無顯著影響第4章 違背基本假設(shè)的情況4.1 答:例4.1:截面資料下研究居民家庭的儲蓄行為 其中:Yi表示第i個家庭的儲蓄額,Xi表示第i個家庭的可支配收入。由于高收入家庭儲蓄額的差異
13、較大,低收入家庭的儲蓄額則更有規(guī)律性,差異較小,所以i的方差呈現(xiàn)單調(diào)遞增型變化。 例4.2:以某一行業(yè)的企業(yè)為樣本建立企業(yè)生產(chǎn)函數(shù)模型 被解釋變量:產(chǎn)出量Y,解釋變量:資本K、勞動L、技術(shù)A,那么每個企業(yè)所處的外部環(huán)境對產(chǎn)出量的影響被包含在隨機(jī)誤差項中。由于每個企業(yè)所處的外部環(huán)境對產(chǎn)出量的影響程度不同,造成了隨機(jī)誤差項的異方差性。這時,隨機(jī)誤差項的方差并不隨某一個解釋變量觀測值的變化而呈規(guī)律性變化,呈現(xiàn)復(fù)雜型。4.2 答:回歸模型一旦出現(xiàn)異方差性,如果仍采用OLS估計模型參數(shù),會產(chǎn)生下列不良后果:1、參數(shù)估計量非有效2、變量的顯著性檢驗失去意義3、回歸方程的應(yīng)用效果極不理想總的來說,當(dāng)模型出現(xiàn)
14、異方差性時,參數(shù)OLS估計值的變異程度增大,從而造成對Y的預(yù)測誤差變大,降低預(yù)測精度,預(yù)測功能失效。4.3 答:普通最小二乘估計就是尋找參數(shù)的估計值使離差平方和達(dá)極小。其中每個平方項的權(quán)數(shù)相同,是普通最小二乘回歸參數(shù)估計方法。在誤差項等方差不相關(guān)的條件下,普通最小二乘估計是回歸參數(shù)的最小方差線性無偏估計。然而在異方差的條件下,平方和中的每一項的地位是不相同的,誤差項的方差大的項,在殘差平方和中的取值就偏大,作用就大,因而普通最小二乘估計的回歸線就被拉向方差大的項,方差大的項的擬合程度就好,而方差小的項的擬合程度就差。由OLS求出的仍然是的無偏估計,但不再是最小方差線性無偏估計。所以就是:對較大
15、的殘差平方賦予較小的權(quán)數(shù),對較小的殘差平方賦予較大的權(quán)數(shù)。這樣對殘差所提供信息的重要程度作一番校正,以提高參數(shù)估計的精度。加權(quán)最小二乘法的方法:4.4答:運(yùn)用加權(quán)最小二乘法消除多元線性回歸中異方差性的思想與一元線性回歸的類似。多元線性回歸加權(quán)最小二乘法是在平方和中加入一個適當(dāng)?shù)臋?quán)數(shù) ,以調(diào)整各項在平方和中的作用,加權(quán)最小二乘的離差平方和為: (2)加權(quán)最小二乘估計就是尋找參數(shù)的估計值使式(2)的離差平方和達(dá)極小。所得加權(quán)最小二乘經(jīng)驗回歸方程記做 (3) 多元回歸模型加權(quán)最小二乘法的方法:首先找到權(quán)數(shù),理論上最優(yōu)的權(quán)數(shù)為誤差項方差的倒數(shù),即 (4)誤差項方差大的項接受小的權(quán)數(shù),以降低其在式(2)
16、平方和中的作用; 誤差項方差小的項接受大的權(quán)數(shù),以提高其在平方和中的作用。由(2)式求出的加權(quán)最小二乘估計就是參數(shù)的最小方差線性無偏估計。一個需要解決的問題是誤差項的方差是未知的,因此無法真正按照式(4)選取權(quán)數(shù)。在實際問題中誤差項方差通常與自變量的水平有關(guān)(如誤差項方差隨著自變量的增大而增大),可以利用這種關(guān)系確定權(quán)數(shù)。例如與第j個自變量取值的平方成比例時, 即=k時,這時取權(quán)數(shù)為 (5)更一般的情況是誤差項方差與某個自變量(與|ei|的等級相關(guān)系數(shù)最大的自變量)取值的冪函數(shù)成比例,即=k,其中m是待定的未知參數(shù)。此時權(quán)數(shù)為 (6)這時確定權(quán)數(shù) 的問題轉(zhuǎn)化為確定冪參數(shù)m的問題,可以借助SPS
17、S軟件解決。4.5證明:由得:4.6證明:對于多元線性回歸模型 (1) ,即存在異方差。設(shè),用左乘(1)式兩邊,得到一個新的的模型:,即。因為,故新的模型具有同方差性,故可以用廣義最小二乘法估計該模型,得原式得證。4.7 答:不同意。當(dāng)回歸模型存在異方差時,加權(quán)最小二乘估計(WLS)只是普通最小二乘估計(OLS)的改進(jìn),這種改進(jìn)可能是細(xì)微的,不能理解為WLS一定會得到與OLS截然不同的方程來,或者大幅度的改進(jìn)。實際上可以構(gòu)造這樣的數(shù)據(jù),回歸模型存在很強(qiáng)的異方差,但WLS 與OLS的結(jié)果一樣。加權(quán)最小二乘法不會消除異方差,只是消除異方差的不良影響,從而對模型進(jìn)行一點(diǎn)改進(jìn)。4.8 解:用公式計算出
18、加權(quán)變換殘差,分別繪制加權(quán)最小二乘估計后的殘差圖和加權(quán)變換殘差圖(見下圖)。根據(jù)繪制出的兩個圖形可以發(fā)現(xiàn)加權(quán)最小二乘估計沒有消除異方差,只是對原OLS的殘差有所改善,而經(jīng)過加權(quán)變換后的殘差不存在異方差。4.9 解(1)SPSS輸出結(jié)果如下:由上表可得回歸方程為:殘差圖為:(2)a由殘差散點(diǎn)圖可以明顯看出存在異方差,誤差的方差隨著的增加而增大。b用SPSS做等級相關(guān)系數(shù)的檢驗,結(jié)果如下表所示:相關(guān)系數(shù)xabseiSpearman 的 rhox相關(guān)系數(shù)1.000.318*Sig.(雙側(cè)).021N5353absei相關(guān)系數(shù).318*1.000Sig.(雙側(cè)).021.N5353*. 在置信度(雙測
19、)為 0.05 時,相關(guān)性是顯著的。得到等級相關(guān)系數(shù),P值=0.021,認(rèn)為殘差絕對值與自變量顯著相關(guān),存在異方差。(3)SPSS輸出結(jié)果如圖:系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量)-.683.298-2.296.026x.004.000.8219.930.000a. 因變量: y由上述表可得,在時對數(shù)似然函數(shù)達(dá)到最大,則冪指數(shù)的最優(yōu)取值為。加權(quán)后的回歸方程為:。計算加權(quán)后的殘差,并對殘差絕對值和自變量做等級相關(guān)系數(shù)分析,結(jié)果如下表所示:,P值為0.019<0.05,即加權(quán)最小二乘法沒有消除異方差,只是消除異方差的不良影響,從而對模型進(jìn)行一點(diǎn)改進(jìn)。相關(guān)系數(shù)x
20、abseiwSpearman 的 rhox相關(guān)系數(shù)1.000.321*Sig.(雙側(cè)).019N5353abseiw相關(guān)系數(shù).321*1.000Sig.(雙側(cè)).019.N5353*. 在置信度(雙測)為 0.05 時,相關(guān)性是顯著的。(4)對應(yīng)變量做方差穩(wěn)定變換()后,用最小二乘法做回歸,SPSS結(jié)果如下表:系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量)-.582.130-4.481.000x.001.000.8059.690.000a. 因變量: y則回歸方程為:。保存預(yù)測值,計算出殘差的絕對值后,計算等級相關(guān)系數(shù),見下表:相關(guān)系數(shù)xeeiiSpearman 的 rh
21、ox相關(guān)系數(shù)1.000.160Sig.(雙側(cè)) .254N5353eeii相關(guān)系數(shù).1601.000Sig.(雙側(cè)).254 .N5353*. 在置信度(雙測)為 0.05 時,相關(guān)性是顯著的。其中,P值=0.254>0.05,說明異方差已經(jīng)消除。4.10 答:例如,居民總消費(fèi)函數(shù)模型: t=1,2,n由于居民收入對消費(fèi)影響有滯后性,而且今年消費(fèi)水平受上年消費(fèi)水平影響,則可能出現(xiàn)序列相關(guān)性。另外由于消費(fèi)習(xí)慣的影響被包含在隨機(jī)誤差項中,則可能出現(xiàn)序列相關(guān)性(往往是正相關(guān) )。4.11答:直接用普通最小二乘法估計隨機(jī)誤差項存在序列相關(guān)性的線性回歸模型未知參數(shù)時,會產(chǎn)生下列一些問題:1. 參數(shù)
22、估計量仍然是無偏的,但不具有有效性,因為有自相關(guān)性時參數(shù)估計值的方差大于無自相關(guān)性時的方差。2. 均方誤差MSE可能嚴(yán)重低估誤差項的方差3. 變量的顯著性檢驗失去意義:在變量的顯著性檢驗中,統(tǒng)計量是建立在參數(shù)方差正確估計基礎(chǔ)之上的,當(dāng)參數(shù)方差嚴(yán)重低估時,容易導(dǎo)致t值和F值偏大,即可能導(dǎo)致得出回歸參數(shù)統(tǒng)計檢驗和回歸方程檢驗顯著,但實際并不顯著的嚴(yán)重錯誤結(jié)論。4. 當(dāng)存在序列相關(guān)時, 仍然是的無偏估計,但在任一特定的樣本中, 可能嚴(yán)重歪曲b的真實情況,即最小二乘法對抽樣波動變得非常敏感5. 模型的預(yù)測和結(jié)構(gòu)分析失效。4.12答:優(yōu)點(diǎn):1.應(yīng)用廣泛,一般的計算機(jī)軟件都可以計算出DW值; 2.適用于小
23、樣本; 3.可用于檢驗隨機(jī)擾動項具有一階自回歸形式的序列相關(guān)問題。缺點(diǎn):1. DW檢驗有兩個不能確定的區(qū)域,一旦DW值落入該區(qū)域,就無法判斷。此時,只有增大樣本容量或選取其他方法; 2.DW統(tǒng)計量的上、下界表要求n>15,這是由于樣本如果再小,利用殘差就很難對自相關(guān)性的存在做出比較正確的診斷; 3.DW檢驗不適應(yīng)隨機(jī)項具有高階序列相關(guān)性的檢驗。4.13 解:(1)模型匯總模型RR 方調(diào)整 R 方標(biāo)準(zhǔn) 估計的誤差1.999a.998.998.663a. 預(yù)測變量: (常量),某分公司的月銷售額 y。系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量)-1.435.242-5
24、.930.000總公司的月銷售額x.176.002.999107.928.000a. 因變量:總公司的月銷售額 x由上表可知:用普通二乘法建立的回歸方程為(2) 以自變量總公司的月銷售額x為橫軸,普通殘差為縱軸畫殘差圖如下:從圖中可以看到,殘差有規(guī)律的變化,呈現(xiàn)大致反W形狀,說明隨機(jī)誤差項存在自相關(guān)性。以(殘差1)為橫坐標(biāo),(殘差)為縱坐標(biāo),繪制散點(diǎn)圖如下:由殘差圖可見大部分的點(diǎn)落在第一、三象限內(nèi),表明隨機(jī)擾動項存在著正的序列相關(guān);從下表可知DW值為0.663,查DW表,n=20,k=2,顯著性水平=0.05,得=1.20,=1.41,由于0.663<1.20,知DW值落入正相關(guān)區(qū)域,即
25、殘差序列存在正的自相關(guān)。(3)自相關(guān)系數(shù)令,然后用對作普通最小二乘回歸可得輸出結(jié)果如下:可看到新的回歸方程的DW=1.360.且1.18<1.360<1.40,因而DW檢驗落入不確定區(qū)域此時,一步迭代誤差項的標(biāo)準(zhǔn)差為0.07296,小于的標(biāo)準(zhǔn)差0.097對的回歸方程為=-0.3+0.173,將=-0.6685,=-0.6685代人,還原為原始變量的方程=-0.3+0.6685+0.173-0.1157由于一步迭代的DW檢驗落入不確定區(qū)域,因而可以考慮對數(shù)據(jù)進(jìn)行二步迭代,也就是對和重復(fù)以上迭代過程。進(jìn)行回歸結(jié)果如下:此時DW的值為1.696,查DW表,n=18,k=2,顯著性水平=0
26、.05,得=1.16,=1.39, DW值大于,小于2,落入無自相關(guān)區(qū)域。誤差標(biāo)準(zhǔn)項0.0849,略小于一步迭代的標(biāo)準(zhǔn)差0.7296。但是在檢驗都通過的情況下,由于一步迭代的值和F值均大于兩步迭代后的值,且根據(jù)取模型簡約的原則,最終選擇一步迭代的結(jié)果,即:=-0.3+0.6685+0.173-0.1157(4)先計算差分=-,=-,然后用對做過原點(diǎn)的最小二乘回歸,結(jié)果如下:由上面表,可知DW值為1.462>1.40=,即DW落入不相關(guān)區(qū)域,可知?dú)埐钚蛄胁淮嬖谧韵嚓P(guān),一階差分法成功地消除了序列自相關(guān)。同時得到回歸方程為=0.169,將=-,=-,代人,還原原始變量的方程=+0.169(-)
27、(5)答:本題中自相關(guān)系數(shù)0.6685,不接近于1,不適宜用差分法,另外由迭代法的F值及都大于差分法的值,故差分法的效果低于迭代法的效果;而普通最小二乘法的隨機(jī)誤差項標(biāo)準(zhǔn)差為0.09744,大于迭代的隨機(jī)誤差項標(biāo)準(zhǔn)差0.07296,所以迭代的效果要優(yōu)于普通最小二乘法,所以本題中一次迭代法最好。4.14 解:將數(shù)據(jù)輸入SPSS,經(jīng)過線性回歸得到結(jié)果如下:Model Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the EstimateDurbin-Watson1.541(a).293.264329.69302.745a Predic
28、tors: (Constant), x2, x1b Dependent Variable: yANOVA(b)Model Sum of SquaresdfMean SquareFSig.1Regression2205551.67821102775.83910.145.000(a) Residual5326177.03649108697.491 Total7531728.71451 a Predictors: (Constant), x2, x1b Dependent Variable: y由以上3個表可知普通最小二乘法建立y與x1、x2的回歸方程,通過了r、F、t檢驗,說明回歸方程顯著。y與x
29、1、x2的回歸方程為:y=-574.062+191.098x1+2.045x2殘差圖ei(et)ei1(et-1)為:從殘差圖可以看出殘差集中在1、3象限,說明隨機(jī)誤差項存在一階正自相關(guān)。DW=0.745查表得dl=1.46 du=1.63, 0<DW<dl, 所以隨機(jī)誤差項存在一階正自相關(guān)。(2)=1-0.5DW=0.6275做變換:x1t=x1t-x1(t-1), x2t=x2t-x2(t-1)yt=yt-yt-1建立yt與x1t, x2t的回歸方程,SPSS輸出為:DW=1.716>du 所以誤差項間無自相關(guān)性。=257.86回歸方程為:yt=-178.775+211.
30、11x1t+1.436x2t還原為:yt-0.627y(t-1)= -178.775+211.11*(x1t-0.627x1(t-1) +1.436*( x2t-0.627x2(t-1)(3)Model Summary(c,d)ModelRR Square(a)Adjusted R SquareStd. Error of the EstimateDurbin-Watson1.715(b).511.491280.989952.040a For regression through the origin (the no-intercept model), R Square measures the
31、 proportion of the variability in the dependent variable about the origin explained by regression. This CANNOT be compared to R Square for models which include an intercept.b Predictors: DIFF(x2,1), DIFF(x1,1)c Dependent Variable: DIFF(y,1)d Linear Regression through the OriginDW=2.040>du,所以消除了自相
32、關(guān)性,=280.99差分法回歸方程為: ytyt-1=210.117(x1t-x1(t-1)1.397(x2t-x2(t-1).(4)用SPSS軟件的自回歸功能,analyze>time series>autoregression: =0.631, =258.068, (5) =0.632, =260.560 , DW1.748。(6) =0.632, =258.066 , DW1.746。(7)綜合以上各方法的模型擬合結(jié)果如下表所示:自回歸方法DW迭代法0.6275-179.0211.11.4371.716257.86差分法0210.11.3972.040280.99精確最大似然
33、0.631-481.7211.01.436258.07科克倫-奧克特0.632-479.3211.11.4351.748260.560普萊斯-溫斯登0.631-487.1211.01.4351.746258.066由上表可看出:DW值都落在了隨機(jī)誤差項無自相關(guān)性的區(qū)間上,一階差分法消除自相關(guān)最徹底,但因為=0.627,并不接近于1,故得到的方差較大,擬合效果不理想。將幾種方法所得到的值進(jìn)行比較,就可知迭代法的擬合效果最好,以普萊斯-溫斯登法次之,差分法最差。4.15 答:通常引起異常值的原因和消除異常值的方法有以下幾條,見表4.10:異常值原因異常值消出方法1.數(shù)據(jù)登記誤差,存在抄寫或錄入錯誤
34、重新核實數(shù)據(jù)2.數(shù)據(jù)測量誤差重新測量數(shù)據(jù)3.數(shù)據(jù)隨機(jī)誤差刪除或重新觀測異常值數(shù)據(jù)4.缺少重要自變量增加必要自變量5.缺少觀測數(shù)據(jù)增加觀測數(shù)據(jù),適當(dāng)擴(kuò)大自變量取值范圍6.存在異方差采用加權(quán)線性回歸7.模型選用錯誤,線性模型不適用改用非線性回歸模型4.16 解:(1)利用SPSS建立y與x1,x2,x3的三元回歸方程,分別計算普通殘差,學(xué)生化殘差,刪除殘差,刪除學(xué)生化殘差,中心化杠桿值,庫克距離,見下表:從表中看到絕對值最大的學(xué)生化殘差為SRE=2.11556,小于3,但有超過3的個別值,因而根據(jù)學(xué)生化殘差診斷認(rèn)為存在異常值。絕對值最大的刪除學(xué)生化殘差為3.832,對應(yīng)為第6個數(shù)據(jù),因此判斷它為為
35、異常值。第6個數(shù)據(jù)的中心化杠桿值為0.64,位于第一大,大于2=2=0.6,且?guī)炜司嚯x為3.21位于第一大,因而從杠桿值看是第6個數(shù)據(jù)是自變量的異常值,同時庫克距離大于1,故第6個數(shù)據(jù)為異常值的原因是由自變量異常與因變量異常兩個共同原因引起的。編號yX1X2X3殘差學(xué)生化殘差刪除殘差刪除學(xué)生化殘差12345678910 160 260 210 265 240 220 275 160 275 250 70 75 65 74 72 68 78 66 70 65 35 40 40 42 38 45 42 36 44 42 1.0 2.4 2.0 3.0 1.2 1.5 4.0 2.0 3.2 3.0
36、 -15.47481 12.82499 5.34434 -0.09088 33.22549 -25.19759 -17.55450 -20.00684 8.23435 18.69545-.893530.627670.26517-.004331.75400-2.11566-1.17348-1.162810.409351.06462 -28.35150 16.880527.22979-0.1135150.88273-97.61523-43.10665-37.1386811.1828733.31486-0.876040.59277 0.24349-0.003962.29383 -3.83214 -1
37、.22039-1.20606 0.379021.07911 0.166090.031150.006200.000000.408743.216010.501100.289460.015000.221580.354180.140250.160790.099350.24 0.641870.492770.361290.163660.33883 (2) 刪除第6組數(shù)據(jù),然后做回歸分析,編號yX1X2X3殘差刪除學(xué)生化殘差學(xué)生化殘差刪除學(xué)生化殘差12345789101602602102652402751602752507075657472786670653540404238.423644421.02.42
38、.03.01.24.02.03.23.0-12.507827.03274-8.01315-7.3673614.09650.0.712582.08767-10.3017614.26060-23.066919.42586-12.01962-9.4559227.957362.623936.13591-17.2660725.77938-1.312470.62911-0.75831-.644931.533930.105660.27655-1.030521.48152-1.449940.58638-0.72098-0.602441.885620.094610.24927-1.038591.769150.3
39、63550.033670.071880.029480.578400.007490.037080.179480.443220.346650.142780.222220.109760.384670.617320.548650.292240.33571.由上表可知:刪除第六組數(shù)據(jù)后,發(fā)現(xiàn)學(xué)生化殘差的絕對值和刪除化學(xué)生殘差絕對值均小于3,庫克距離均小于1,中心化杠桿值的最大值為0.61732<2= ,說明數(shù)據(jù)不再有異常值。所以可判斷異常值的原因是由于數(shù)據(jù)登記或?qū)嶋H問題有突變引起的。第5章 自變量選擇與逐步回歸思考與練習(xí)參考答案5.1 自變量選擇對回歸參數(shù)的估計有何影響?答: 回歸自變量的選擇是建
40、立回歸模型得一個極為重要的問題。如果模型中丟掉了重要的自變量, 出現(xiàn)模型的設(shè)定偏誤,這樣模型容易出現(xiàn)異方差或自相關(guān)性 ,影響回歸的效果;如果模型中增加了不必要的自變量, 或者數(shù)據(jù)質(zhì)量很差的自變量, 不僅使得建模計算量增大, 自變量之間信息有重疊,而且得到的模型穩(wěn)定性較差,影響回歸模型的應(yīng)用。5.2自變量選擇對回歸預(yù)測有何影響?答:當(dāng)全模型(m元)正確采用選模型(p元)時,我們舍棄了m-p個自變量,回歸系數(shù)的最小二乘估計是全模型相應(yīng)參數(shù)的有偏估計,使得用選模型的預(yù)測是有偏的,但由于選模型的參數(shù)估計、預(yù)測殘差和預(yù)測均方誤差具有較小的方差,所以全模型正確而誤用選模型有利有弊。 當(dāng)選模型(p元)正確采
41、用全模型(m元)時,全模型回歸系數(shù)的最小二乘估計是相應(yīng)參數(shù)的有偏估計,使得用模型的預(yù)測是有偏的,并且全模型的參數(shù)估計、預(yù)測殘差和預(yù)測均方誤差的方差都比選模型的大,所以回歸自變量的選擇應(yīng)少而精。5.3 如果所建模型主要用于預(yù)測,應(yīng)該用哪個準(zhǔn)則來衡量回歸方程的優(yōu)劣?答:如果所建模型主要用于預(yù)測,則應(yīng)使用統(tǒng)計量達(dá)到最小的準(zhǔn)則來衡量回歸方程的優(yōu)劣。5.4 試述前進(jìn)法的思想方法。答:前進(jìn)法的基本思想方法是:首先因變量Y對全部的自變量x1,x2,.,xm建立m個一元線性回歸方程, 并計算F檢驗值,選擇偏回歸平方和顯著的變量(F值最大且大于臨界值)進(jìn)入回歸方程。每一步只引入一個變量,同時建立m1個二元線性回
42、歸方程,計算它們的F檢驗值,選擇偏回歸平方和顯著的兩變量變量(F值最大且大于臨界值)進(jìn)入回歸方程。在確定引入的兩個自變量以后,再引入一個變量,建立m2個三元線性回歸方程,計算它們的F檢驗值,選擇偏回歸平方和顯著的三個變量(F值最大)進(jìn)入回歸方程。不斷重復(fù)這一過程,直到無法再引入新的自變量時,即所有未被引入的自變量的F檢驗值均小于F檢驗臨界值F(1,n-p-1),回歸過程結(jié)束。5.5 試述后退法的思想方法。答:后退法的基本思想是:首先因變量Y對全部的自變量x1,x2,.,xm建立一個m元線性回歸方程, 并計算t檢驗值和F檢驗值,選擇最不顯著(P值最大且大于臨界值)的偏回歸系數(shù)的自變量剔除出回歸方
43、程。每一步只剔除一個變量,再建立m1元線性回歸方程,計算t檢驗值和F檢驗值,剔除偏回歸系數(shù)的t檢驗值最小(P值最大)的自變量,再建立新的回歸方程。不斷重復(fù)這一過程,直到無法剔除自變量時,即所有剩余p個自變量的F檢驗值均大于F檢驗臨界值F(1,n-p-1),回歸過程結(jié)束。5.6前進(jìn)法、后退法各有哪些優(yōu)缺點(diǎn)?答:前進(jìn)法的優(yōu)點(diǎn)是能夠?qū)σ蜃兞坑杏绊懙淖宰兞堪达@著性一一選入,計算量小。前進(jìn)法的缺點(diǎn)是不能反映引進(jìn)新變量后的變化,而且選入的變量就算不顯著也不能刪除。后退法的優(yōu)點(diǎn)是是能夠?qū)σ蜃兞繘]有顯著影響的自變量按不顯著性一一剔除,保留的自變量都是顯著的。后退法的缺點(diǎn)是開始計算量大,當(dāng)減少一個自變量時,
44、它再也沒機(jī)會進(jìn)入了。如果碰到自變量間有相關(guān)關(guān)系時,前進(jìn)法和后退法所作的回歸方程均會出現(xiàn)不同程度的問題。5.7 試述逐步回歸法的思想方法。答:逐步回歸的基本思想是有進(jìn)有出。具體做法是將變量一個一個的引入,當(dāng)每引入一個自變量后,對已選入的變量要進(jìn)行逐個檢驗,當(dāng)原引入變量由于后面變量的應(yīng)納入而變得不再顯著時,要將其剔除。引入一個變量或從回歸防方程中剔除一個變量,為逐步回歸的一步,每一步都要進(jìn)行F檢驗,以確保每次引入新的變量之前回歸方程中只包含顯著的變量。這個過程反復(fù)進(jìn)行,直到無顯著變量引入回歸方程,也無不顯著變量從回歸方程中剔除為止。這樣就避免了前進(jìn)法和后退法各自的缺陷,保證了最后得到的回歸子集是最
45、優(yōu)回歸子集。5.8 在運(yùn)用逐步回歸法時,進(jìn)和出的賦值原則是什么?如果希望回歸方程中多保留一些自變量,進(jìn)應(yīng)如何賦值?答:原則是要求引入自變量的顯著水平進(jìn)小于剔除自變量的顯著性水平出,否則可能出現(xiàn)死循環(huán);若想回歸方程多保留自變量,可以增大進(jìn)的值,使得更多自變量的P值在進(jìn)的范圍內(nèi),但要注意,進(jìn)的值不得超過出的值。5.9 在研究國家財政收入時,我們把財政收入按收入形式分為:各項稅收收入、企業(yè)收入、債務(wù)收入、國家能源交通重點(diǎn)建設(shè)收入、基本建設(shè)貸款歸還收入、國家預(yù)算調(diào)節(jié)基金收入、其他收入等。為了建立國家財政收入回歸模型,我們以財政收入y(億元)為因變量,自變量如下:x1為農(nóng)業(yè)增加值(億元),x2為工業(yè)增加
46、值(億元),x3為建筑業(yè)增加值(億元),x4為人口數(shù)(萬人),x5為社會消費(fèi)總額(億元),x6為受災(zāi)面積(萬公頃)。據(jù)中國統(tǒng)計年鑒獲得19781998年共21個年份的統(tǒng)計數(shù)據(jù),見表5.4(P167)。由定性分析知,所有自變量都與y有較強(qiáng)的相關(guān)性,分別用后退法和逐步回歸法作自變量選元。解:后退法SPSS輸出結(jié)果:逐步回歸法二者結(jié)果相同,回歸方程為:y=865.9290.601x10.361x20.639x5但是回歸系數(shù)的解釋不合理。5.10 表5.5的數(shù)據(jù)是19681983年期間與電話線制造有關(guān)的數(shù)據(jù),各變量的含義如下:x1年份;x2國民生產(chǎn)總值(10億美元);x3新房動工數(shù)(單位:1000);
47、x4失業(yè)率();x5滯后6個月的最惠利率;x6用戶用線增量();y年電話銷量(百萬尺雙線)。(1)建立y對x2x6的線性回歸方程。SPSS輸出結(jié)果如下:回歸方程為:=5922.827+4.864+2.374-817.901+14.539-846.867其中x2、 x5的系數(shù)未通過檢驗。(2)用后退法選擇自變量。后退法剔除P值最大的剔除x5,模型的參數(shù)均通過顯著性檢驗。(顯著性水平0.05),得回歸方程為:=6007.320+5.068+2.308-824.261-862.699模型表明年電話銷量(y)與國民生產(chǎn)總值、新房動工數(shù)、失業(yè)率、用戶用線增量有顯著的線性關(guān)系。(3)用逐步回歸法選擇自變量
48、逐步回歸法引入x3,x5,x4進(jìn)入回歸模型,沒有剔除變量,保留x3,x5,x4作為最終模型?;貧w方程為:y=1412.8073.440x3415.136x4348.729x5模型表明年電話銷量(y)與新房動工費(fèi)、失業(yè)率、滯后6個月的最惠利率 有顯著的線性關(guān)系。(4)根據(jù)以上計算結(jié)果分析后退法和逐步回歸法的差異答:兩個方法得到的最終模型是不同的,后退法首先剔除了x5,而逐步回歸法在第二步引入了x5,說明兩種方法對自變量選取的方法是不同的,這與自變量之間的相關(guān)性有關(guān)。相比之下,后退法首先做全模型的回歸,每個自變量都有機(jī)會展示自己的作用,所得結(jié)果更值得信服。從本例看,x5是滯后6個月的最惠利率,對因
49、變量的影響似乎不大。第6章 6.1 試舉一個產(chǎn)生多重共線性的經(jīng)濟(jì)實例。答: 例如有人建立某地區(qū)糧食產(chǎn)量回歸模型,以糧食產(chǎn)量為因變量Y,化肥用量為X1,水澆地面積為X2,農(nóng)業(yè)投入資金為X3。由于農(nóng)業(yè)投入資金X3與化肥用量X1,水澆地面積X2有很強(qiáng)的相關(guān)性,所以回歸方程效果會很差。再例如根據(jù)某行業(yè)企業(yè)數(shù)據(jù)資料擬合此行業(yè)的生產(chǎn)函數(shù)時,資本投入、勞動力投入、資金投入與能源供應(yīng)都與企業(yè)的生產(chǎn)規(guī)模有關(guān),往往出現(xiàn)高度相關(guān)情況,大企業(yè)二者都大,小企業(yè)都小。6.2多重共線性對回歸參數(shù)的估計有何影響?答:1、完全共線性下參數(shù)估計量不存在;2、參數(shù)估計量經(jīng)濟(jì)含義不合理;3、變量的顯著性檢驗失去意義;4、模型的預(yù)測功
50、能失效。6.3 具有嚴(yán)重多重共線性的回歸方程能不能用來做經(jīng)濟(jì)預(yù)測?答:雖然參數(shù)估計值方差的變大容易使區(qū)間預(yù)測的“區(qū)間”變大,使預(yù)測失去意義。但如果利用模型去做經(jīng)濟(jì)預(yù)測,只要保證自變量的相關(guān)類型在未來期中一直保持不變,即使回歸模型中包含嚴(yán)重多重共線性的變量,也可以得到較好預(yù)測結(jié)果;否則會對經(jīng)濟(jì)預(yù)測產(chǎn)生嚴(yán)重的影響。6.4多重共線性的產(chǎn)生于樣本容量的個數(shù)n、自變量的個數(shù)p有無關(guān)系?答:有關(guān)系,增加樣本容量不能消除模型中的多重共線性,但能適當(dāng)消除多重共線性造成的后果。當(dāng)自變量的個數(shù)p較大時,一般多重共線性容易發(fā)生,所以自變量應(yīng)選擇少而精。6.6對第5章習(xí)題9財政收入的數(shù)據(jù)分析多重共線性,并根據(jù)多重共線性剔除變量。將所得結(jié)果與逐步回歸法所得的選元結(jié)果相比較。5.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新版五年級英語下冊教案
- 上課遲到檢討書(合集15篇)
- 行業(yè)調(diào)研報告匯編4篇
- 中考熱點(diǎn)素材集合15篇
- 電子公司實習(xí)報告匯編7篇
- 《呼蘭河傳》讀書筆記(15篇)
- 邊城讀書筆記(15篇)
- 喹諾酮類抗菌藥物合理使用的理性思考
- 七年級地理教學(xué)工作計劃范例(20篇)
- 入伍保留勞動關(guān)系協(xié)議書(2篇)
- 電動三輪車監(jiān)理細(xì)則
- 《鋁及鋁合金厚板殘余應(yīng)力測試方法 切縫翹曲法》
- 知識創(chuàng)新與學(xué)術(shù)規(guī)范中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 企業(yè)貸款書面申請書
- 人教五年級英語上冊2011版五年級英語上冊《Lesson17》教案及教學(xué)反思
- 交換機(jī)安裝調(diào)試記錄表實用文檔
- 理性思維作文素材800字(通用范文5篇)
- 應(yīng)急物資清單明細(xì)表
- 房地產(chǎn)估計第八章成本法練習(xí)題參考
- 《社會主義核心價值觀》優(yōu)秀課件
- 《妊娠期糖尿病患者個案護(hù)理體會(論文)3500字》
評論
0/150
提交評論