北航數(shù)理統(tǒng)計(jì)回歸分析大作業(yè)_第1頁(yè)
北航數(shù)理統(tǒng)計(jì)回歸分析大作業(yè)_第2頁(yè)
北航數(shù)理統(tǒng)計(jì)回歸分析大作業(yè)_第3頁(yè)
北航數(shù)理統(tǒng)計(jì)回歸分析大作業(yè)_第4頁(yè)
北航數(shù)理統(tǒng)計(jì)回歸分析大作業(yè)_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)理統(tǒng)計(jì)(課程大作業(yè)1)逐步回歸分析學(xué)院:機(jī)械工程學(xué)院專業(yè):材料加工工程日期:2014年12月7日摘要:本文介紹多元線性回歸分析方法以及逐步回歸法,然后結(jié)合實(shí)際,以我國(guó)1995-2012年的財(cái)政收入為因變量,選取了8個(gè)可能的影響因素,選用逐步回歸法對(duì)各影響因素進(jìn)行了篩選分析,最終確定了其“最優(yōu)”回歸方程。關(guān)鍵字:多元線性回歸逐步回歸法財(cái)政收入SPSS1引言自然界中任何事物都是普遍聯(lián)系的,客觀事物之間往往都存在著某種程度的關(guān)聯(lián)關(guān)系。為了研究變量之間的相關(guān)關(guān)系,人們常用回歸分析的方法,而回歸分析是數(shù)理統(tǒng)計(jì)中一種常用方法。數(shù)理統(tǒng)計(jì)作為一種實(shí)用有效的工具,廣泛應(yīng)用于國(guó)民經(jīng)濟(jì)的各個(gè)方面,在解決實(shí)際問(wèn)題中發(fā)揮了巨大的作用,是一種理論聯(lián)系實(shí)踐、指導(dǎo)實(shí)踐的科學(xué)方法。財(cái)政收入,是指政府為履行其職能、實(shí)施公共政策和提供公共物品與服務(wù)需要而籌集的一切資金的總和。財(cái)政收入表現(xiàn)為政府部門(mén)在一定時(shí)期內(nèi)(一般為一個(gè)財(cái)政年度)所取得的貨幣收入。財(cái)政收入是衡量一國(guó)政府財(cái)力的重要指標(biāo),政府在社會(huì)經(jīng)濟(jì)活動(dòng)中提供公共物品和服務(wù)的范圍和數(shù)量,在很大程度上決定于財(cái)政收入的充裕狀況。本文將以回歸分析為方法,運(yùn)用數(shù)理統(tǒng)計(jì)工具探求財(cái)政收入與各種統(tǒng)計(jì)指標(biāo)之間的關(guān)系,總結(jié)主要影響因素,并對(duì)其作用、前景進(jìn)行分析和展望。2多元線性回歸2.1多元線性回歸簡(jiǎn)介在實(shí)際問(wèn)題中,某一因素的變化往往受到許多因素的影響,多元回歸分析的任務(wù)就是要找出這些因素之間的某種聯(lián)系。由于許多非線性的情形都可以通過(guò)變換轉(zhuǎn)化為線性回歸來(lái)處理,因此,一般的實(shí)際問(wèn)題都是基于多元線性回歸問(wèn)題進(jìn)行處理的。對(duì)多元線性回歸模型簡(jiǎn)要介紹如下:如果隨機(jī)變量y與m個(gè)普通變量有關(guān),且滿足關(guān)系式: (2.1)其中,是與無(wú)關(guān)的未知參數(shù),是不可觀測(cè)的隨機(jī)變量,。去掉變量后的新回歸方程(減模型)為:全模型的復(fù)相關(guān)系數(shù)的平方為,減模型的復(fù)相關(guān)系數(shù)的平方為,定義。若幾乎為零,則說(shuō)明x對(duì)y沒(méi)有顯著影響,反之則表示x對(duì)y有其它變量不可替代的顯著影響。檢驗(yàn)假設(shè):當(dāng)為真時(shí),檢驗(yàn)統(tǒng)計(jì)量為對(duì)于給定顯著性水平,由樣本計(jì)算出的值,若則拒絕,說(shuō)明x對(duì)y有顯著影響,應(yīng)在減模型中引入自變量x;反之則應(yīng)剔除x,使之成為減模型。偏F檢驗(yàn)通常被用作變量篩選的依據(jù)。逐步回歸法中就是對(duì)各變量采用偏F法進(jìn)行檢驗(yàn)的。3)逐步回歸法的步驟逐步回歸法的基本思想是:將變量逐個(gè)引入,引入條件是該變量的偏F檢驗(yàn)是顯著的。同時(shí),每引入一個(gè)新變量后又對(duì)老變量逐個(gè)檢驗(yàn),將變得不顯著的變量從回歸模型中剔除。具體步驟如下:1、對(duì)m個(gè)自變量分別與y建立回歸模型,對(duì)它們分別計(jì)算,得中最大的那個(gè)值,比如。(Ⅰ)如果,則計(jì)算結(jié)束,即y與所有自變量均線性無(wú)關(guān);(Ⅱ)如果,則引入,建立回歸方程 (2.3)2、建立y與自變量子集()的二元回歸模型 (2.4)以式(2.4)為全模型,式(2.3)為減模型求值,并取得中最大的那個(gè)值,比如說(shuō)。⑴如果,則計(jì)算結(jié)束,這時(shí)建立的模型為式(2.3);⑵如果,則引入,建立回歸方程 (2.5)3、當(dāng)引入后,對(duì)做偏F檢驗(yàn),看是否需要剔除;⑴如果,則不剔除,并繼續(xù)引入下一個(gè)變量;⑵如果,則從式2.4中剔除,再繼續(xù)引入下一個(gè)變量。重復(fù)上述步驟,直到所有模型外的變量都不能引入,模型內(nèi)的變量都不能被剔除為止。3財(cái)政收入回歸分析實(shí)例本次作業(yè)利用SPSS軟件和逐步回歸法,對(duì)原始數(shù)據(jù)進(jìn)行了回歸分析,并最終獲得了“最優(yōu)”回歸方程,解決這個(gè)問(wèn)題。3.1數(shù)據(jù)收集及處理首先進(jìn)行參考數(shù)據(jù)的選擇,根據(jù)查閱書(shū)籍以及中國(guó)統(tǒng)計(jì)局網(wǎng)站得到的數(shù)據(jù)資料,歸納出可能影響國(guó)家財(cái)政收入的一些主要因素,包括國(guó)內(nèi)生產(chǎn)總值(億元),人口數(shù)(萬(wàn)人)等。本文從中選取了國(guó)內(nèi)生產(chǎn)總值(億元),人口數(shù)(萬(wàn)人),能源生產(chǎn)總量(標(biāo)準(zhǔn)煤)(萬(wàn)噸),農(nóng)作物總播種面積(千公頃),貨運(yùn)量(萬(wàn)噸),出口總額(億元),進(jìn)口總額(億元),建筑業(yè)總產(chǎn)值(億元)8個(gè)因素作為本次考查的重點(diǎn),并對(duì)其與財(cái)政收入的相關(guān)關(guān)系進(jìn)行分析。表1所示為所選取的自1995年至2012年18年間財(cái)政收入與所選變量的數(shù)據(jù)匯總。年份國(guó)內(nèi)生產(chǎn)總值(億元)人口數(shù)(萬(wàn)人)能源生產(chǎn)總量(標(biāo)準(zhǔn)煤)(萬(wàn)噸)農(nóng)作物總播種面積(千公頃)貨運(yùn)量(萬(wàn)噸)出口總額(億元)進(jìn)口總額(億元)建筑業(yè)總產(chǎn)值(億元)財(cái)政收入(億元)199560793.7121121129034149879123493812452110485793.756242.2199671176.6122389133032152381129842112576115578282.257407.99199778973123626133460153969127821815161118079126.48865131247611298341557061267427152241162610061.999875.95199989677.11257861319351563731293008161601373611152.8611444.08200099214.61267431350481563001358682206341863912497.613395.232001109655.21276271438751557081401786220242015915361.5616386.042002120332.71284531506561546361483447269482443018527.1818903.642003135822.81292271719061524151564492362883419623083.8721715.252004159878.31299881966481535531706412491034643629021.4526396.472005184937.41307562162191554881862066626485427434552.131649.292006216314.41314482321671521492037060775976337741557.1638760.22007265810.31321292472791534642275822935647330051043.7151321.782008314045.413280226055215626625859371003957952762036.8161330.352009340902.81334502746191586142825222820306861876807.7468518.3201040120213409129691616067532418071070239469996031.1383101.512011473104.01347353179871622833696961123240.6113161.4115734.19103874.432012518942.11354043318481634164099400129359.3114801.0137217.86117253.523.2建立回歸模型過(guò)程為了研究財(cái)政收入與各種影響因素的關(guān)系,必須要建立二者之間的數(shù)學(xué)模型。數(shù)學(xué)模型可以有多種形式,比如線性模型,二次模型,指數(shù)模型,對(duì)數(shù)模型等等。而實(shí)際生活中,影響財(cái)政收入的因素很多,并且這些因素的影響不能簡(jiǎn)單的用某一種模型來(lái)描述,所以要建立財(cái)政收入的數(shù)學(xué)模型往往是很難的。但是為了便于研究,我們可以建立財(cái)政收入與各影響因素的線性回歸模型,模型如下:Y=α1X1+α2X2+α3X3+α4X4+α5X5+α6X6+α7X7+α8X8其中,是因變量,是自變量,是各個(gè)自變量的系數(shù)。各變量符號(hào)的定義見(jiàn)表2。YX1X2X3X4X5X6X7X8財(cái)政收入(億元)國(guó)內(nèi)生產(chǎn)總值(億元)人口數(shù)(萬(wàn)人)能源生產(chǎn)總量(標(biāo)準(zhǔn)煤)(萬(wàn)噸)農(nóng)作物總播種面積(千公頃)貨運(yùn)量(萬(wàn)噸)出口總額(億元)進(jìn)口總額(億元)建筑業(yè)總產(chǎn)值(億元)3.3線性回歸模型的驗(yàn)證通過(guò)一些假設(shè)可以得到工業(yè)生產(chǎn)總值與各影響因素的線性回歸模型。然而這些假設(shè)是否合理,所建模型是否接近實(shí)際的工業(yè)生產(chǎn)總值,需要進(jìn)一步驗(yàn)證。故作出數(shù)據(jù)散點(diǎn)圖,觀察因變量與自變量之間關(guān)系是否有線性特點(diǎn)。散點(diǎn)圖結(jié)果如圖1所示。(2)(1)(2)(1)(3)(4)(3)(4)(6)(5)(6)(5)(8)(7)(8)(7)財(cái)政收入與國(guó)內(nèi)生產(chǎn)總值散點(diǎn)圖;(2)財(cái)政收入與人口數(shù)散點(diǎn)圖;(3)財(cái)政收入與能源生產(chǎn)總量;(4)財(cái)政收入與農(nóng)作物總播種面積散點(diǎn)圖;(5)財(cái)政收入與貨運(yùn)量散點(diǎn)圖;(6)財(cái)政收入與出口總額散點(diǎn)圖;(7)財(cái)政收入與進(jìn)口總額散點(diǎn)圖;(8)財(cái)政收入與建筑業(yè)總產(chǎn)值散點(diǎn)圖圖1財(cái)政收入與各種因素散點(diǎn)圖由于多元逐步回歸分析方法是一種多元線性回歸方法,指標(biāo)變量若呈非線性關(guān)系則會(huì)影響模型精度。所以首先判斷因變量和自變量是否存在非線性關(guān)系。從圖1可以看出,人口數(shù)X2與財(cái)政收入Y之間大致呈指數(shù)關(guān)系,而農(nóng)作物總播種面積X4與財(cái)政收入Y之間的線性關(guān)系很不顯著,都是可以首先剔除的變量。其余變量QUOTE錯(cuò)誤!未找到引用源。都與財(cái)政收入Y具有線性作用且正相關(guān),需要通過(guò)逐步分析方法進(jìn)行進(jìn)一步的顯著性判斷。3.4線性回歸的結(jié)果及分析利用統(tǒng)計(jì)數(shù)據(jù)建立回歸模型,用SPSS軟件的線性回歸分析功能,得到以下數(shù)據(jù)。由表3可以看出貨運(yùn)量、國(guó)內(nèi)生產(chǎn)總值和能源生產(chǎn)總量這三個(gè)自變量經(jīng)過(guò)逐步回歸過(guò)程被選擇進(jìn)入了回歸方程。被選擇的判據(jù)是變量進(jìn)入回歸方程的F的概率不大于0.05,被剔除的判據(jù)是變量進(jìn)入回歸方程的F的概率不小于0.10。表3輸入/移去的變量模型輸入的變量移去的變量方法1貨運(yùn)量(萬(wàn)噸步進(jìn)(準(zhǔn)則:F-to-enter的概率<=.050,F(xiàn)-to-remove的概率>=.100)。2國(guó)內(nèi)生產(chǎn)總值(億元)步進(jìn)(準(zhǔn)則:F-to-enter的概率<=.050,F(xiàn)-to-remove的概率>=.100)。3能源生產(chǎn)總量(萬(wàn)噸)步進(jìn)(準(zhǔn)則:F-to-enter的概率<=.050,F(xiàn)-to-remove的概率>=.100)。a.因變量:財(cái)政收入表4顯示三個(gè)模型的擬合情況,模型3的復(fù)相關(guān)系數(shù)R=1.000,可決系數(shù)=0.999,調(diào)整可決系數(shù)為0.999,估計(jì)值的標(biāo)準(zhǔn)差為916.74710,可見(jiàn)模型3的擬合度較高。表4模型匯總模型RR2調(diào)整R2標(biāo)準(zhǔn)估計(jì)的誤差1.999a.998.9981615.3792921.000b.999.9991163.5199131.000c.999.999916.74710a.預(yù)測(cè)變量:(常量),貨運(yùn)量(萬(wàn)噸)b.預(yù)測(cè)變量:(常量),貨運(yùn)量(萬(wàn)噸),國(guó)內(nèi)生產(chǎn)總值(億元)c.預(yù)測(cè)變量:(常量),貨運(yùn)量(萬(wàn)噸),國(guó)內(nèi)生產(chǎn)總值(億元),能源生產(chǎn)總量(萬(wàn)噸)d.因變量:財(cái)政收入(億元)從表5中看出方差分析結(jié)果可以看出,三個(gè)模型的F值檢驗(yàn)Sig值遠(yuǎn)小于0.01,可見(jiàn),最終模型的整體線性關(guān)系是成立的。表5ANOVAd模型平方和df均方FSig.1回歸2.044E1012.044E107832.197.000a殘差41751204.003162609450.250總計(jì)2.048E10172回歸2.046E1021.023E107556.322.000b殘差20306678.791151353778.586總計(jì)2.048E10173回歸2.047E1036.823E98117.999.000c殘差11765953.53114840425.252總計(jì)2.048E1017a.預(yù)測(cè)變量:(常量),貨運(yùn)量(萬(wàn)噸)b.預(yù)測(cè)變量:(常量),貨運(yùn)量(萬(wàn)噸),國(guó)內(nèi)生產(chǎn)總值(億元)c.預(yù)測(cè)變量:(常量),貨運(yùn)量(萬(wàn)噸),國(guó)內(nèi)生產(chǎn)總值(億元),能源生產(chǎn)總量(萬(wàn)噸)d.因變量:財(cái)政收入(億元)如表6所示,包含的是進(jìn)入模型的變量,主要描述模型的參數(shù)估計(jì)值,以及每個(gè)變量的系數(shù)估計(jì)值的顯著性檢驗(yàn)和共線性檢驗(yàn)。結(jié)果模型中所有變量系數(shù)的t檢驗(yàn)Sig值都接近或小于0.01,說(shuō)明這些系數(shù)都顯著的不為0,因此,最終的回歸方程應(yīng)當(dāng)包含貨運(yùn)量、國(guó)內(nèi)生產(chǎn)總值和能源生產(chǎn)總量這三個(gè)自變量,且方程擬和效果很好。表6系數(shù)模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn)誤差試用版1(常量)-39148.932958.303-40.852.000貨運(yùn)量(萬(wàn)噸).038.000.99988.500.0002(常量)-26904.7673152.897-8.533.000貨運(yùn)量(萬(wàn)噸).022.004.5685.233.000國(guó)內(nèi)生產(chǎn)總值(億元).103.026.4323.980.0013(常量)-15515.4184351.514-3.566.003貨運(yùn)量(萬(wàn)噸).015.004.3853.731.002國(guó)內(nèi)生產(chǎn)總值(億元).176.031.7375.744.000能源生產(chǎn)總量(萬(wàn)噸)-.060.019-.124-3.188.007a.因變量:財(cái)政收入(億元)如表7所示,給出的是所有未進(jìn)入最終模型的變量檢驗(yàn)信息,由t檢驗(yàn)的Sig值都大于0.1,這些變量對(duì)模型的貢獻(xiàn)都不明顯,所以它們都不包含在最終方程中。表7排除的變量ModelBetaIntSig.偏相關(guān)共線性統(tǒng)計(jì)量容差1國(guó)內(nèi)生產(chǎn)總值(億元).432a3.980.001.717.006能源生產(chǎn)總量(萬(wàn)噸).043a.926.369.233.061出口總額(億元).066a1.929.073.446.092進(jìn)口總額(億元).076a1.828.088.427.064建筑業(yè)總產(chǎn)值(億元)-.051a-.195.848-.050.0022能源生產(chǎn)總量(萬(wàn)噸)-.124b-3.188.007-.649.027出口總額(億元)-.049b-1.117.283-.286.034進(jìn)口總額(億元)-.037b-.779.449-.204.030建筑業(yè)總產(chǎn)值(億元).319b1.660.119.406.0023出口總額(億元).073c1.478.163.379.016進(jìn)口總額(億元).101c2.111.055.505.014建筑業(yè)總產(chǎn)值(億元).188c1.142.274.302.001a.模型中的預(yù)測(cè)變量:(常量),貨運(yùn)量(萬(wàn)噸)b.模型中的預(yù)測(cè)變量:(常量),貨運(yùn)量(萬(wàn)噸),國(guó)內(nèi)生產(chǎn)總值(億元)c模型中的預(yù)測(cè)變量:(常量),貨運(yùn)量(萬(wàn)噸),國(guó)內(nèi)生產(chǎn)總值(億元),能源生產(chǎn)總量(萬(wàn)噸)d.因變量:財(cái)政收入表8殘差統(tǒng)計(jì)量極小值極大值均值標(biāo)準(zhǔn)偏差N預(yù)測(cè)值5652.1587116279.000038679.298334698.4605618殘差-1919.031131378.36218.00000831.9344418標(biāo)準(zhǔn)預(yù)測(cè)值-.9522.236.0001.00018標(biāo)準(zhǔn)殘差-2.0931.504.000.90718a.因變量:財(cái)政收入(億元)圖2標(biāo)準(zhǔn)化殘差直方圖圖2標(biāo)準(zhǔn)化殘差直方圖標(biāo)準(zhǔn)化殘差的P-P圖通過(guò)比較樣本殘差分布與假設(shè)的正態(tài)分布是否相同來(lái)檢驗(yàn)殘差是否符合正態(tài)分布,所有殘差點(diǎn)都分布在對(duì)角的直線附近,說(shuō)明殘差的正態(tài)性假設(shè)基本成立。圖3標(biāo)準(zhǔn)P-P圖圖3標(biāo)準(zhǔn)P-P圖圖4散點(diǎn)圖圖4散點(diǎn)圖從圖4的的財(cái)政收入與其標(biāo)準(zhǔn)化殘差散點(diǎn)圖中可以看到,所有觀測(cè)量隨機(jī)地落在垂直圍繞±2的范圍內(nèi),預(yù)測(cè)值與標(biāo)準(zhǔn)化殘差值之間沒(méi)有明顯的關(guān)系,所以回歸方程應(yīng)該滿足線性關(guān)系與方差齊性的假設(shè)且擬和效果較好。3.5最優(yōu)回歸方程由以上多元回歸分析可得各個(gè)分量的影響關(guān)系,從而得出“最優(yōu)”方程為:Y=-15515.418+0.176X1-0.060X3+0.015X5其中R2=0.999,F(xiàn)=8117.999X1代表國(guó)內(nèi)生產(chǎn)總值,X3代表能源

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論