版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 /19利用MATLAB進行回歸分析一、實驗目的:了解回歸分析的基本原理,掌握MATLAB實現(xiàn)的方法;練習用回歸分析解決實際問題。二、實驗內容:題目1社會學家認為犯罪與收入低、失業(yè)及人口規(guī)模有關,對20個城市的犯罪率y(每10萬人中犯罪的人數(shù))與年收入低于5000美元家庭的百分比x】、失業(yè)率花和人口總數(shù)勺(千人)進行了調查,結果如下表。序號yxiXr召序號y逅花X3111.216.56.25871114.518.16.07895213.420.56.46431226.923.17.4762340.726.39.36351315.719.15.8279345.316.55.36921436.22
2、4.78.6741524.819.27.312481518.118.66.5625612.716.55.96431628.924.98.3854720.920.26.419641714.917.96.7716835.721.37.615311825.822.48.692198.717.24.97131921.720.28.4595109.614.36.47492025.716.96.73353表12.26(1)若X廠X3中至多只許選擇2個變量,最好的模型是什么?(2)包含3個自變量的模型比上面的模型好嗎?確定最終模型。(3)對最終模型觀察殘差,有無異常點,若有,剔除后如何。理論分析與程序設計:
3、為了能夠有一個較直觀的認識,我們可以先分別作出犯罪率y與年收入低于5000美元家庭的百分比X】、失業(yè)率花和人口總數(shù)x3(千人)之間關系的散點圖,根據(jù)大致分布粗略估計各因素造成的影響大小,再通過逐步回歸法確定應該選擇哪幾個自變量作為模型。編寫程序如下:clc;clearall;y=11.213.440.75.324.812.720.935.78.79.614.526.915.736.218.128.914.925.821.725.7;$犯罪率(人/十萬人)xl=1652D.526316.51921G.5二0221317.214318.123119118.624.917.922.420.216.9
4、;電低收入家庭百分比x2=6.26.49.35.37.35.96.47.64.96.46.07.45.88.66.58.38.68.46.7;*失業(yè)率x3=587643635692124864319641531713749789576227937416258547169215953353;*總人口數(shù)(千人)figure(1),plot(xl,yzf*f);figure(2),plot(x2/yff*f);figure(3),plot(x3zy,f*1);Xl=xlTzx2f,x3f;stepwise(Xlzy)運行結果與結論:4540353025201510161820222426010002
5、000300040006000600070008000犯罪率與低收入散點圖4511111111140-4-.35-*-30*25-*半-20*羋15-%*-+*10*51i111111114.555.566.517.588.599.5犯罪率與失業(yè)率散點圖45403530252015105犯罪率與人II總數(shù)散點圖3/19CoefficientswithErrorBarsCcefft-statp-valNextstep:Movenoterms /19III-223932154000459IIIIIIIWF14.398942.88230.0103IIIIIIIII-III00007629371199
6、0024802468X1X2X3UJi24G810低收入與失業(yè)率作為自變量1214丨III259552643G00.0000IIJ719823.08390.0071IIIIIII+IIIlliXIO.OOC4198060.54700.591568CoefficientswithErrorBarsCcefft-statp-valNextstep:MoveX2inintercept=-34.0725R-uare=0.801993F=34.4278RMSE=4.64640AdjR-sq=0776698p=1.05143e-C06ModelHistoryCoefficientswithErrorBar
7、sCcefft-statp-valNextstep:Movenoterms #/19CoefficientswithErrorBarsCcefft-statp-valNextstep:Movenoterms #/19Irtercept-31.2152陽-0.710325F-20.8433RMSE=5.82245AdjR-sq=0676247p=266827e-005ModalHistoryCoefficientswithErrorBarsCcefft-statp-valNextstep:Movenoterms #/19141G681012低收入與人II總數(shù)作為自變量Nextstep:Movei
8、n /19CoefficientswithErrorBarsCceffp-valX111921721226004”X2一.11117.351877.4620O.GOOOX3i1111111000C8266272184202S20246810intercept=-31.5998RMSE=5.04083R-uare=0.767157AdjR-sq=0709764F=28.0054p=416898e-CO6ModelHistoryIUiIiiiiiG-64Iif11*ITl-T*424681012141618失業(yè)率與人II總數(shù)作為自變量在圖中可以明顯看出前兩圖的線性程度很好,而第三個圖的線性程度較差
9、,從這個角度來說我們應該以失業(yè)率和低收入為自變量建立模型。并且我們也可以從相關性角度來選取自變量,可以看出低收入與失業(yè)率作為自變量時的RMSE二4.64848;低收入與人口總數(shù)作為自變量時的RMSE二5.62245;失業(yè)率與人口總數(shù)作為自變量時的RMSE二5.04083o我們看到當?shù)褪杖肱c失業(yè)率作為自變量時RMSE最小,因此如果選擇兩個變量作為自變量的會,它們是最適合的。并且可以得到三者的關系為:y=-34.0725+1.22393馮+4.39894馮:對同時選取三個自變量的模型分析:如果我們將其三者同時選為自變量,我們發(fā)現(xiàn)RMSE二4.58978,比低收入與失業(yè)率二者作為自變量時稍微小了一點
10、,不過我們也發(fā)現(xiàn)此時的X3系數(shù)為0.00076937,幾乎為零,是可以忽略的,因此我們仍然選取兩個自變量做最終的模型。關系函數(shù)仍為:y=-34.0725+1.22393逅+4.39894馮Coefficientsv/ithErrorBarsCoefft-scatp-valNextstepMoveX3oui /1911;1119217212200497冷.11114.719823.08390007111*1Illi0000762937199002480X1X2X3Coefficientsv/ithErrorBarsCoefft-scatp-valNextstepMoveX3oui #/19Coe
11、fficientsv/ithErrorBarsCoefft-scatp-valNextstepMoveX3oui #/19Irtercepl=-38.7649R-squ6re=0.818318F=24.022RMSE=4.5897BAdjR陰=0.784252p=3.G29a3e-O36Coefficientsv/ithErrorBarsCoefft-scatp-valNextstepMoveX3oui #/19Coefficientsv/ithErrorBarsCoefft-scatp-valNextstepMoveX3oui /1942468101214161820低收入、失業(yè)率與人口總數(shù)
12、都作為自變量殘差分析:對我們設定的最終模型運用殘差分析,編寫程序如下:clc;clearall;y=11.213.440.75.324.812.720.935.78.79.614.526.915.736.218.128.914.925.821.725.7;*犯罪率(人/十萬人)xl=16520526316519二1G.520221.317.214.318123119118.624.917.922.420.216.9;針氐收入家庭百分比x2=6.26.49.35.37.35.96.47.64.96.46.07.45.88.66.58.38.68.46.7;$失業(yè)率x3=5876436356921
13、24864319641531713749789576227937416258547169215953353;$總人口數(shù)(千人)n=20;X2=ones(nz1)/xlf,x2f;bzbint,r,rintzs=regress(yffX2);rcoplot(rzrint)運行結果如下: /19ResidualCaseOrderPlot1510S-Erlp一S芒5aseNumber161820我們應該剔除第新的結果如下:18、20組數(shù)據(jù),剔除后,運行源程序得到ResidualCaseOrderPlotS-Enp一sCDcr:-24-6-8O81012CaseNumb
14、er141618 /19這時我們在重復本題開始時的做法,就可以得到最終的關系函數(shù)了。CoefficientswithErrorBarsCceff匸一p-val1Nextstep:X1111-60228141000009MovenotermsX211113.392593.32310.0046NextStep1aistepsX3111111*11X0.000286580.63910.5331E.poit.0123456Irtercept-35.7095R-sqg陽-0.912583F-78.3937RMSE=3.03AdjR-sq=0901041p=114353e-00810ModalHistor
15、yiI50-iiI-123剔除不符數(shù)據(jù)后再次運行程序得到結果那么最終的函數(shù)關系便為:y=一35.7095+1.60228芻+3.39259馮簡要分析:從最終得到的結果上來看,失業(yè)率與低收入都將導致犯罪的上升。通過本道例題讓我們學會運用逐步回歸命令stepwise來分析多自變量情況下的最優(yōu)模型問題,得到最優(yōu)模型后,我們再運用殘差法找到不符的數(shù)據(jù),將其剔除,這樣我們就會得到一個比較科學準確的關系式,這個思路對我們分析回歸問題很有效。題目2一家洗衣粉制造公司新產(chǎn)品實驗時,關心洗衣粉泡沫的高度y與攪拌程度XI和洗衣粉用量X2之間的關系,其中攪拌程度從弱到強分為3個水平。實驗得到的數(shù)據(jù)如下表:XIX2Y
16、1628.11732.31834.81938.211043.5XIX2Y2665.32767.72869.42972.221076.9XIX2Y3682.23785.33888.13990.731093.6表1230(1)將攪拌程度XI作為普通變量,建立y與XI和X2的回歸模型,從殘差圖上發(fā)現(xiàn)問題。(2)將攪拌程度XI視為沒有定量關系的3個水平,用0-1變量表示,建立回歸模型,與(1)比較,從殘差圖上還能發(fā)現(xiàn)什么問題。(3)加入攪拌程度與洗衣粉用量的交互項,看看模型有無改進。理論分析與程序設計:仿照題目1中的程序,我們對攪拌程度(當成普通變量)與洗衣粉用量建立回歸模型,并且進行殘差分析。編寫程
17、序如下:clc;clearall;y=28132.334838243.5653W7769472276982285388193.6;$洗衣粉泡沫高度xl=l11112222233333;%攪拌程度x2=678910678910678910;$洗衣粉用量figure(1)/plot(xlzyr1*1);figure(2)/plot(x2,yr1*r);Xl=xlx2f;stepwise(Xlfy)運行結果如下:100908070605040rint)運行程序: /19CoefficientswithErrorBarsp-valX19402OOGNextStepX230866736469AlStep
18、sX3Nextstep:Movenoterms1010120130lrtercept=-12.74R-suare=0.965433F=167.575RMSE=4.63584AdjR-sq=0959672p=17C6e-C097002ModelHistory302010將攪拌程度為普通變量的運行結果CoefficientswithErrorBarsCceffp-valX1I5288292.43420.0000X2-39483338.48640.0000X3-28416739.75570.0000X4,4-一0601667Y565000026X5-00.0000l.COOOX61Illi-1-0.13-064920540301020304050Nextstep:Movenoterms #/19 /19Irtercept-12.67R-sqg陽-0.99932F-21879.6RMS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 南京工業(yè)大學浦江學院《應用統(tǒng)計學》2022-2023學年第一學期期末試卷
- 南京工業(yè)大學浦江學院《社會統(tǒng)計學》2023-2024學年第一學期期末試卷
- 分數(shù)的基本性質說課稿
- 蹲踞式跳遠說課教學反思
- 住宅樓長螺旋鉆孔CFG灌注樁基礎工程施工方案
- 《月是故鄉(xiāng)明》說課稿
- 南京工業(yè)大學浦江學院《合同管理》2023-2024學年第一學期期末試卷
- 南京工業(yè)大學浦江學院《服務設計》2021-2022學年第一學期期末試卷
- 終止合作協(xié)議書(2篇)
- 提高4-5歲幼兒自我控制能力的教育策略
- 2 0 2 4 年 7 月 國開??啤斗ɡ韺W》期末紙質考試 試題及答案
- 大疆在線測評題答案
- 公共政策分析第一章
- 行業(yè)協(xié)會重大活動備案報告制度
- 北京市海淀區(qū)2024學年七年級上學期語文期中試卷【含參考答案】
- 2024年新人教版七年級上冊數(shù)學教學課件 5.2 解一元一次方程 第4課時 利用去分母解一元一次方程
- Unit 4 My Favourite Subject教學設計2024-2025學年人教版(2024)英語七年級上冊
- 2024新信息科技三年級第四單元:創(chuàng)作數(shù)字作品大單元整體教學設計
- 第9課《這些是大家的》(課件)-部編版道德與法治二年級上冊
- 2024年四川省南充市從“五方面人員”中選拔鄉(xiāng)鎮(zhèn)領導班子成員201人歷年高頻500題難、易錯點模擬試題附帶答案詳解
- 2024年母嬰護理考試競賽試題
評論
0/150
提交評論