版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
選修1-2第一章1.1回歸分析的基本思想及其初步應(yīng)用選修2-3第三章3.1回歸分析的基本思想及其初步應(yīng)用學(xué)習(xí)目標(biāo)1.了解隨機(jī)誤差、殘差、殘差圖的概念.2.會通過分析殘差判斷線性回歸模型的擬合效果.3.掌握建立回歸模型的步驟.4.通過對典型案例的探究,了解回歸分析的基本思想方法和初步應(yīng)用.通過對必修3的學(xué)習(xí),我們知道,變量之間存在關(guān)系時(shí),有兩種關(guān)系:確定性關(guān)系非確定性關(guān)系函數(shù)關(guān)系相關(guān)關(guān)系如:正方形的面積y與正方形的邊長x之間的函數(shù)關(guān)系是y=x2確定性關(guān)系如:某水田水稻產(chǎn)量y與施肥量x之間沒有一個(gè)確定性的關(guān)系
在7塊并排、形狀大小相同的試驗(yàn)田上進(jìn)行施肥量對水稻產(chǎn)量影響的試驗(yàn),得到如下所示的一組數(shù)據(jù):施化肥量x15202530354045水稻產(chǎn)量y330345365405445450455相關(guān)關(guān)系是一種變化的,通過《數(shù)學(xué)3》的學(xué)習(xí)我們知道,回歸分析(regressionanalysis)是相關(guān)關(guān)系的一種分析方法,它是對具有相關(guān)關(guān)系的兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析一般步驟為:散點(diǎn)圖求回歸方程利用回歸方程預(yù)報(bào)下面我們通過實(shí)際案例。進(jìn)一步學(xué)習(xí)回歸分析的基本思想及其應(yīng)用最小二乘法函數(shù)關(guān)系例1.從某大學(xué)中隨機(jī)選取8名女大學(xué)生。其身高和體重?cái)?shù)據(jù)如表所示:編號12345678身高/cm165165157170175165155170體重/kg4857505464614359求根據(jù)一名大學(xué)生的身高預(yù)報(bào)她的體重的回歸方程,并預(yù)報(bào)一名172cm的女大學(xué)生的體重。解利用前面的知識我們首先作身高x和體重y的散點(diǎn)圖:于是得到線性回歸方程
是回歸方程直線的斜率的估計(jì)值,說明身高x每增加一個(gè)單位,體重y就增加0.849個(gè)單位,這表明體重與身高具有正的線性相關(guān)關(guān)系所以,對于身高為172cm的女大學(xué)生,由回歸方程可以預(yù)報(bào)其體重為探究:身高172cm的女生的體重一定是60.316嗎?如果不是,你能解釋一下原因嗎?事實(shí)上,從散點(diǎn)圖可以看出,樣本點(diǎn)并不是分布在這條直線上,而是分布在它的兩邊,所以嚴(yán)格來說:
y=bx+a不是真正的表示它們之間的關(guān)系,這時(shí)我們把身高和體重的關(guān)系做一下調(diào)整來模擬回歸關(guān)系:Y=bx+a+e其中a和b為模型的未知參數(shù),e稱為隨機(jī)誤差如何產(chǎn)生的?顯然身高為172cm的女生體重不一定是60.316kg,但一般認(rèn)為她的體重在60.316左右。從圖中樣本點(diǎn)和回歸直線的相互位置說明了這一點(diǎn)身高X(cm)體重y(kg)飲食習(xí)慣運(yùn)動習(xí)慣質(zhì)量誤差沒有人知道身高和體重之間的真正關(guān)系是什么,現(xiàn)在只是利用線性回歸方程來近似這種關(guān)系,而這種近似和上面提到的影響因素都會導(dǎo)致隨機(jī)誤差e的產(chǎn)生線性回歸模型y=bx+a+e與我們了的一次函數(shù)模型不同之處在于多了一個(gè)隨機(jī)誤差e,y的值由x和e共同確定,即自變量x只能解釋部分y的變化,在統(tǒng)計(jì)中,我們也把自變量x稱為解釋變量,因變量y稱為預(yù)報(bào)變量。解釋變量x預(yù)報(bào)變量y隨機(jī)誤差e探究:在線性回歸模型中,e是用bx+a預(yù)報(bào)真實(shí)值y的隨機(jī)誤差,它是一個(gè)不可觀測的量,那么應(yīng)該怎樣研究隨機(jī)誤差呢?(x1,y1),(x2,y2),…,(xn,yn)而言,它們的隨機(jī)誤差為ei=yi-bxi-a,i=1,2,…,n在實(shí)際應(yīng)用中,我們用回歸方程中的估計(jì)bx+a,由于隨機(jī)誤差e=y-(bx+a),所以是e的估計(jì)量,對于樣本點(diǎn)其估計(jì)值為稱為相應(yīng)于點(diǎn)(xi,yi)的殘差編號12345678身高/cm165165157170175165155170體重/kg4857505464614359殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382思考:如何發(fā)現(xiàn)數(shù)據(jù)中的錯(cuò)誤?如何衡量模型的擬合效果?
可以通過殘差發(fā)現(xiàn)原始數(shù)據(jù)中的可疑數(shù)據(jù),判斷所建立模型的擬合效果。下表列出了女生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù)殘差圖:問題數(shù)據(jù)越窄越好我們可以利用圖形來分析殘差特性。作圖時(shí)縱坐標(biāo)為殘差,橫坐標(biāo)可以選為樣本編號,或身高數(shù)據(jù),或體重估計(jì)值等,這樣做出的圖形稱為殘差圖從圖中可以看出,第1個(gè)樣本點(diǎn)和第6個(gè)樣本點(diǎn)的殘差比較大,需要確認(rèn)在采集這兩個(gè)樣本點(diǎn)的過程中是否有人為的錯(cuò)誤。如果數(shù)據(jù)采集有錯(cuò)誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯(cuò)誤,則需要尋找其他原因。另外,殘差點(diǎn)比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報(bào)精度越高我們可以用R2來刻畫回歸的效果:
顯然,當(dāng)R2的值越大,說明殘差所占的比例越小,回歸效果約好;反之,回歸效果越差。一般的,當(dāng)R2越接近于1,說明解釋變量和預(yù)報(bào)變量之間的相關(guān)性越強(qiáng),如果同一個(gè)問題,采用不同的回歸方法分析,我們可以通過選擇R2大的來作為回歸模型
在線性回歸模型中,R2表示解釋變量對于預(yù)報(bào)變量變化的貢獻(xiàn)率,R2越接近1,表示回歸的效果越好,在例1中,R2=0.64,表明身高解釋了64%的體重變化,或者說,體重差異有64%是由身高引起的。R2是常用的選擇模型的指標(biāo)之一,在實(shí)際應(yīng)用中應(yīng)盡量選擇R2大的回歸模型用身高預(yù)報(bào)體重時(shí),需要注意下列問題:1.回歸方程只適用于我們所研究的樣本的總體。例如,不能用女大學(xué)生的身高和體重之間的回歸方程描述女運(yùn)動員的身高和體重之間的關(guān)系,同樣,不能用生長在南方多雨地區(qū)的樹木地高于直徑之間的回歸方程,描述北方干旱地區(qū)的樹木地高與直徑之間的關(guān)系。2.我們所建立的回歸方程一般都有時(shí)間性,例如不能用20世紀(jì)80年代的身高體重?cái)?shù)據(jù)所建立的回歸方程,描述現(xiàn)在的身高和體重之間的關(guān)系。3.樣本取值的范圍會影響回歸方程的適用范圍,例如我們的回歸方程是由女大學(xué)生身高和體重的數(shù)據(jù)建立的,那么用它來描述一個(gè)人幼兒時(shí)期的身高和體重之間的關(guān)系就不恰當(dāng)(在回歸方程中解釋變量x的樣本的取值范圍為155-175cm,而用這個(gè)方程計(jì)算x=70cm時(shí)的y值顯然不合適)4.不能期望回歸方程,得到的預(yù)報(bào)值就是預(yù)報(bào)變量的精確值,事實(shí)上,它是預(yù)報(bào)變量的可能取值的平均值一般地,建立回歸模型的基本步驟為:(1)確定研究對象,明確哪個(gè)變量是解釋變量,哪個(gè)變量是預(yù)報(bào)變量。(2)畫出解釋變量和預(yù)報(bào)變量的散點(diǎn)圖,觀察它們之間的關(guān)系(如是否存在線性關(guān)系等)(3)由經(jīng)驗(yàn)確定回歸方程的類型(如我們觀察到數(shù)據(jù)呈線性關(guān)系,而選用線性回歸方程)(4)按一定規(guī)則(如最小二乘法)估計(jì)回歸方程中的參數(shù)。(5)得出結(jié)果后分析殘差圖是否有異常(如個(gè)別數(shù)據(jù)對應(yīng)殘差過大,殘差呈現(xiàn)不隨機(jī)的規(guī)律性等)若存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等。例2一只紅蛉蟲的產(chǎn)卵數(shù)y與溫度x有關(guān),現(xiàn)收集了7組數(shù)據(jù),請建立y與x的回歸方程溫度x/℃21232527293235產(chǎn)卵數(shù)y/個(gè)711212466115325解1.制作散點(diǎn)圖2.觀察模擬樣本點(diǎn)不能直接利用線性回歸,根據(jù)我們的函數(shù)知識,它應(yīng)該是一個(gè)指數(shù)模型:y=c1ec2x其中c1c2為參數(shù)或二次函數(shù)模型,根據(jù)對數(shù)回歸知識我們知道:令z=lny將其變換到樣本點(diǎn)的分布直線z=a+bxx21232527293235z1.9462.3983.0453.1784.1904.7455.784z=0272x-3.843則:y=e0.272x-3.8433.我們認(rèn)為樣本點(diǎn)集中在某二次函數(shù)y=c3x2+c4附近,c3c4為參數(shù),則,令t=x2則:y=c5t+c6其中c5c6為參數(shù)t44152962572984110241225y711212466115325y=0.367t-202.544.殘差分析:X21232527293235合計(jì)(殘差平方和)R2Y711212466115329e(1)0.518-0.1671.760-9.1498.889-14.15332.9281450.6730.98e(2)47.69319.397-5.835-41.003-40.107-58.26877.965154
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年滬科版九年級地理下冊階段測試試卷含答案
- 2025年新科版必修2歷史下冊月考試卷
- 二零二五版模具維修與翻新服務(wù)合同4篇
- 二零二五年度智慧城市建設(shè)年薪制合同4篇
- 2025年度養(yǎng)老康復(fù)派遣員工康復(fù)治療合同4篇
- 2025年度面包烘焙原料綠色認(rèn)證采購合同3篇
- 2025年度設(shè)施農(nóng)業(yè)專用化肥農(nóng)藥定制配送合同4篇
- 2024版離婚債務(wù)解決方案合同范例一
- 二零二五年度煤炭期貨交易居間代理合同3篇
- 2025年度農(nóng)業(yè)科技園區(qū)建設(shè)與管理合同范例4篇
- 撂荒地整改協(xié)議書范本
- 國際貿(mào)易地理 全套課件
- GB/T 20878-2024不銹鋼牌號及化學(xué)成分
- 診所負(fù)責(zé)人免責(zé)合同范本
- 2024患者十大安全目標(biāo)
- 印度與阿拉伯的數(shù)學(xué)
- 會陰切開傷口裂開的護(hù)理查房
- 實(shí)驗(yàn)報(bào)告·測定雞蛋殼中碳酸鈣的質(zhì)量分?jǐn)?shù)
- 部編版小學(xué)語文五年級下冊集體備課教材分析主講
- 電氣設(shè)備建筑安裝施工圖集
- 《工程結(jié)構(gòu)抗震設(shè)計(jì)》課件 第10章-地下建筑抗震設(shè)計(jì)
評論
0/150
提交評論