人教版高中數(shù)學選修(1-2)-1.1《回歸分析的基本思想及其初步應用》教學課件1_第1頁
人教版高中數(shù)學選修(1-2)-1.1《回歸分析的基本思想及其初步應用》教學課件1_第2頁
人教版高中數(shù)學選修(1-2)-1.1《回歸分析的基本思想及其初步應用》教學課件1_第3頁
人教版高中數(shù)學選修(1-2)-1.1《回歸分析的基本思想及其初步應用》教學課件1_第4頁
人教版高中數(shù)學選修(1-2)-1.1《回歸分析的基本思想及其初步應用》教學課件1_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、其初步應用其初步應用回歸分析的基本思想及回歸分析的基本思想及1.11.1,.().3,.regression analysis我們知道 函數(shù)關系是一種確定性關系而相關關系是一種非確定性關系回歸分析是對具有相關關系的兩個變量進行統(tǒng)計分析的一種常用方法在數(shù)學 中 我們對兩個具有線性相關關系的變量利用回歸分析的方法進行了研究 其步驟為畫散點圖 求回歸直線方程 并用回歸直線方程進 行預報:,y,x,y,x,y,xnn2211二乘估計公式分別為二乘估計公式分別為截距和斜率的最小截距和斜率的最小我們知道其回歸方程的我們知道其回歸方程的關系的數(shù)據(jù)關系的數(shù)據(jù)對于一組具有線性相關對于一組具有線性相關探究探究 1

2、xbya 2,xxyyxxbn1i2in1iii?.y, x.yy,xn1xn1iin1ii公公式式嗎嗎你你能能推推導導出出這這兩兩個個計計算算稱稱為為其其中中樣本點的樣本點的中心中心.心心回歸直線過樣本點的中回歸直線過樣本點的中., xy, Qba ,n1i2ii的值取最小值時分別是使和斜率截距從已經學過的知識知道 n1i2iixyxyxy, Q由于2n1iii2iixyxyxyxy2xyxy,xynxyxyxy2xyxy2n1iiin1i2iixyxyxyn1iii注意到n1iiixyxyxyn1in1iiixynxyxy, 0 xynxnynxy2n1i2iixynxyxy, Q所以2n

3、1i2iin1in1ii2i2xynyyyyxx2xx2n1i2in1iiin1i2i2xxyyxxxxxyn.yyxxyyxxn1i2in1i2i2n1iii即有均為當且僅當前兩項的值取最小值因此要使數(shù)而前兩項為非負無關后兩項和在上式中, 0,Q, ,.xy,xxyyxxn1i2in1iii.公式這正是我們所要推導的,.下面我們通過案例 進一步學習回歸分析的基本思想及其應用.11,81所示重數(shù)據(jù)如表其身高和體名女大學生從某大學中隨機選取例5943616454505748kg/170155165175170157165165cm/87654321體重體重身高身高編號編號,172.cm求根據(jù)一名

4、女大學生的身高預報她的體重的回歸方程并預報一名身高為的女大學生的體重: ) 11 . 1(.,圖圖作散點體重為因變量真實取身高為自變量因此選據(jù)身高預報體重由于問題中要求根解yx11 . 1圖xy.,11 . 1畫它們之間的關系刻性回歸方程以用線因此可線性相關關系較好的重有比高和體身樣本點呈條狀分布中可以看出從圖 .712.85x 849.0y .849.0b,712.85a ,21于是得到回歸方程可以得到和根據(jù)探究中的公式.kg316.60712.85172849.0y,cm172,預報其體重為由回歸方程可以的女大學生對身高為所以11 . 1圖xy?.,849.0y,1x,849.0b的強弱它

5、們之間線性相關關系如何描述性相關關系體重與身高具有正的線這表明個單位就增加體重個單位時每增加說明身高是斜率的估計值為關系數(shù)的具體計算公式樣本相關系的方法兩個變量之間線性相關來衡量我們介紹了用相關系數(shù)中在必修.r,3.yyxxyyxxrn1in1i2i2in1iii0,;0,.1,;0,.,0.75.rrrrr當時 表明兩個變量正相關 當時表明兩個變量負相關 的絕對值越接近 表明兩個變量的線性相關性越強 越接近于時 表明兩個變量之間幾乎不存在線性相關關系通常 當 大于時認為兩個變量有很強的線性相關關系,0.798,.r 在本例中 可以計算出這表明體重與身高有很強的線性相關關系 從而也表明我們建立

6、的回歸模型是有意義的?,?kg316.60cm172其原因是什么其原因是什么不是不是如果如果嗎嗎是是女大學生的體重一定女大學生的體重一定的的身高身高探究探究.21 . 1.316.60316.60172,位置說明了這一點本點和回歸直線的相互中的樣圖以認為她的體重接近于但一般可是大學生的體重不一定的女身高顯然kgkgcm21 . 1圖 3, eabxy:,回歸模型來表示可用下面的線性所以身高和體重的關系線的附近而只是散布在某一條直線由于所有的樣本點不共,.yxexyxy與函數(shù)關系不同 在回歸模型中的值由 和隨機因素 共同確定 即 只能解釋部分 的變化 因此我們把稱為解釋變量 把 稱為預報變量 :

7、.0eD, 0eE,e.abxyye,ba2整表達式為整表達式為這樣線性回歸模型的完這樣線性回歸模型的完方差方差它的均值它的均值稱為稱為為隨機變量為隨機變量通常通常的誤差的誤差之間之間與與是是為模型的未知參數(shù)為模型的未知參數(shù)和和這里這里隨機誤差隨機誤差 .eD, 0eE,eabxy2 4 24,5.eybxay在線性回歸模型中 隨機誤差 的方差越小通過回歸直線預報真實值 的精度越高隨機誤差是引起預報.,yy 取決于隨機誤差的方差取決于隨機誤差的方差其大小其大小之間的誤差的原因之一之間的誤差的原因之一與真實值與真實值值值 .yy ,ba,ba 21,另一個原因另一個原因之間誤差的之間誤差的與真實

8、值與真實值這種誤差是引起預報值這種誤差是引起預報值之間也存在誤差之間也存在誤差和和它們與真實值它們與真實值的估計值的估計值為截距和斜率為截距和斜率和和中中和和由于公式由于公式另一方面另一方面?e的原因是什么的原因是什么產生隨機誤差項產生隨機誤差項思考思考.,.,的產生差項誤機隨所有這些因素都會導致是一種近似的模型型往往只我們選用的線性模另外動、度量誤差等食習慣、是否喜歡運例如飲許多其他因素的影響還受身高的影響外一個人的體重值除了受實際上e?,如何衡量預報的精度隨機誤差那么應該怎樣研究它是一個不可觀測的量誤差的預報真實值是用在線性回歸模型中探究yye2,.,0,.因為隨機誤差是隨機變量 因此可以

9、通過這個隨機變量的數(shù)字特征來刻畫它的一些總體特征均值是反映隨機變量取值平均水平的數(shù)字特征 方差是反映隨機變量集中于均值程度的數(shù)字特征 而隨機誤差的均值為 因此可以用方差來衡量隨機誤差的大小 2,.?34,.eeyye為了衡量預報的精度 需要估計的值一個自然的想法是通過樣本方差來估計總體方差 如何得到隨機變量 的樣本呢 由于模型或中的 隱含在預報變量 中 我們無法精確地把它從 中分離出來 因此也就無法得到隨機變量 的樣本 , a xby ,21.2歸方程可以建立回和公式根據(jù)截距和斜率的估計樣本的估計值來估計解決問題的途徑是通過 .ey ye , yye.y5y 的估計量是所以由于隨機誤差的估計值

10、中是因此. n, 2 , 1i , abxyyye,y,x,y,x,y,xiiiiinn2211 相應它們的隨機誤差為相應它們的隨機誤差為而言而言對于樣本點對于樣本點, n, 2 , 1i , a xbyy ye iiiii 其估計值為其估計值為2nb, a Q2n1e 2n1 ,).residual(y,xe n1i22iii可以用可以用差估計總體方差的思想差估計總體方差的思想類比樣本方類比樣本方的的稱為相應于點稱為相應于點殘差殘差 ., . ).squaresofsumresidual(b, a Q,21ba ,222預報精度越高預報精度越高越小越小度度衡量回歸方程的預報精衡量回歸方程的預

11、報精可以用可以用稱為稱為給出給出由公式由公式和和其中其中的估計值的估計值作為作為殘差平方和殘差平方和2.n公式中的分母取是為了達到更好的估計效果 12111 :.2.niiinixxyyaybxbxx公式公式12?0?思考當樣本容量為 或 時殘差平方和為多少用這樣的樣本建立的線性回歸方程的預 報誤差為 嗎.,e ,e ,e ,.,n21這方面的分析工作稱為這方面的分析工作稱為在可疑數(shù)據(jù)在可疑數(shù)據(jù)判斷原始數(shù)據(jù)中是否存判斷原始數(shù)據(jù)中是否存來判斷模型擬合的效果來判斷模型擬合的效果可以通過殘差可以通過殘差然后然后性回歸模型來擬合數(shù)據(jù)性回歸模型來擬合數(shù)據(jù)是否可以用線是否可以用線線性相關線性相關來粗略判斷

12、它們是否相來粗略判斷它們是否相首先要根據(jù)散點圖首先要根據(jù)散點圖系時系時在研究兩個變量間的關在研究兩個變量間的關 殘差分析殘差分析.21相應的殘差數(shù)據(jù)重的原始數(shù)據(jù)以及列出女大學生身高和體表 382.0883.2627.6137.1618.4419.2627.2373.6e 5943616454505748kg/170155165175170157165165cm/87654321殘差殘差體重體重身高身高編號編號編號編號殘差殘差31 . 1圖.31 . 1.,.殘差圖坐標的樣本編號為橫是以圖這樣作出的圖形為等或體重估計值高數(shù)據(jù)或身可選為樣本編號橫坐標縱坐標為殘差作圖時分析殘差特性我們可以利用圖形來

13、殘差圖殘差圖編號編號殘差殘差31 . 1圖.,.,;,.,61,31 .1越高回歸方程的預報精確度擬合精度越高說明模型區(qū)域的寬度越窄均勻地落在水平的帶狀殘差點比較另外則需要尋找其他的原因沒有錯誤如果數(shù)據(jù)采集合數(shù)據(jù)歸模型擬性回利用線然后再重新予以糾正就果數(shù)據(jù)采集有錯誤如是否有人為的錯誤點的過程中兩個樣本需要確認在采集這大個樣本點的殘差比較個樣本點和第第出中可以看從圖.yyy y1R:,R,n1i2in1i2ii22其計算公式是其計算公式是來刻畫回歸的效果來刻畫回歸的效果我們還可以用相關指數(shù)我們還可以用相關指數(shù)另外另外.rR,2的平方的平方系數(shù)系數(shù)恰好等于相關恰好等于相關線性模型中線性模型中在含有

14、一個解釋變量的在含有一個解釋變量的如果對某組數(shù)據(jù)如果對某組數(shù)據(jù)關性越強關性越強量和預報變量的線性相量和預報變量的線性相表示解釋變表示解釋變越接近于越接近于因為因為表示回歸的效果越好表示回歸的效果越好接近于接近于越越化的貢獻率化的貢獻率釋變量對于預報變量變釋變量對于預報變量變表示解表示解在線性回歸模型中在線性回歸模型中模型的擬合效果越好模型的擬合效果越好也就是說也就是說意味著殘差平方和越小意味著殘差平方和越小取值越大取值越大顯然顯然. ), 1R(, 1R.R,.,R,2222.R,R,22據(jù)的模型據(jù)的模型大的模型作為這組數(shù)大的模型作為這組數(shù)選擇選擇可以通過比較幾個可以通過比較幾個也也回歸分析回

15、歸分析種不同的回歸方程進行種不同的回歸方程進行取幾取幾可能性采可能性采.%64, %64,64.0R,12高引起的高引起的是由身是由身女大學生體重差異有女大學生體重差異有或者說或者說體重變化體重變化的的女大學生身高解釋了女大學生身高解釋了表明表明中中在例在例:,需要注意下列問題用身高預報體重時.,.,.1系木的高與直徑之間的關描述北方干旱地區(qū)的樹方程的高與直徑之間的回歸在南方多雨地區(qū)的樹木不能用生長同樣之間的關系女運動員的身高和體重描述和體重之間的回歸方程不能用女大學生的身高例如所研究的樣本的總體回歸方程只適用于我們.,8020,.2之間的關系描述現(xiàn)在的身高和體重方程建立的回歸年代的身高體重數(shù)

16、據(jù)所世紀能用不例如一般都有時間性我們所建立的回歸方程.),ycm70 x,cm170,cm155x,(,.3顯然不合適值時的程計算而用這個方的樣本的取值范圍為解釋變量即在回歸方程中重之間的關系就不恰當幼兒時期的身高和體那么用它來描述一個人立的建大學生身高和體重數(shù)據(jù)我們的回歸方程是由女例如歸方程的適用范圍樣本取值范圍會影響回.,.4值的平均值它是預報變量的可能取事實上精確值的的預報值就是預報變量不能期望回歸方程得到,:一般地 建立回歸模型的基本步驟為 ;,1量是預報變量量是預報變量哪個變哪個變量量明確哪個變量是解釋變明確哪個變量是解釋變確定研究對象確定研究對象 ;,2如是否存在線性關系等如是否存

17、在線性關系等觀察它們之間的關系觀察它們之間的關系散點圖散點圖釋主變量和預報變量的釋主變量和預報變量的畫出確定好的解畫出確定好的解 );abxy,(3則選用線性回歸方程則選用線性回歸方程線性關系線性關系如我們觀察到數(shù)據(jù)呈如我們觀察到數(shù)據(jù)呈型型由經驗確定回歸方程類由經驗確定回歸方程類 );(4乘法乘法如最小二如最小二程中的參數(shù)程中的參數(shù)按一定規(guī)則估計回歸方按一定規(guī)則估計回歸方 .,),(5或模型是否合適等或模型是否合適等則檢查數(shù)據(jù)是否有誤則檢查數(shù)據(jù)是否有誤在異常在異常若存若存律性等等律性等等或殘差呈現(xiàn)不隨機的規(guī)或殘差呈現(xiàn)不隨機的規(guī)應殘差過大應殘差過大個別數(shù)據(jù)對個別數(shù)據(jù)對是否有異常是否有異常得出結果

18、后分析殘差圖得出結果后分析殘差圖.,317.2之間的回歸方程與試建立中觀察數(shù)據(jù)列于表組現(xiàn)收集了有關和溫度一只紅鈴蟲的產卵數(shù)例xyxy31表325115662421117/y35322927252321C/0個個產卵數(shù)產卵數(shù)溫度溫度41 . 1圖溫度溫度產卵數(shù)產卵數(shù).41 . 1據(jù)作散點圖根據(jù)收集的數(shù)解所以不能相關關系線性個變量不呈線因此兩帶狀區(qū)域內某個布在有分并沒樣本點在散點圖中,.cc,ecy,.21xc12是待定參數(shù)和其中的周圍指數(shù)函數(shù)曲線某一條可以發(fā)現(xiàn)樣本點分布在根據(jù)已有的函數(shù)知識系立兩個變量之間的關建來直接利用線性回歸方程 .xy,.)cb,clna(abxz, ylnz.cc,212

19、1了間的非線性回歸方程之和型來建立就可以利用線性回歸模這樣的周圍直線換后樣本點應該分布在則變令系變?yōu)榫€性關過對數(shù)變換把指數(shù)關系我們可以通和參數(shù)問題變?yōu)槿绾喂烙嫶ìF(xiàn)在 .,abxy線性回歸方程線性回歸方程我們稱之為非我們稱之為非時時當回歸方程不是形如當回歸方程不是形如圖的樣本數(shù)據(jù)表的數(shù)據(jù)可以得到變換后由表, 4131.,51 . 1.4151 . 1用線性回歸方程來擬合因此可以一條直線的附近變換后的樣本點分布在看出中可以從圖中數(shù)據(jù)的散點圖給出了表784.5745.4190.4178.3045.3398.2946.1z35322927252321x41表產卵數(shù)的對數(shù)溫度51 . 1圖.843.

20、3272. 041xz到線性回歸方程中的數(shù)據(jù)得由表回歸方程為數(shù)對溫度的非線性因此紅鈴蟲的產卵 6ey 843.3x272.01.,.,41 . 1,243423非線性回歸方程之間的與從而得到之間的線性回歸方程與立然后建即令變換因此可以對溫度變量做數(shù)為待定參和其中的附近次曲線中樣本點集中在某二可以認為圖另一方面xytyxtcccxcy.61 . 1,51是相應的散點圖圖應的溫度的平方是紅鈴蟲的產卵數(shù)和對表325115662421117y12251024841729625529441t51表.,61 . 1423下面介紹具體方法到還可以通過殘差分析得這個結論之間的關系與來擬合二次曲線即不宜用合它回歸方程來擬此不宜用線性因直線的周圍不分布在一條的散點圖并與可以看出中從圖xycxcyty溫度的平方數(shù)卵產61 . 1圖中用線性回歸模型擬合表的二次回歸方程關于下面建立的指數(shù)回歸方程關于前面已經建立了方程歸需要建立兩個相應的回殘差為比較兩個不同模型的51.,.,xyxy 7.54.202x367.0y xy,54.202t367.0y ty,222的二次回歸方程為關于即的線性回歸方程關于得到的數(shù)據(jù) 的殘差計算公式分別為和則回歸方程列的數(shù)據(jù)行第第表示表用的擬合效果和個回歸方程可以通過殘差來比較兩76,1151.76ixi ; 7 , 2 , 1i ,eyy ye 843.3x272.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論