版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 新學期我們懷揣大學夢想,新學期我們懷揣大學夢想,只要我們相信自己,刻苦努力只要我們相信自己,刻苦努力每一天,就一定能考進每一天,就一定能考進 北京大學北京大學第一章第一章 統(tǒng)計案例統(tǒng)計案例a. 比數(shù)學3中“回歸”增加的內(nèi)容數(shù)學統(tǒng)計n畫散點圖畫散點圖n了解最小二乘法的了解最小二乘法的思想思想n求回歸直線方程求回歸直線方程ybxa1.用回歸直線方程解用回歸直線方程解決應用問題決應用問題選修-統(tǒng)計案例n引入線性回歸模型引入線性回歸模型ybxaen了解模型中隨機誤差項了解模型中隨機誤差項e產(chǎn)生產(chǎn)生的原因的原因n了解相關指數(shù)了解相關指數(shù) R2 和模型擬合和模型擬合的效果之間的關系的效果之間的關系n了解
2、殘差圖的作用了解殘差圖的作用n利用線性回歸模型解決一類非利用線性回歸模型解決一類非線性回歸問題線性回歸問題5.正確理解分析方法與結果正確理解分析方法與結果必修必修3(3(第二章第二章 統(tǒng)計統(tǒng)計) )知識結構知識結構 收集數(shù)據(jù)收集數(shù)據(jù) ( (隨機抽樣隨機抽樣) )整理、分析數(shù)據(jù)整理、分析數(shù)據(jù)估計、推斷估計、推斷簡單隨機抽簡單隨機抽樣樣分層抽樣分層抽樣系統(tǒng)抽樣系統(tǒng)抽樣用樣本估計總體用樣本估計總體變量間的相關關系變量間的相關關系 用樣本用樣本的頻率的頻率分布估分布估計總體計總體分布分布 用樣本用樣本數(shù)字特數(shù)字特征估計征估計總體數(shù)總體數(shù)字特征字特征線性回歸分析線性回歸分析問題問題1 1:正方形的面積正
3、方形的面積y y與正方形的邊長與正方形的邊長x x之間之間 的的函數(shù)關系函數(shù)關系是是y = xy = x2 2確定性關系確定性關系問題問題2 2:某水田水稻產(chǎn)量某水田水稻產(chǎn)量y y與施肥量與施肥量x x之間是否之間是否 -有一個確定性的關系?有一個確定性的關系?例如:例如:在在 7 7 塊并排、形狀大小相同的試驗田塊并排、形狀大小相同的試驗田上上 進行施肥量對水稻產(chǎn)量影響的試驗,得到進行施肥量對水稻產(chǎn)量影響的試驗,得到如下所示的一組數(shù)據(jù):如下所示的一組數(shù)據(jù):施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻產(chǎn)量水稻產(chǎn)量y y 330
4、345 365 405 445 450 455 330 345 365 405 445 450 455復習復習: :變量之間的兩種關系變量之間的兩種關系自變量取值一定時,因變量的取值帶有一定自變量取值一定時,因變量的取值帶有一定隨隨機性機性的兩個變量之間的關系叫做的兩個變量之間的關系叫做相關關系相關關系。1 1、定義:、定義: 1 1):相關關系是一種不確定性關系;):相關關系是一種不確定性關系;注注對具有相關關系的兩個變量進行對具有相關關系的兩個變量進行統(tǒng)計分析的方法叫統(tǒng)計分析的方法叫回歸分析回歸分析。2 2):):1、兩個變量的關系、兩個變量的關系不相關不相關相關關相關關系系函數(shù)關系函數(shù)關
5、系線性相關線性相關非線性相關非線性相關問題問題1:現(xiàn)實生活中兩個變量間的關系有哪:現(xiàn)實生活中兩個變量間的關系有哪些呢?些呢?相關關系:相關關系:對于兩個變量,當自變量取值一定對于兩個變量,當自變量取值一定時,因變量的取值帶有一定時,因變量的取值帶有一定隨機性隨機性的兩個變量的兩個變量之間的關系。之間的關系。思考:相關關系與函數(shù)關系有怎樣的不同?函數(shù)關系中的兩個變量間是一種確定性關系相關關系是一種非確定性關系 函數(shù)關系是一種理想的關系模型 相關關系在現(xiàn)實生活中大量存在,是更一般的情況問題問題2:對于線性相關的兩個變量用什么方法:對于線性相關的兩個變量用什么方法來刻劃之間的關系呢?來刻劃之間的關系
6、呢?2、最小二乘估計、最小二乘估計最小二乘估計下的線性回歸方程:最小二乘估計下的線性回歸方程:ybxa121()()()niiiniixXyYbXX aYbX我們回憶一下我們回憶一下最小二乘法最小二乘法:樣本點的中心樣本點的中心:xbyaxxyyxxbniiniii)()(121),(yxniixnx11niiyny11回歸方程回歸方程:axby3、回歸分析的基本步驟回歸分析的基本步驟:畫散點圖畫散點圖求回歸方程求回歸方程用回歸直線方程預報、決策用回歸直線方程預報、決策這種方法稱為回歸分析這種方法稱為回歸分析.回歸分析回歸分析是對具有相關關系的兩個變量進行統(tǒng)是對具有相關關系的兩個變量進行統(tǒng)計計
7、分析的一種常用方法分析的一種常用方法.2 2、現(xiàn)實生活中存在著大量的相關關系。現(xiàn)實生活中存在著大量的相關關系。探索:水稻產(chǎn)量探索:水稻產(chǎn)量y y與施肥量與施肥量x x之間大致有何之間大致有何規(guī)律?規(guī)律?例例1 從某大學中隨機選取從某大學中隨機選取8名女大學生,其身高和體重數(shù)據(jù)如表名女大學生,其身高和體重數(shù)據(jù)如表1-1所示。所示。編號12345678身高/cm165165 157 170 175 165 155 170體重/kg4857505464614359求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm
8、的女大學生的體重。的女大學生的體重。案例案例1:女大學生的身高與體重:女大學生的身高與體重解:解:1、選取身高為自變量、選取身高為自變量x,體重為因變量,體重為因變量y,作散點圖:,作散點圖:2、由散點圖知道身高和體重有比較好的、由散點圖知道身高和體重有比較好的線性相關關系,因此可以用線性回歸方程線性相關關系,因此可以用線性回歸方程刻畫它們之間的關系??坍嬎鼈冎g的關系。例例1 從某大學中隨機選取從某大學中隨機選取8名女大學生,其身高和體重數(shù)據(jù)如表名女大學生,其身高和體重數(shù)據(jù)如表1-1所示。所示。5943616454505748體重/kg170155165175170157165165身高/c
9、m87654321編號求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。的女大學生的體重。根據(jù)最小二乘法估計 和 就是未知參數(shù)a和b的最好估計,abniiniiiniiniiixnxyxnyxxbyaxxyyxxb1221121)()(制表7 8 合計654321ixy , ,ixxiyy()()iixx yy2()ixxniiniiynyxnx1111,其中所以回歸方程是所以回歸方程是0.84985.712yx所以,對于身高為所以,對于身高為172cm的女大學生,由回歸方程可以預報的女大
10、學生,由回歸方程可以預報其體重為其體重為0.849 7285.71260.316()ykg( , )x y 稱為樣本點的中心探究探究P4:身高為身高為172cm的女大學生的體重一定是的女大學生的體重一定是60.316kg嗎?嗎?如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎?例例1 從某大學中隨機選取從某大學中隨機選取8名女大學生,其身高和體重數(shù)據(jù)如表名女大學生,其身高和體重數(shù)據(jù)如表1-1所示。所示。5943616454505748體重/kg170155165175170157165165身高/cm87654321編號求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為
11、求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。的女大學生的體重。712.85849.0ab,于是得到探究探究P4:身高為身高為172cm的女大學生的體重一定是的女大學生的體重一定是60.316kg嗎?如果不是,你能解析一下原因嗎?嗎?如果不是,你能解析一下原因嗎?答:身高為答:身高為172cm的女大學生的體重不一定是的女大學生的體重不一定是60.316kg,但一般可以認為她的體重在,但一般可以認為她的體重在60.316kg左右。左右。60.136kg不是每個身高為不是每個身高為172cm的女大學生的體重的女大學生的體重的預測值,而是所有身高為的預測
12、值,而是所有身高為172cm的女大學生的女大學生平均平均體重的預測值體重的預測值。1.用相關系數(shù)用相關系數(shù) r 來衡量來衡量2.公式:公式:12211niiinniiiixxyyrxxyy求出線性相關方程后,求出線性相關方程后, 說明身高說明身高x每每增加一個單位增加一個單位,體重體重y就增加就增加0.849個單位個單位,這表這表明體重與身高具有正的線性相關關系明體重與身高具有正的線性相關關系.如何描如何描述它們之間線性相關關系的強弱呢述它們之間線性相關關系的強弱呢?849. 0b00rxyrxy當時,表示 與 為正相關;當時,表示 與 為負相關、當、當 時,時,x x與與y y為完全線性相關
13、,它們之為完全線性相關,它們之間存在確定的函數(shù)關系。間存在確定的函數(shù)關系。、當、當 時,表示時,表示x x與與y y存在著一定的線存在著一定的線性相關,性相關,r r的絕對值越大,越接近于的絕對值越大,越接近于1 1,表示,表示x x與與y y直線相關程度越高,反之越低。直線相關程度越高,反之越低。1r10 r3.性質:性質:0.751, 1, 0.75, 0 25,0.25,rrr 當, 表明兩個變量正相關很強;當表明兩個變量負相關很強;當.表明兩個變量相關性較弱。例例1 從某大學中隨機選取從某大學中隨機選取8名女大學生,其身高和體重數(shù)據(jù)如表名女大學生,其身高和體重數(shù)據(jù)如表1-1所示。所示。
14、編號12345678身高/cm165165 157 170 175 165 155 170體重/kg4857505464614359求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。的女大學生的體重。案例案例1:女大學生的身高與體重:女大學生的身高與體重解:解:1、選取身高為自變量、選取身高為自變量x,體重為因變量,體重為因變量y,作散點圖:,作散點圖:2、由散點圖知道身高和體重有比較好的、由散點圖知道身高和體重有比較好的線性相關關系,因此可以用線性回歸方程線性相關關系,因此可以用線性回歸
15、方程刻畫它們之間的關系??坍嬎鼈冎g的關系。3、從散點圖還看到,樣本點散布在某一條、從散點圖還看到,樣本點散布在某一條直線的附近,而不是在一條直線上,所以直線的附近,而不是在一條直線上,所以不能用一次函數(shù)不能用一次函數(shù)y=bx+a描述它們關系描述它們關系。 我們可以用下面的我們可以用下面的線性回歸模型線性回歸模型來表示:來表示:y=bx+a+e,其中,其中a和和b為模型的未知參數(shù),為模型的未知參數(shù),e稱為隨機誤差稱為隨機誤差。思考思考P3產(chǎn)生隨機誤差項產(chǎn)生隨機誤差項e的原因是什么?的原因是什么?思考思考產(chǎn)生隨機誤差項產(chǎn)生隨機誤差項e的原因是什么?的原因是什么?隨機誤差隨機誤差e e的來源的來源
16、( (可以推廣到一般):可以推廣到一般):1、其它因素的影響:影響體重y 的因素不只是身高 x,可能還包括遺傳基因、飲食習慣、是否喜歡運動、生長環(huán)境、度量誤差等因素;2、用線性回歸模型近似真實模型所引起的誤差;3、身高 x 的觀測誤差。我們回憶一下我們回憶一下最小二乘法最小二乘法:樣本點的中心樣本點的中心: 在在回歸直線上回歸直線上xbyaxxyyxxbniiniii)()(121),(yxniixnx11niiyny11回歸方程回歸方程:axby3、回歸分析的基本步驟回歸分析的基本步驟:畫散點圖畫散點圖求回歸方程求回歸方程用回歸直線方程預報、決策用回歸直線方程預報、決策這種方法稱為回歸分析這
17、種方法稱為回歸分析.回歸分析回歸分析是對具有相關關系的兩個變量進行統(tǒng)是對具有相關關系的兩個變量進行統(tǒng)計計分析的一種常用方法分析的一種常用方法.函數(shù)模型與回歸模型之間的差別函數(shù)模型與回歸模型之間的差別函數(shù)模型:abxy回歸模型:eabxy 線性回歸模型線性回歸模型y=bx+a+e增加了隨機誤差項增加了隨機誤差項e,因變,因變量量y的值由自變量的值由自變量x和隨機誤差項和隨機誤差項e共同確定,即共同確定,即自變量自變量x只能解釋部分只能解釋部分y的變化的變化。 在統(tǒng)計中,我們也把自變量在統(tǒng)計中,我們也把自變量x稱為稱為解釋變量解釋變量,因變,因變量量y稱為稱為預報變量預報變量。()eeybxa 隨
18、機誤差隨機誤差eyy e的估計量的估計量樣本點:樣本點:1122(,),(,),. ,(,)nnxyxyxy相應的隨機誤差為:相應的隨機誤差為:,1,2,.,iiieybxa in隨機誤差的估計值為:隨機誤差的估計值為:,1,2,.,iiiiieyyybxa inie稱為相應于點稱為相應于點 的的殘差殘差.(,)iixy殘差圖的制作和作用:殘差圖的制作和作用:制作:坐標縱軸為殘差變量,橫軸可以有不同的選擇制作:坐標縱軸為殘差變量,橫軸可以有不同的選擇. . 橫軸為編號:可以考察殘差與編號次序之間的關系,橫軸為編號:可以考察殘差與編號次序之間的關系, 常用常用于調(diào)查數(shù)據(jù)錯誤于調(diào)查數(shù)據(jù)錯誤. .
19、橫軸為解釋變量:可以考察殘差與解釋變量的關系,常用于橫軸為解釋變量:可以考察殘差與解釋變量的關系,常用于研究模型是否有改進的余地研究模型是否有改進的余地. .作用:判斷模型的適用性:若模型選擇的正確,殘差圖中的點應作用:判斷模型的適用性:若模型選擇的正確,殘差圖中的點應該分布在以橫軸為中心的帶形區(qū)域該分布在以橫軸為中心的帶形區(qū)域. .誤差與殘差,這兩個概念在某程度上具有很大的相似性,誤差與殘差,這兩個概念在某程度上具有很大的相似性,都是衡量不確定性的指標,可是兩者又存在區(qū)別。都是衡量不確定性的指標,可是兩者又存在區(qū)別。誤差與測量有關,誤差大小可以衡量測量的準確性,誤差誤差與測量有關,誤差大小可
20、以衡量測量的準確性,誤差越大則表示測量越不準確。越大則表示測量越不準確。誤差分為兩類:系統(tǒng)誤差與隨誤差分為兩類:系統(tǒng)誤差與隨機誤差。其中,系統(tǒng)誤差與測量方案有關,通過改進測量機誤差。其中,系統(tǒng)誤差與測量方案有關,通過改進測量方案可以避免系統(tǒng)誤差。隨機誤差與觀測者,測量工具,方案可以避免系統(tǒng)誤差。隨機誤差與觀測者,測量工具,被觀測物體的性質有關,只能盡量減小,卻不能避免被觀測物體的性質有關,只能盡量減小,卻不能避免。 殘差殘差與預測有關與預測有關,殘差大小可以衡量預測的準確性。殘差大小可以衡量預測的準確性。殘差越大表示預測越不準確。殘差與數(shù)據(jù)本身的分布特性,殘差越大表示預測越不準確。殘差與數(shù)據(jù)本
21、身的分布特性,回歸方程的選擇有關?;貧w方程的選擇有關。編號編號12345678身高身高/cm165165157170175165155170體重體重/kg4857505464614359殘差殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382 我們可以利用圖形來分析殘差特性,作圖時縱我們可以利用圖形來分析殘差特性,作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數(shù)坐標為殘差,橫坐標可以選為樣本編號,或身高數(shù)據(jù),或體重估計值等,這樣作出的圖形稱為據(jù),或體重估計值等,這樣作出的圖形稱為殘差圖殘差圖。表表1-4列出了女大學生身高和體重的原始數(shù)據(jù)以及列出了女大學
22、生身高和體重的原始數(shù)據(jù)以及相應的殘差數(shù)據(jù)。相應的殘差數(shù)據(jù)。iiieyy=使用公式使用公式 計算殘差計算殘差殘差圖的制作及作用。殘差圖的制作及作用。坐標縱軸為殘差變量,橫軸可以有不同的選擇;坐標縱軸為殘差變量,橫軸可以有不同的選擇;若模型選擇的正確,殘差圖中的點應該分布在以若模型選擇的正確,殘差圖中的點應該分布在以橫軸為心的帶形區(qū)域;橫軸為心的帶形區(qū)域;對于遠離橫軸的點,要特別注意。對于遠離橫軸的點,要特別注意。身高與體重殘差圖異常點 錯誤數(shù)據(jù) 模型問題 幾點說明:幾點說明: 第第1個樣本點和第個樣本點和第6個樣本點的殘差比較大,需要確認在采集過個樣本點的殘差比較大,需要確認在采集過程中是否有人
23、為的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后程中是否有人為的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,則需再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因。另外,要尋找其他的原因。另外,殘差點比較均勻地落在水平的帶狀區(qū)域殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說明中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。模型擬合精度越高,回歸方程的預報精度越高。我們可以用我們可以用相關指數(shù)相關指數(shù)R2來刻畫回歸的效果,其計算
24、公式是來刻畫回歸的效果,其計算公式是22121()11()niiiniiyyRyy 殘差平方和。總偏差平方和 顯然,顯然,R2的值越大,說明殘差平方和越小,也就是的值越大,說明殘差平方和越小,也就是說模型擬合效果越好。說模型擬合效果越好。 在線性回歸模型中,在線性回歸模型中,R2表示解釋變量對預報變量變表示解釋變量對預報變量變化的貢獻率化的貢獻率。 R2越接近越接近1,表示回歸的效果越好(因為,表示回歸的效果越好(因為R2越接近越接近1,表表示解釋示解釋變量和預報變量的線性相關性越強)。變量和預報變量的線性相關性越強)。 如果某組數(shù)據(jù)可能采取幾種不同回歸方程進行回歸分如果某組數(shù)據(jù)可能采取幾種不
25、同回歸方程進行回歸分析,則可以通過比較析,則可以通過比較R2的值來做出選擇,即的值來做出選擇,即選取選取R2較大較大的模型作為這組數(shù)據(jù)的模型的模型作為這組數(shù)據(jù)的模型??偟膩碚f:總的來說:相關指數(shù)相關指數(shù)R2是度量模型擬合效果的一種指標。是度量模型擬合效果的一種指標。在線性模型中,它在線性模型中,它代表自變量刻畫預報變量的代表自變量刻畫預報變量的能力能力。我們可以用我們可以用相關指數(shù)相關指數(shù)R2來刻畫回歸的效果,其計算公式是來刻畫回歸的效果,其計算公式是22121()11()niiiniiyyRyy 殘差平方和。總偏差平方和例例1的的R20.64 ,解釋變量對總效應約貢獻了,解釋變量對總效應約貢
26、獻了64%,可以,可以敘述為敘述為“身高解析了身高解析了64%的體重變化的體重變化”,而隨機誤差貢,而隨機誤差貢獻了剩余的獻了剩余的36%。所以,身高對體重的效應比隨機誤差。所以,身高對體重的效應比隨機誤差的效應大得多。的效應大得多。 在研究兩個變量間的關系時,首先要根據(jù)散在研究兩個變量間的關系時,首先要根據(jù)散點圖來粗略判斷它們是否線性相關,是否可以用點圖來粗略判斷它們是否線性相關,是否可以用回歸模型來擬合數(shù)據(jù)?;貧w模型來擬合數(shù)據(jù)。殘差分析與殘差圖的定義:殘差分析與殘差圖的定義: 然后,我們可以通過殘差然后,我們可以通過殘差 來來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在判斷模型擬合的效果,判
27、斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù),可疑數(shù)據(jù),這方面的分析工作稱為殘差分析這方面的分析工作稱為殘差分析。12,neee2xR解釋變量( )對預報變量(y表示)的貢獻率。r衡量兩個變量之間線性相相關系數(shù) :關的強弱r2與R 的區(qū)別:2r2R在數(shù)值上:用身高預報體重時,需要注意下列問題:用身高預報體重時,需要注意下列問題:1、回歸方程只適用于我們所研究的樣本的總體;、回歸方程只適用于我們所研究的樣本的總體;2、我們所建立的回歸方程一般都有時間性;、我們所建立的回歸方程一般都有時間性;3、樣本采集的范圍會影響回歸方程的適用范圍;、樣本采集的范圍會影響回歸方程的適用范圍;4、不能期望回歸方程得到的預報值就是
28、預報變量的精確值。、不能期望回歸方程得到的預報值就是預報變量的精確值。 事實上,它是預報變量的可能取值的平均值。事實上,它是預報變量的可能取值的平均值。這些問題也使用于其他問題。這些問題也使用于其他問題。一般地,建立回歸模型的基本步驟為:一般地,建立回歸模型的基本步驟為:(1)確定研究對象,明確哪個變量是)確定研究對象,明確哪個變量是解析變量解析變量x,哪個變,哪個變量是量是預報變量預報變量y。(2)畫出確定好的解析變量和預報變量的散點圖,觀察它)畫出確定好的解析變量和預報變量的散點圖,觀察它們之間的關系(如是否存在線性關系等)。們之間的關系(如是否存在線性關系等)。(3)由經(jīng)驗確定)由經(jīng)驗確
29、定回歸方程的類型回歸方程的類型(如我們觀察到數(shù)據(jù)呈線(如我們觀察到數(shù)據(jù)呈線性關系,則選用線性回歸方程性關系,則選用線性回歸方程y=bx+a).(4)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法)。)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法)。(5)得出結果后分析殘差圖是否有異常(個別數(shù)據(jù)對應)得出結果后分析殘差圖是否有異常(個別數(shù)據(jù)對應殘差過大,或殘差呈現(xiàn)不隨機的規(guī)律性,等等),若存在殘差過大,或殘差呈現(xiàn)不隨機的規(guī)律性,等等),若存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等。異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等。我們回憶一下我們回憶一下最小二乘法最小二乘法:樣本點的中心樣本點的中心
30、: 在在回歸直線上回歸直線上xbyaxxyyxxbniiniii)()(121),(yxniixnx11niiyny11回歸方程回歸方程:axbyxbyaxnxyxnxxxyyxxbniiniiiniiniiiy,)()(1221121以上公式的推導較復雜,故不作推導,但它的原理較為簡單:即各點到該直線的距離的平方和最小,這一方法叫最小二乘法。40我們可以用我們可以用相關指數(shù)相關指數(shù)R2來刻畫回歸的效果,其計算公式是來刻畫回歸的效果,其計算公式是22121()11()niiiniiyyRyy 殘差平方和??偲钇椒胶屠?的的R20.64 ,解釋變量對總效應約貢獻了,解釋變量對總效應約貢獻了6
31、4%,可以,可以敘述為敘述為“身高解析了身高解析了64%的體重變化的體重變化”,而隨機誤差貢,而隨機誤差貢獻了剩余的獻了剩余的36%。所以,身高對體重的效應比隨機誤差。所以,身高對體重的效應比隨機誤差的效應大得多。的效應大得多。R2表示解釋變量對預報變量變化的表示解釋變量對預報變量變化的貢獻率貢獻率。41iiieyy=使用公式使用公式 計算殘差計算殘差隨機誤差的估計值為:隨機誤差的估計值為:,1,2,.,iiiiieyyybxa inie稱為相應于點稱為相應于點 的的殘差殘差.(,)iixy例例2 一只紅鈴蟲的產(chǎn)卵數(shù)一只紅鈴蟲的產(chǎn)卵數(shù)y和溫度和溫度x有關?,F(xiàn)收集了有關。現(xiàn)收集了7組觀測數(shù)據(jù)組觀
32、測數(shù)據(jù)列于表中:列于表中:溫度溫度xoC21232527293235產(chǎn)卵數(shù)產(chǎn)卵數(shù)y/個個711212466115325(1 1)試建立產(chǎn)卵數(shù))試建立產(chǎn)卵數(shù)y y與溫度與溫度x x之間的回歸方程;并預測溫度為之間的回歸方程;并預測溫度為2828o oC C時產(chǎn)卵數(shù)目。時產(chǎn)卵數(shù)目。(2 2)你所建立的模型中溫度在多大程度上解釋了產(chǎn)卵數(shù)的變化?)你所建立的模型中溫度在多大程度上解釋了產(chǎn)卵數(shù)的變化? 產(chǎn)卵數(shù)產(chǎn)卵數(shù)氣溫氣溫在散點圖中,樣本點沒有分布在某個帶狀區(qū)域內(nèi),在散點圖中,樣本點沒有分布在某個帶狀區(qū)域內(nèi),因此兩個變量不呈現(xiàn)線性相關關系,所以不能直接因此兩個變量不呈現(xiàn)線性相關關系,所以不能直接利用線性
33、回歸方程來建立兩個變量之間的關系利用線性回歸方程來建立兩個變量之間的關系.利用利用線性回歸模型線性回歸模型研究研究y和和x之間的之間的非線性回歸方程非線性回歸方程.當回歸方程不是形如當回歸方程不是形如y=bx+a時,我們稱之為時,我們稱之為非線性回非線性回歸方程歸方程.根據(jù)已有的函數(shù)知識,可以發(fā)現(xiàn)樣本點分布在某一根據(jù)已有的函數(shù)知識,可以發(fā)現(xiàn)樣本點分布在某一條指數(shù)函數(shù)曲線條指數(shù)函數(shù)曲線 的周圍,其中的周圍,其中c1和和c2是是待定參數(shù)待定參數(shù).12ln,ln,ca cbyzzbxa令則有則變換后樣本點應該分布在直線則變換后樣本點應該分布在直線z=bx+a的周圍的周圍.21c xyce211212
34、lnlnlnlnlnlnc xycecc xecc x產(chǎn)卵數(shù)產(chǎn)卵數(shù)氣溫氣溫 變換變換 y=bx+a 非線性關系非線性關系 線性關系線性關系對數(shù)對數(shù)方法一一:指數(shù)函數(shù)模型21c xyce由計算器得:由計算器得:z關于關于x的線性回歸方程的線性回歸方程相關指數(shù)相關指數(shù) 因此因此y關于關于x的非線性回的非線性回歸方程為歸方程為98. 02R489. 3272. 0 xz當當x=28 時,時,y 44 ,指數(shù)回歸模型中溫度解釋了,指數(shù)回歸模型中溫度解釋了98%的產(chǎn)卵的產(chǎn)卵數(shù)的變化數(shù)的變化C489. 3272. 0 xey21c xyce12ln,ln,ca cbyzzbxa令則有l(wèi)ny,xz=不變78
35、4.5745.4190.4178.3045.3398.2946.1z35322927252321x41表產(chǎn)卵數(shù)的對數(shù)溫度51 . 1圖 y= c3 x2+c4 變換變換 y= c3 t+c4 非線性關系非線性關系 線性關系線性關系問題問題選用選用y=c3x2+c4 ,還是,還是y=c3x2+cx+c4 ?問題問題3 產(chǎn)卵數(shù)產(chǎn)卵數(shù)氣溫氣溫問題問題2如何求如何求c3、c4? t=x2方法二,二元函數(shù)模型方法二,二元函數(shù)模型平方變換平方變換:令令t=xt=x2 2,產(chǎn)卵數(shù),產(chǎn)卵數(shù)y y和溫度和溫度x x之間二次函數(shù)模型之間二次函數(shù)模型y=bxy=bx2 2+a+a就轉化為產(chǎn)就轉化為產(chǎn)卵數(shù)卵數(shù)y y和
36、溫度的平方和溫度的平方t t之間線性回歸模型之間線性回歸模型y=bt+ay=bt+a溫度溫度21232527293235溫度的平方溫度的平方t44152962572984110241225產(chǎn)卵數(shù)產(chǎn)卵數(shù)y/個個711212466115325作散點圖,并由計算器得:作散點圖,并由計算器得:y y和和t t之間的線性回歸方程為之間的線性回歸方程為y=y=0.3670.367t t- -202.54202.54,相關指數(shù),相關指數(shù)R R2 2= =r r2 20.8960.8962 2=0.802=0.802將將t=xt=x2 2代入線性回歸方程得:代入線性回歸方程得: y=y=0.3670.367x
37、 x2 2 -202.54 -202.54當當x x=28=28時時,y y=0.367=0.36728282 2-202.5485-202.5485,且且R R2 2=0.802=0.802,所以,二次函數(shù)模型中溫度解所以,二次函數(shù)模型中溫度解釋了釋了80.2%80.2%的產(chǎn)卵數(shù)變化。的產(chǎn)卵數(shù)變化。t選變量選變量 解:選取氣溫為解釋變量解:選取氣溫為解釋變量x x,產(chǎn)卵數(shù),產(chǎn)卵數(shù) 為預報變量為預報變量y y。畫散點圖畫散點圖假設線性回歸方程為假設線性回歸方程為 :=bx+a選選 模模 型型分析和預測分析和預測當當x=28時,時,y =19.8728-463.73 93估計參數(shù)估計參數(shù)由計算器
38、得:線性回歸方程為由計算器得:線性回歸方程為y=y=19.8719.87x x-463.73-463.73 相關指數(shù)相關指數(shù)R R2 2= =r r2 20.8640.8642 2=0.7464=0.7464所以,一次函數(shù)模型中溫度解釋了所以,一次函數(shù)模型中溫度解釋了74.64%的產(chǎn)卵數(shù)變化。的產(chǎn)卵數(shù)變化。050100150200250300350036912151821242730333639當當x=28時,時,y =19.8728-463.73 93方法方法三:一元函數(shù)模型:一元函數(shù)模型函數(shù)模型函數(shù)模型相關指數(shù)相關指數(shù)R2線性回歸模型線性回歸模型0.7464二次函數(shù)模型二次函數(shù)模型0.80
39、2指數(shù)函數(shù)模型指數(shù)函數(shù)模型0.98最好的模型是哪個最好的模型是哪個?顯然,指數(shù)函數(shù)模型最好!顯然,指數(shù)函數(shù)模型最好!(2)20.367202.543yx(1)0.2723.849xye 利用殘差計算公式:利用殘差計算公式:0.2723.849(1)(1),1,2,7ixiiiieyyyei (2)(2)20.367202.543,1,2,7iiiiieyyyxi 77.968-58.265-40.104-41.000-5.83219.40047.69634.675-13.3819.230-8.9501.875-0.1010.557325115662421117Y35322927252321X(
40、1)ie(2)ie由殘差平方和:由殘差平方和:21niiQe (1)(2)1550.538,15448.431.QQ 故指數(shù)函數(shù)模型的擬合效果比二次函數(shù)的模擬效果好故指數(shù)函數(shù)模型的擬合效果比二次函數(shù)的模擬效果好.或由條件或由條件R2分別為分別為0.98和和0.80,同樣可得它們的效果,同樣可得它們的效果.52 122122111;nniiiiiiQyyQyy分別計算兩個回歸方程的殘差平方和與 1212122,;,.QQyf x ayg x byf x ayg x b若則的效果比的好 反之的效果不如的好課堂知識延伸課堂知識延伸 我們知道,刑警如果能在案發(fā)現(xiàn)場提取到罪犯的腳印,即將獲得一條重要的破我們知道,刑警如果能在案
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024秋八年級數(shù)學上冊 第6章 一次函數(shù)6.4 課題學習 選擇方案教案(新版)蘇科版
- 2024秋八年級數(shù)學上冊 第十五章 分式15.2 分式的運算 4分式的加減-異分母的分式相加減教學設計(新版)新人教版
- 高中語文 第五單元 散而不亂 氣脈中貫 第1課 六國論教案4 新人教版選修中國古代詩歌散文鑒賞
- 2024年五年級數(shù)學下冊 八 探索樂園單元概述與課時安排教案 冀教版
- 2023九年級化學下冊 第十二單元 化學與生活 課題2 化學元素與人體健康教案 (新版)新人教版
- 潤滑脂 軸承動態(tài)壽命試驗方法(征求意見稿)
- 運輸合同范本(2篇)
- 湖南專升本課件
- 景陽岡課件閱讀
- 幼兒園小班音樂《怪汽車》課件
- (精選word)高支模安全監(jiān)理巡視檢查記錄表
- 《分數(shù)四則混合運算》-完整版PPT
- 西師大版數(shù)學六年級上冊:五單元《圖形的放大與縮小》教學設計
- 高校教師崗前培訓題庫完整版
- 北師大版數(shù)學二年級上冊《有多少張貼畫》
- 食堂食品加工流程圖
- 四年級數(shù)學上冊課件-8. 田忌賽馬(37)-人教版(共14張PPT)
- 婦產(chǎn)科課件-胎兒窘迫
- 水資源論證報告
- 臨時用工安全安全教育
- GB∕T 33217-2016 沖壓件毛刺高度
評論
0/150
提交評論