回歸分析的基本思想及其初步應(yīng)用_第1頁
回歸分析的基本思想及其初步應(yīng)用_第2頁
回歸分析的基本思想及其初步應(yīng)用_第3頁
回歸分析的基本思想及其初步應(yīng)用_第4頁
回歸分析的基本思想及其初步應(yīng)用_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 新學(xué)期我們懷揣大學(xué)夢想,新學(xué)期我們懷揣大學(xué)夢想,只要我們相信自己,刻苦努力只要我們相信自己,刻苦努力每一天,就一定能考進每一天,就一定能考進 北京大學(xué)北京大學(xué)第一章第一章 統(tǒng)計案例統(tǒng)計案例a. 比數(shù)學(xué)3中“回歸”增加的內(nèi)容數(shù)學(xué)統(tǒng)計n畫散點圖畫散點圖n了解最小二乘法的了解最小二乘法的思想思想n求回歸直線方程求回歸直線方程ybxa1.用回歸直線方程解用回歸直線方程解決應(yīng)用問題決應(yīng)用問題選修-統(tǒng)計案例n引入線性回歸模型引入線性回歸模型ybxaen了解模型中隨機誤差項了解模型中隨機誤差項e產(chǎn)生產(chǎn)生的原因的原因n了解相關(guān)指數(shù)了解相關(guān)指數(shù) R2 和模型擬合和模型擬合的效果之間的關(guān)系的效果之間的關(guān)系n了解

2、殘差圖的作用了解殘差圖的作用n利用線性回歸模型解決一類非利用線性回歸模型解決一類非線性回歸問題線性回歸問題5.正確理解分析方法與結(jié)果正確理解分析方法與結(jié)果必修必修3(3(第二章第二章 統(tǒng)計統(tǒng)計) )知識結(jié)構(gòu)知識結(jié)構(gòu) 收集數(shù)據(jù)收集數(shù)據(jù) ( (隨機抽樣隨機抽樣) )整理、分析數(shù)據(jù)整理、分析數(shù)據(jù)估計、推斷估計、推斷簡單隨機抽樣簡單隨機抽樣分層抽樣分層抽樣系統(tǒng)抽樣系統(tǒng)抽樣用樣本估計總體用樣本估計總體變量間的相關(guān)關(guān)系變量間的相關(guān)關(guān)系 用樣本用樣本的頻率的頻率分布估分布估計總體計總體分布分布 用樣本用樣本數(shù)字特數(shù)字特征估計征估計總體數(shù)總體數(shù)字特征字特征線性回歸分析線性回歸分析問題問題1 1:正方形的面積正

3、方形的面積y y與正方形的邊長與正方形的邊長x x之間之間 的的函數(shù)關(guān)系函數(shù)關(guān)系是是y = xy = x2 2確定性關(guān)系確定性關(guān)系問題問題2 2:某水田水稻產(chǎn)量某水田水稻產(chǎn)量y y與施肥量與施肥量x x之間是否之間是否 -有一個確定性的關(guān)系?有一個確定性的關(guān)系?例如:例如:在在 7 7 塊并排、形狀大小相同的試驗田塊并排、形狀大小相同的試驗田上上 進行施肥量對水稻產(chǎn)量影響的試驗,得到進行施肥量對水稻產(chǎn)量影響的試驗,得到如下所示的一組數(shù)據(jù):如下所示的一組數(shù)據(jù):施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻產(chǎn)量水稻產(chǎn)量y y 330

4、345 365 405 445 450 455 330 345 365 405 445 450 455復(fù)習(xí)復(fù)習(xí): :變量之間的兩種關(guān)系變量之間的兩種關(guān)系自變量取值一定時,因變量的取值帶有一定自變量取值一定時,因變量的取值帶有一定隨隨機性機性的兩個變量之間的關(guān)系叫做的兩個變量之間的關(guān)系叫做相關(guān)關(guān)系相關(guān)關(guān)系。1 1、定義:、定義: 1 1):相關(guān)關(guān)系是一種不確定性關(guān)系;):相關(guān)關(guān)系是一種不確定性關(guān)系;注注對具有相關(guān)關(guān)系的兩個變量進行對具有相關(guān)關(guān)系的兩個變量進行統(tǒng)計分析的方法叫統(tǒng)計分析的方法叫回歸分析回歸分析。2 2):):1、兩個變量的關(guān)系、兩個變量的關(guān)系不相關(guān)不相關(guān)相關(guān)關(guān)相關(guān)關(guān)系系函數(shù)關(guān)系函數(shù)關(guān)

5、系線性相關(guān)線性相關(guān)非線性相關(guān)非線性相關(guān)問題問題1:現(xiàn)實生活中兩個變量間的關(guān)系有哪:現(xiàn)實生活中兩個變量間的關(guān)系有哪些呢?些呢?相關(guān)關(guān)系:相關(guān)關(guān)系:對于兩個變量,當(dāng)自變量取值一定對于兩個變量,當(dāng)自變量取值一定時,因變量的取值帶有一定時,因變量的取值帶有一定隨機性隨機性的兩個變量的兩個變量之間的關(guān)系。之間的關(guān)系。思考:相關(guān)關(guān)系與函數(shù)關(guān)系有怎樣的不同?函數(shù)關(guān)系中的兩個變量間是一種確定性關(guān)系相關(guān)關(guān)系是一種非確定性關(guān)系 函數(shù)關(guān)系是一種理想的關(guān)系模型 相關(guān)關(guān)系在現(xiàn)實生活中大量存在,是更一般的情況問題問題2:對于線性相關(guān)的兩個變量用什么方法:對于線性相關(guān)的兩個變量用什么方法來刻劃之間的關(guān)系呢?來刻劃之間的關(guān)系

6、呢?2、最小二乘估計、最小二乘估計最小二乘估計下的線性回歸方程:最小二乘估計下的線性回歸方程:ybxa121()()()niiiniixXyYbXX aYbX我們回憶一下我們回憶一下最小二乘法最小二乘法:樣本點的中心樣本點的中心:xbyaxxyyxxbniiniii)()(121),(yxniixnx11niiyny11回歸方程回歸方程:axby3、回歸分析的基本步驟回歸分析的基本步驟:畫散點圖畫散點圖求回歸方程求回歸方程用回歸直線方程預(yù)報、決策用回歸直線方程預(yù)報、決策這種方法稱為回歸分析這種方法稱為回歸分析.回歸分析回歸分析是對具有相關(guān)關(guān)系的兩個變量進行統(tǒng)是對具有相關(guān)關(guān)系的兩個變量進行統(tǒng)計計

7、分析的一種常用方法分析的一種常用方法.2 2、現(xiàn)實生活中存在著大量的相關(guān)關(guān)系?,F(xiàn)實生活中存在著大量的相關(guān)關(guān)系。探索:水稻產(chǎn)量探索:水稻產(chǎn)量y y與施肥量與施肥量x x之間大致有何之間大致有何規(guī)律?規(guī)律?例例1 從某大學(xué)中隨機選取從某大學(xué)中隨機選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如表名女大學(xué)生,其身高和體重數(shù)據(jù)如表1-1所示。所示。編號12345678身高/cm165165 157 170 175 165 155 170體重/kg4857505464614359求根據(jù)一名女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為求根據(jù)一名女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為172cm

8、的女大學(xué)生的體重。的女大學(xué)生的體重。案例案例1:女大學(xué)生的身高與體重:女大學(xué)生的身高與體重解:解:1、選取身高為自變量、選取身高為自變量x,體重為因變量,體重為因變量y,作散點圖:,作散點圖:2、由散點圖知道身高和體重有比較好的、由散點圖知道身高和體重有比較好的線性相關(guān)關(guān)系,因此可以用線性回歸方程線性相關(guān)關(guān)系,因此可以用線性回歸方程刻畫它們之間的關(guān)系??坍嬎鼈冎g的關(guān)系。例例1 從某大學(xué)中隨機選取從某大學(xué)中隨機選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如表名女大學(xué)生,其身高和體重數(shù)據(jù)如表1-1所示。所示。5943616454505748體重/kg170155165175170157165165身高/c

9、m87654321編號求根據(jù)一名女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為求根據(jù)一名女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生的體重。的女大學(xué)生的體重。根據(jù)最小二乘法估計 和 就是未知參數(shù)a和b的最好估計,abniiniiiniiniiixnxyxnyxxbyaxxyyxxb1221121)()(制表7 8 合計654321ixy , ,ixxiyy()()iixx yy2()ixxniiniiynyxnx1111,其中所以回歸方程是所以回歸方程是0.84985.712yx所以,對于身高為所以,對于身高為172cm的女大學(xué)生,由回歸方程可以預(yù)報的女大

10、學(xué)生,由回歸方程可以預(yù)報其體重為其體重為0.849 7285.71260.316()ykg( , )x y 稱為樣本點的中心探究探究P4:身高為身高為172cm的女大學(xué)生的體重一定是的女大學(xué)生的體重一定是60.316kg嗎?嗎?如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎?例例1 從某大學(xué)中隨機選取從某大學(xué)中隨機選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如表名女大學(xué)生,其身高和體重數(shù)據(jù)如表1-1所示。所示。5943616454505748體重/kg170155165175170157165165身高/cm87654321編號求根據(jù)一名女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為

11、求根據(jù)一名女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生的體重。的女大學(xué)生的體重。712.85849.0ab,于是得到探究探究P4:身高為身高為172cm的女大學(xué)生的體重一定是的女大學(xué)生的體重一定是60.316kg嗎?嗎?如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎?答:身高為答:身高為172cm的女大學(xué)生的體重不一定是的女大學(xué)生的體重不一定是60.316kg,但一般可以認為她的體重在,但一般可以認為她的體重在60.316kg左右。左右。60.136kg不是每個身高為不是每個身高為172cm的女大學(xué)生的體重的女大學(xué)生的體重的預(yù)測值,而是所有身高為的預(yù)測

12、值,而是所有身高為172cm的女大學(xué)生的女大學(xué)生平均平均體重的預(yù)測值體重的預(yù)測值。1.用相關(guān)系數(shù)用相關(guān)系數(shù) r 來衡量來衡量2.公式:公式:12211niiinniiiixxyyrxxyy求出線性相關(guān)方程后,求出線性相關(guān)方程后, 說明身高說明身高x每每增加一個單位增加一個單位,體重體重y就增加就增加0.849個單位個單位,這表這表明體重與身高具有正的線性相關(guān)關(guān)系明體重與身高具有正的線性相關(guān)關(guān)系.如何描如何描述它們之間線性相關(guān)關(guān)系的強弱呢述它們之間線性相關(guān)關(guān)系的強弱呢?849. 0b00rxyrxy當(dāng)時,表示 與 為正相關(guān);當(dāng)時,表示 與 為負相關(guān)、當(dāng)、當(dāng) 時,時,x x與與y y為完全線性相關(guān)

13、,它們之為完全線性相關(guān),它們之間存在確定的函數(shù)關(guān)系。間存在確定的函數(shù)關(guān)系。、當(dāng)、當(dāng) 時,表示時,表示x x與與y y存在著一定的線存在著一定的線性相關(guān),性相關(guān),r r的絕對值越大,越接近于的絕對值越大,越接近于1 1,表示,表示x x與與y y直線相關(guān)程度越高,反之越低。直線相關(guān)程度越高,反之越低。1r10 r3.性質(zhì):性質(zhì):0.751, 1, 0.75, 0 25,0.25,rrr 當(dāng), 表明兩個變量正相關(guān)很強;當(dāng)表明兩個變量負相關(guān)很強;當(dāng).表明兩個變量相關(guān)性較弱。例例1 從某大學(xué)中隨機選取從某大學(xué)中隨機選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如表名女大學(xué)生,其身高和體重數(shù)據(jù)如表1-1所示。所示。

14、編號12345678身高/cm165165 157 170 175 165 155 170體重/kg4857505464614359求根據(jù)一名女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為求根據(jù)一名女大學(xué)生的身高預(yù)報她的體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生的體重。的女大學(xué)生的體重。案例案例1:女大學(xué)生的身高與體重:女大學(xué)生的身高與體重解:解:1、選取身高為自變量、選取身高為自變量x,體重為因變量,體重為因變量y,作散點圖:,作散點圖:2、由散點圖知道身高和體重有比較好的、由散點圖知道身高和體重有比較好的線性相關(guān)關(guān)系,因此可以用線性回歸方程線性相關(guān)關(guān)系,因此可以用線性回歸

15、方程刻畫它們之間的關(guān)系??坍嬎鼈冎g的關(guān)系。3、從散點圖還看到,樣本點散布在某一條、從散點圖還看到,樣本點散布在某一條直線的附近,而不是在一條直線上,所以直線的附近,而不是在一條直線上,所以不能用一次函數(shù)不能用一次函數(shù)y=bx+a描述它們關(guān)系描述它們關(guān)系。 我們可以用下面的我們可以用下面的線性回歸模型線性回歸模型來表示:來表示:y=bx+a+e,其中,其中a和和b為模型的未知參數(shù),為模型的未知參數(shù),e稱為隨機誤差稱為隨機誤差。思考思考P3產(chǎn)生隨機誤差項產(chǎn)生隨機誤差項e的原因是什么?的原因是什么?思考思考產(chǎn)生隨機誤差項產(chǎn)生隨機誤差項e的原因是什么?的原因是什么?隨機誤差隨機誤差e e的來源的來源

16、( (可以推廣到一般):可以推廣到一般):1、其它因素的影響:影響體重y 的因素不只是身高 x,可能還包括遺傳基因、飲食習(xí)慣、是否喜歡運動、生長環(huán)境、度量誤差等因素;2、用線性回歸模型近似真實模型所引起的誤差;3、身高 x 的觀測誤差。我們回憶一下我們回憶一下最小二乘法最小二乘法:樣本點的中心樣本點的中心: 在在回歸直線上回歸直線上xbyaxxyyxxbniiniii)()(121),(yxniixnx11niiyny11回歸方程回歸方程:axby3、回歸分析的基本步驟回歸分析的基本步驟:畫散點圖畫散點圖求回歸方程求回歸方程用回歸直線方程預(yù)報、決策用回歸直線方程預(yù)報、決策這種方法稱為回歸分析這

17、種方法稱為回歸分析.回歸分析回歸分析是對具有相關(guān)關(guān)系的兩個變量進行統(tǒng)是對具有相關(guān)關(guān)系的兩個變量進行統(tǒng)計計分析的一種常用方法分析的一種常用方法.函數(shù)模型與回歸模型之間的差別函數(shù)模型與回歸模型之間的差別函數(shù)模型:abxy回歸模型:eabxy 線性回歸模型線性回歸模型y=bx+a+e增加了隨機誤差項增加了隨機誤差項e,因變,因變量量y的值由自變量的值由自變量x和隨機誤差項和隨機誤差項e共同確定,即共同確定,即自變量自變量x只能解釋部分只能解釋部分y的變化的變化。 在統(tǒng)計中,我們也把自變量在統(tǒng)計中,我們也把自變量x稱為稱為解釋變量解釋變量,因變量,因變量y稱為稱為預(yù)報變量預(yù)報變量。()eeybxa 隨

18、機誤差隨機誤差eyy e的估計量的估計量樣本點:樣本點:1122(,),(,),. ,(,)nnxyxyxy相應(yīng)的隨機誤差為:相應(yīng)的隨機誤差為:,1,2,.,iiieybxa in隨機誤差的估計值為:隨機誤差的估計值為:,1,2,.,iiiiieyyybxa inie稱為相應(yīng)于點稱為相應(yīng)于點 的的殘差殘差.(,)iixy殘差圖的制作和作用:殘差圖的制作和作用:制作:坐標縱軸為殘差變量,橫軸可以有不同的選擇制作:坐標縱軸為殘差變量,橫軸可以有不同的選擇. . 橫軸為編號:可以考察殘差與編號次序之間的關(guān)系,橫軸為編號:可以考察殘差與編號次序之間的關(guān)系, 常用常用于調(diào)查數(shù)據(jù)錯誤于調(diào)查數(shù)據(jù)錯誤. .

19、橫軸為解釋變量:可以考察殘差與解釋變量的關(guān)系,常用于橫軸為解釋變量:可以考察殘差與解釋變量的關(guān)系,常用于研究模型是否有改進的余地研究模型是否有改進的余地. .作用:判斷模型的適用性:若模型選擇的正確,殘差圖中的點應(yīng)作用:判斷模型的適用性:若模型選擇的正確,殘差圖中的點應(yīng)該分布在以橫軸為中心的帶形區(qū)域該分布在以橫軸為中心的帶形區(qū)域. .誤差與殘差,這兩個概念在某程度上具有很大的相似性,誤差與殘差,這兩個概念在某程度上具有很大的相似性,都是衡量不確定性的指標,可是兩者又存在區(qū)別。都是衡量不確定性的指標,可是兩者又存在區(qū)別。誤差與測量有關(guān),誤差大小可以衡量測量的準確性,誤差誤差與測量有關(guān),誤差大小可

20、以衡量測量的準確性,誤差越大則表示測量越不準確。越大則表示測量越不準確。誤差分為兩類:系統(tǒng)誤差與隨誤差分為兩類:系統(tǒng)誤差與隨機誤差。其中,系統(tǒng)誤差與測量方案有關(guān),通過改進測量機誤差。其中,系統(tǒng)誤差與測量方案有關(guān),通過改進測量方案可以避免系統(tǒng)誤差。隨機誤差與觀測者,測量工具,方案可以避免系統(tǒng)誤差。隨機誤差與觀測者,測量工具,被觀測物體的性質(zhì)有關(guān),只能盡量減小,卻不能避免被觀測物體的性質(zhì)有關(guān),只能盡量減小,卻不能避免。 殘差殘差與預(yù)測有關(guān)與預(yù)測有關(guān),殘差大小可以衡量預(yù)測的準確性。殘差大小可以衡量預(yù)測的準確性。殘差越大表示預(yù)測越不準確。殘差與數(shù)據(jù)本身的分布特性,殘差越大表示預(yù)測越不準確。殘差與數(shù)據(jù)本

21、身的分布特性,回歸方程的選擇有關(guān)?;貧w方程的選擇有關(guān)。編號編號12345678身高身高/cm165165157170175165155170體重體重/kg4857505464614359殘差殘差-6.3732.6272.419-4.6181.1376.627-2.8830.382 我們可以利用圖形來分析殘差特性,作圖時縱我們可以利用圖形來分析殘差特性,作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數(shù)坐標為殘差,橫坐標可以選為樣本編號,或身高數(shù)據(jù),或體重估計值等,這樣作出的圖形稱為據(jù),或體重估計值等,這樣作出的圖形稱為殘差圖殘差圖。表表1-4列出了女大學(xué)生身高和體重的原始數(shù)據(jù)以及列出了女大學(xué)

22、生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù)。相應(yīng)的殘差數(shù)據(jù)。iiieyy=使用公式使用公式 計算殘差計算殘差殘差圖的制作及作用。殘差圖的制作及作用。坐標縱軸為殘差變量,橫軸可以有不同的選擇;坐標縱軸為殘差變量,橫軸可以有不同的選擇;若模型選擇的正確,殘差圖中的點應(yīng)該分布在以若模型選擇的正確,殘差圖中的點應(yīng)該分布在以橫軸為心的帶形區(qū)域;橫軸為心的帶形區(qū)域;對于遠離橫軸的點,要特別注意。對于遠離橫軸的點,要特別注意。身高與體重殘差圖異常點 錯誤數(shù)據(jù) 模型問題 幾點說明:幾點說明: 第第1個樣本點和第個樣本點和第6個樣本點的殘差比較大,需要確認在采集過個樣本點的殘差比較大,需要確認在采集過程中是否有人

23、為的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后程中是否有人為的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,則需再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因。另外,要尋找其他的原因。另外,殘差點比較均勻地落在水平的帶狀區(qū)域殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說明中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報精度越高。模型擬合精度越高,回歸方程的預(yù)報精度越高。我們可以用我們可以用相關(guān)指數(shù)相關(guān)指數(shù)R2來刻畫回歸的效果,其計算

24、公式是來刻畫回歸的效果,其計算公式是22121()11()niiiniiyyRyy 殘差平方和??偲钇椒胶?顯然,顯然,R2的值越大,說明殘差平方和越小,也就是的值越大,說明殘差平方和越小,也就是說模型擬合效果越好。說模型擬合效果越好。 在線性回歸模型中,在線性回歸模型中,R2表示解釋變量對預(yù)報變量變表示解釋變量對預(yù)報變量變化的貢獻率化的貢獻率。 R2越接近越接近1,表示回歸的效果越好(因為,表示回歸的效果越好(因為R2越接近越接近1,表,表示解釋示解釋變量和預(yù)報變量的線性相關(guān)性越強)。變量和預(yù)報變量的線性相關(guān)性越強)。 如果某組數(shù)據(jù)可能采取幾種不同回歸方程進行回歸分如果某組數(shù)據(jù)可能采取幾種

25、不同回歸方程進行回歸分析,則可以通過比較析,則可以通過比較R2的值來做出選擇,即的值來做出選擇,即選取選取R2較大較大的模型作為這組數(shù)據(jù)的模型的模型作為這組數(shù)據(jù)的模型??偟膩碚f:總的來說:相關(guān)指數(shù)相關(guān)指數(shù)R2是度量模型擬合效果的一種指標。是度量模型擬合效果的一種指標。在線性模型中,它在線性模型中,它代表自變量刻畫預(yù)報變量的代表自變量刻畫預(yù)報變量的能力能力。我們可以用我們可以用相關(guān)指數(shù)相關(guān)指數(shù)R2來刻畫回歸的效果,其計算公式是來刻畫回歸的效果,其計算公式是22121()11()niiiniiyyRyy 殘差平方和。總偏差平方和例例1的的R20.64 ,解釋變量對總效應(yīng)約貢獻了,解釋變量對總效應(yīng)約

26、貢獻了64%,可以,可以敘述為敘述為“身高解析了身高解析了64%的體重變化的體重變化”,而隨機誤差貢,而隨機誤差貢獻了剩余的獻了剩余的36%。所以,身高對體重的效應(yīng)比隨機誤差。所以,身高對體重的效應(yīng)比隨機誤差的效應(yīng)大得多。的效應(yīng)大得多。 在研究兩個變量間的關(guān)系時,首先要根據(jù)散在研究兩個變量間的關(guān)系時,首先要根據(jù)散點圖來粗略判斷它們是否線性相關(guān),是否可以用點圖來粗略判斷它們是否線性相關(guān),是否可以用回歸模型來擬合數(shù)據(jù)?;貧w模型來擬合數(shù)據(jù)。殘差分析與殘差圖的定義:殘差分析與殘差圖的定義: 然后,我們可以通過殘差然后,我們可以通過殘差 來來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在判斷模型擬合的效果,

27、判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù),可疑數(shù)據(jù),這方面的分析工作稱為殘差分析這方面的分析工作稱為殘差分析。12,neee2xR解釋變量( )對預(yù)報變量(y表示)的貢獻率。r衡量兩個變量之間線性相相關(guān)系數(shù) :關(guān)的強弱r2與R 的區(qū)別:2r2R在數(shù)值上:用身高預(yù)報體重時,需要注意下列問題:用身高預(yù)報體重時,需要注意下列問題:1、回歸方程只適用于我們所研究的樣本的總體;、回歸方程只適用于我們所研究的樣本的總體;2、我們所建立的回歸方程一般都有時間性;、我們所建立的回歸方程一般都有時間性;3、樣本采集的范圍會影響回歸方程的適用范圍;、樣本采集的范圍會影響回歸方程的適用范圍;4、不能期望回歸方程得到的預(yù)報值就

28、是預(yù)報變量的精確值。、不能期望回歸方程得到的預(yù)報值就是預(yù)報變量的精確值。 事實上,它是預(yù)報變量的可能取值的平均值。事實上,它是預(yù)報變量的可能取值的平均值。這些問題也使用于其他問題。這些問題也使用于其他問題。一般地,建立回歸模型的基本步驟為:一般地,建立回歸模型的基本步驟為:(1)確定研究對象,明確哪個變量是)確定研究對象,明確哪個變量是解析變量解析變量x,哪個變,哪個變量是量是預(yù)報變量預(yù)報變量y。(2)畫出確定好的解析變量和預(yù)報變量的散點圖,觀察它)畫出確定好的解析變量和預(yù)報變量的散點圖,觀察它們之間的關(guān)系(如是否存在線性關(guān)系等)。們之間的關(guān)系(如是否存在線性關(guān)系等)。(3)由經(jīng)驗確定)由經(jīng)驗

29、確定回歸方程的類型回歸方程的類型(如我們觀察到數(shù)據(jù)呈線(如我們觀察到數(shù)據(jù)呈線性關(guān)系,則選用線性回歸方程性關(guān)系,則選用線性回歸方程y=bx+a).(4)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法)。)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法)。(5)得出結(jié)果后分析殘差圖是否有異常(個別數(shù)據(jù)對應(yīng))得出結(jié)果后分析殘差圖是否有異常(個別數(shù)據(jù)對應(yīng)殘差過大,或殘差呈現(xiàn)不隨機的規(guī)律性,等等),若存在殘差過大,或殘差呈現(xiàn)不隨機的規(guī)律性,等等),若存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等。異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等。我們回憶一下我們回憶一下最小二乘法最小二乘法:樣本點的中心樣本點的中

30、心: 在在回歸直線上回歸直線上xbyaxxyyxxbniiniii)()(121),(yxniixnx11niiyny11回歸方程回歸方程:axbyxbyaxnxyxnxxxyyxxbniiniiiniiniiiy,)()(1221121以上公式的推導(dǎo)較復(fù)雜,故不作推導(dǎo),但它的原理較為簡單:即各點到該直線的距離的平方和最小,這一方法叫最小二乘法。整理整理ppt40我們可以用我們可以用相關(guān)指數(shù)相關(guān)指數(shù)R2來刻畫回歸的效果,其計算公式是來刻畫回歸的效果,其計算公式是22121()11()niiiniiyyRyy 殘差平方和??偲钇椒胶屠?的的R20.64 ,解釋變量對總效應(yīng)約貢獻了,解釋變量對

31、總效應(yīng)約貢獻了64%,可以,可以敘述為敘述為“身高解析了身高解析了64%的體重變化的體重變化”,而隨機誤差貢,而隨機誤差貢獻了剩余的獻了剩余的36%。所以,身高對體重的效應(yīng)比隨機誤差。所以,身高對體重的效應(yīng)比隨機誤差的效應(yīng)大得多。的效應(yīng)大得多。R2表示解釋變量對預(yù)報變量變化的表示解釋變量對預(yù)報變量變化的貢獻率貢獻率。整理整理ppt41iiieyy=使用公式使用公式 計算殘差計算殘差隨機誤差的估計值為:隨機誤差的估計值為:,1,2,.,iiiiieyyybxa inie稱為相應(yīng)于點稱為相應(yīng)于點 的的殘差殘差.(,)iixy例例2 一只紅鈴蟲的產(chǎn)卵數(shù)一只紅鈴蟲的產(chǎn)卵數(shù)y和溫度和溫度x有關(guān)。現(xiàn)收集了

32、有關(guān)。現(xiàn)收集了7組觀測數(shù)據(jù)組觀測數(shù)據(jù)列于表中:列于表中:溫度溫度xoC21232527293235產(chǎn)卵數(shù)產(chǎn)卵數(shù)y/個個711212466115325(1 1)試建立產(chǎn)卵數(shù))試建立產(chǎn)卵數(shù)y y與溫度與溫度x x之間的回歸方程;并預(yù)測溫度為之間的回歸方程;并預(yù)測溫度為2828o oC C時時產(chǎn)卵數(shù)目。產(chǎn)卵數(shù)目。(2 2)你所建立的模型中溫度在多大程度上解釋了產(chǎn)卵數(shù)的變化?)你所建立的模型中溫度在多大程度上解釋了產(chǎn)卵數(shù)的變化? 產(chǎn)卵數(shù)產(chǎn)卵數(shù)氣溫氣溫在散點圖中,樣本點沒有分布在某個帶狀區(qū)域內(nèi),在散點圖中,樣本點沒有分布在某個帶狀區(qū)域內(nèi),因此兩個變量不呈現(xiàn)線性相關(guān)關(guān)系,所以不能直接因此兩個變量不呈現(xiàn)線性

33、相關(guān)關(guān)系,所以不能直接利用線性回歸方程來建立兩個變量之間的關(guān)系利用線性回歸方程來建立兩個變量之間的關(guān)系.利用利用線性回歸模型線性回歸模型研究研究y和和x之間的之間的非線性回歸方程非線性回歸方程.當(dāng)回歸方程不是形如當(dāng)回歸方程不是形如y=bx+a時,我們稱之為時,我們稱之為非線性回非線性回歸方程歸方程.根據(jù)已有的函數(shù)知識,可以發(fā)現(xiàn)樣本點分布在某一根據(jù)已有的函數(shù)知識,可以發(fā)現(xiàn)樣本點分布在某一條指數(shù)函數(shù)曲線條指數(shù)函數(shù)曲線 的周圍,其中的周圍,其中c1和和c2是是待定參數(shù)待定參數(shù).12ln,ln,ca cbyzzbxa令則有則變換后樣本點應(yīng)該分布在直線則變換后樣本點應(yīng)該分布在直線z=bx+a的周圍的周圍

34、.21c xyce211212lnlnlnlnlnlnc xycecc xecc x產(chǎn)卵數(shù)產(chǎn)卵數(shù)氣溫氣溫 變換變換 y=bx+a 非線性關(guān)系非線性關(guān)系 線性關(guān)系線性關(guān)系對數(shù)對數(shù)方法一一:指數(shù)函數(shù)模型21c xyce由計算器得:由計算器得:z關(guān)于關(guān)于x的線性回歸方程的線性回歸方程相關(guān)指數(shù)相關(guān)指數(shù) 因此因此y關(guān)于關(guān)于x的非線性回的非線性回歸方程為歸方程為98. 02R489. 3272. 0 xz當(dāng)當(dāng)x=28 時,時,y 44 ,指數(shù)回歸模型中溫度解釋了,指數(shù)回歸模型中溫度解釋了98%的產(chǎn)卵的產(chǎn)卵數(shù)的變化數(shù)的變化C489. 3272. 0 xey21c xyce12ln,ln,ca cbyzzbx

35、a令則有l(wèi)ny,xz=不變784.5745.4190.4178.3045.3398.2946.1z35322927252321x41表產(chǎn)卵數(shù)的對數(shù)溫度51 . 1圖 y= c3 x2+c4 變換變換 y= c3 t+c4 非線性關(guān)系非線性關(guān)系 線性關(guān)系線性關(guān)系問題問題選用選用y=c3x2+c4 ,還是,還是y=c3x2+cx+c4 ?問題問題3 產(chǎn)卵數(shù)產(chǎn)卵數(shù)氣溫氣溫問題問題2如何求如何求c3、c4? t=x2方法二,二元函數(shù)模型方法二,二元函數(shù)模型平方變換平方變換:令令t=xt=x2 2,產(chǎn)卵數(shù),產(chǎn)卵數(shù)y y和溫度和溫度x x之間二次函數(shù)模型之間二次函數(shù)模型y=bxy=bx2 2+a+a就轉(zhuǎn)化

36、為產(chǎn)就轉(zhuǎn)化為產(chǎn)卵數(shù)卵數(shù)y y和溫度的平方和溫度的平方t t之間線性回歸模型之間線性回歸模型y=bt+ay=bt+a溫度溫度21232527293235溫度的平方溫度的平方t44152962572984110241225產(chǎn)卵數(shù)產(chǎn)卵數(shù)y/個個711212466115325作散點圖,并由計算器得:作散點圖,并由計算器得:y y和和t t之間的線性回歸方程為之間的線性回歸方程為y=y=0.3670.367t t- -202.54202.54,相關(guān)指數(shù),相關(guān)指數(shù)R R2 2= =r r2 20.8960.8962 2=0.802=0.802將將t=xt=x2 2代入線性回歸方程得:代入線性回歸方程得:

37、y=y=0.3670.367x x2 2 -202.54 -202.54當(dāng)當(dāng)x x=28=28時時,y y=0.367=0.36728282 2-202.5485-202.5485,且且R R2 2=0.802=0.802,所以,二次函數(shù)模型中溫度解所以,二次函數(shù)模型中溫度解釋了釋了80.2%80.2%的產(chǎn)卵數(shù)變化。的產(chǎn)卵數(shù)變化。t選變量選變量 解:選取氣溫為解釋變量解:選取氣溫為解釋變量x x,產(chǎn)卵數(shù),產(chǎn)卵數(shù) 為預(yù)報變量為預(yù)報變量y y。畫散點圖畫散點圖假設(shè)線性回歸方程為假設(shè)線性回歸方程為 :=bx+a選選 模模 型型分析和預(yù)測分析和預(yù)測當(dāng)當(dāng)x=28時,時,y =19.8728-463.73

38、 93估計參數(shù)估計參數(shù)由計算器得:線性回歸方程為由計算器得:線性回歸方程為y=y=19.8719.87x x-463.73-463.73 相關(guān)指數(shù)相關(guān)指數(shù)R R2 2= =r r2 20.8640.8642 2=0.7464=0.7464所以,一次函數(shù)模型中溫度解釋了所以,一次函數(shù)模型中溫度解釋了74.64%的產(chǎn)卵數(shù)變化。的產(chǎn)卵數(shù)變化。050100150200250300350036912151821242730333639當(dāng)當(dāng)x=28時,時,y =19.8728-463.73 93方法方法三:一元函數(shù)模型:一元函數(shù)模型函數(shù)模型函數(shù)模型相關(guān)指數(shù)相關(guān)指數(shù)R2線性回歸模型線性回歸模型0.7464二

39、次函數(shù)模型二次函數(shù)模型0.802指數(shù)函數(shù)模型指數(shù)函數(shù)模型0.98最好的模型是哪個最好的模型是哪個?顯然,指數(shù)函數(shù)模型最好!顯然,指數(shù)函數(shù)模型最好!(2)20.367202.543yx(1)0.2723.849xye 利用殘差計算公式:利用殘差計算公式:0.2723.849(1)(1),1,2,7ixiiiieyyyei (2)(2)20.367202.543,1,2,7iiiiieyyyxi 77.968-58.265-40.104-41.000-5.83219.40047.69634.675-13.3819.230-8.9501.875-0.1010.557325115662421117Y3

40、5322927252321X(1)ie(2)ie由殘差平方和:由殘差平方和:21niiQe (1)(2)1550.538,15448.431.QQ 故指數(shù)函數(shù)模型的擬合效果比二次函數(shù)的模擬效果好故指數(shù)函數(shù)模型的擬合效果比二次函數(shù)的模擬效果好.或由條件或由條件R2分別為分別為0.98和和0.80,同樣可得它們的效果,同樣可得它們的效果.整理整理ppt52 122122111;nniiiiiiQyyQyy分別計算兩個回歸方程的殘差平方和與 1212122,;,.QQyf x ayg x byf x ayg x b若則的效果比的好 反之的效果不如的好課堂知識延伸課堂知識延伸 我們知道,刑警如果能在案發(fā)現(xiàn)場提取到罪犯的腳印,即將獲得一條重要的破我們知道,刑警如果能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論