一元線性回歸案例_第1頁(yè)
一元線性回歸案例_第2頁(yè)
一元線性回歸案例_第3頁(yè)
一元線性回歸案例_第4頁(yè)
一元線性回歸案例_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 8.5一元線性回歸案例 一、教學(xué)內(nèi)容與教學(xué)對(duì)象分析 學(xué)生將在必修課程學(xué)習(xí)統(tǒng)計(jì)的根底上,通過(guò)對(duì)典型案例的討論,了解和使用一些常用 的統(tǒng)計(jì)方法,進(jìn)一步體會(huì)運(yùn)用統(tǒng)計(jì)方法解決實(shí)際問(wèn)題的根本思想, 認(rèn)識(shí)統(tǒng)計(jì)方法在決策中的 作用。 二、學(xué)習(xí)目標(biāo) 1、知識(shí)與技能 通過(guò)本節(jié)的學(xué)習(xí),了解回歸分析的根本思想, 會(huì)對(duì)兩個(gè)變量進(jìn)行回歸分析, 明確建立回歸模 型的根本步驟,并對(duì)具體問(wèn)題進(jìn)行回歸分析,解決實(shí)際應(yīng)用問(wèn)題。 2、過(guò)程與方法 本節(jié)的學(xué)習(xí),應(yīng)該讓學(xué)生通過(guò)實(shí)際問(wèn)題去理解回歸分析的必要性, 明確回歸分析的根本思想, 從散點(diǎn)圖中點(diǎn)的分布上我們發(fā)現(xiàn)直接求回歸直線方程存在明顯的缺乏, 從中引導(dǎo)學(xué)生去發(fā)現(xiàn) 解決問(wèn)題的新思路

2、一進(jìn)行回歸分析,進(jìn)而介紹殘差分析的方法和利用 R的平方來(lái)表示解釋 變量對(duì)于預(yù)報(bào)變量變化的奉獻(xiàn)率, 從中選擇較為合理的回歸方程, 最后是建立回歸模型根本 步驟。 3、情感、態(tài)度與價(jià)值觀 通過(guò)本節(jié)課的學(xué)習(xí), 首先讓顯示了解回歸分析的必要性和回歸分析的根本思想, 明確回歸分 析的根本方法和根本步驟,培養(yǎng)我們利用整體的觀點(diǎn)和互相聯(lián)系的觀點(diǎn), 來(lái)分析問(wèn)題,進(jìn)一 步加強(qiáng)數(shù)學(xué)的應(yīng)用意識(shí),培養(yǎng)學(xué)生學(xué)好數(shù)學(xué)、用好數(shù)學(xué)的信心。加強(qiáng)與現(xiàn)實(shí)生活的聯(lián)系,以 科學(xué)的態(tài)度評(píng)價(jià)兩個(gè)變量的相關(guān)系。 教學(xué)中適當(dāng)?shù)卦黾訉W(xué)生合作與交流的時(shí)機(jī), 多從實(shí)際生 活中找出例子,使學(xué)生在學(xué)習(xí)的同時(shí)。 體會(huì)與他人合作的重要性, 理解處理問(wèn)題的方

3、法與結(jié) 論的聯(lián)系,形成實(shí)事求是的嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度和鍥而不舍的求學(xué)精神。 培養(yǎng)學(xué)生運(yùn)用所學(xué)知識(shí), 解決實(shí)際問(wèn)題的能力。 三、教學(xué)重點(diǎn)、難點(diǎn) 教學(xué)重點(diǎn):熟練掌握回歸分析的步驟; 各相關(guān)指數(shù)、建立回歸模型的步驟; 通過(guò)探究使學(xué)生 體會(huì)有些非線性模型通過(guò)變換可以轉(zhuǎn)化為線性回歸模型, 了解在解決實(shí)際問(wèn)題的過(guò)程中尋找 更好的模型的方法。 教學(xué)難點(diǎn):求回歸系數(shù) a , b ;相關(guān)指數(shù)的計(jì)算、殘差分析;了解常用函數(shù)的圖象特點(diǎn), 選擇不同的模型建模,并通過(guò)比擬相關(guān)指數(shù)對(duì)不同的模型進(jìn)行比擬。 四、教學(xué)策略: 教學(xué)方法:誘思探究教學(xué)法 學(xué)習(xí)方法:自主探究、觀察發(fā)現(xiàn)、合作交流、歸納總結(jié)。 教學(xué)手段:多媒體輔助教學(xué) 五、

4、教學(xué)過(guò)程: 一、復(fù)習(xí)引入:回歸分析是對(duì)具有相關(guān)關(guān)系的兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析的一種常用方法。 二、新課: 探究:對(duì)于一組具有線性相關(guān)關(guān)系的數(shù)據(jù): xi,y1,X2,y2,, 0$, 我們知道其回歸方程的截距和斜率的最小二乘估計(jì)公式分別為: a = y_Abx 1 、(xi - x ) yi - y ) b、2 - (Xi -X)2 i 1 1 n - 1 n 其中X = X,y = yi ,(X,y)成為樣本點(diǎn)的中心. n i i n i i 注:回歸直線過(guò)樣本中心. 你能推導(dǎo)出這兩個(gè)計(jì)算公式嗎? 從我們已經(jīng)學(xué)過(guò)的知識(shí)知道,截距 a和斜率b分別是使 n Q(a P )= y(i -b -a 2)

5、i 1 取到最小值時(shí)口,p的值. 由于 n _ _ _ _ Q(c(P)=g M PXy(般 +) y (Px 0) 2 i 1 n _ _ _ _ =、, yi - :Xi -(y- :x)2 2yi - - Xi -(y- : x) (y- : x) - : (y- : x) - : 2 i 1 n _n _ _ =y 一 :X -(y -Bx)2 2% yi:x -(y - : x) (y - - XY) n(y。;)一.二2 i 1 i 1 n _ _ _ _ yi - x -(y - :x)(y - *:) i 1 _ _ n _ _ 二(y - :x-: )x y - :Xi -(

6、y -:x) i 1 _ _ n n _ _ =(y - x -: )x y - Xi -n(y - - x) i 1 i 1 =(y - x-1)ny -n x -n(y - x) =0. n _ _ _ _ Q(二,:)=v - Xi -(y - - x)2 n(y - - xT)2 i 1 n _ n_n_ = (xi -x)2 -2,二(xi -x)(yi -y)-:(yi -y)2 n(y- :XT-)2 i 1 i 1 i 1 n n _ _ n _ (x -X)(yi -y) (x -x)(yi -y)2 n _ = n(y - -x-: )2 J (Xi x)2日 一 - 2

7、_ - (yi y)2 i 1 2 2 iq1 (x -x) (x - x) i 1 i J 在上式中,后兩項(xiàng)和 5P無(wú)關(guān),而前兩項(xiàng)為非負(fù)數(shù),因此要使 Q取得最小值,當(dāng)且僅 當(dāng)前兩項(xiàng)的值均為 0,即有 n 、 xi yi -nx y - , 0(=y Px. 、xi2 - nx2 i 4 這正是我們所要推導(dǎo)的公式. 下面我們從另一個(gè)角度來(lái)推導(dǎo)的公式. 人教A版選修2-2P37習(xí)題1.4A組第4題: 用測(cè)量工具測(cè)量某物體的長(zhǎng)度,由于工具的精度以及測(cè)量技術(shù)的原因,測(cè)得 n個(gè)數(shù)據(jù) a色,川昌. 證明:用這個(gè)數(shù)據(jù)的平均值 x=,Z ai n y 表示這個(gè)物體的長(zhǎng)度,能使這 n個(gè)數(shù)據(jù)的方差 1 / 2

8、f (x)二一 (x -aj n i i 最小. 思考:這個(gè)結(jié)果說(shuō)明了什么?通過(guò)這個(gè)問(wèn)題,你能說(shuō)明最小二乘法的根本原理嗎? 1 n 。一 證明:由于f(x)= (x-ai),所以 n i i .2. f (x) =X (x - ai), n y .一, 1 n 令 f (x) =0,得 x =_ ai n y 1 n 可以得到, x = 1工ai是函數(shù)f(x)的極小值點(diǎn),也是最小值點(diǎn). n i i 、人一 E 人,,_, 1n . 人 , 、,一 這個(gè)結(jié)果說(shuō)明,用n個(gè)數(shù)據(jù)的平均值 1z a表示這個(gè)物體的長(zhǎng)度是合理的,這就是最 n y 小二乘法的根本原理. 由最小二乘法的根本原理即得 定理設(shè) X

9、WR,X = Xl+X2+Xn,那么 n -(X -Xi)2 (X-X2)2 | (X-Xn)2 _1(XX)2 (X-X2)2 l 僅一%)2=2 (*) n n 當(dāng)且僅當(dāng)X = X = X1 X2 W Xn時(shí)取等號(hào). n (*)式說(shuō)明,X = X1 + X2寸寸 11 + xn是任何一個(gè)實(shí)數(shù) X與X,X2J|,Xn的差的平方的平均 n 數(shù)中最小的數(shù).從而說(shuō)明了方差具有最小性 ,也即定義標(biāo)準(zhǔn)差的合理性. 下面借助(*)式求 Q =(y1 -bX1 -a)2 +(y2 -bX2 a)2 +十(yn -bXn a)2 的最小 值. (y- -bXi) (y2 -bX2) IH (yn -bXn)

10、 y- y2 IH - yn , X- - X2 - HI - Xn - -b n n 由(*)式知, Q =a-(y- -bX-)2 a-也-bX2)2 Ill a - (yn - bXn)2 -(y -b X) -(y- -b)2 (y -b X) -也 -bX?)2 | (y -b X) - (yn - bXn)2 2 2 . 2 二(X -x)b-(y-y) (X2 -x)b-(y2 -y) ID (Xn -x)b-(yn - y) n n n 2 2 2 二(Xi -X) b -2V (x x)(y y)b 一二.(yi y) i - i W i - n _ _ n _ _ 2 n

11、_ (Xi -x)(Yi - y) n _ (Xi -x)(Yi - y) 八(為-x)2b-=-2八(yi -y)2-上= t y (xi -x)2 i (x -x)2 T i W n _ _ n _ _ n _ x (Xi -x)(Yi - y) n _ y (Xi -x)(Yi - y)2 八(Xi -X)2b- - 2 八(yi _y)2一q - T Xi-X)2 P I)2 i - i - n _ _ n _ x (Xi -x)(yi - y)2 - (yy)2- - P x (Xi -X)2 i - n _ n _ n _ _ , (Xi X)2 (yi - y)2 (Xi -x)

12、(yi - y)2 _ i / i W i T _ - n _ (x -x)2 i - n _ _ n _ _ _ (Xi -x)(yi - y) 、Xi yi - nx y 當(dāng)且僅當(dāng)a = y bx,且b = 口- =上 - 時(shí),Q到達(dá)最小值 n _ n _ 2 、(xi - x)2 % x2 - nx i - i - n n n 2 2 2 , (Xi -x)2% (yi -y)2 一(Xi -x)(yi y)2 n % (x -x)2 i 1 n 二 Xi yi - nX y i- 口 ,一八一 n 2 2 其中b是回歸直線的斜率 “ xi - nX i 1 是截距.馬 4 4 . 借助

13、|a|-|b舊a+b/l+lbl和配方法,我們給出了人教 A版必修3的第二章統(tǒng)計(jì) 第三節(jié)變量間的相關(guān)關(guān)系中回歸直線方程 y = bx +a的一個(gè)合理的解釋 1、回歸分析的根本步驟: (1)畫(huà)出兩個(gè)變量的散點(diǎn)圖. (2)求回歸直線方程. (3)用回歸直線方程進(jìn)行預(yù)報(bào). 下面我們通過(guò)案例,進(jìn)一步學(xué)習(xí)回歸分析的根本思想及其應(yīng)用. 2、舉例: 例1.從某大學(xué)中隨機(jī)選取 8名女大學(xué)生,其身高和體重?cái)?shù)據(jù)如表 編 P 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 體重/kg 48 57 50 54 64 61 43 59 求根據(jù)女大學(xué)生的身高預(yù)報(bào)

14、體重的回歸方程,并預(yù)報(bào)一名身高為 172 cm的女大學(xué)生的體 重. 解:由于問(wèn)題中要求根據(jù)身高預(yù)報(bào)體重, 因此選取身高為自變量 x ,體重為因變量 y . 作散點(diǎn)圖(圖3 . 1 - 1) 體總1 70 - 從圖3.1 1中可以看出,樣本點(diǎn)呈條狀分布,身高和體重有比擬好的線性相關(guān)關(guān)系, 因此可以用線性回歸方程來(lái)近似刻畫(huà)它們之間的關(guān)系. 根據(jù)探究中的公式(1)和(2 ),可以得到?= 0.849,3=85.712. 于是得到回歸方程 由此得到 n % (Xi -X)(yi - y) _ i 1 一 n % (Xi -X)2 i 1 y y - bX. y =0849x-85.712. 因此,對(duì)于

15、身高172 cm的女大學(xué)生,由回歸方程可以預(yù)報(bào)其體重為 y=0849 172 -85.712 = 60.316 ( kg ). I? =0.849是斜率的估計(jì)值,說(shuō)明身高 x每增加1個(gè)單位時(shí),體重y就增加0.849位, 這說(shuō)明體重與身高具有正的線性相關(guān)關(guān)系.如何描述它們之間線性相關(guān)關(guān)系的強(qiáng)弱? 在必修3中,我們介紹了用相關(guān)系數(shù);來(lái)衡量?jī)蓚€(gè)變量之間線性相關(guān)關(guān)系的方法.本 相關(guān)系數(shù)的具體計(jì)算公式為 n Xi -x yi -y r = . i3 n n (x -X)2Z (yi -y)2 ,i=4 i 4 當(dāng)r0時(shí),說(shuō)明兩個(gè)變量正相關(guān);當(dāng) r0 ,這樣線性回歸模型的 完整表達(dá)式為: _Ly =bx

16、a e, 2 (4) E(e) =0,D(e) - 二. 在線性回D3模型(4)中,隨機(jī)誤差 e的方差護(hù)越小,通過(guò)回歸直線而只是散布在某一條直線的附近, 所以身高和體重的關(guān)系可 預(yù)報(bào)真實(shí)值y的精度越高.隨機(jī)誤差是引起預(yù)報(bào)值 y與真實(shí)值y之間的誤差的原因之一, 大小取決于隨機(jī)誤差的方差 另一方面,由于公式1和2中a和b為截距和斜率的估計(jì)值,它們與真實(shí)值 a 和b之間也存在誤差,這種誤差是引起預(yù)報(bào)值 y與真實(shí)值y之間誤差的另一個(gè)原因. 思考:產(chǎn)生隨機(jī)誤差項(xiàng) e的原因是什么? 一個(gè)人的體重值除了受身高的影響外, 還受許多其他因素的影響.例如飲食習(xí)慣、是否 喜歡運(yùn)動(dòng)、度量誤差等.事實(shí)上,我們無(wú)法知道身

17、高和體重之間確實(shí)切關(guān)系是什么,這里只 是利用線性回歸方程來(lái)近似這種關(guān)系. 這種近似以及上面提到的影響因素都是產(chǎn)生隨機(jī)誤差 e的原因. 因?yàn)殡S機(jī)誤差是隨機(jī)變量, 所以可以通過(guò)這個(gè)隨機(jī)變量的數(shù)字特征來(lái)刻畫(huà)它的一些總體 特征.均值是反映隨機(jī)變量取值平均水平的數(shù)字特征, 方差是反映隨機(jī)變量集中于均值程度 的數(shù)字特征,而隨機(jī)誤差的均值為 0,因此可以用方差仃2來(lái)衡量隨機(jī)誤差的大小. 為了衡量預(yù)報(bào)的精度, 需要估計(jì)護(hù)的值.一個(gè)自然的想法是通過(guò)樣本方差來(lái)估計(jì)總體方 差.如何得到隨機(jī)變量 e的樣本呢?由于模型3或4中的e隱含在預(yù)報(bào)變量 y中, 我們無(wú)法精確地把它從 y中別離出來(lái),因此也就無(wú)法得到隨機(jī)變量 e的

18、樣本. 解決問(wèn)題的途徑是通過(guò)樣本的估計(jì)值來(lái)估計(jì) 仃2.根據(jù)截距和斜率的估計(jì)公式1和2, 可以建立回歸方程 y = bx a , 因此7是5中y的估計(jì)量.由于隨機(jī)誤差 e = y-y,所以e=y-y是e的估計(jì)量.對(duì)于 樣本點(diǎn)xi,yi , X2,y2,,Xn,yn 而言,相應(yīng)于它們的隨機(jī)誤差為 e=V-V=N -bx -a,i =1,2,n, 其估計(jì)值為 e = v -y =y -bx -a,i =1,2,川,n, 自稱為相應(yīng)于點(diǎn)X,V的殘差residual.類(lèi)比樣本方差估計(jì)總體方差的思想,可以用 作為。2的估計(jì)量, 其中a和b由公式12給出,Qa ,b稱為殘差平方和residual1 n 2

19、Q(a,b)(n 2) sum of squares ).可以用 仃2衡量回歸方程的預(yù)報(bào)精度.通常, 仃2越小,預(yù)報(bào)精度越高. 在研究?jī)蓚€(gè)變量間的關(guān)系時(shí), 首先要根據(jù)散點(diǎn)圖來(lái)粗略判斷它們是否線性相關(guān), 是否可 以用線性回歸模型來(lái)擬合數(shù)據(jù).然后,可以通過(guò)殘差 eeJH 來(lái)判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù). 這方面的分析工作稱為殘差分 析.表3 2列出了女大學(xué)生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù). 編 P 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 體重/kg 48 57 50 54 64 61 43 59 殘差

20、e -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382 我們可以利用圖形來(lái)分析殘差特性作圖時(shí)縱坐標(biāo)為殘差, 橫坐標(biāo)可以選為樣本編號(hào), 或 身高數(shù)據(jù),或體重的估計(jì)值等,這樣作出的圖形稱為殘差圖.圖 3 . 1 3是以樣本編號(hào) 為橫坐標(biāo)的殘差圖. 從圖3 . 1 3中可以看出,第1個(gè)樣本點(diǎn)和第 6個(gè)樣本點(diǎn)的殘差比擬大, 需要確認(rèn) 在采集這兩個(gè)樣本點(diǎn)的過(guò)程中是否有人為的錯(cuò)誤. 如果數(shù)據(jù)采集有錯(cuò)誤, 就予以糾正,然后 再重新利用線性回歸模型擬合數(shù)據(jù); 如果數(shù)據(jù)采集沒(méi)有錯(cuò)誤, 那么需要尋找其他的原因.另外, 殘差點(diǎn)比擬均勻地落在水平的帶狀區(qū)域中,說(shuō)明選用

21、的模型比擬適宜 .這樣的帶狀區(qū)域的寬 度越窄,說(shuō)明模型擬合精度越高,回歸方程的預(yù)報(bào)精度越高. 另外,我們還可以用相關(guān)指數(shù) R2來(lái)刻畫(huà)回歸的效果,其計(jì)算公式是: n % (yi -y)2 i 1 n x (yi -y)2 i 1 2 R2取值越大,意味著殘差平方和越小,也就是說(shuō)模型的擬合效果越好.在線性 2 2 . R表不解釋變量對(duì)于預(yù)報(bào)變量變化的奉獻(xiàn)率. R越接近于1,表不回歸的 效果越好(因?yàn)?R2越接近于1,表示解釋變量和預(yù)報(bào)變量的線性相關(guān)性越強(qiáng)) .如果對(duì)某組 數(shù)據(jù)可能采取幾種不同的回歸方程進(jìn)行回歸分析, 也可以通過(guò)比擬幾個(gè) R2 ,選才i R2大的模 型作為這組數(shù)據(jù)的模型. 在仞1中,

22、R2 =0. 64 ,說(shuō)明“女大學(xué)生的身高解釋了 64 %的體重變化,或者說(shuō)“女 大學(xué)生的體重差異有 64 %是由身高引起的. 用身高預(yù)報(bào)體重時(shí),需要注意以下問(wèn)題: R2 =1 顯然, 回歸模型中, 1 .回歸方程只適用于我們所研究的樣本的總體.例如,不能用女大學(xué)生的身高和體重 之間的回歸方程,描述女運(yùn)發(fā)動(dòng)的身高和體重之間的關(guān)系. 同樣,不能用生長(zhǎng)在南方多雨地 區(qū)的樹(shù)木的高與直徑之間的回歸方程,描述北方干旱地區(qū)的樹(shù)木的高與直徑之間的關(guān)系. 2 .我們所建立的回歸方程一般都有時(shí)間性.例如,不能用 20世紀(jì)80年代的身高體 重?cái)?shù)據(jù)所建立的回歸方程,描述現(xiàn)在的身高和體重之間的關(guān)系. 3 .樣本取值的

23、范圍會(huì)影響回歸方程的適用范圍.例如,我們的回歸方程是由女大學(xué)生 身高和體重?cái)?shù)據(jù)建立的,那么用它來(lái)描述一個(gè)人幼兒時(shí)期的身高和體重之間的關(guān)系就不恰當(dāng) (即在回歸方程中,解釋變量 x的樣本的取值范圍為155cm,170cm,而用這個(gè)方程計(jì) 算x-70cm 時(shí)的y值,顯然不適宜.) 4 .不能期望回歸方程得到的預(yù)報(bào)值就是預(yù)報(bào)變量的精確值.事實(shí)上,它是預(yù)報(bào)變量的 可能取值的平均值. 一般地,建立回歸模型的根本步驟為: (1 )確定研究對(duì)象,明確哪個(gè)變量是解釋變量,哪個(gè)變量是預(yù)報(bào)變量; (2)畫(huà)出確定好的解釋變量和預(yù)報(bào)變量的散點(diǎn)圖, 觀察它們之間的關(guān)系 (如是否存在線 性關(guān)系等); (3)由經(jīng)驗(yàn)確定回歸方

24、程的類(lèi)型(如我們觀察到數(shù)據(jù)呈線性關(guān)系, 那么選用線性回歸方程 y=bx+a ); (4)按一定規(guī)那么估計(jì)回歸方程中的參數(shù)(如最小二乘法) ; (5)得出結(jié)果后分析殘差圖是否有異常 (個(gè)別數(shù)據(jù)對(duì)應(yīng)殘差過(guò)大,或殘差呈現(xiàn)不隨機(jī)的 規(guī)律性等等),假設(shè)存在異常,那么檢查數(shù)據(jù)是否有誤,或模型是否適宜等. 例2 .現(xiàn)收集了一只紅鈴蟲(chóng)的產(chǎn)卵數(shù) y和溫度x之間的7組觀測(cè)數(shù)據(jù)列于下表: 溫度xoC 21 2 :3 25 j 27 29 32 35 產(chǎn)卵數(shù)y/個(gè) 7 112 !1 24 66 115 325 試建立y與x之間的回歸方程;并預(yù)測(cè)溫度為 28 oC時(shí)產(chǎn)卵數(shù)目。 (2)你所建立的模型中溫度在多大程度上解釋

25、了產(chǎn)卵數(shù)的變化? 探究: 方案1 (學(xué)生實(shí)施): (1)選擇變量,畫(huà)散點(diǎn)圖。 (2)通過(guò)計(jì)算器求得線性回歸方程 :y= 19.87 x-463.73 (3)進(jìn)行回歸分析和預(yù)測(cè): R2= r 2= 0.864 2=0.7464 預(yù)測(cè)當(dāng)氣溫為28時(shí),產(chǎn)卵數(shù)為92個(gè)。這個(gè)線性回歸模型中溫度解釋了 74.64% 產(chǎn)卵 數(shù)的變化。 困惑:隨著自變量的增加,因變量也隨之增加,氣溫為 28時(shí),估計(jì)產(chǎn)卵數(shù)應(yīng)該低于 66個(gè),但是從推算的結(jié)果來(lái)看 92個(gè)比66個(gè)卻多了 26個(gè),是什么原因造成的呢? 7T 7K 2 : (1)找到變量t=x 2,將y=bx 2+a轉(zhuǎn)化成y=bt+a ; (2)利用計(jì)算器計(jì)算出 y和

26、t的線性回歸方程:y= 0.367 t-202.54 (3)轉(zhuǎn)換回y和x的模型: (4) y= 0.367 x2 -202.54 (5)計(jì)算相關(guān)指數(shù) R2 0.802 這個(gè)回歸模型中溫度解釋了 80.2% 產(chǎn)卵數(shù)的變化。 預(yù)測(cè):當(dāng)氣溫為28時(shí),產(chǎn)卵數(shù)為85個(gè)。 困惑:比66還多19個(gè),是否還有更適合的模型呢? 萬(wàn)方:3 : 作變換z=lgy ,將y G10c2x轉(zhuǎn)化成z=c 2x+lgc 1 (線性模型)。 轉(zhuǎn)換回y和x的模型:y =i00.118x672 (4)計(jì)算相關(guān)指數(shù)R2 0.985 這個(gè)回歸模型中溫度解釋了 98.5%產(chǎn)卵數(shù)的變化。 預(yù)測(cè):當(dāng)氣溫為28時(shí),產(chǎn)卵數(shù)為4 2個(gè)。 解:根據(jù)

27、收集的數(shù)據(jù)作散點(diǎn)圖(圖 3. 1 4 ). 350 300 在散點(diǎn)圖中,樣本點(diǎn)并沒(méi)有分布在某個(gè)帶狀區(qū)域內(nèi),因此兩個(gè)變量不呈線性相關(guān)關(guān)系, 所以不能直接利用線性回歸方程來(lái)建立兩個(gè)變量之間的關(guān)系. 根據(jù)已有的函數(shù)知識(shí), 可以發(fā) 現(xiàn)樣本點(diǎn)分布在某一條指數(shù)函數(shù)曲線 y=Gec2x的周?chē)?,其中cDc2是待定參數(shù).現(xiàn)在,問(wèn) 題變?yōu)槿绾喂繿t待定參數(shù) G和c2.我們可以通過(guò)對(duì)數(shù)變換把指數(shù)關(guān)系變?yōu)榫€性關(guān)系.令 z=lny,那么變換后樣本點(diǎn)應(yīng)該分布在直線 z = bx + a(a = ln q,b = lnci)的周?chē)?這樣,就 可以利用線性回歸模型來(lái)建立 y和x之間的非線性回歸方程了. 由表3 3的數(shù)據(jù)可以得

28、到變換后的樣本數(shù)據(jù)表 3 4,圖3.1 5給出了表3 4 中數(shù)據(jù)的散點(diǎn)圖.從圖3.1 5中可以看出,變換后的樣本點(diǎn)分布在一條直線的附近, 因此 可以用線性回歸方程來(lái)擬合. x 21 23 25 27 29 32 35 z 1.946 3.398 3.045 3.178 4.190 4.745 5.784 由表3 4中的數(shù)據(jù)得到線性回歸方程 = 0.272x-3.849. , ii I j ii i 20 22 24 26 28 30 32 34 36 溫度 因此紅鈴蟲(chóng)的產(chǎn)卵數(shù)對(duì)溫度的非線性回歸方程為 0.272x 3.849 =e 一 (2)利用計(jì)算器計(jì)算出z和x的線性回歸方程: z=0.11

29、8x-1.672 另一方面,可以認(rèn)為圖 3. 1 4中樣本點(diǎn)集中在某二次曲線 y = c3x2+c4的附近,其 中c3和c4為待定參數(shù).因此可以對(duì)溫度變量做變換, 即令t = x2,然后建立y與t之間的線 性回歸方程,從而得到 y與x之間的非線性回歸方程.表 3 5是紅鈴蟲(chóng)的產(chǎn)卵數(shù)和對(duì)應(yīng) 的溫度的平方,圖 3 . 1 - 6是相應(yīng)的散點(diǎn)圖. t 441 529 625 729 841 1024 1225 x 7 11 21 24 66 115 325 35。 300 250 領(lǐng) 200 驗(yàn) L 15。 100 50 人 400 500 600 700 800 900 1 000 1 100 1

30、 200 I 300 溫度的平方 從圖3.1 6中可以看出,y與t的散點(diǎn)圖并不分布在一條直線的周?chē)?,因此不宜用線 性回歸方程來(lái)擬合它,即不宜用二次曲線 y=c3x2+c4來(lái)擬合y和x之間的關(guān)系.這個(gè)結(jié) 論還可以通過(guò)殘差分析得到,下面介紹具體方法. 為比擬兩個(gè)不同模型的殘差,需要建立兩個(gè)相應(yīng)的回歸方程.前面我們已經(jīng)建立了 y 關(guān)于x的指數(shù)回歸方程,下面建立 y關(guān)于x的二次回歸方程.用線性回歸模型擬合表 3 5中的數(shù)據(jù),得到 y關(guān)于t的線性回歸方程 (2) y =0.367t -202.543, 即y關(guān)于x的二次回歸方程為 2 y =0.367x -202.543 . 可以通過(guò)殘差來(lái)比擬兩個(gè)回歸方

31、程( 1行第i列的數(shù)據(jù),那么回歸方程( (1) 0.272 e = y 一 yi = yi 一 e (2) (2) 2 e n =yi 0.367x2 +202.543,i =1,2,111,7 . 表3 6給出了原始數(shù)據(jù)及相應(yīng)的兩個(gè)回歸方程的殘差. 從表中的數(shù)據(jù)可以看出模型 (6 ) 的殘差的絕對(duì)值顯然比模型( 7 )的殘差的絕對(duì)值小,因此模型( 6 )的擬合效果比模型 (7 )的擬合效果好. x 21 23 25 27 29 32 35 y 7 11 21 24 66 115 325 (1) ei 0.557 -0.101 1.875 -8.950 9.230 -13.381 34.675

32、 (2) ei 47.696 19.400 -5.832 -41.000 -40.1.4 -58.265 77.968 在一般情況下,比擬兩個(gè)模型的殘差比擬困難. 原因是在某些樣本點(diǎn)上一個(gè)模型的殘差 的絕對(duì)值比另一個(gè)模型的小,而另一些樣本點(diǎn)的情況那么相反. 這時(shí)可以通過(guò)比擬兩個(gè)模型的 殘差平方和的大小來(lái)判斷模型的擬合效果. 殘差平方和越小的模型,擬合的效果越好.由表3 一 6容易算出卞II型(6 )和(7 )的殘差平方和分別為 (1) (2) Q =1550.538,Q =15448.431. 因此模型(6)的擬合效果遠(yuǎn)遠(yuǎn)優(yōu)于模型(7). 類(lèi)似地,還可以用尸來(lái)比擬兩個(gè)模型的擬合效果, R2越大

33、,擬合的效果越好.由表 3 一 6容易算出模型(6)和(7)的R2分別約為0.98和0.80 ,因此模型(6 )的效果 好于模型(7)的效果. 對(duì)于給定的木本點(diǎn)(X,y1) , (x2,y2) , , (xn,yn),兩個(gè)含有未知參數(shù)的模型 (1) (2) y =f(x,a)和 y =g(x,b), 其中a和b都是未知參數(shù).可以按如下的步驟來(lái)比擬它們的擬合效果: (1) (2) (1)分別建立對(duì)應(yīng)于兩個(gè)模型的回歸方程 y =f(x, a)與y =g(x,b),其中a和b 分別是參數(shù)a和b的估計(jì)值; (1) n (1) 2 (2)分別計(jì)算兩個(gè)回歸方程的殘差平方和Q = (yi - yi )2與

34、id n 2 二(yi - yi ); i =16 )和(7 )的擬合效果.用 Xi表示表3 3中第 6 )和(7 )的殘差計(jì)算公式分別為 3,.8 491, 2H ; 7 1) (2) (1) ,那么y =fXa)的效果比y = g(x,b)的好;反之,y = f(x,a)的 (2) 效果不如y =g(x, b)的好.因此紅鈴蟲(chóng)的產(chǎn)卵數(shù)對(duì)溫度的非線性回歸方程為 、, 0.272x-3.843. Y=e 3、從上節(jié)課的例1提出的問(wèn)題引入線性回歸模型: Y=bx+a+e 解釋變量x 預(yù)報(bào)變量 (公式), r0正相關(guān).R0負(fù)相關(guān) r絕對(duì)值近于0相關(guān)性幾乎無(wú) n 2 yi - ? 1 n . - 2 yi -y 1 (7港差分析通過(guò)殘差判斷模型擬合效果判斷原始數(shù)據(jù)是否存在可疑數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論