高中數(shù)學《一元線性回歸模型及其應用》教案、導學案與同步練習_第1頁
高中數(shù)學《一元線性回歸模型及其應用》教案、導學案與同步練習_第2頁
高中數(shù)學《一元線性回歸模型及其應用》教案、導學案與同步練習_第3頁
高中數(shù)學《一元線性回歸模型及其應用》教案、導學案與同步練習_第4頁
高中數(shù)學《一元線性回歸模型及其應用》教案、導學案與同步練習_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

《8.2一元線性回歸模型及其應用》教案

【教材分析】

本節(jié)課選自《2019人教A版高中數(shù)學選擇性必修第三冊》,第七章《隨機變量及其分布

列》,本節(jié)課主本節(jié)課主要學習一元線性回歸模型及其應用.

本章主要學習統(tǒng)計方面知識,在之前學生已經(jīng)對統(tǒng)計相關(guān)的知識做了大概的了解,本節(jié)學

生要繼續(xù)探討的是變量之間的相關(guān)關(guān)系,變量之間有兩類關(guān)系;函數(shù)關(guān)系和相關(guān)關(guān)系,它

們的聯(lián)系與區(qū)別;并了解線性相關(guān)及相關(guān)系數(shù),為了解線性回歸的基本思想和方法以及求

回歸直線的方程和相關(guān)性檢驗做準備。

【教學目標與核心素養(yǎng)】

課程目標學科素養(yǎng)

A.能通過具體實例說明一元線性回歸模型修改的依1.數(shù)學抽象:一元線性回歸模型

據(jù)與方法.2.邏輯推理:最小二乘法與回歸方程

b.通過對具體問題的進一步分析,能將某些非線性回3.數(shù)學運算:求決定系數(shù)

歸問題轉(zhuǎn)化為線性回歸問題并加以解決,提高數(shù)學運4.數(shù)學建模:模型化思想

算能力.

c.能通過實例說明決定系數(shù)R的意義和作用,提高數(shù)

2

據(jù)分析能力。

【重點與難點】

重點:決定系數(shù)R的意義和作用

2

難點:某些非線性回歸問題轉(zhuǎn)化為線性回歸問題

【教學過程】

教學過程教學設計

一、問題導學

通過前面的學習我們已經(jīng)了解到,根據(jù)成對樣本數(shù)據(jù)的散點圖和樣本相

關(guān)系數(shù),可以推斷兩個變量是否存在相關(guān)關(guān)系、是正相關(guān)還是負相關(guān),

以及線性相關(guān)程度的強弱等.

如果能像建立函數(shù)模型刻畫兩個變量之間的確定性關(guān)系那樣,通過建立通過具體的問題

適當?shù)慕y(tǒng)計模型刻畫兩個隨機變量的相關(guān)關(guān)系,那么我們就可以利用這情境,引發(fā)學生

個模型研究兩個變量之間的隨機關(guān)系,并通過模型進行預測.思考積極參與互

二、探究新知動,說出自己見

探究1:生活經(jīng)驗告訴我們,兒子的身高與父親的身高相關(guān).一般來說,父解。從而引入一

親的身高較高時,兒子的身高通常也較高.為了進一步研究兩者之間的元線性回歸模型

關(guān)系,有人調(diào)查了14名男大學生的身高及其父親的身高,得到的數(shù)據(jù)的概念,發(fā)展學

如表所示.生邏輯推理、數(shù)

學運算、數(shù)學抽

編號1234567891011121314

象和數(shù)學建模的

父親身1717171618171817161618171618核心素養(yǎng)。

高/cm40392202862340

兒子身1717171718171717171617171618

高/cm66005684088252

可以發(fā)現(xiàn),散點大致分布在一條從左下角到右上角的直線附近,表明兒

子身高和父親身高線性相關(guān).利用統(tǒng)計軟件,求得樣本相關(guān)系數(shù)為

0.886,表明兒子身高和父親身高正線性相關(guān),且相關(guān)程度較高

探究2.根據(jù)表中的數(shù)據(jù),兒子身高和父親身高這兩個變量之間的關(guān)系

可以用函數(shù)模型刻畫嗎?

編號1234567891011121314

父親身1717171618171817161618171618

高/cm40392202862340

兒子身1717171718171717171617171618

高/cm66005684088252

表中的數(shù)據(jù),存在父親身高相同而兒子身高不同的情況.例如,第6個

和第8個觀測父親的身高均為172cm,而對應的兒子的身高為176cm和

174cm;同樣在第3,4個觀測中,兒子的身高都是170cm,而父親的身

高分別為173cm,169cm.可見兒子的身高不是父親身高的函數(shù)同樣父親

的身高也不是兒子身高的函數(shù),所以不能用函數(shù)模型來刻畫.

探究3:從成對樣本數(shù)據(jù)的散點圖和樣本相關(guān)系數(shù)可以發(fā)現(xiàn),散點大致

分布在一條直線附近表明兒子身高和父親身高有較強的線性關(guān)系.我們

可以這樣理解,由于有其他因素的存在,使兒子身高和父親身高有關(guān)系

但不是函數(shù)關(guān)系.那么影響兒子身高的其他因素是什么?

影響兒子身高的因素除父親的身外,還有母親的身高、生活的環(huán)境、飲

食習慣、營養(yǎng)水平、體育鍛煉等隨機的因素,兒子身高是父親身高的函

數(shù)的原因是存在這些隨機的因素.

探究3:由探究3我們知道,正是因為存在這些隨機的因素,使得兒子

的身高呈現(xiàn)出隨機性各種隨機因素都是獨立的,有些因素又無法量化.

你能否考慮到這些隨機因素的作用,用類似于函數(shù)的表達式,表示兒子

身高與父親身高的關(guān)系嗎?

如果用x表示父親身高,Y表示兒子的身高,用e表示各種其他隨機因

素影響之和,稱e為隨機誤差,由于兒子身高與父親身高線性相關(guān),所

以Y=bx+a.

一元線性回歸模型

用X表示父親身高,Y表示兒子身高,e表示隨機誤差,假定隨機誤差e的

均值為o,方差為與父親身高無關(guān)的定值。:則它們之間的關(guān)系可以表

-^,(Y=bx+a+e\

K鄭“、c?、2h(1)

(E(e)=0,D(e)=o)

我們稱(1)式為Y關(guān)于x的一元線性回歸模型(simplelinear

regressionmodel).

其中,Y稱為因變量或響應變量,x稱為自變量或解釋變量;a和b為模型

的未知參數(shù),a稱為截距參數(shù),b稱為斜率參數(shù);e是Y與bx+a之間的隨機

誤差,模型中的Y也是隨機變量,其值雖然不能由變量x的值確定,但是

卻能表示為bx+a與e的和(疊加),前一部分由x所確定,后一部分是隨

機的,如果e=0,那么Y與x之間的關(guān)系就可用一元線性函數(shù)模型來描述.

問題1.你能結(jié)合父親與兒子身高的實例,說明回歸模型①的意義?

Y=bx+a+e,

E(e)=0,D(e)=(r2.

可以解釋為父親身高為4的所有男大學生身高組成一個子總體,該子總

體的均值為bx.+a,即該子總體的均值與父親的身高是線性函數(shù)關(guān)系.

而對于父親身高為尤的某一名男大學生,他的身高y并不一定為通過問題分析,

Ii

讓學生理解運用

bx.+a,它僅是該子總體的一個謂陽值,這個觀測值與均值有一個誤差

最小二乘法求線

項e=y—(,bx+a).

iiI

性回歸方程。發(fā)

問題2.你能結(jié)合具體實例解釋產(chǎn)生模型①中隨機誤差項的原因嗎?

展學生邏輯推

產(chǎn)生隨機誤差e的原因有:

理,直觀想象、

(1)除父親身高外,其他可能影響兒子身高的因素,比如母親身高、生

數(shù)學抽象和數(shù)學

活環(huán)境、飲食習慣和鍛煉時間等.

運算的核心素

(2)在測量兒子身高時,由于測量工具、測量精度所產(chǎn)生的測量誤差.

養(yǎng)。

(3)實際問題中,我們不知道兒子身高和父親身高的相關(guān)關(guān)系是什

么,可以利用一元線性回歸模型來近似這種關(guān)系,這種近似關(guān)系也是產(chǎn)

生隨機誤差e的原因.

與雷2I不同,ISMUS的剜*出的,只處m

對樣枷做府參數(shù)a和b刻畫了變量Y與變量X的線性

關(guān)系,因此通過樣本數(shù)據(jù)估計這兩個參數(shù),相當于尋找一條適當?shù)闹?/p>

線,使表示成對樣本數(shù)據(jù)的這些散點在整體上與這條直線最接近.

問題3:為了研磔兩個變量之間的相關(guān)關(guān)系,我們建立了一元線性回歸

模型達式[E(e).O,0(e)蓍孵.的是變量丫與變量x之間的線性

相關(guān)關(guān),

系,其中參數(shù)a和b未知,我們能否通過樣本數(shù)據(jù)估計參數(shù)a和b?

問題4.我們怎樣尋找一條“最好”的直線,使得表示成對樣本數(shù)據(jù)的這

些散點在整體上與這條直線最“接近”?

目標:從成對樣本數(shù)據(jù)出發(fā),用數(shù)學的方法刻畫“從整體上看,各散點

與直線最接近”

方法:利用點到直線y=bx+a的“距離”來刻畫散點與該直線的接近程

度,然后用所有“距離”之和刻畫所有樣本觀測數(shù)據(jù)與該直線的接近程

度.我們設滿足一元線性回歸模型的兩個變量的n對樣本數(shù)據(jù)為

(xy),(x,y),…,(x,y),由y=bx+a+e(i=l,2,-??,n),得|y-

1,122nniiii

(bx+a)|=|e|.顯然|e越小,表示點(x,y)與點(x,bx+a)的“距離”

iiiiiii

越小,即樣本數(shù)據(jù)點離直線y=bx+a的疆宜竄賓越小。特別地,當e=0

i

時,表示點(x,y)在這條直線上.

w懊

rM^

170

165

16S170175180185

父親身高/cm

如+a)|

因此,可以用日來刻畫各樣本觀測數(shù)據(jù)與直線y=bx+a的

整體接近程度。

在實際應用中,因為絕對值使得計算不方便,所以人們通常用各散點到直

線的豎直距離的平方之和

Q(a,b)=Z(?-3七+a)>

Z=1

來刻畫“整體接近程度”

a

n

/

170

165

165170175180185

父親身高/cm

_,1

ZlV-(如+。)1

i=\

2

Q(a,b)=£{yi-{bxi+a))

一殘差平方和:('='

求a,b的值,使Q(a,b)最小

在上式中,x,y(i=l,2,3,n)是已知的成對樣本數(shù)據(jù),所以Q由a和b

所決定,即它是a和b的函數(shù),因為Q還可以表示為£之1,,即它是隨機誤

差的平方和,這個和當然越小越好,所以我們?nèi)∈筈達到最小的a和b的

值,作為截距和斜率的估計值。下面利用成對樣本數(shù)據(jù)求使Q取最小值

Q(a,b)=力(M-(如+。))2

/=|

(M-如-a)2

r-l

“____

2

=^yi-bxi-(y-bx)+(y-bx)-a)

/=!

2

=f(①一y)一Kxi-x)+(y-bx)-a)

r-l

=f[(%_y)_b(N_x)f+2七[(y_y)一仇A;-x)]x[()--bx)-a]+n[(y-bx)-a]2

/=1i=l

ZKy-.V)-bC%-x)]x[(y-hx)_〃]=(>,_bx--y)~h[xi-x)]

r=li=l

__n_n_______

=(y——a)(Z(—y)—(x,-x))=(y-bx-a)[(ny-ny)-b(nx-?zx)]=0

MIgi

2(a,Z?)=J[(X-x)]2+n[(y-bx)-a]2

J=1

當Q(a,勿取最小時,取最小值0,即。二丁-〃不

此時,Q(a,b)=£[(其—y)一員七-x)f=b2t(七一幻2一2力£(七-%)(%-y)+£(R-y)2

i=lr=li=li=l

上式是關(guān)于b的二次函數(shù),因此要使Q取得最小值,當且僅當b的取值

£(Xj-X)2

通過具體的問題

"nn

,ECXj-xHj-j)Hx.y-nxy情境中的分析,

b=-...............=------------------,

222

'£(x;-x)£x.-nx深化對殘差的理

a=y—bx.解。發(fā)展學生邏

輯推理,直觀想

A1人

y=bx+a

象、數(shù)學抽象和

我們將+6稱為Y關(guān)于x的經(jīng)驗回歸方程,也稱經(jīng)驗回歸函數(shù)數(shù)學運算的核心

或經(jīng)驗回歸公式,其圖形稱為經(jīng)驗回歸直線,這種求經(jīng)驗回歸方程的方素養(yǎng)。

法叫最小二乘法.

注意:

1、經(jīng)驗回歸必過叵,文).

2、a都是估計值.

3、石與r符號相同.

問題5:利用下表的數(shù)據(jù),依據(jù)用最小二乘估計一元線性回歸模型參數(shù)

的公式,求出兒子身高Y關(guān)于父親身高x的經(jīng)驗回歸方程。

通過信息技術(shù),計算求得

y=O.839JC-F28.957

編號1234567891011121314

父親身1717171618171817161618171618

高/cm40392202862340

兒子身1717171718171717171617171618

高/cm66005684088252

問題6:當x=176時,y~177,如果一位父親身高為176cm,他兒子

長大后身高一定能長到177cm嗎?為什么?

兒子的身高不一定會是177cm,這是因為還有其他影響兒子身高的因

素,回歸模型中的隨機誤差清楚地表達了這種影響,父親的身高不能完

全決定兒子的身高,不過,我們可以作出推測,當父親的身高為176cm

時,兒子身高一般在177cm左右.

如果把父親身高為176cm的所有兒子身高作為一個子總體,那么177cm

是這個子總體均值的估計值.一般地,

因為E(Y)=bx+a,夕是bx+a的估計值,所以夕是E(Y)的估計值.

我們稱y為響應變量Y的觀測值,通過經(jīng)驗回歸方程得到的因為預測

iI

值.為了研究回歸模型的有效性,定義殘差為片yR,殘差是隨機誤差

的估計值,通過對殘差的分析可判斷回歸模型刻畫數(shù)據(jù)的效果,以及判

斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù)等,這方面的工作稱為朝轆分析.

例如,對于右表中的第6個觀測,父親身高為172cm,其兒子身高的觀測值

為y==176(cm),預測值為96=0.839X172+28.957=173.265(cm),殘差為

176-173.265=2.735(cm).類似地,可以得到其他的殘差,如右表所示.

編號父親身離/cm兒子身牖觀測值/cm兒子身高預測值/cm殘度/cm

1174176174.9431.057

2170176171.5874.413

3173170174.104-4.101

4169170J70.748-0.748

5182185181.6553.345

6172176173.2652.735

7180178179.977-1.977

8172174173.2650.735

9168170169.9090.091

10166168168.231-0.231

11182178181.655—3.655

12173172174.104-2.104

問題7:兒子身高與父親身高的關(guān)系,運用殘差分析所得的一元線性回

歸模型的有效性嗎?

殘接國,作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數(shù)

據(jù),或體重估計值等,這樣作出的圖形稱為殘差圖.

觀察表可以看一到,殘差有正有負,殘差的絕對值最大是4.413.觀察殘差的

散點圖可以發(fā)現(xiàn),殘差比較均勻地分布在橫軸的兩邊,說明殘差比較符合

2

一元線性回歸模型的假定,是均值為0、方差為。的隨機變量的觀測

值.可見,通過觀察殘差圖可以直觀判新模型是否滿足一元線性回歸模型

的假設.

一般地,建立經(jīng)驗回歸方程后,通常需要對模型刻畫數(shù)據(jù)的效果進行分

析,借助殘差分析還可以對模型進行改進,使我們能根據(jù)改進模型作出更

符合實際的預測與決策。

(1)(2)

(3)(4)

問題8:觀察以下四幅殘差圖,你認為哪一個殘差滿足一元線性回歸模

型中對隨機誤差的假定?

根據(jù)一元線性回歸模型中對隨機誤差的假定,殘差應是均值為0、方差

為M的隨機變量的觀測值.

圖(1)顯示殘差與觀測時間有線性關(guān)系,應將時間變量納入模型;

圖(2)顯示殘差與觀測時間有非線性關(guān)系,應在模型中加入時間的非

線性函數(shù)部分;

圖(3)說明殘差的方差不是一個常數(shù),隨觀測時間變大而變大;

國(4)的質(zhì)的比妣物崢申在物柳NMMft的相*狀區(qū)域內(nèi).所

以,只有圖(4)滿足一元線性回歸模型對隨機誤差的假設。

二、典例解析

例L經(jīng)驗表明,對于同一樹種,一般樹的胸徑(樹的主干在地面以上L3m

處的直徑)越大,樹就越高.由于測量樹高比測量胸徑困難,因此研究人

員希望由胸徑預測樹高.在研究樹高與胸徑之間的關(guān)系時,某林場收集了

某種樹的一些數(shù)據(jù)如下表所示,試根據(jù)這些數(shù)據(jù)建立樹高關(guān)于胸徑的經(jīng)

驗回歸方程.

編號123456

胸徑

18.120.122.224.426.028.3

/cm

樹高/m18.819.221.021.022.122.1

編號789101112

胸徑

29.632.433.735.738.340.2

/cm

樹高/m22.422.623.024.323.924.7

解:以胸徑為橫坐標,樹高為縱坐標作散點圖如下:

樹高/m

26

24

22

is--/=0.2493d+14.84

16?一???A—------------------------------------------?

15202530354045胸徑/cm

散點大致分布在一條從左下角到右上角的直線附近,表明兩個變量線性

相關(guān),并且是正相關(guān),因此可以用一元線性回歸模型刻畫樹高與胸徑之

間的關(guān)系.

用d表示胸徑,h表示樹高,根據(jù)據(jù)最小二乘法,計算可得經(jīng)驗回歸方程為

0.2493d+14.84

編號胸徑/cm樹高觀測值/m樹高預測值/m殘差/m

118.118.819.4-0.6

220.119.219.9-0.7

322.221.020.40.6

424.421.020.90.1

526.022.121.30.8

通過典型例題的

628.322.121.90.2

分析解決,提升

729.622.422.20.2學生對回歸方程

的理解和運用。

832.422.622.9-0.3

發(fā)展學生邏輯推

933.723.023.2-0.2理,直觀想象、

數(shù)學抽象和數(shù)學

1035.724.323.70.6

運算的核心素

1138.323.924.4-0.5養(yǎng)。

1240.224.724.9-0.2

根據(jù)經(jīng)驗回歸方程,由胸徑的數(shù)據(jù)可以計算出樹高的預測值(精確到

0.1)以及相應的殘差,如下表所示.

以胸徑為橫坐標,殘差為縱坐標,作殘差圖,得到下圖.

1.0

0.5

0.0

15202530,354645胸徑/cm

-0.5

-1.0

觀察殘差表和殘差圖,可以看到殘差的絕對值最大是0.8,所有殘差分

布在以橫軸為對稱軸、寬度小于2的帶狀區(qū)域內(nèi).可見經(jīng)驗回歸方程較

好地刻畫了樹高與胸徑的關(guān)系,我們可以根據(jù)經(jīng)驗回歸方程由胸徑預測

樹高.

皿胞回歸I國的若木步%

(1)確定研究對象,明確哪個變量是解釋變量,哪個變量是響應變量.

(2)畫出解釋變量與響應變量的散點圖,觀察它們之間的關(guān)系(如是否

存在線性關(guān)系等).

(3)由經(jīng)驗確定回歸方程的類型.

(4)按一定規(guī)則(如最小二乘法)估計經(jīng)驗回歸方程中的參數(shù).

(5)得出結(jié)果后需進行線性回歸分析.

①殘差平方和越小,模型的擬合效果越好.

②決定系數(shù)?取值越大,說明模型的擬合效果越好.

需要注意的是:若題中給出了檢驗回歸方程是否理想的條件,則根據(jù)題

意進行分析檢驗即可.

例2.人們常將男子短跑100m的高水平運動員稱為“百米飛人”.下表給

出了1968年之前男子短跑100m世界紀錄產(chǎn)生的年份和世界紀錄的數(shù)

據(jù).試依據(jù)這些成對數(shù)據(jù),建立男子短跑100m世界紀錄關(guān)于紀錄產(chǎn)生年

份的經(jīng)驗回歸方程。

編號12345678

年份1891912192119301936195619601968

6

記錄11.10.610.410.310.210.110.09.95

/s80000000

解:以成對數(shù)據(jù)中的世界紀錄產(chǎn)生年份為橫坐標,世界紀錄為縱坐標作

散點圖,得到下圖,散點看上去大致分布在一條直線附近,似乎可用一

元線性回歸模型建立經(jīng)驗回歸方程.

用Y表示男子短跑100m的世界紀錄,t表示紀錄產(chǎn)生的年份,利用一元

線性回歸模型來刻畫世界紀錄和世界紀錄產(chǎn)生年份之間的關(guān)系.根據(jù)

y,=-0.02033743?+49.76913031

將經(jīng)驗回歸直線疊加到散點圖,得到下圖:

仔細觀察:從圖中可以看到,經(jīng)驗回歸方程較好地刻畫了散點的變化趨

勢,請再仔細觀察圖形,你能看出其中存在的問題嗎?

篥f世界紀錄所對應的散點薄廨仝驗回歸直線,并且旗后廊時阿殿更

的戢盛郁森焦蕤屬色直線般上壽,中卿腐卿段岫散盛就嫡魅網(wǎng)羯直線

的下方.

這說明散點并不是隨機分布在經(jīng)驗回歸直線的周圍,而是圍繞著經(jīng)驗

回歸直線有一定的變化規(guī)律,即成對樣本數(shù)據(jù)呈現(xiàn)出明顯的非線性相

關(guān)的特征.

思考:你能對模型進行修改,以使其更好地反映散點的分布特征嗎?

仔細觀察,可以發(fā)現(xiàn)散點更趨向于落在中間下凸且遞減的某條曲線附

近.回顧已有的函數(shù)知識,可以發(fā)現(xiàn)函數(shù)y=-lnx的圖象具有類似的形狀

特征

注意到100m短跑的第一個世界紀錄產(chǎn)生于1896年,因此可以認為散點

是集中在曲線y=f(t)=c+cln(t-1895)的周圍,其中c、c為未知參

I212

數(shù),且c<0.

2

用上述函數(shù)刻畫數(shù)據(jù)變化的趨勢,這是一個非線性經(jīng)驗回歸函數(shù),其中

CC是待定參數(shù),現(xiàn)在問題轉(zhuǎn)化為如何利用成對數(shù)據(jù)估計參數(shù)C和C;令

1.2I2

x=ln(t-1895),則Y=cx+c對數(shù)據(jù)進行變化可得下表:

21

編號12345678

年份/t18961912192119301936195619601968

X0.002.833.263.563.714.114.174.29

記錄11.810.610.410.310.210.110.09.95

Y/s0000000

y2=-0.4264398x+l1.8012653

得到散點圖,由表中的數(shù)據(jù)得到經(jīng)驗回歸方程為:

%=-0.4264398x4-11.8012653

衛(wèi)鹵表明,經(jīng)驗回歸方程對于成對數(shù)據(jù)具有非常好的擬合精度.將

x=ln(t-1895)代入:將經(jīng)驗回歸直線疊加到散點圖,得到下圖:

y2=-0.4264398%+11.8012653

y2=-0.4264398In(,一1895)+11.8012653

對于通過創(chuàng)紀錄時間預報世界紀錄的問題,我們建立了兩個回歸模型,

得到了兩個回歸方程,你能判斷哪個回歸方程擬合的精度更好嗎?

國=-O-4264398X+11.8012653

%=-0.4264398ln(r-1895)+11.8012653②

我們發(fā)現(xiàn),散點圖中各散點都非??拷诘膱D象,表明非線性經(jīng)驗回

歸方程②

對于原始數(shù)據(jù)的擬合效果遠遠好于經(jīng)驗回歸方程①.

(1).直接觀察法.在同一坐標系中畫出成對數(shù)據(jù)散點圖、非線性經(jīng)驗回

歸方程②的圖象(藍色)以及經(jīng)驗回歸方程①的圖象(紅色).

8282

Qi=Z(e)=0.669,Q2=Z@)?0.004

i=\i=l

人①

y2=-0.4264398%+11.8012653

%=-0.4264398ln(?-1895)+11.8012653

(2).殘差分析:殘差平方和越小,模型擬合效果越好.

Q明顯小于Q,說明非線性回歸方程的擬合效果要優(yōu)于線性回歸方程.

21

2

(3).利用決定系數(shù)R刻畫回歸效果.

,殘差平方和

一總偏差平方和。

i=l

2

R越大,表示殘差平方和越小,即模型的擬合效果越好

R.越小,表示殘差平方和越大,即模型擬合效果越差.

①和②的R分別為0.7325和0.9983說明非線性回歸方程的擬合效果要

優(yōu)于線性回歸方程。

(4)用新的觀測數(shù)據(jù)來檢驗模型的擬合效果,事實上,我們還有1968年之

后的男子短跑100m世界紀錄數(shù)據(jù),如表所示

編號910JI12131415

1983198819911991199419961999

y9.939.929.909.869.859.849.79

編號161718192021

t200220052007200820082009

Y9.789.779.749.729.699.58

在散點圖中,繪制表中的散點(綠色),再添加經(jīng)驗回歸方程①所對應的經(jīng)

驗回歸直線(紅色),以及經(jīng)驗回歸方程②所對應的經(jīng)驗回歸曲線(藍色),

得到右圖.顯然綠色散點分布在藍色經(jīng)驗回歸曲線的附近,遠離紅色經(jīng)驗

回歸直線,表明經(jīng)驗回歸方程②對于新數(shù)據(jù)的預報效果遠遠好于①.

思考:在上述問題情境中,男子短跑100m世界紀錄和紀錄創(chuàng)建年份之間

呈現(xiàn)出對數(shù)關(guān)系,能借助于樣本相關(guān)系數(shù)刻畫這種關(guān)系的強弱嗎?

在使用經(jīng)驗回歸方程進行預測時,需要注意下列問題:

(1)經(jīng)驗回歸方程只適用于所研究的樣本的總體,例如,根據(jù)我國父親身

高與兒子身高的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述美國父親身高

與兒子身高之間的關(guān)系,同樣,根據(jù)生長在南方多雨地區(qū)的樹高與胸徑的

數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述北方干早地區(qū)的樹高與胸徑之

間的關(guān)系。

(2)經(jīng)驗回歸方程一般都有時效性,例如,根據(jù)20世紀80年代的父親身

高與兒子身高的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述現(xiàn)在的父親身

高與兒子身高之間的關(guān)系。

(3)解釋變量的取值不能離樣本數(shù)據(jù)的范圍太遠,一般解釋變量的取值在

樣本數(shù)據(jù)范圍內(nèi),經(jīng)驗回歸方程的預報效果會比較好,超出這個范圍越

遠,預報的效果越差,

(4)不能期望經(jīng)驗回歸方程得到的預報值就是響應變量的精確值,事實

上,它是響應變量的可能取值的平均值。

建立非線性經(jīng)驗回歸模型的基本步驟:

1.確定研究對象,明確哪個是解釋變量,哪個是響應變量;

2.由經(jīng)驗確定非線性經(jīng)驗回歸方程的模型;

3.通過財L將料I性經(jīng)驗回歸模型歸搬

4.按照公式計算經(jīng)驗回歸方程中的參數(shù),得到經(jīng)驗回歸方程;

5.消去新元,得到非線性經(jīng)驗回歸方程;

6.得出結(jié)果后分析殘差圖是否有異常.

跟蹤訓練1.一只藥用昆蟲的產(chǎn)卵數(shù)y與一定范圍內(nèi)的溫度x有關(guān),現(xiàn)收

集了6組觀測數(shù)據(jù)列于表中:

;agx/℃212324272932

產(chǎn)卵數(shù)y/個61120275777

經(jīng)計算得:

6__6_6_

Z(%-x)(y-y)=557,Za-x)2=84,^(y,.-y)2=3930,

/=!/=!/=!

線性回歸殘差的平方和:

62

W(%-為)=236,64,e80605?3167.

1=1

其中七,X分別為觀測數(shù)據(jù)中的溫度和產(chǎn)卵數(shù),1=1,2,3,4,5,6.

(1)若用線性回歸模型擬合,求y關(guān)于x的回歸方程f=左:+6

(精確到0.1);

(2)若用非線性回歸模型擬合,求得y關(guān)于x回歸方程為

2

y=0.06ea2303x,且相關(guān)指數(shù)R=0.9522.

2

①試與(1)中的線性回歸模型相比較,用R說明哪種模型的擬合效果更

好?

②用擬合效果好的模型預測溫度為35c時該種藥用昆蟲的產(chǎn)卵數(shù).(結(jié)果

取整數(shù)).

n

—y.)2

附:相關(guān)系數(shù)/=],=;1.

E(y,-y)2

i=\

解:(1)由題意得,n=6,x==26,y==33,

66

W(/一元)(%-為=557,2(Xi-元I?=84,

i=li=l

.Z(x,-;)(一)

b=---------------=—?6.6,a?33-6.6x26=-138.6.

£(“384

r=l

所以y關(guān)于x的經(jīng)驗回歸方程為夕=6.6%-138.6.

66

(2)對于線性回歸模型,28-衿2=3930,W(%-無)2=236.64

i=li=l

相關(guān)系數(shù)改=1-卻'')=1-空空”0.9398.

i(y.-?)23930

1=1

VO.9398<0.9522

ann(—°?2303r

???非線性回歸模型的回歸方程y=006e1,比線性回歸方程

擬合效果更好

②?=0.06e°-231,3,1==0.06ea231)3x35=0.06Xe80605:=?3167X0.06F90

(個)

預測溫度為35℃時該種藥用昆蟲的產(chǎn)卵數(shù)為190個.

三、達標檢測

1.在兩個變量y與x的回歸模型中,分別選擇了四個不同的模型,且

通過練習鞏固本

它們的R?的值的大小關(guān)系為R版型3〈R氤”〈隘型1〈R嬴2,則擬合效果最好的是

節(jié)所學知識,通

()

過學生解決問

A,模型1B,模型2C.模型3D.模型4

題,發(fā)展學生的

B解析:在片表達式中,片越大,表示擬合效果越好.所以擬合效果

最好的是模型2.故選B.數(shù)學運算、邏輯

2.下列數(shù)據(jù)符合函數(shù)模型()推理、直觀想

X12345678910象、數(shù)學建模的

22.6933.383.63.844.084.24.3

y核心素養(yǎng)。

,1x

A.y=2+-xB.y=2e

o

1

C.y=exD.y=2+lnx

D解析:分別將x的值代入解析式判斷知滿足y=2+lnx.

3.已知經(jīng)驗回歸方程y=2x—1,則該方程在樣本(3,4)處的殘差為

-1解析:因為當x=3時,y=2X3—1=5,所以方程在樣本(3,4)處

的殘差是4—5=-1.

4.已知x與y之間的數(shù)據(jù)如下:

X23456

y2.23.85.56.57.0

(1)求y關(guān)于x的經(jīng)驗回歸方程;

(2)完成下面的殘差表并判斷(1)中經(jīng)驗回歸方程的回歸效果是否良好

(若逢0.9,則認為回歸效果良好).

X23456

yi—yi

z(Xi—x)(力一y)Zx,y:一nxy

八i=I1=1--

附:b=-----------------=-------------,a=y—bx,

X(Xi-X)2x2

Z(y.-yO2

i=l

R2=l-----------

E(y「y)'

i=l

解:(1)由已知圖表可知x=4,y=5,Zx:=90,

i=l

;*112.3-5X4X5*-*-

y^xiYi—112.3,則mlb—90_5義4?—卜21a—丫bx—0.08,

故y=L23x+0.08.

(2)因為ei=yi-y1,所以e1=—0.34,e2=0.03,e3=0.5,6i==0.27,

e5=-0.46,則殘差表為

X23456

yi—yi-0.340.030.50.27-0.46

5

因為Z(yi-7)2=(2.2—5)2+(3.8—5)2+(5.5—5尸+(6.5—5)』(7

i=i

\2八\2ll」20.651

-5)2=15.78,X(外一力)=0.651.所以R-=l-y^七0.96>0.9,

i=i

所以該經(jīng)驗回歸方程的回歸效果良好.

三、小結(jié)

1.比較兩個模型擬合效果的方法:(1)殘差法,殘差越大,擬合效果越

通過總結(jié),讓學

差;殘差越小,擬合效果越小.(2)產(chǎn)法,R,越接近1,擬合效果越好,

生進一步鞏固本

R2越接近0,擬合效果越差.

節(jié)所學內(nèi)容,提

2.對于線性回歸模型與非線性回歸模型,當數(shù)據(jù)的散點圖分布在直線

高概括能力。

帶狀區(qū)域內(nèi),則選用線性回歸模型刻畫;當數(shù)據(jù)的散點分布在曲線帶狀

區(qū)域內(nèi),要先對數(shù)據(jù)進行適當變換,再利用線性回歸模型進行擬合.

【教學反思】

課后通過對教學過程的反思與研究,才能不斷完善教學設計中的不足,才能提升教材分析

的能力和課堂教學實效.

1.多元展示,多方評價.在教學過程中我借問題牽引,保證了課堂教學的順利實施;而在

整個過程中,我對學生所作練習、疑問及時解析評價;學生之間、小組之間的互相評價補

充,使學生共享成果分享喜悅,堅定了學好數(shù)學的信念,實現(xiàn)了預期目標.

2.創(chuàng)造性的使用教材.有別于教材,我在教學中,讓學生考察了分別考察了兩類題型之后

再引導學生進行歸納,這樣更貼近學生的認知水平,學生課后反饋,效果較為理想.

《8.2一元線性回歸模型及其應用》導學案

【學習目標】

1.能通過具體實例說明一元線性回歸模型修改的依據(jù)與方法.

2.通過對具體問題的進一步分析,能將某些非線性回歸問題轉(zhuǎn)化為線性回歸問題并加以解

決,提高數(shù)學運算能力.

3.能通過實例說明決定系數(shù)R的意義和作用,提高數(shù)據(jù)分析能力。

2

【重點與難點】

重點:決定系數(shù)R的意義和作用

2

難點:某些非線性回歸問題轉(zhuǎn)化為線性回歸問題

【知識梳理】

一元線性回歸模型

用X表示父親身高,Y表示兒子身高,e表示隨機誤差,假定隨機誤差e的均值為0,方差為與

父親身高無關(guān)的定值。:則它們之間的關(guān)系可以表示為a[:2),(i)

我們稱(1)式為Y關(guān)于x的一元線性回歸模型(simplelinearregressionmodel).

其中,Y稱為因變量或響應變量,x稱為自變量或解釋變量;a和b為模型的未知參數(shù),a稱為

截距參數(shù),b稱為斜率參數(shù);e是Y與bx+a之間的隨機誤差,模型中的Y也是隨機變量,其值

雖然不能由變量x的值確定,但是卻能表示為bx+a與e的和(疊加),前一部分由x所確定,

后一部分是隨機的,如果e=0,那么Y與x之間的關(guān)系就可用一元線性函數(shù)模型來描述.

2.經(jīng)驗回歸方程

nn

三(蒼一如(y一歹)_£Xjyn三歹

£(x.-x)2£x.2-nx2y=bx+a

1=11=1

d=y-bx.

我們將y=+&稱為Y關(guān)于x的經(jīng)驗回歸方程,也稱經(jīng)驗回歸函數(shù)或經(jīng)驗回歸公式,

其圖形稱為經(jīng)驗回歸直線,這種求經(jīng)驗回歸方程的方法叫最小二乘法.

注意:

1、經(jīng)驗回歸必過醫(yī),9).;2、3,6忑都是估計值.;3、6與r符號相同.

3.殘差分析.

我們稱y為響應變量Y的觀測值,通過經(jīng)驗回歸方程得到的夕為預測值.為了研究回歸模型

i1

的有效性,定義殘差為TyjZ,殘差是隨機誤差的估計值,通過對殘差的分析可判斷回歸

模型刻畫數(shù)據(jù)的效果,以及判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù)等,這方面的工作稱為聶慧

分析.

4.決定系數(shù)V刻畫回歸效果.

-殘差平方和

一總偏差平方和。

1=1

R越大,表示殘差平方和越小,即模型的擬合效果越好

R越小,表示殘差平方和越大,即模型擬合效果越差.

【學習過程】

一、問題探究

通過前面的學習我們已經(jīng)了解到,根據(jù)成對樣本數(shù)據(jù)的散點圖和樣本相關(guān)系數(shù),可以推斷

兩個變量是否存在相關(guān)關(guān)系、是正相關(guān)還是負相關(guān),以及線性相關(guān)程度的強弱等.

如果能像建立函數(shù)模型刻畫兩個變量之間的確定性關(guān)系那樣,通過建立適當?shù)慕y(tǒng)計模型刻

畫兩個隨機變量的相關(guān)關(guān)系,那么我們就可以利用這個模型研究兩個變量之間的隨機關(guān)

系,并通過模型進行預測.

探究1:生活經(jīng)驗告訴我們,兒子的身高與父親的身高相關(guān).一般來說,父親的身高較高時,

兒子的身高通常也較高.為了進一步研究兩者之間的關(guān)系,有人調(diào)查了14名男大學生的身

高及其父親的身高,得到的數(shù)據(jù)如表所示.,

編號1234567891011121314

父親身高

174170173169182172180172168166182173164180

/cm

兒子身高

176176170170185176178174170168178172165182

/cm

可以發(fā)現(xiàn),散點大致分布在一條從左下角到右上角的直線附近,表明兒子身高和父親身高

線性相關(guān).利用統(tǒng)計軟件,求得樣本相關(guān)系數(shù)為r比0.886,表明兒子身高和父親身高正線

性相關(guān),且相關(guān)程度較高

160165170175180185父親身病/cm

探究2.根據(jù)表中的數(shù)據(jù),兒子身高和父親身高這兩個變量之間的關(guān)系可以用函數(shù)模型刻

畫嗎?

編號1234567891011121314

父親身高

174170173169182172180172168166182173164180

/cm

兒子身高

176176170170185176178174170168178172165182

/cm

探究3:從成對樣本數(shù)據(jù)的散點圖和樣本相關(guān)系數(shù)可以發(fā)現(xiàn),散點大致分布在一條直線附

近表明兒子身高和父親身高有較強的線性關(guān)系.我們可以這樣理解,由于有其他因素的存

在,使兒子身高和父親身高有關(guān)系但不是函數(shù)關(guān)系.那么影響兒子身高的其他因素是什么?

探究4:由探究3我們知道,正是因為存在這些隨機的因素,使得兒子的身高呈現(xiàn)出隨機

性各種隨機因素都是獨立的,有些因素又無法量化.你能否考慮到這些隨機因素的作用,用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論