【數(shù)學(xué)】一元線性回歸模型及其應(yīng)用教學(xué)課件 2023-2024學(xué)年高二數(shù)學(xué)(人教A版2019選擇性必修第三冊)_第1頁
【數(shù)學(xué)】一元線性回歸模型及其應(yīng)用教學(xué)課件 2023-2024學(xué)年高二數(shù)學(xué)(人教A版2019選擇性必修第三冊)_第2頁
【數(shù)學(xué)】一元線性回歸模型及其應(yīng)用教學(xué)課件 2023-2024學(xué)年高二數(shù)學(xué)(人教A版2019選擇性必修第三冊)_第3頁
【數(shù)學(xué)】一元線性回歸模型及其應(yīng)用教學(xué)課件 2023-2024學(xué)年高二數(shù)學(xué)(人教A版2019選擇性必修第三冊)_第4頁
【數(shù)學(xué)】一元線性回歸模型及其應(yīng)用教學(xué)課件 2023-2024學(xué)年高二數(shù)學(xué)(人教A版2019選擇性必修第三冊)_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

選修三《第八章成對數(shù)據(jù)的統(tǒng)計(jì)分析》8.2.1一元線性回歸模型課時(shí)目標(biāo):研究當(dāng)兩個(gè)變量線性相關(guān)時(shí),如何利用成對樣本數(shù)據(jù)建立適當(dāng)?shù)慕y(tǒng)計(jì)模型,能結(jié)合具體實(shí)例了解模型及其參數(shù)的含義.提出問題確定研究變量收集數(shù)據(jù)畫散點(diǎn)圖求回歸模型做出預(yù)報(bào)(一元線性回歸模型)在統(tǒng)計(jì)學(xué)中,回歸分析指的是定量分析兩種或兩種以上變量間相關(guān)關(guān)系的一種統(tǒng)計(jì)分析方法?;貧w分析按照涉及的變量的個(gè)數(shù),分為一元回歸分析和多元回歸分析。回歸回歸分析定相關(guān)關(guān)系計(jì)算r問題背景——確定兩個(gè)變量的相關(guān)關(guān)系及強(qiáng)弱生活經(jīng)驗(yàn)告訴我們,兒子身高與父親身高存在正線性相關(guān)關(guān)系,即父親的身高較高時(shí),兒子的身高通常也較高.

以橫軸表示父親身高、縱軸表示兒子身高建立直角坐標(biāo)系,由表中的成對樣本數(shù)據(jù)作散點(diǎn)圖,如圖所示.可以發(fā)現(xiàn),散點(diǎn)大致分布在一條從左下角到右上角的直線附近,表明兒子身高和父親身高線性相關(guān).利用統(tǒng)計(jì)軟件,求得樣本相關(guān)系數(shù)為r≈0.886,表明兒子身高和父親身高正線性相關(guān),且相關(guān)程度較高.

為了進(jìn)一步研究兩者之間的關(guān)系,有人調(diào)查了14名男大學(xué)生的身高及其父親的身高,得到的數(shù)據(jù)如表所示.問題提出——建立兩個(gè)相關(guān)變量的關(guān)系式思考1:根據(jù)上表中的數(shù)據(jù)或散點(diǎn)圖,兒子身高和父親身高這兩個(gè)變量之間的關(guān)系可以用函數(shù)模型刻畫嗎?存在父親身高相同,而兒子身高不同的情況.也存在兒子身高相同,而父親身高不同的情況。不符合函數(shù)的定義,可見兒子身高和父親身高之間不是函數(shù)關(guān)系,不能用函數(shù)模型刻畫.思考2:為什么兒子身高和父親身高有相關(guān)關(guān)系而不是函數(shù)關(guān)系?因?yàn)橛绊憙鹤由砀叩囊蛩爻烁赣H身高這個(gè)主要因素外,還受其他隨機(jī)因素的影響,如母親身高、生活環(huán)境、飲食習(xí)慣、鍛煉時(shí)間等.思考3:考慮上述隨機(jī)因素的影響,你能否用類似于函數(shù)的表達(dá)式來表示父親身高x和兒子身高Y的關(guān)系?問題解決——建立兩個(gè)相關(guān)變量的統(tǒng)計(jì)模型用x表示父親身高,Y表示兒子身高,e表示隨機(jī)誤差.假定隨機(jī)誤差e的均值為0,方差為與父親身高無關(guān)的定值σ2,則它們之間的關(guān)系可以表示為:稱為Y關(guān)于x的一元線性回歸模型.Y稱為因變量或響應(yīng)變量;x稱為自變量或解釋變量;a稱為截距參數(shù),b稱為斜率參數(shù);e是Y與bx+a之間的隨機(jī)誤差.思考4:為什么要假設(shè)E(e)=0,而不假設(shè)它為某個(gè)不為0的常數(shù)?因?yàn)殡S機(jī)誤差表示大量已知和未知的影響因素之和,因?yàn)檎`差是隨機(jī)的,即取各種正負(fù)誤差的可能性一樣,它們會相互抵消,所以隨機(jī)誤差的期望值應(yīng)為0.理解模型——一元線性回歸模型的實(shí)際意義用x表示父親身高,Y表示兒子身高,e表示隨機(jī)誤差.則它們之間的關(guān)系可以表示為下面的一元線性回歸模型:思考5:你能結(jié)合身高案例解釋上述模型的意義嗎?由于E(Y)=bx+a,故模型可解釋為父親身高為xi的所有男大學(xué)生的身高(子總體)的均值E(Y)為bxi+a,即該子總體的均值與父親身高是線性函數(shù)關(guān)系。yi不一定為bxi+a,yi=bxi+a+ei,bxi+a是子總體的均值,yi只是該子總體中的一個(gè)樣本值,這個(gè)樣本值yi與均值E(Y)有一個(gè)誤差項(xiàng)ei=yi?(bxi+a).思考6:父親身高為xi的某一名男大學(xué)生,他的身高yi一定為bxi+a嗎?理解為理解模型——一元線性回歸模型的實(shí)際意義思考7:你能結(jié)合上述身高案例解釋模型中產(chǎn)生隨機(jī)誤差項(xiàng)e的原因嗎?(1)存在其他可能影響兒子身高Y的因素,如母親身高、生活環(huán)境、飲食習(xí)慣和鍛煉時(shí)間等;(2)測量身高時(shí),可能存在由測量工具、測量精度導(dǎo)致的測量誤差;(3)實(shí)際問題中,我們不知道兒子身高和父親身高的相關(guān)關(guān)系是什么,而利用一元線性回歸模型來近似刻畫這種關(guān)系,這種近似產(chǎn)生了誤差.用x表示父親身高,Y表示兒子身高,e表示隨機(jī)誤差.則它們之間的關(guān)系可以表示為下面的一元線性回歸模型:理解為若Y與x呈現(xiàn)線性相關(guān),則Y關(guān)于x的一元線性回歸模型為:Y稱為因變量或響應(yīng)變量;x稱為自變量或解釋變量;a,b為參數(shù);e是Y與bx+a之間的隨機(jī)誤差.可理解為E(Y)=bx+a課堂小結(jié)yi不一定為bxi+a,觀測值yi與子總體的均值E(Y)有一個(gè)誤差項(xiàng)ei=yi?(bxi+a).選修三《第八章成對數(shù)據(jù)的統(tǒng)計(jì)分析》8.2.2一元線性回歸模型參數(shù)的最小二乘估計(jì)課時(shí)目標(biāo):利用最小二乘法和成對樣本數(shù)據(jù)估計(jì)一元線性回歸模型Y=bx+a+e中的參數(shù)a和b;了解最小二乘法的原理,能利用該原理推導(dǎo)參數(shù)估計(jì)值的計(jì)算公式.提出問題確定研究變量收集數(shù)據(jù)畫散點(diǎn)圖建立回歸模型做出預(yù)報(bào)(一元線性回歸模型)定相關(guān)關(guān)系計(jì)算r求解回歸直線方程y=bx+a(估計(jì)參數(shù)a,b)問題提出——由散點(diǎn)圖尋找一條適當(dāng)?shù)闹本€思考1:如何從散點(diǎn)圖中尋找到一條適當(dāng)?shù)闹本€,使得這些散點(diǎn)在整體上與這條直線最接近?方案1:先畫出一條直線,測量出各點(diǎn)與直線的距離,然后移動直線,到達(dá)一個(gè)使距離的和最小的位置.測量出此時(shí)的斜率和截距,就可得到一條直線,如圖.方案2:在圖中選擇兩點(diǎn)畫直線,使得直線兩側(cè)的點(diǎn)的個(gè)數(shù)基本相同,把這條直線作為所求直線,如圖.方案3:在散點(diǎn)圖中多取幾對點(diǎn),確定出幾條直線的方程,再分別求出這些直線的斜率、截距的平均數(shù),將這兩個(gè)平均數(shù)作為所求直線的斜率和截距.上面這些方法雖然有一定的道理,但比較難操作,我們需要另辟蹊徑.問題提出——利用樣本數(shù)據(jù)尋找一條適當(dāng)?shù)闹本€思考2:如何利用成對樣本數(shù)據(jù),用數(shù)學(xué)方法刻畫“從整體上看,各散點(diǎn)與直線最接近”?析:可令n個(gè)樣本點(diǎn)與直線的豎直距離之和最小y=bx+a問題分析——利用樣本數(shù)據(jù)尋找一條適當(dāng)?shù)闹本€最小二乘法經(jīng)驗(yàn)回歸直線及其方程問題解決——最小二乘法求經(jīng)驗(yàn)回歸方程圖形推導(dǎo)模型運(yùn)用——求身高案例的經(jīng)驗(yàn)回歸方程模型理解——身高案例的經(jīng)驗(yàn)回歸方程

含義2:父親身高為176cm的所有兒子身高的均值的估計(jì)值為177cm.

斜率可以解釋為父親身高每增加1cm,其兒子身高平均增加0.839cm.含義1:由方程作出推測,當(dāng)父親身高為176cm時(shí),兒子身高一般在177cm左右.思考5:根據(jù)方程,父親身高為多少時(shí),長大成人的兒子身高和父親身高一樣?模型理解——身高案例的經(jīng)驗(yàn)回歸方程高個(gè)子父親有生高個(gè)子兒子的趨勢,矮個(gè)子父親有生矮個(gè)子兒子的趨勢,思考6:分析案例中的經(jīng)驗(yàn)回歸方程可得到什么結(jié)論?

兒子身高有向平均身高回歸的趨勢英國統(tǒng)計(jì)學(xué)家高爾頓把這種后代身高向中間值靠近的趨勢稱為“回歸現(xiàn)象”(自閱課本P122-123了解“回歸的含義”)隨機(jī)抽查了205對夫婦及其928個(gè)成年子女的身高數(shù)據(jù)記中親身高為X,子女身高為Y

女子身高×1.08換算為男子升高父母身高取平均數(shù)得中親身高新知:殘差的定義父親身高x174170173169182172180172168166182173164180兒子身高觀測值yi176176170170185176178174170168178172165182174.943171.587174.104170.748181.655173.265179.977173.265169.909168.231181.655174.104166.553179.9771.0574.413-4.104-0.7483.3452.735-1.9770.7350.091-0.231-3.655-2.104-1.5532.023殘差表:殘差=觀測值-預(yù)報(bào)值殘差之和為0.027(計(jì)算或測量時(shí)數(shù)據(jù)四舍五入)新知:殘差分析2.殘差的作用:判斷回歸模型刻畫數(shù)據(jù)的效果;發(fā)現(xiàn)原始數(shù)據(jù)中是否存在可疑數(shù)據(jù),對模型進(jìn)行改進(jìn),使我們能根據(jù)改進(jìn)模型作出更符合實(shí)際的預(yù)測與決策.1.殘差分析途徑:列殘差表、作殘差圖.以殘差為縱坐標(biāo),以樣本編號(或x)為橫坐標(biāo).若存在某幾個(gè)樣本點(diǎn)的殘差絕對值較大,則為可以數(shù)據(jù),需予以糾正或剔除,再重新建立回歸模型.殘差圖:殘差有正有負(fù),比較均勻地分布在橫軸的兩邊,說明殘差比較符合一元線性回歸模型中對于隨機(jī)誤差的假定帶狀區(qū)域?qū)挾仍秸瑲埐罱^對值越小,且較均勻地落在橫軸附近,說明回歸方程預(yù)報(bào)的精度越高.理解辨析——?dú)埐?/p>

殘差與觀測時(shí)間有線性關(guān)系,應(yīng)將時(shí)間變量納入模型殘差與觀測時(shí)間有非線性關(guān)系,應(yīng)在模型中加入時(shí)間的非線性函數(shù)部分殘差的方差不是一個(gè)常數(shù),隨觀測時(shí)間的變大而變大殘差比較均勻地分布在以取值為0的橫軸為對稱軸的水平帶狀區(qū)域內(nèi)理解運(yùn)用——?dú)埐罹毩?xí)1.已知兩個(gè)線性相關(guān)變量與的統(tǒng)計(jì)數(shù)據(jù)如下表:x3456y2.534m

B殘差的概念回歸直線過樣本點(diǎn)中心理解運(yùn)用——?dú)埐罹毩?xí)2.2020年初,新型冠狀病毒引起的肺炎疫情爆發(fā)以來,各地醫(yī)療機(jī)構(gòu)采取了各種針對性的治療方法,取得了不錯(cuò)的成效,某醫(yī)療機(jī)構(gòu)開始使用中西醫(yī)結(jié)合方法后,每周治愈的患者人數(shù)如下表所示:第x周12345治愈人數(shù)y(單位:十人)38101415

B課堂小結(jié)1——回歸分析的流程

課堂小結(jié)2——經(jīng)驗(yàn)回歸方程的理解④解釋變量的取值不能離樣本數(shù)據(jù)的范圍太遠(yuǎn).一般解釋變量的取值在樣本數(shù)據(jù)范圍內(nèi),經(jīng)驗(yàn)回歸方程的預(yù)報(bào)效果會比較好,超出這個(gè)范圍越遠(yuǎn),預(yù)報(bào)的效果越差.⑤不能期望經(jīng)驗(yàn)回歸方程得到的預(yù)報(bào)值就是響應(yīng)變量的精確值.它是響應(yīng)變量的可能取值的平均值.②經(jīng)驗(yàn)回歸方程只適用于所研究的樣本的總體.如,根據(jù)我國父親身高與兒子身高的數(shù)據(jù)建立的經(jīng)驗(yàn)回歸方程,不能用來描述美國父親身高與兒子身高之間的關(guān)系.根據(jù)生長在南方多雨地區(qū)的樹高與胸徑的數(shù)據(jù)建立的經(jīng)驗(yàn)回歸方程不能用來描述北方干旱地區(qū)的樹高與胸徑之間的關(guān)系.①只有在散點(diǎn)圖大致呈線性相關(guān)關(guān)系時(shí),求出的經(jīng)驗(yàn)回歸方程才有實(shí)際意義,否則求出的經(jīng)驗(yàn)回歸方程毫無意義.③經(jīng)驗(yàn)回歸方程一般都有時(shí)效性.例如,根據(jù)20世紀(jì)80年代的父親身高與兒子身高的數(shù)據(jù)建立的經(jīng)驗(yàn)回歸方程,不能用來描述現(xiàn)在的父親身高與兒子身高之間的關(guān)系.綜合應(yīng)用——樹高與胸徑的關(guān)系P113-例.經(jīng)驗(yàn)表明,一般樹的胸徑(樹的主干在地面以上1.3m處的直徑)越大,樹就越高.由于測量樹高比測量胸徑困難,因此研究人員希望由胸徑預(yù)測樹高.在研究樹高與胸徑之間的關(guān)系時(shí),某林場收集了某種樹的一些數(shù)據(jù)(如下表),試根據(jù)這些數(shù)據(jù)建立樹高關(guān)于胸徑的經(jīng)驗(yàn)回歸方程.編號123456789101112胸徑d/cm18.120.122.224.426.028.329.632.433.735.738.340.2樹高h(yuǎn)/m18.819.221.021.022.122.122.422.623.024.323.924.7解:以胸徑為橫坐標(biāo)、樹高為縱坐標(biāo)作散點(diǎn)圖,可見兩個(gè)變量呈正線性相關(guān),因此可用一元線性回歸模型刻畫樹高h(yuǎn)與胸徑d之間的關(guān)系.綜合應(yīng)用——樹高與胸徑的關(guān)系根據(jù)經(jīng)驗(yàn)回歸方程,由表中的胸徑d的數(shù)據(jù)可以計(jì)算出樹高的預(yù)測值(精確到0.1):以胸徑為橫坐標(biāo),殘差為縱坐標(biāo),作殘差圖如下:殘差的絕對值最大是0.8,所有殘差分布在以橫軸為對稱軸、寬度小于2的帶狀區(qū)域內(nèi).可見經(jīng)驗(yàn)回歸方程較好地刻畫了樹高與胸徑的關(guān)系,可以根據(jù)經(jīng)驗(yàn)回歸方程由胸徑預(yù)測樹高.綜合應(yīng)用

非線性關(guān)系的回歸模型思想:變換為線性回歸模型析:以世界紀(jì)錄產(chǎn)生年份為橫坐標(biāo),世界紀(jì)錄為縱坐標(biāo)作散點(diǎn)圖如下:問題.(P115-119)人們常將男子短跑的高水平運(yùn)動員稱為“百米飛人”.下表給出了1968年之前男子短跑100m世界紀(jì)錄產(chǎn)生的年份和世界紀(jì)錄的數(shù)據(jù).試依據(jù)這些成對數(shù)據(jù),建立男子短跑100m世界紀(jì)錄產(chǎn)生年份的經(jīng)驗(yàn)回歸方程.在圖中,散點(diǎn)看上去大致分布在一條直線附近,似乎可用一元線性回歸模型建立經(jīng)驗(yàn)回歸方程.思考1:仔細(xì)觀察圖中散點(diǎn)與直線的位置關(guān)系,你能看出其中存在的問題嗎?以經(jīng)驗(yàn)回歸直線為參照,第1個(gè)散點(diǎn)遠(yuǎn)離經(jīng)驗(yàn)回歸直線,且前后兩時(shí)間段的散點(diǎn)都在經(jīng)驗(yàn)回歸直線的上方,中間時(shí)間段的散點(diǎn)都在經(jīng)驗(yàn)回歸直線的下方.這說明散點(diǎn)并不是隨機(jī)分布在經(jīng)驗(yàn)回歸直線的周圍,而是圍繞著經(jīng)驗(yàn)回歸直線有一定的變化規(guī)律,即成對樣本數(shù)據(jù)呈現(xiàn)出明顯的非線性相關(guān)的特征.思考2:你能對模型進(jìn)行修改,以使其更好地反映散點(diǎn)的分布特征嗎?散點(diǎn)更趨向于落在中間下凸且遞減的某條曲線附近.已學(xué)的函數(shù)_________________的圖象具有類似的形狀特征.注意到短跑的第1個(gè)世界紀(jì)錄產(chǎn)生于1896年,因此可以認(rèn)為散點(diǎn)是集中在曲線y=c1+c2ln(t?1895)的周圍,其中c1和c2為未知參數(shù),且c2<0.思考1:仔細(xì)觀察圖中散點(diǎn)與直線的位置關(guān)系,你能看出其中存在的問題嗎?y=﹣lnx、y=﹣lgx思考3:如何利用成對數(shù)據(jù)估計(jì)參數(shù)c1和c2?注意到短跑的第1個(gè)世界紀(jì)錄產(chǎn)生于1896年,因此可以認(rèn)為散點(diǎn)是集中在曲線y=c1+c2ln(t?1895)的周圍,其中c1和c2為未知參數(shù),且c2<0.非線性經(jīng)驗(yàn)回歸函數(shù)精確到0.01作出(xi,yi)的散點(diǎn)圖,可見x與y呈現(xiàn)出很強(qiáng)的負(fù)線性相關(guān)特征.思考3:如何利用成對數(shù)據(jù)估計(jì)參數(shù)c1和c2?注意到短跑的第1個(gè)世界紀(jì)錄產(chǎn)生于1896年,因此可以認(rèn)為散點(diǎn)是集中在曲線y=c1+c2ln(t?1895)的周圍,其中c1和c2為未知參數(shù),且c2<0.非線性經(jīng)驗(yàn)回歸函數(shù)該經(jīng)驗(yàn)回歸方程對于表中的成對數(shù)據(jù)xi,yi具有非常好的擬合精度.x和Y之間的線性相關(guān)程度比t和Y的線性相關(guān)程度強(qiáng)得多.由圖可看出,非線性經(jīng)驗(yàn)回歸方程②對于原始數(shù)據(jù)的擬合效果遠(yuǎn)遠(yuǎn)好于線性經(jīng)驗(yàn)回歸方程①思考4:你能否通過殘差分析來比較這兩個(gè)經(jīng)驗(yàn)回歸方程對數(shù)據(jù)刻畫的好壞?方程②各項(xiàng)殘差的絕對值遠(yuǎn)遠(yuǎn)小于方程①,即方程②的擬合效果要遠(yuǎn)遠(yuǎn)好于①.一般情況下,直接一一比較兩個(gè)模型的各項(xiàng)殘差絕對值比較困難,因?yàn)閷τ谀承┥Ⅻc(diǎn),模型①的殘差的絕對值比模型②的小,而另一些散點(diǎn)的情況則相反.方案二:通過比較殘差的平方和來比較兩個(gè)模型的效果.在殘差平方和最小的標(biāo)準(zhǔn)下,非線性回歸模型的擬合效果要優(yōu)于一元線性回歸模型的擬合效果.方案一:通過比較殘差的絕對值之和來比較兩個(gè)模型的效果.方案二:通過比較殘差的平方和來比較兩個(gè)模型的效果.經(jīng)驗(yàn)回歸方程②的擬合效果要優(yōu)于經(jīng)驗(yàn)回歸方程①的擬合效果.方案三:通過比較決定系數(shù)R2來比較兩個(gè)模型的效果.殘差平方和總偏差平方和(與回歸方程無關(guān))(與回歸方程有關(guān))R2越大,殘差平方和越小,模型擬合效果越好.經(jīng)驗(yàn)回歸方程②的刻畫效果比經(jīng)驗(yàn)回歸方程①的好很多.新知——決定系數(shù)R2①R2越大,殘差平方和越小,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論