【高中數(shù)學】一元線性回歸模型參數(shù)的最小二乘估計第2課時 高二數(shù)學人教A版2019選擇性必修第三冊_第1頁
【高中數(shù)學】一元線性回歸模型參數(shù)的最小二乘估計第2課時 高二數(shù)學人教A版2019選擇性必修第三冊_第2頁
【高中數(shù)學】一元線性回歸模型參數(shù)的最小二乘估計第2課時 高二數(shù)學人教A版2019選擇性必修第三冊_第3頁
【高中數(shù)學】一元線性回歸模型參數(shù)的最小二乘估計第2課時 高二數(shù)學人教A版2019選擇性必修第三冊_第4頁
【高中數(shù)學】一元線性回歸模型參數(shù)的最小二乘估計第2課時 高二數(shù)學人教A版2019選擇性必修第三冊_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1第8章《成對數(shù)據(jù)的統(tǒng)計分析》人教A版2019選擇性必修第三冊8.2.2一元線性回歸模型參數(shù)的最小二乘估計(第2課時)1.進一步掌握一元線性回歸模型參數(shù)的統(tǒng)計意義,會用相關(guān)統(tǒng)計軟件.2.了解非線性回歸模型.3.會通過分析殘差和利用R2判斷回歸模型的擬合效果.學習目標例經(jīng)驗表明,一般樹的胸徑(樹的主干在地面以上1.3m處的直徑)越大,樹就越高由于測量樹高比測量胸徑困難,因此研究人員希望由胸徑預(yù)測樹高,在研究樹高與胸徑之間的關(guān)系時,某林場收集了某種樹的一些數(shù)據(jù)(表8.2-3),試根據(jù)這些數(shù)據(jù)建立樹高關(guān)于胸徑的經(jīng)驗回歸方程.編號123456胸徑/cm18.120.122.224.426.028.3樹高/m18.819.221.021.022.122.1編號789101112胸徑/cm29.632.433.735.738.340.2樹高/m22.422.623.024.323.924.7環(huán)節(jié)一:創(chuàng)設(shè)情境,引入課題胸徑/cm樹高/m圖8.2-9解:以胸徑為橫坐標、樹高為縱坐標作散點圖,得到圖8.2-9.在圖8.2-9中,散點大致分布在一條從左下角到右上角的直線附近,表明兩個變量線性相關(guān),并且是正相關(guān),因此可以用一元線性回歸模型刻畫樹高與胸徑之間的關(guān)系.胸徑/cm樹高/m圖8.2-10根據(jù)經(jīng)驗回歸方程,由表8.2-3中胸徑的數(shù)據(jù)可以計算出樹高的預(yù)測值(精確到0.1)以及相應(yīng)的殘差,如表8.2-4所示編號胸徑/cm樹高觀測值/m樹高預(yù)測值/m殘差/m118.118.819.35-0.6220.119.219.85-0.7322.221.020.370.6424.421.020.920.1526.022.121.320.8628.322.121.900.2729.622.422.220.2832.422.622.92-0.3933.723.023.24-0.21035.724.323.740.61138.323.924.39-0.51240.224.724.86-0.2胸徑/cm殘差/m圖8.2-11以胸徑為橫坐標,殘差為縱坐標,作殘差圖,得到圖8.2-11.觀察殘差表和殘差圖,可以看到,殘差的絕對值最大是0.8,所有殘差分布在以橫軸為對稱軸、寬度小于2的帶狀區(qū)域內(nèi).可見經(jīng)驗回歸方程較好地刻畫了樹高與胸徑的關(guān)系,我們可以根據(jù)經(jīng)驗回歸方程由胸徑預(yù)測樹高.問題人們常將男子短跑100m的高水平運動員稱為“百米飛人”.表8.2-5給出了1968年之前男子短跑100m世界紀錄產(chǎn)生的年份和世界紀錄的數(shù)據(jù),試依據(jù)這些成對數(shù)據(jù),建立男子短跑100m世界紀錄關(guān)于紀錄產(chǎn)生年份的經(jīng)驗回歸方程.表8.2-5編號12345678年份18961912192119301936195619601968記錄/s11.8010.6010.4010.3010.2010.1010.009.95環(huán)節(jié)二:觀察分析,感知概念紀錄/s年份圖8.2-12以成對數(shù)據(jù)中的世界紀錄產(chǎn)生年份為橫坐標,世界紀錄為縱坐標作散點圖,得到圖8.2-12.在圖8.2-12中,散點看上去大致分布在一條直線附近,似乎可用一元線性回歸模型建立經(jīng)驗回歸方程.用Y表示男子短跑100m的世界紀錄,t表示紀錄產(chǎn)生的年份,利用一元線性回歸模型來刻畫世界紀錄和世界紀錄產(chǎn)生年份之間的關(guān)系.根據(jù)最小二乘法,由表中的數(shù)據(jù)得到經(jīng)驗回歸方程為tY/s圖8.2-13將經(jīng)驗回歸直線疊加到散點圖,得到圖8.2-13tY/s觀察:從圖8.2-13中可以看到,經(jīng)驗回歸方程①較好地刻畫了散點的變化趨勢,請再仔細觀察圖形,你能看出其中存在的問題嗎?以經(jīng)驗回歸直線為參照,可以發(fā)現(xiàn)經(jīng)驗回歸方程的不足之處,以及散點的更為精細的分布特征,例如,第一個世界紀錄所對應(yīng)的散點遠離經(jīng)驗回歸直線,并且前后兩時間段中的散點都在經(jīng)驗回歸直線的上方,中間時間段的散點都在經(jīng)驗回歸直線的下方,這說明散點并不是隨機分布在經(jīng)驗回歸直線的周圍,而是圍繞著經(jīng)驗回歸直線有一定的變化規(guī)律,即成對樣本數(shù)據(jù)呈現(xiàn)出明顯的非線性相關(guān)的特征環(huán)節(jié)三:抽象概括,形成概念你能對模型進行修改,以使其更好地反映散點的分布特征嗎?表8.2-6編號12345678x0.002.833.263.563.714.114.174.29Y/s11.8010.6010.4010.3010.2010.1010.009.95如果表8.2-6對應(yīng)的散點圖呈現(xiàn)出很強的線性相關(guān)特征,我們就可以借助一元線性回歸模型和新的成對數(shù)據(jù),對參數(shù)c1和c2作出估計,進而可以得到Y(jié)關(guān)于t的非線性經(jīng)驗回歸方程.xY/s圖8.2-14在直角坐標系中畫出表8.2-6中成對數(shù)據(jù)的散點圖,如圖8.2-14所示,散點的分布呈現(xiàn)出很強的線性相關(guān)特征.xY/s圖8.2-15再在圖8.2-14中畫出(*)式所對應(yīng)的經(jīng)驗回歸直線,得到圖8.2-15.圖8.2-15表明,經(jīng)驗回歸方程(*)對于表8.2-6中的成對數(shù)據(jù)具有非常好的擬合精度.將圖8.2-15習圖8.2-13進行對比,可以發(fā)現(xiàn)和之間的線性相關(guān)程度比原始樣本數(shù)據(jù)的線性相關(guān)程度強得多.在同一坐標系中畫出成對數(shù)據(jù)散點圖、非線性經(jīng)驗回歸方程②的圖象(藍色)以及經(jīng)驗回歸方程①的圖象(紅色),表明非線性經(jīng)驗回歸方程②對于原始數(shù)據(jù)的擬合效果遠遠好于經(jīng)驗回歸方程①.環(huán)節(jié)四:辨析理解,深化概念兩個經(jīng)驗回歸方程的殘差(精確到0.001)如表8.2-7所示.觀察各項殘差的絕對值,發(fā)現(xiàn)經(jīng)驗回歸方程②遠遠小于①,即經(jīng)驗回歸方程②的合效果要遠遠好于①.編號12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022表8.2-7在一般情說下,直接比較兩個模型的殘差比較困難,因為在某些散點上一個模型的殘差的絕對值比另一個模型的小,而另一些散點的情況則相反.可以通過比較殘差的平方和來比較兩個模型的效果.由表8.2-7容易算出經(jīng)驗回歸方程①和②的R2分別約為0.7325和0.9983,因此經(jīng)驗回歸方程②的刻畫效果比經(jīng)驗回歸方程①的好很多.另外,我們還可以用新的觀測數(shù)據(jù)來檢驗?zāi)P偷臄M合效果.事實上,我們還有1968年之后的男子短跑100m世界記錄數(shù)據(jù),如表8.2-8所示.表8.2-8編號9101112131415年份1983198819911991199419961999記錄/s9.939.929.909.869.859.849.79編號161718192021年份200220052007200820081009記錄/s9.789.779.749.729.699.58在散點圖8.2-12中,繪制表8.2-8中的散點(綠色),再添加經(jīng)驗回歸方程①所對應(yīng)的經(jīng)驗回歸直線(紅色),以及經(jīng)驗回歸方程②所對應(yīng)的經(jīng)驗回歸曲線(藍色),得到圖8.2-17顯然綠色散點分布在藍色經(jīng)驗回歸曲線的附近,遠離紅色經(jīng)驗回歸直線,表明經(jīng)驗回歸方程②對于新數(shù)據(jù)的預(yù)報效果遠遠好于①.思考:在上述問題情境中,男子短跑100m世界紀錄和紀錄創(chuàng)建年份之間呈現(xiàn)出對數(shù)關(guān)系,能借助于樣本相關(guān)系數(shù)刻畫這種關(guān)系的強弱嗎?在使用經(jīng)驗回歸方程進行預(yù)測時,需要注意下列問題:(1)經(jīng)驗回歸方程只適用于所研究的樣本的總體.例如,根據(jù)我國父親身高與兒子身高的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述美國父親身高與兒子身高之間的關(guān)系.同樣,根據(jù)生長在南方多雨地區(qū)的樹高與胸徑的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述北方干旱地區(qū)的樹高與胸徑之間的關(guān)系.(2)經(jīng)驗回歸方程一般都有時效性.例如,根據(jù)20世紀80年代的父親身高與兒子身高的數(shù)據(jù)建立的經(jīng)驗回歸方程,不能用來描述現(xiàn)在的父親身高與兒子身高之間的關(guān)系.(3)解釋變量的取值不能離樣本數(shù)據(jù)的范圍太遠.一般解釋變量的取值在樣本數(shù)據(jù)范圍內(nèi),經(jīng)驗回歸方程的預(yù)報效果會比較好,超出這個范圍越遠,預(yù)報的效果越差.(4)不能期望經(jīng)驗回歸方程得到的預(yù)報值就是響應(yīng)變量的精確值.事實上,它是響應(yīng)變量的可能取值的平均值.環(huán)節(jié)五:課堂練習,鞏固運用(1)確定研究對象,明確哪個變量是解釋變量,哪個變量是響應(yīng)變量.(2)畫出解釋變量與響應(yīng)變量的散點圖,觀察它們之間的關(guān)系(如是否存在線性關(guān)系等).(3)由經(jīng)驗確定回歸方程的類型.(4)按一定規(guī)則(如最小二乘法)估計經(jīng)驗回歸方程中的參數(shù).(5)得出結(jié)果后需進行線性回歸分析.①殘差平方和越小,模型的擬合效果越好.②決定系數(shù)R2取值越大,說明模型的擬合效果越好.注意:若題中給出了檢驗回歸方程是否理想的條件,則根據(jù)題意進行分析檢驗即可.建立線性回歸模型的基本步驟2.殘差平方和:

3.最小二乘法將

稱為Y關(guān)于x的經(jīng)驗回歸方程,4.判斷模型擬合的效果:殘差分析R2越大,表示殘差平方和越小,即模型的擬合效果越好R2越小,表示殘差平方和越大,即模型擬合效果越差.1.線性回歸模型y=bx+a+e含有隨機誤差e,其中x為解釋變量,y響應(yīng)變量

環(huán)節(jié)六:歸納總結(jié),反思提升環(huán)節(jié)七:目標檢測,作業(yè)布置完成教材:第121頁習題8.2第4題.練習

第120頁1.在回歸分析中,分析殘差能夠幫助我們解決哪些問題?分析殘差可以幫助我們解決以下幾個問題:(1)尋找殘差明顯比其他殘差大很多的異常點,如果有,檢查相應(yīng)的樣本數(shù)據(jù)是否有錯.(2)分析殘差圖可以診斷選擇的模型是否合適,如果不合適,可以參考殘差圖提出修改模型的思路.2.1997-2006年我國的國內(nèi)生產(chǎn)總值(GDP)的數(shù)據(jù)如下:年份GDP/億元年份GDP/億元199779715.02002121717.4199885195.52003.137422.0199990564.42004161840.22000100280.12005187318.92001110863.12006219438.5(1)作GDP和年份的散點圖,根據(jù)該圖猜想它們之間的關(guān)系可以用什么模型描述;(1)畫GDP與年份的散點圖,如圖所示,可以觀察到隨著年份的增加GDP也隨之增加,GDP值與年份呈現(xiàn)近似線性關(guān)系,可以用一元線性回歸模型刻畫.年份GDP/億元(2)建立年份為解釋變量,GDP為響應(yīng)變量的一元線性回歸模型,并計算殘差;ty殘差的計算結(jié)果見下表.年份19971998199920002001殘差171267752-1734-6873-11145年份20022003200420052006殘差-15145-14296-4732589223157(3)根據(jù)你得到的一元線性回歸模型,預(yù)測2017年的GDP,看看你的預(yù)測值與實際的GDP的誤差是多少;2017年的GDP預(yù)報值為359684億元,2017年的實際的GDP為820754億元,預(yù)測值比實際值少461070億元.(4)你認為這個模型能較好地刻畫GDP和年份的關(guān)系嗎?請說明理由ty(4)上面建立的回歸方程的R2=0.9213,說明在1997-2006年內(nèi),該模型年份能夠解釋92.13%的GDP值變化,因此所建立的模型較好地刻畫了GDP和年份的關(guān)系.但因為殘差呈現(xiàn)一定的規(guī)律性,中間是負數(shù),兩邊是正數(shù),所以可以考慮用非線性回歸模型擬合數(shù)據(jù).(5)隨著時間的發(fā)展,又收集到2007—2016年的GDP數(shù)據(jù)如下:建立年份(1997-2016)為解釋變量,GDP為響應(yīng)變量的經(jīng)驗回歸方程,并預(yù)測2017年的GDP,與實際的GDP誤差是多少?你能發(fā)現(xiàn)什么?年份19971998199920002001殘差171267752-1734-6873-11145年份20022003200420052006殘差-15145-14296-4732589223157利用上述模型,預(yù)測2017年的GDP值為704025億元,而2017年GDP的實際值820754億元,預(yù)測值比實際值少116729億元.通過兩個模型預(yù)測2017年的GDP值,發(fā)現(xiàn)第2個模型預(yù)測的更準確,說明建立的模型自變量的取值范圍決定了模型的適用范圍,通常不能超出太多,否則會出現(xiàn)較大的誤差.習題8.2(第120頁)1.如果散點圖中所有的散點都落在一條斜率為非0的直線上,請回答下列問題:(1)解釋變量和響應(yīng)變量的關(guān)系是什么?(2)R2是多少?(1)解釋變量和響應(yīng)變量是線性函數(shù)關(guān)系.2.一個車間為了規(guī)定工時定額,需要確定加工零件所花費的時間,為此進行了10次試驗,收集數(shù)據(jù)如表所示.零件數(shù)/個102030405060708090100加工時間/min626875818995102108115122(1)畫出散點圖;(2)建立加工時間關(guān)于零件數(shù)的一元線性回歸模型;(3)關(guān)于加工零件的個數(shù)與加工時間,你能得出什么結(jié)論?3.根據(jù)8.1.2節(jié)例2中某城市居民年收入與A商品銷售額的數(shù)據(jù):(1)建立A商品銷售額關(guān)于居民年收入的一元線性回歸模型;(2)如果這座城市居民的年收入達到40億元,估計A商品的銷售額是多少.第n年12345678910居民年收入/億元32.231.132.935.837.138.039.043.044.646.0A商品銷售額/萬元25.030.034.037.039.041.042.044.048.051.0A商品銷售額/萬元年份總?cè)丝?萬人年份總?cè)丝?萬人年份總?cè)丝?萬人年份總?cè)丝?萬人年份總?cè)丝?萬人1949541671976937171988111026200012674320121354041950551961977949741989112704200112762720131360721951563001978962591990114333200212845320141367821955614651979975421991115823200312922720151374621960662071980987051992117171200412998820161382711965725381981100072199311851720051307561970829921982101654199411985020061314481971852291983103008199512112120071321291972871771984104357199612238920081328021973892111985105851199712362620091334501974908591986107507199812476120101340911975924201987109300199912578620111347354.人口問題是關(guān)乎國計民生的大問題.下表是1949—2016年我國的人口總數(shù)(摘自中國統(tǒng)計年鑒—2017)(1)畫出散點圖;(2)建立總?cè)丝跀?shù)關(guān)于年份的一元線性回歸模型;(3)直接用上面建立的回歸模型預(yù)測2020年的我國人口總數(shù),得到的結(jié)果合理嗎?為什么?年份總?cè)丝?萬人(1)畫人口總數(shù)與年份的散點圖,如圖所示.年份總?cè)丝?萬人(3)利用經(jīng)驗回歸方程得到2020年我國人口總數(shù)的預(yù)測值為149850萬人.得到的這個預(yù)測結(jié)果不合理.將擬合直線畫在散點圖上,可以看到,2000年以后,我國人口總數(shù)的增長速度逐漸平穩(wěn)且呈下降趨勢,因此運用上述經(jīng)驗回歸模型預(yù)測2020年我國的人口總數(shù)會出現(xiàn)高估.也可以通過觀察殘差圖,看到殘差具有中間為正,兩邊為負的特點.可以考慮用其他統(tǒng)計模型擬合數(shù)據(jù).5.在某地區(qū)的一段時間內(nèi)觀測到的不小于某震級x的地震數(shù)N的數(shù)據(jù)如下表:震級x3.03.23.43.63.84.04.2地震數(shù)N28381203801479510695764155023842震級x4.44.64.85.05.25.45.6地震數(shù)N269819191356973746604435震級x5.86.06.26.46.66.87.0地震數(shù)N27420614898574125試建立經(jīng)驗回歸方程表示二者之間的關(guān)系,該模型對預(yù)測地震有幫助嗎?震級地震數(shù)先畫地震數(shù)與震級的散點圖,如圖(1)所示.震級x33.23.43.63.84.04.24.2y4.4534.3094.174.0293.8833.7413.585震級x4.44.64.855.25.45.6y3.4313.2833.1322.9882.8732.7812.638震級x5.866.26.46.66.87y2.4382.3142.171.9911.7561.6131.398震級xx和y的散點圖如圖(2)所示.從這個散點圖中可以看出x和y之間有很強的線性相關(guān)性,因此可以用一元線性回歸模型擬合它們之間的關(guān)系.該模型不能直接用于預(yù)報地震,因為它不能預(yù)報何時發(fā)生地震,震級是多少6.生活中有許多變量之間的關(guān)系是值得我們?nèi)パ芯康模?,?shù)學成績、物理成績和化學成績兩兩之間是相關(guān)的嗎?哪兩個學科成績之間相關(guān)性更大,你能解釋其中的原因嗎?語文成績對數(shù)學成績有影響嗎?等等,請用你們班的某次考試成績,研究它們之間的關(guān)系如果它們之間有關(guān)系,請建立統(tǒng)計模型進行分析.回歸與相關(guān)回歸分析法和相關(guān)分析法是統(tǒng)計學中的兩種重要方法,前者用于由一個變量的變化去推測另一個變量的變化,后者研究隨機變量間的相關(guān)關(guān)系,它們是由英國科學家高爾頓創(chuàng)立的.高爾頓的科研興趣十分廣泛,在地理學、氣象學、統(tǒng)計學、心理學、人類學等眾多領(lǐng)域都有建樹他在遺傳學的研究中發(fā)現(xiàn)了一個令人困惑的問題,通常,高個子的人會和高個子的人結(jié)婚,矮個子的人會和矮個子的人結(jié)婚,而人類的遺傳是把上一代的優(yōu)勢性狀傳遞給下一代這樣,在人群中,高個子、矮個子的比例都應(yīng)逐漸增多,而中等個子的比例應(yīng)逐漸下降.但事實并非如此,為什么呢?這個問題一直縈繞在他的心頭1875年,為了確定豌豆尺寸的遺傳規(guī)律,他將自己精心挑選的490粒甜豌豆按照尺寸大小分成7組,在7個不同地區(qū)各種植70粒(每組10粒).豌豆成熟后,他仔細測量了新豌豆(子代)的尺寸,并與豌豆種子(母代)的尺寸進行比較數(shù)據(jù)分析發(fā)現(xiàn),母代尺寸大的子代尺寸較大,母代尺寸小的子代尺寸也較小但無論尺寸大小,都有子代向母代的平均值(7種尺

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論