版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一章第一章 統(tǒng)計案例統(tǒng)計案例對 比數(shù)學3中“回歸”增加的內容數(shù)學統(tǒng)計畫散點圖畫散點圖了解最小二乘法了解最小二乘法的思想的思想求回歸直線方程求回歸直線方程ybxa1. 用回歸直線方程用回歸直線方程解決應用問題解決應用問題選修-統(tǒng)計案例引入線性回歸模型引入線性回歸模型ybxae了解模型中隨機誤差項了解模型中隨機誤差項e產產生的原因生的原因了解相關指數(shù)了解相關指數(shù) R2 和模型擬和模型擬合的效果之間的關系合的效果之間的關系了解殘差圖的作用了解殘差圖的作用利用線性回歸模型解決一類利用線性回歸模型解決一類非線性回歸問題非線性回歸問題5. 正確理解分析方法與結果正確理解分析方法與結果問題問題1 1:正方
2、形的面積正方形的面積y y與正方形的邊長與正方形的邊長x x之間之間 的的函數(shù)關系函數(shù)關系是是y = xy = x2 2確定性關系確定性關系問題問題2 2:某水田水稻產量某水田水稻產量y y與施肥量與施肥量x x之間是否之間是否 -有一個確定性的關系?有一個確定性的關系?例如:例如:在在 7 7 塊并排、形狀大小相同的試驗田塊并排、形狀大小相同的試驗田上上 進行施肥量對水稻產量影響的試驗,得到進行施肥量對水稻產量影響的試驗,得到如下所示的一組數(shù)據(jù):如下所示的一組數(shù)據(jù): 施化肥量施化肥量x x 15 20 25 30 35 15 20 25 30 35 40 4540 45 水稻產量水稻產量y
3、y 330 345 365 405 445 450 455 330 345 365 405 445 450 455復習復習: :變量之間的兩種關系變量之間的兩種關系自變量取值一定時,因變量的取值帶有一定隨自變量取值一定時,因變量的取值帶有一定隨機性的兩個變量之間的關系叫做機性的兩個變量之間的關系叫做相關關系相關關系。1 1、定義:、定義: 1 1):相關關系是一種不確定性關系;):相關關系是一種不確定性關系;注注對具有相關關系的兩個變量進行對具有相關關系的兩個變量進行統(tǒng)計分析的方法叫統(tǒng)計分析的方法叫回歸分析回歸分析。2 2):):2 2、現(xiàn)實生活中存在著大量的相關關系。現(xiàn)實生活中存在著大量的相
4、關關系。探索探索1 1:水稻產量:水稻產量y y與施肥量與施肥量x x之間大致有何之間大致有何規(guī)律?規(guī)律?10 20 30 40 5010 20 30 40 50500500450450400400350350300300發(fā)現(xiàn):圖中各點,大致分布在某條直線附近。發(fā)現(xiàn):圖中各點,大致分布在某條直線附近。探索探索2 2:在這些點附近可畫直線不止一條,:在這些點附近可畫直線不止一條, 哪條直線最能代表哪條直線最能代表x x與與y y之間的關系呢?之間的關系呢?x xy y施化肥量施化肥量水稻產量水稻產量施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 4
5、0 45水稻產量水稻產量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455散點圖散點圖1.最小二乘法:最小二乘法: y = bx+a(x,y)(x,y)稱為樣本點的中心稱為樣本點的中心n n( (x x- - x x) )( (y y- - y y) )i ii ii i= =1 1b b = =n n2 2( (x x- - x x) )i ii i= =1 1a a = = y y - - b bx x. .n nn n1 11 1其其 中中 x x = =x x , ,y y = =y y . .i ii in nn n
6、i i= =1 1i i= =1 1n niiiii=1i=1n n2 22 2i ii=1i=1x y -nxyx y -nxy=,=,x-nxx-nx3 3、對兩個變量進行的線性分析叫做、對兩個變量進行的線性分析叫做線性線性回歸分析回歸分析。2 2、回歸直線方程:、回歸直線方程:n nn ni ii ii ii ii i= =1 1i i= =1 1n nn n2 22 22 2i ii ii i= =1 1i i= =1 1( (x x - -x x) )( (y y - -y y) )x x- -n nx xy yb b = = =, ,( (x x - -x x) )x x - -n
7、 nx xa a = = y y- -b bx xy y2.2.相應的直線叫做相應的直線叫做回歸直線回歸直線。1 1、所求直線方程、所求直線方程 叫做叫做回歸直回歸直 -線方程線方程;其中;其中 y y = = b bx x+ +a a3.求出線性相關方程后,如何描述斜率估計值求出線性相關方程后,如何描述斜率估計值與變化增量值之間相關關系的強弱?通過什么與變化增量值之間相關關系的強弱?通過什么量來說明?量來說明?用相關系數(shù)用相關系數(shù) r 來衡量來衡量00rxyrxy當時,表示 與 為正相關;當時,表示 與 為負相關、當、當 時,時,x x與與y y為完全線性相關,它們之間為完全線性相關,它們之
8、間存在確定的函數(shù)關系。存在確定的函數(shù)關系。、當、當 時,表示時,表示x x與與y y存在著一定的線性相存在著一定的線性相關,關,r r的絕對值越大,越接近于的絕對值越大,越接近于1 1,表示,表示x x與與y y直線直線相關程度越高,反之越低。相關程度越高,反之越低。1r10 r相關關系的測度相關關系的測度(相關系數(shù)取值及其意義)練練:某種產品的廣告費支出某種產品的廣告費支出x與銷售額與銷售額y之間有如表之間有如表所示數(shù)據(jù)所示數(shù)據(jù):(1)0.9192r (2)6.517.5yx(1)求求x,y之間的相關系數(shù)之間的相關系數(shù);(2)求線性回歸方程求線性回歸方程;例例1 從某大學中隨機選取從某大學中
9、隨機選取8名女大學生,其身高和體重數(shù)據(jù)如表名女大學生,其身高和體重數(shù)據(jù)如表1-1所示。所示。求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。的女大學生的體重。案例案例1:女大學生的身高與體重:女大學生的身高與體重解:解:1、選取身高為自變量、選取身高為自變量x,體重為因變量,體重為因變量y,作散點圖:,作散點圖:2、由散點圖知道身高和體重有比較好的、由散點圖知道身高和體重有比較好的線性相關關系,因此可以用線性回歸方程線性相關關系,因此可以用線性回歸方程刻畫它們之間的關系。刻畫它們之間的關
10、系。3、從散點圖還看到,樣本點散布在某一條、從散點圖還看到,樣本點散布在某一條直線的附近,而不是在一條直線上,所以直線的附近,而不是在一條直線上,所以不能用一次函數(shù)不能用一次函數(shù)y=bx+a描述它們關系。描述它們關系。 我們可以用下面的我們可以用下面的線性回歸模型線性回歸模型來表示:來表示:y=bx+a+e,其中,其中a和和b為模型的未知參數(shù),為模型的未知參數(shù),e稱為隨機誤差稱為隨機誤差。思考思考P3產生隨機誤差項產生隨機誤差項e的原因是什么?的原因是什么?思考思考P3產生隨機誤差項產生隨機誤差項e的原因是什么?的原因是什么?隨機誤差隨機誤差e e的來源的來源( (可以推廣到一般):可以推廣到
11、一般):1、其它因素的影響:影響身高 y 的因素不只是體重 x,可能還包括遺傳基因、飲食習慣、生長環(huán)境等因素;2、用線性回歸模型近似真實模型所引起的誤差;3、身高 y 的觀測誤差。例例1 從某大學中隨機選取從某大學中隨機選取8名女大學生,其身高和體重數(shù)據(jù)如表名女大學生,其身高和體重數(shù)據(jù)如表1-1所示。所示。5943616454505748體重/kg170155165175170157165165身高/cm87654321編號求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。的女大學生的體重
12、。根據(jù)最小二乘法估計 和 就是未知參數(shù)a和b的最好估計,ab制表7 8 合計654321ixy , ,ixxiyy()()iixxyy2()ixx例例1 從某大學中隨機選取從某大學中隨機選取8名女大學生,其身高和體重數(shù)據(jù)如表名女大學生,其身高和體重數(shù)據(jù)如表1-1所示。所示。5943616454505748體重/kg170155165175170157165165身高/cm87654321編號求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為求根據(jù)一名女大學生的身高預報她的體重的回歸方程,并預報一名身高為172cm的女大學生的體重。的女大學生的體重。根據(jù)最小二乘法估計 和 就是未知
13、參數(shù)a和b的最好估計,ab于是有b=12210.849niiiniix ynx yxnx85.712aybx 所以回歸方程是0.84985.712yx所以,對于身高為所以,對于身高為172cm的女大學生,由回歸方程可以預報其體重為的女大學生,由回歸方程可以預報其體重為 0.849 7285.71260.316()ykg( , )x y 稱為樣本點的中心探究探究P4:身高為身高為172cm的女大學生的體重一定是的女大學生的體重一定是60.316kg嗎?嗎?如果不是,你能解析一下原因嗎?如果不是,你能解析一下原因嗎?問題二:問題二:在線性回歸模型中,在線性回歸模型中,e是用是用bx+a預報真實值預
14、報真實值y的隨機誤差,的隨機誤差, 它是一個不可觀測的量,那么應如何研究隨機誤差呢?它是一個不可觀測的量,那么應如何研究隨機誤差呢?,1,2,. ,1,2,.iiiiiiiiybxa ineyyybxa ine1122nniii殘差:一般的對于樣本點(x,y),(x ,y ),.,(x ,y ),它們的隨機誤差為e其估計值為稱為相應于點(x,y )的殘差。思考思考P6:如何刻畫預報變量(體重)的變化?這個變化在多大程度上如何刻畫預報變量(體重)的變化?這個變化在多大程度上與解析變量(身高)有關?在多大程度上與隨機誤差有關?與解析變量(身高)有關?在多大程度上與隨機誤差有關?問題三:問題三:如何
15、發(fā)現(xiàn)數(shù)據(jù)中的錯誤?如何衡量隨機模型的擬合效果?如何發(fā)現(xiàn)數(shù)據(jù)中的錯誤?如何衡量隨機模型的擬合效果? 假設身高和隨機誤差的不同不會對體重產生任何影響,那么所有人的體重將相假設身高和隨機誤差的不同不會對體重產生任何影響,那么所有人的體重將相同。同。在體重不受任何變量影響的假設下,設在體重不受任何變量影響的假設下,設8名女大學生的體重都是她們的平均值,名女大學生的體重都是她們的平均值,即即8個人的體重都為個人的體重都為54.5kg。54.554.554.554.554.554.554.554.5體重/kg170155165175170157165165身高/cm87654321編號54.5kg在散點圖
16、中,所有的點應該落在同一條在散點圖中,所有的點應該落在同一條水平直線上,但是觀測到的數(shù)據(jù)并非如水平直線上,但是觀測到的數(shù)據(jù)并非如此。此。這就意味著這就意味著預報變量(體重)的值預報變量(體重)的值受解析變量(身高)或隨機誤差的影響受解析變量(身高)或隨機誤差的影響。5943616454505748體重/kg170155165175170157165165身高/cm87654321編號 例如,編號為例如,編號為6的女大學生的體重并沒有落在水平直線上,她的體重為的女大學生的體重并沒有落在水平直線上,她的體重為61kg。解析。解析變量(身高)和隨機誤差共同把這名學生的體重從變量(身高)和隨機誤差共同
17、把這名學生的體重從54.5kg“推推”到了到了61kg,相差,相差6.5kg,所以所以6.5kg是解析變量和隨機誤差的是解析變量和隨機誤差的組合效應組合效應。 編號為編號為3的女大學生的體重并也沒有落在水平直線上,她的體重為的女大學生的體重并也沒有落在水平直線上,她的體重為50kg。解析。解析變量(身高)和隨機誤差共同把這名學生的體重從變量(身高)和隨機誤差共同把這名學生的體重從50kg“推推”到了到了54.5kg,相差,相差-4.5kg,這時解析變量和隨機誤差的組合效應為這時解析變量和隨機誤差的組合效應為-4.5kg。用這種方法可以對所有預報變量計算組合效應。用這種方法可以對所有預報變量計算
18、組合效應。數(shù)學上,把每個效應(觀測值減去總的平均值)的平方加起來,即用數(shù)學上,把每個效應(觀測值減去總的平均值)的平方加起來,即用21()niiyy表示總的效應,稱為表示總的效應,稱為總偏差平方和總偏差平方和。在例在例1中,總偏差平方和為中,總偏差平方和為354。5943616454505748體重/kg170155165175170157165165身高/cm87654321編號 那么,在這個總的效應(總偏差平方和)中,有多少來自于解析變量(身高)?那么,在這個總的效應(總偏差平方和)中,有多少來自于解析變量(身高)?有多少來自于隨機誤差?有多少來自于隨機誤差? 假設隨機誤差對體重沒有影響,
19、也就是說,體重僅受身高的影響,那么散點圖中所有的點將完全落在回歸直線上。但是,在圖中,數(shù)據(jù)點并沒有完全落在回歸直線上。這些點散布在回歸直線附近,所以一定是隨機誤差把這些點從回歸直線上這些點散布在回歸直線附近,所以一定是隨機誤差把這些點從回歸直線上“推推”開了開了。在例在例1中,殘差平方和約為中,殘差平方和約為128.361。 因此,數(shù)據(jù)點和它在回歸直線上相應位置的差異因此,數(shù)據(jù)點和它在回歸直線上相應位置的差異 是隨機誤差的效應,是隨機誤差的效應,稱稱 為為殘差殘差。)iiyy(iiieyy=例如,編號為例如,編號為6的女大學生,計算隨機誤差的效應(殘差)為:的女大學生,計算隨機誤差的效應(殘差
20、)為:61(0.849 16585.712)6.627對每名女大學生計算這個差異,然后分別將所得的值平方后加起來,用數(shù)學符號對每名女大學生計算這個差異,然后分別將所得的值平方后加起來,用數(shù)學符號21()niiiyy稱為稱為殘差平方和殘差平方和,它代表了隨機誤差的效應。它代表了隨機誤差的效應。表示為:表示為: 由于解析變量和隨機誤差的總效應(總偏差平方和)為由于解析變量和隨機誤差的總效應(總偏差平方和)為354,而隨機誤差的效應為,而隨機誤差的效應為128.361,所以解析變量的效應為,所以解析變量的效應為解析變量和隨機誤差的總效應(總偏差平方和)解析變量和隨機誤差的總效應(總偏差平方和) =解
21、析變量的效應(回歸平方和)解析變量的效應(回歸平方和)+隨機誤差的效應(殘差平方和)隨機誤差的效應(殘差平方和)354-128.361=225.639 這個值稱為這個值稱為回歸平方和?;貧w平方和。我們可以用我們可以用相關指數(shù)相關指數(shù)R2來刻畫回歸的效果,其計算公式是來刻畫回歸的效果,其計算公式是22121()11()niiiniiyyRyy 殘差平方和。總偏差平方和2221121()()()nniiiiiniiyyyyRyy總偏差平方和殘差平方和回歸平方和總偏差平方和總偏差平方和我們可以用我們可以用相關指數(shù)相關指數(shù)R2來刻畫回歸的效果,其計算公式是來刻畫回歸的效果,其計算公式是22121()1
22、1()niiiniiyyRyy 殘 差 平 方 和???偏 差 平 方 和總的來說:總的來說:相關指數(shù)相關指數(shù)R2是度量模型擬合效果的一種指標。是度量模型擬合效果的一種指標。在線性模型中,它在線性模型中,它代表自變量刻畫預報變量的能力代表自變量刻畫預報變量的能力。表表1-4列出了女大學生身高和體重的原始數(shù)據(jù)以及相應的殘差數(shù)據(jù)。列出了女大學生身高和體重的原始數(shù)據(jù)以及相應的殘差數(shù)據(jù)。 在研究兩個變量間的關系時,首先要根據(jù)散點圖來粗略判斷它們是否線性相關,在研究兩個變量間的關系時,首先要根據(jù)散點圖來粗略判斷它們是否線性相關,是否可以用回歸模型來擬合數(shù)據(jù)。是否可以用回歸模型來擬合數(shù)據(jù)。殘差分析與殘差圖
23、的定義:殘差分析與殘差圖的定義: 然后,我們可以通過殘差然后,我們可以通過殘差 來判斷模型擬合的效果,判斷原始來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù),數(shù)據(jù)中是否存在可疑數(shù)據(jù),這方面的分析工作稱為殘差分析這方面的分析工作稱為殘差分析。12,ne ee 我們可以利用圖形來分析殘差特性,作圖時縱坐標為殘差,橫坐標可以選為樣本我們可以利用圖形來分析殘差特性,作圖時縱坐標為殘差,橫坐標可以選為樣本編號,或身高數(shù)據(jù),或體重估計值等,這樣作出的圖形稱為編號,或身高數(shù)據(jù),或體重估計值等,這樣作出的圖形稱為殘差圖殘差圖。殘差圖的制作及作用。殘差圖的制作及作用。坐標縱軸為殘差變量,橫軸可以有不同的選
24、擇;坐標縱軸為殘差變量,橫軸可以有不同的選擇;若模型選擇的正確,殘差圖中的點應該分布在以若模型選擇的正確,殘差圖中的點應該分布在以橫軸為心的帶形區(qū)域橫軸為心的帶形區(qū)域;對于遠離橫軸的點,要特別注意對于遠離橫軸的點,要特別注意。身高與體重殘差圖異常點 錯誤數(shù)據(jù) 模型問題 幾點說明:幾點說明: 第一個樣本點和第第一個樣本點和第6個樣本點的殘差比較大,需要確認在采集過程中是否有人為個樣本點的殘差比較大,需要確認在采集過程中是否有人為的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)的錯誤。如果數(shù)據(jù)采集有錯誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯誤,
25、則需要尋找其他的原因。據(jù);如果數(shù)據(jù)采集沒有錯誤,則需要尋找其他的原因。 另外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型計較合適,這另外,殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型計較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預報精度越高。小結小結用身高預報體重時,需要注意下列問題:用身高預報體重時,需要注意下列問題:1、回歸方程只適用于我們所研究的樣本的總體;、回歸方程只適用于我們所研究的樣本的總體;2、我們所建立的回歸方程一般都有時間性;、我們所建立的回歸方程一般都有時間性;3、
26、樣本采集的范圍會影響回歸方程的適用范圍;、樣本采集的范圍會影響回歸方程的適用范圍;4、不能期望回歸方程得到的預報值就是預報變量的精確值。、不能期望回歸方程得到的預報值就是預報變量的精確值。 事實上,它是預報變量的可能取值的平均值。事實上,它是預報變量的可能取值的平均值。這些問題也使用于其他問題。這些問題也使用于其他問題。涉及到統(tǒng)計的一些思想:涉及到統(tǒng)計的一些思想:模型適用的總體;模型適用的總體;模型的時間性;模型的時間性;樣本的取值范圍對模型的影響;樣本的取值范圍對模型的影響;模型預報結果的正確理解。模型預報結果的正確理解。一般地,建立回歸模型的基本步驟為:一般地,建立回歸模型的基本步驟為:(
27、1)確定研究對象,明確哪個變量是解析變量,哪個變量是預報變量。)確定研究對象,明確哪個變量是解析變量,哪個變量是預報變量。(2)畫出確定好的解析變量和預報變量的散點圖,觀察它們之間的關系)畫出確定好的解析變量和預報變量的散點圖,觀察它們之間的關系 (如是否存在線性關系等)。(如是否存在線性關系等)。(3)由經驗確定回歸方程的類型(如我們觀察到數(shù)據(jù)呈線性關系,則選用線性)由經驗確定回歸方程的類型(如我們觀察到數(shù)據(jù)呈線性關系,則選用線性 回歸方程回歸方程y=bx+a).(4)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法)。)按一定規(guī)則估計回歸方程中的參數(shù)(如最小二乘法)。(5)得出結果后分析殘差圖是否有異常(個別數(shù)據(jù)對應殘差過大,或殘差呈現(xiàn))得出結果后分析殘差圖是否有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度校園食堂廚房設備更新及維護合作協(xié)議4篇
- 2025年中國玻璃長茶幾市場調查研究報告
- 二零二五版煤礦井巷工程安全文化建設與教育培訓承包合同范本4篇
- 安徽省二零二五版住房租賃補貼發(fā)放協(xié)議3篇
- 2025至2031年中國經編起絨布行業(yè)投資前景及策略咨詢研究報告
- 2025-2030全球物理測量儀器行業(yè)調研及趨勢分析報告
- 2025年全球及中國筆記本電腦數(shù)字鍵盤行業(yè)頭部企業(yè)市場占有率及排名調研報告
- 2025至2030年中國海關行業(yè)軟件數(shù)據(jù)監(jiān)測研究報告
- 2025年度廠房擴建項目抵押貸款協(xié)議3篇
- 二零二四年度藝術品木工制作分包協(xié)議3篇
- GB/T 45107-2024表土剝離及其再利用技術要求
- 2024-2025學年八年級上學期1月期末物理試題(含答案)
- 商場電氣設備維護勞務合同
- 2023年國家公務員錄用考試《行測》真題(行政執(zhí)法)及答案解析
- 2024智慧醫(yī)療數(shù)據(jù)字典標準值域代碼
- 年產12萬噸裝配式智能鋼結構項目可行性研究報告模板-立項備案
- 【獨家揭秘】2024年企業(yè)微信年費全解析:9大行業(yè)收費標準一覽
- 醫(yī)療器械經銷商會議
- 《±1100kV特高壓直流換流變壓器使用技術條件》
- 1-1 擁抱夢想:就這樣埋下一顆種子【2022中考作文最熱8主題押題24道 構思點撥+范文點評】
- 《風電場項目經濟評價規(guī)范》(NB-T 31085-2016)
評論
0/150
提交評論