回歸分析與方差分析_第1頁(yè)
回歸分析與方差分析_第2頁(yè)
回歸分析與方差分析_第3頁(yè)
回歸分析與方差分析_第4頁(yè)
回歸分析與方差分析_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第九章  回歸分析與方差分析9.1  回歸分析 “回歸”(英文“regression”)是由英國(guó)著名生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓(Galton)在研究人類遺傳問(wèn)題時(shí)提出來(lái)的.為了研究父代與子代身高的關(guān)系,高爾頓搜集了1078對(duì)父親及其兒子的身高數(shù)據(jù).他發(fā)現(xiàn)這些數(shù)據(jù)的散點(diǎn)圖大致呈直線狀態(tài),也就是說(shuō),總的趨勢(shì)是父親的身高增加時(shí),兒子的身高也傾向于增加.但是,高爾頓對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行了深入的分析,發(fā)現(xiàn)了一個(gè)很有趣的現(xiàn)象回歸效應(yīng).因?yàn)楫?dāng)父親高于平均身高時(shí),他們的兒子身高比他更高的概率要小于比他更矮的概率;父親矮于平均身高時(shí),他們的兒子身高比他更矮的概率要小于比他更高的概率.它反映

2、了一個(gè)規(guī)律,即這兩種身高父親的兒子的身高,有向他們父輩的平均身高回歸的趨勢(shì).對(duì)于這個(gè)一般結(jié)論的解釋是:大自然具有一種約束力,使人類身高的分布相對(duì)穩(wěn)定而不產(chǎn)生兩極分化,這就是所謂的回歸效應(yīng)。高爾頓依試驗(yàn)數(shù)據(jù)還推算出兒子身高()與父親身高()的關(guān)系式它代表的是一條直線稱為回歸直線,并把相應(yīng)的統(tǒng)計(jì)分析稱為回歸分析.對(duì)于其它能反映變量相關(guān)關(guān)系中具有回歸效應(yīng)的現(xiàn)象分析,回歸一詞得以沿用.但是,上式僅反映了變量相關(guān)關(guān)系的一種特殊情況,對(duì)于更多的相關(guān)關(guān)系,特別是涉及多個(gè)變量的情況,并非如此.將對(duì)應(yīng)的相關(guān)分析,都稱為回歸分析,不一定恰當(dāng).可是,這個(gè)詞卻一直沿用下來(lái).   

3、0;   一元線性回歸設(shè)變量和之間存在著相關(guān)關(guān)系,其中是可以精確測(cè)量或可控制的變量(非隨機(jī)變量),是一個(gè)隨機(jī)變量.假定和存在著線性相關(guān)關(guān)系.先看一個(gè)例子.例考察某種化工原料在水中的溶解度與溫度的關(guān)系,共作了9組試驗(yàn).其數(shù)據(jù)如表9.1.1所示,其中表示溶解度,表示溫度.表溫度01020304050607080溶解度14.017.521.226.129.233.340.048.054.8 圖畫(huà)出散點(diǎn)圖,見(jiàn)圖,這些點(diǎn)雖然是散亂的,但大體上散布在某條直線的周圍,即是說(shuō)溫度與溶解度之間大致呈現(xiàn)線性關(guān)系其中不是的實(shí)際值,是估計(jì)值.一般地,用線性函數(shù)來(lái)估計(jì)的數(shù)學(xué)期望的問(wèn)題,稱為

4、一元線性回歸問(wèn)題.稱方程                                     ()            &#

5、160;                    為的關(guān)于的線性回歸方程.稱斜率為回歸系數(shù).對(duì)于的每個(gè)值,設(shè)                         &#

6、160;          ()           或,    其中是與無(wú)關(guān)的常數(shù).對(duì)于已知數(shù)據(jù),用最小二乘法來(lái)估計(jì)和,有離差平方和                    

7、60;                          ()                        

8、    為了使取得最小值,將分別對(duì)和求偏導(dǎo)數(shù),并令它們等于零,得                                      ()    

9、;             或者寫(xiě)成                              ()       

10、60;       由于                                           ()

11、60;                                                   &

12、#160;     ()              則()式可以寫(xiě)作                      ()        

13、;      方程組()稱為正規(guī)方程組.因?yàn)?不完全相同,所以方程組()的系數(shù)行列式         大于零,故方程組()有唯一的一組解                 ()           記 

14、              ()                ()                      

15、0;     ()           分別稱和為和的離差平方和,稱為和 的離差乘積和.則有                               

16、60;             ()            將()代入到回歸方程(9.1.1)中,則得到經(jīng)驗(yàn)回歸方程                     &

17、#160;                        ()            ()式中的 與(9.1.1)式中的不同,由理論回歸方程(9.1.1)所確定的對(duì)應(yīng)于數(shù)值的隨機(jī)變量的數(shù)學(xué)期望,而是由經(jīng)驗(yàn)回歸方程(9.1.14) 所確定的對(duì)應(yīng)于數(shù)值的

18、隨機(jī)變量的數(shù)學(xué)期望的估計(jì),它將會(huì)隨著觀測(cè)值的不同而變化.稱為回歸值.在直角坐標(biāo)系中,方程(9.1.14)是一條直線,因此稱為經(jīng)驗(yàn)回歸直線.         將代入()式中,可得                             

19、60;      ()            此式表明,對(duì)于一組觀測(cè)值,,經(jīng)驗(yàn)回歸直線()通過(guò)散點(diǎn)圖的幾何中心.  例  求例9.1.1中 溶解度關(guān)于溫度的線性回歸方程.解:由表表1234567890102030405060708014.017.521.226.129.233.340.048.054.8010040090016002500360049006400017542478311681665

20、240033604384196.00306.25449.44681.21852.641108.891600.002304.003003.04360284.1204001435910501.47=9,代入()、(9.1.11)和(9.1.13)式算得,          6000  29951533.38  0.4992    11.599由()式得所求的線性經(jīng)驗(yàn)回歸方程為       &

21、#160; 11.599+0.4992    從這個(gè)經(jīng)驗(yàn)回歸方程,我們能夠看到,溫度每上升1個(gè)單位(),溶解度將增加0.4992.一般來(lái)說(shuō),一個(gè)經(jīng)驗(yàn)回歸方程是不是真正描述了兩個(gè)變量之間的關(guān)系,可以根據(jù)實(shí)踐來(lái)檢驗(yàn),從問(wèn)題的專業(yè)知識(shí)角度來(lái)分析.當(dāng)然從數(shù)理統(tǒng)計(jì)的角度也有一些檢驗(yàn)的方法.  一元線性回歸的假設(shè)檢驗(yàn) 對(duì)于給出的一組觀測(cè)值()(),在利用最小二乘法得到經(jīng)驗(yàn)回歸方程之后,還要討論下列問(wèn)題:經(jīng)驗(yàn)回歸方程  作為的估計(jì)其效果是否好?如果答案是否定的,()式不能使用;如果答案是肯定的,則相關(guān)的密切程度如何?如果(9.1.14)有意義,怎樣用它來(lái)進(jìn)行

22、預(yù)測(cè)和控制? 為了判斷回歸方程()是否有意義,我們應(yīng)該檢驗(yàn)線性回歸效果是否顯著,或者說(shuō)檢驗(yàn)變量與之間是否存在線性相關(guān)關(guān)系,即是否基本上隨著的增大而線性地增大(或線性地減?。?為此,應(yīng)當(dāng)考察相關(guān)系數(shù)假設(shè)檢驗(yàn).相關(guān)系數(shù)是表示隨機(jī)變量與自變量之間相關(guān)程度的一個(gè)數(shù)字特征.因此,要檢驗(yàn)變量與變量之間線性相關(guān)關(guān)系是否顯著,確定與之間線性相關(guān)關(guān)系的密切程度,應(yīng)當(dāng)考查相關(guān)系數(shù)的大小.在相關(guān)系數(shù)未知的情況下,利用樣本觀測(cè)值()()確定樣本相關(guān)系數(shù)(記作).考察觀測(cè)值 ,個(gè)觀測(cè)值離差平方和           &#

23、160;                        ()              它反映了觀測(cè)值總的分散程度.若記         &

24、#160;         ()則有     =                                     

25、;             由()式及(9.1.4)式,有=                   所以      ()             

26、60;        令()式中                                      ()    

27、                                        ()            則

28、                                 ()      稱為回歸平方和,是總離差中由于與的線性關(guān)系而引起變化的部分,它反映了回歸值的分散程度,可以通過(guò)控制而掌握. 稱為剩余平方和,這個(gè)量是()式中所給出的離差平方和

29、中的最小值,它反映了觀測(cè)值 ()偏離經(jīng)驗(yàn)回歸直線的程度,這種偏離是由于觀測(cè)誤差等隨機(jī)因素造成的.                                             &#

30、160;                                    ()              

31、;                                                    &#

32、160;             ()                回歸效果的好壞取決于及的大小,取決于在總離差平方和中的比重,比重越大,回歸效果越好.則相關(guān)系數(shù)              

33、0;                  ()                                 

34、                      ()           作為相關(guān)系數(shù)的估計(jì)值.由()式及(9.1.24)式得與的關(guān)系              &

35、#160;                                 ()            或    

36、60;                                       ()            

37、;                                                  

38、;                                                  

39、;                                                   

40、60;                      ()                           &

41、#160;                                                  

42、               ()            由于是總離差平方和中的一部分,而又不能為負(fù),因此,可以推出 ,從而,即.當(dāng)時(shí),表明變量與線性相關(guān).此時(shí),在散點(diǎn)圖上,所有的觀測(cè)點(diǎn)全部在同一條直線上.當(dāng)時(shí),表明變量完全不與發(fā)生關(guān)系.此時(shí),變量與之間不存在線性關(guān)系.一般有兩種情況,一是變量與之間的變化的確不存在任何統(tǒng)計(jì)規(guī)律性,它們的觀測(cè)值在散點(diǎn)

43、圖上的分布是完全不規(guī)則的.二是變量與之間雖然不存在線性相關(guān)關(guān)系,但可能存在其它種類的相關(guān)關(guān)系.當(dāng)比較大時(shí),表明變量與之間的線性相關(guān)關(guān)系比較密切,此時(shí),它們的觀測(cè)值在散點(diǎn)圖上的分布與回歸直線比較接近.當(dāng)比較小時(shí),表明變量與之間的線性相關(guān)關(guān)系不密切,在散點(diǎn)圖上,諸觀測(cè)點(diǎn)離回歸直線比較疏遠(yuǎn).由()式可知,當(dāng)時(shí),表明用已知觀測(cè)點(diǎn)配出的回歸直線的斜率為正,變量與大致是按正比例變化的,此時(shí)稱與為正相關(guān).反之,當(dāng)時(shí),變量與大致是按反比例變化的,此時(shí)稱與為負(fù)相關(guān).由此可見(jiàn),的大小可以衡量與之間是否有線性相關(guān)關(guān)系,而且越大,線性相關(guān)關(guān)系越顯著,回歸效果就越好.為了檢驗(yàn)變量與之間的線性相關(guān)關(guān)系是否顯著,我們檢驗(yàn)假

44、設(shè)                                       ()           &#

45、160;   是否成立.究竟應(yīng)當(dāng)多大,才能認(rèn)為隨機(jī)變量與之間的線性相關(guān)關(guān)系顯著呢?回歸平方和的自由度等于1,剩余離差平方和的自由度為,則為變量,所以可用                                     &#

46、160;    ()則有                          ()            對(duì)于給定的顯著性水平,不難由算出相關(guān)系數(shù)的臨界值,并且僅依賴于自由度.本書(shū)給出附表:相關(guān)系數(shù)臨界值表.所以

47、,先由觀測(cè)數(shù)據(jù)計(jì)算出樣本相關(guān)系數(shù),并從附表:相關(guān)系數(shù)臨界值表中查出臨界值,若,則我們拒絕假設(shè)         也就是說(shuō),即兩個(gè)變量之間線性相關(guān)關(guān)系是顯著的.反之,若,則接受假設(shè) ,即, 說(shuō)明兩個(gè)變量之間線性相關(guān)關(guān)系不顯著.一般地,當(dāng)時(shí),則認(rèn)為變量與之間的線性相關(guān)關(guān)系不顯著,或者不存在線性相關(guān)關(guān)系;當(dāng)時(shí),則認(rèn)為變量與之間的線性相關(guān)關(guān)系顯著;當(dāng)時(shí),則認(rèn)為變量與之間的線性相關(guān)關(guān)系特別顯著.例  本章例9.1.1,利用相關(guān)系數(shù)的顯著性檢驗(yàn)來(lái)檢驗(yàn)溶解度與溫度之間的線性相關(guān)關(guān)系是否顯著.解:由例已知6000 

48、; ,2995 ,1533.38 按()式,得 0.987查附表:相關(guān)系數(shù)臨界值表,當(dāng)=9時(shí),        0.666,  0.798因?yàn)椋赃@種化工原料在水中溶解度與溫度之間的線性相關(guān)關(guān)系特別顯著.這與例中分析的結(jié)論是一致的.綜上所述,討論兩個(gè)變量與之間的線性回歸問(wèn)題,一般步驟,.首先根據(jù)觀測(cè)值按公式()、(9.1.11)、(9.1.12)計(jì)算,及,再按公式(9.1.25)計(jì)算樣本相關(guān)系數(shù)的值,查閱相關(guān)系數(shù)臨界值表,得到相關(guān)系數(shù)的臨界值,并以此來(lái)推斷隨機(jī)變量與之間的線性相關(guān)關(guān)系是否顯著.如果變量與之

49、間的線性相關(guān)關(guān)系顯著則可按公式()計(jì)算及值,代入方程(9.1.14),即得變量關(guān)于的經(jīng)驗(yàn)回歸方程,它大致地描述了變量與之間的變化規(guī)律.       利用一元線性回歸方程進(jìn)行預(yù)測(cè)和控制如果隨機(jī)變量 與變量之間的線性相關(guān)關(guān)系顯著,則利用觀測(cè)值()()求出經(jīng)驗(yàn)回歸方程     大致反映了變量 與變量之間的變化規(guī)律.但是,由于它們之間的關(guān)系不是確定性的,所以對(duì)于的任一給定值,由經(jīng)驗(yàn)回歸方程只能得到相應(yīng)的的估計(jì)值        

50、0;                             ()         我們須要對(duì)于給定的置信度,確定的置信區(qū)間,稱為預(yù)測(cè)區(qū)間.即尋找一個(gè)正數(shù),使得估計(jì)值以的置信度落在區(qū)間內(nèi),這就是預(yù)測(cè)問(wèn)題.假設(shè)  

51、;                             ()            有           

52、;                  ()           將代入()式,可得                    

53、;      ()           由()式,則有                                  

54、0;                                ()            可見(jiàn),以作為 的點(diǎn)估計(jì)是無(wú)偏估計(jì).由()式及(9.1.35)式,有 

55、60;            由于服從正態(tài)分布,且是的無(wú)偏估計(jì),則有          并可導(dǎo)出            則有              

56、0;             ()            由于與相互獨(dú)立,因而與獨(dú)立.若記                        &

57、#160;                    ()          則有                    &

58、#160;           ()          以及                              

59、                               ()            所以        

60、                                 ()            可以證明與相互獨(dú)立,從而    &#

61、160;                            ()           即                        ()           (其中)于是可以得到的置信區(qū)間,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論