版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第2章 回歸分析與相關(guān)分析回歸分析與相關(guān)分析 (Regression analysis and correlation analysis)2.1 回歸與相關(guān)2.3 協(xié)方差分析2.4 多元線性回歸2.2 簡單回歸復(fù)習(xí)與提高2.5 通徑分析與偏相關(guān)分析2.6 邏輯(logistic )回歸2.1 回歸與相關(guān) 在生物科學(xué)研究中,經(jīng)常會遇到探討共處于一個統(tǒng)一體中變量之間的關(guān)系問題,其目的就是想了解變量之間是否有因果關(guān)系或相關(guān)關(guān)系。系統(tǒng)中變量之間相依關(guān)系因果關(guān)系相關(guān)關(guān)系回歸分析相關(guān)分析對于變量之間的因果關(guān)系,統(tǒng)計(jì)學(xué)的任務(wù)是查明因果關(guān)系是否存在,若存在,判定強(qiáng)弱,并找出揭示這種關(guān)系的模型,用于預(yù)測、控制、
2、優(yōu)化。對于相關(guān)關(guān)系(又叫相依關(guān)系),統(tǒng)計(jì)學(xué)的任務(wù)是找出刻畫這種關(guān)系強(qiáng)弱的指標(biāo),并用于判定這種關(guān)系存在性及強(qiáng)弱。前者就是回歸分析,后者就是相關(guān)分析。 2.相關(guān)關(guān)系相關(guān)關(guān)系。相關(guān)關(guān)系又叫相依關(guān)系這種關(guān)系就稱為的概率分布與之對應(yīng),有關(guān)的變量,總有一個與的一個給定值之對應(yīng),同樣對于變量的概率分布與有關(guān)的變量,總有一個與一個取值的變量嚴(yán)格語言來講就是給定由一個確定另一個。用既相互依賴,又不能與變量相關(guān)關(guān)系通俗的說是指XyyYYxxXYX0000如人的血壓Y與年齡X之間的關(guān)系,一般來說,年齡越大血壓越高,但年齡相同的兩個人的血壓不一定相等。又如某農(nóng)作物的畝產(chǎn)量Y與施肥量X之間有一定的關(guān)系,但施肥量相同,畝
3、產(chǎn)量卻不一定相同。這樣的例子在實(shí)際中舉不甚舉。相關(guān)關(guān)系是兩個隨機(jī)變量之間的平行關(guān)系,它們要么互為因果,要么具有共同的因。相關(guān)關(guān)系概念3相關(guān)關(guān)系度量指標(biāo)相關(guān)關(guān)系度量指標(biāo)niiniiniiiXYnnXYyyxxyyxxryxyxyxYXYDXDYXCov121212211)()()(),( ,),(),(),()()(),(的估計(jì)量為,不難證明相關(guān)系數(shù)的簡單隨機(jī)樣本為如果抽自總體相關(guān)性指標(biāo)。這里僅介紹常用的線性點(diǎn)。前仍是統(tǒng)計(jì)學(xué)研究的熱相關(guān)關(guān)系的度量指標(biāo)目關(guān)于統(tǒng)計(jì)中一個基本問題,相關(guān)關(guān)系的度量是數(shù)理4線性相關(guān)關(guān)系檢驗(yàn)相關(guān)關(guān)系檢驗(yàn))2()2()2()2()2/()1 ()2()2()2/()1 (),
4、(0:; 0:22/2/2/22/2000ntnntrPntnrrPntntnrrHYXHHXYXY使得,可找到于是,對于給定證明成立,可以如果服從正態(tài)分布條件下,在5,反之接受。,否定滿足的實(shí)現(xiàn)如果于是有,其值編表于附表。令00022/2/)2()2()2()2()2()2(HnrrrrnrrPntnntnr例題 設(shè)從某油松林地隨機(jī)抽測10塊樣地,測得林地林木平均高X與木材蓄積量Y如下表所示,試檢驗(yàn)X與Y的線性相關(guān)關(guān)系強(qiáng)弱。 X20222426283032343638Y314376436495585615671733755835765. 0)8(996. 0)()()(05. 0101210
5、12101ryyxxyyxxriiiiiii解:62/2/0103/1)31,(),(011ln21011ln21011ln21011ln21:;:unZPunNZHYXrrrrrrZHHZZZXYXY使得,可找到于是,對于給定證明成立,可以如果服從正態(tài)分布條件下,在,令7置信區(qū)間為:的間相關(guān)系數(shù)與變量區(qū)間估計(jì)??梢缘孟嚓P(guān)系數(shù)同時(shí),利用上述結(jié)論還;反之,接受,拒絕所以,如果%100)1 (.3/1002/XYXYZYXHHunZ011,11011,11)31(2)31(2)31(2)31(2)31(2)31(2)31(2)31(22/2/2/2/2/2/2/2/zeeeezeeeenuznuz
6、nuznuznuznuznuznuz8例題 設(shè)從某油松林地隨機(jī)抽測10塊樣地,測得林地林木平均高X與木材蓄積量Y如下表所示,試檢驗(yàn)X與Y的線性相關(guān)關(guān)系是否可認(rèn)為是0.99,并給出其95%置信區(qū)間。 置信區(qū)間為的數(shù),并且相關(guān)系相關(guān)系數(shù)為與所以,可以認(rèn)為,從而有解:95%99. 096. 1 96. 1216. 13/16467. 299. 0199. 01ln211063. 3996. 01996. 01ln21996. 02/05. 02/05. 0XYzzYXuzunzzr9991. 0 ,9825. 011,11)31(2)31(2)31(2)31(22/2/2/2/nuznuznuznu
7、zeeee9回歸關(guān)系與回歸分析回歸關(guān)系回歸關(guān)系在相關(guān)關(guān)系中,如果關(guān)心的是容易測定或控制變量X對變量Y的決定作用大小,將X看成一個普通變量,這時(shí)變量X與Y之間就成為回歸關(guān)系?;貧w模型回歸模型如果普通變量x與隨機(jī)變量Y具有回歸關(guān)系,則Y除過受變量x的作用以外,還受到控制不嚴(yán)格和未知因素的作用。所以,x與Y應(yīng)滿足關(guān)系式)(xgY。隨機(jī)誤差,一般的干擾作用。稱為意外因素對隨機(jī)變量反映了數(shù),回歸函決定作用的大小,稱為對隨機(jī)變量反映了變量的回歸模型。其中對普通變量該式稱為隨機(jī)變量2)(, 0)()(DEYxYxxgxY10對于回歸模型,顯然有2)(),()(YDxgxYE的回歸方程。對普通變量,稱為隨機(jī)變
8、量令xYxgy)(Yx回歸方程反映了因變量回歸方程反映了因變量 隨自變量隨自變量 的變化而變化的變化而變化的平的平均變化情況均變化情況。xy()fy x1x2x3x()E Y x下圖展示:觀地用之間的回歸關(guān)系,可直對普通變量隨機(jī)變量xY11回歸模型分類回歸模型分類曲線回歸模型。則稱回歸模型為是變量的非線性函數(shù),模型;如果稱回歸模型為線性回歸是變量的線性函數(shù),則如果元回歸模型。為維向量,則稱回歸模型是如果模型為一元回歸模型是一個變量,則稱回歸如果)()(;xgxgkkxx回歸分析回歸分析研究一個隨機(jī)變量與一個或幾個可控變量之間回歸關(guān)系,從而找出回歸關(guān)系的模型,用于預(yù)測、優(yōu)化和控制,這種統(tǒng)計(jì)方法稱
9、為回歸分析?;貧w分析主要解決三個問題:提供建立具有回歸關(guān)系的變量之間的數(shù)學(xué)關(guān)系式(稱為經(jīng)驗(yàn)公式)的一般方法;判別所建立的經(jīng)驗(yàn)公式是否有效,并從影響隨機(jī)變量的諸變量中判別哪些變量的影響是顯著的,哪些是不顯著;利用所得到的經(jīng)驗(yàn)公式進(jìn)行預(yù)測和控制。122.2 簡單回歸復(fù)習(xí)與提高一元線性回歸模型一元線性回歸模型一元線性回歸模型:下列關(guān)系式,并稱其為的取值,它們滿足不能唯一確定的變化而變化,但的取值隨共處同一系統(tǒng)中,與隨機(jī)變量設(shè)普通變量YxxYYxxY10誤差。的隨機(jī)變量,稱為隨機(jī)為服從系數(shù);為未知常數(shù),稱為回歸,其中), 0(210N回歸模型,顯然有:,稱其為回歸方程。由令xy10),(21010 x
10、NxY能唯一確定。的取值,而不只能影響隨機(jī)變量變化情況,說明變量的的數(shù)學(xué)期望隨映了隨機(jī)變量不難看出:回歸方程反YxxY13一元線性經(jīng)驗(yàn)回歸方程及其建立一元線性經(jīng)驗(yàn)回歸方程及其建立各對象觀測的樣本:中隨機(jī)抽取性回歸模型。從該系統(tǒng)滿足一元線與隨機(jī)變量通變量設(shè)共處同一系統(tǒng)中的普nYx),( ,),( ,),(),(2211nniiyxyxyxyx為經(jīng)驗(yàn)回歸系數(shù)。其為經(jīng)驗(yàn)回歸方程,稱。稱的估計(jì)式就可以得到回歸方程,那么,的估計(jì)回歸系數(shù)如果能由樣本出發(fā)建立1010101010,xyxy。值影響。以后將簡其為以外因素對變量反映變量稱為剩余離差平方和,其中QYxxyQQniii12101010),(10)(
11、),(),(minarg),(10最小二乘法最小二乘法( (The least square method) )14稱正規(guī)方程組0)(20)(211011100niiiiniiixxyQxyQxyxxyyxxniiniii101211)()(化簡求解正規(guī)方程組得niiniiynyxnx111,1其中15.,.21,11,11)(,)yy(,)(10122211212xyLLQnLnSLnSyyxxLLxxLxxxyyyyxxxniiixyniiyyniixx則經(jīng)驗(yàn)回歸系數(shù)為令最小二乘法估計(jì)量的統(tǒng)計(jì)性質(zhì)最小二乘法估計(jì)量的統(tǒng)計(jì)性質(zhì)由于樣本),( ,),( ,),(),(2211nniiyxyxyx
12、yx滿足回歸模型,從而一定有),(,21021inixNyyyy獨(dú)立同分布于niiixxniixxiniiixxyxxLxyxyyLxxyyxxL110111)()()(116所以,又正態(tài)分布的性質(zhì)有:)1,(),(2200211xxxxLxnNLN進(jìn)而有)(11,()(1,(221010221010 xxiiiiixxiiiiLxxnxNxyLxxnxNxy17一元線性回歸有關(guān)檢驗(yàn)一元線性回歸有關(guān)檢驗(yàn)離差平和分解離差平和分解xxniiniiLyxxyyyU2112112)()(回歸離差平方和ULLLLLLxxyyyyQyyxxyyxyxxyyniiiniii21121121122)()(剩余
13、離差平方和。,其中相應(yīng)自由度分解為:式為:從而,離差平方和分解2, 1, 1nffnffffQULQUyyQUyyyy18回歸顯著性檢驗(yàn)回歸顯著性檢驗(yàn)).2(/) 1 (/,. 0:; 0:222201110nQUQUHYxHHYx,相互獨(dú)立,且與明成立條件下,可以證滿足線性回歸模型,在變量驗(yàn)統(tǒng)計(jì)假設(shè)線性回歸關(guān)系就是要檢是否客觀存在與隨機(jī)變量量共處同一系統(tǒng)中普通變F檢驗(yàn)檢驗(yàn).)2, 1 ()2, 1 ()2/(00HnFFnFnQUFH,拒絕下,如果于是,在檢驗(yàn)水平成立,則有:如果T檢驗(yàn)檢驗(yàn).)2()2()2(/02/10HntTntLnQTHxx,拒絕下,如果于是,在檢驗(yàn)水平成立,則有:如果
14、19相關(guān)系數(shù)相關(guān)系數(shù)檢驗(yàn)檢驗(yàn)yyxxyyxxxxxyyyxxxyLLLLLLLLLr1,顯然有:由樣本相關(guān)系數(shù)定義式。,否定判定:如果;查相關(guān)系數(shù)檢驗(yàn)臨界值;計(jì)算樣本相關(guān)系數(shù)具體做法如下:系數(shù)檢驗(yàn)統(tǒng)計(jì)假設(shè)所以,可以用樣本相關(guān)010)2()3()2()2() 1 (. 0:HnrrnrrH截距檢驗(yàn)截距檢驗(yàn)區(qū)間估計(jì)。被拒絕時(shí),構(gòu)造是否過原點(diǎn);其二是在定回歸于兩個目的:其一是判之所以進(jìn)行該檢驗(yàn),基。統(tǒng)計(jì)假設(shè)所謂截距檢驗(yàn)就是檢驗(yàn)0000000:; 0:HHH20.)2()2(1)2(02/200HntTntLxnnQTHxx,拒絕下,如果于是,在檢驗(yàn)水平成立,則有:如果xxLxnnQnt220012)
15、2(%100)1 (置信區(qū)間為:的這時(shí),回歸線的截距21例 為了研究大豆脂肪含量 和蛋白質(zhì)含量 的關(guān)系,測定了10種大豆品種籽粒內(nèi)的脂肪含量和蛋白質(zhì)含量,得到如下數(shù)據(jù)。分別兩組觀測數(shù)據(jù)建立蛋白質(zhì)含量對脂肪含量的回歸方程。xy15.416.317.518.920.021.022.815.817.919.142.4142.6141.3139.6439.7337.3735.3342.4839.3339.9243.1943.7345.3140.7641.1735.1335.7041.8642.3738.07ixiy1iy222*10101210 121019568. 095. 056.579568.
16、095. 056.570661.488686.49601.502703.1606001.3462335.7342013.4047.18rxyrLLLyxyxyxyxxyyyxxiiiiiii立的經(jīng)驗(yàn)回歸方程為所以,由第一組數(shù)據(jù)建具有線性回歸關(guān)系與知解:由第一數(shù)據(jù)散點(diǎn)圖*108190. 017. 141.628190. 017. 141.623943.599255.103601.50rxyrLLLyxxyyyxx立的經(jīng)驗(yàn)回歸方程為所以,由第一組數(shù)據(jù)建具有線性回歸關(guān)系與由第二數(shù)據(jù)散點(diǎn)圖知23回歸直回歸直線間與相關(guān)系數(shù)間比較線間與相關(guān)系數(shù)間比較兩條回歸直線間比較兩條回歸直線間比較在生物科學(xué)研究中,人
17、們經(jīng)常要了解物種之間是否存在共同生物學(xué)基礎(chǔ)。這種問題的探討是以回歸線的比較為基本工具?;貧w線比較包括平行檢驗(yàn)、共截距檢驗(yàn)、重合檢驗(yàn)等。平行平行檢驗(yàn)檢驗(yàn)iijijiiijnjixy, 2 , 1; 2 , 110設(shè)有線性回歸模型iijiiijnjixy, 2 , 1; 2 , 110建立的經(jīng)驗(yàn)回歸線為2111121110:;:HH假設(shè)平行檢驗(yàn)就是檢驗(yàn)統(tǒng)計(jì)相互獨(dú)立。假設(shè)已知由線性回歸模型的基本2111222121121111,),(),(xxxxLNLN24.;)4()4()4()4(114:)11,(002122122122121212121112111022121112111HHnntTnnt
18、TPnntnntLLnnQQTHLLNxxxxxxxx反之,接受拒絕所以,如果使得,能找到率從而,對于給定的小概成立,則有如果知于是,有正態(tài)分布性質(zhì)25共截距共截距檢驗(yàn)檢驗(yàn)2010120100:;:HH計(jì)假設(shè)共截距檢驗(yàn)就是檢驗(yàn)統(tǒng)相互獨(dú)立。假設(shè)已知由線性回歸模型的基本2010222222020212111010,)1,()1,(xxxxLxnNLxnN)11,(22221212120102010 xxxxLxLxnnN知于是,有正態(tài)分布性質(zhì))4(114:21222121212121201020100nntLxLxnnnnQQTHxxxx成立,則有如果26.;)4()4()4(0021221221
19、2HHnntTnntTPnnt反之,接受拒絕所以,如果使得,能找到率從而,對于給定的小概重合重合檢驗(yàn)檢驗(yàn)所謂回歸線重合檢驗(yàn)就是在平行檢驗(yàn)接受平行的情況下,兩回歸線合并估計(jì)斜率,在進(jìn)行共截距檢驗(yàn)。201012010021110:;:HHH,在檢驗(yàn)統(tǒng)計(jì)假設(shè):率估計(jì)檢驗(yàn)回歸線公共斜,先合并統(tǒng)計(jì)假設(shè)重合檢驗(yàn)就是已經(jīng)接受共27相互不獨(dú)立。假設(shè)已知由線性回歸模型的基本201022122220202212111010,)1,()1,(xxxxxxxxLLxnNLLxnN)(11,(2212212120102010 xxxxLLxxnnN知于是,有正態(tài)分布性質(zhì)。斜率,公共斜率估計(jì)為有公共,那么,兩條回歸線就接
20、受統(tǒng)計(jì)假設(shè)共共iiixxxxxyxyxyLLLLH,:021212111028.;) 3() 3() 3(),() 3()(113:0021221221221212122121212212121201020100HHnntTnntTPnntLLLLLLLLQnntLLxxnnnnQTHxxxxxyxyxxxxyyyyxxxx反之,接受拒絕所以,如果,使得,能找到率從而,對于給定的小概。其中成立,則有如果共共平平29例 對由兩組觀測數(shù)據(jù)建立蛋白質(zhì)含量對脂肪含量的回歸線進(jìn)行比較。95. 056.570661.48,8686.49,601.501110111xyyyxxLLL解:由第一樣本數(shù)據(jù)知17
21、. 1,41.623943.59,9255.103,601.502120222xyyyxxLLL由第二樣本數(shù)據(jù)知4168.1733943.5917. 19255.1035314.9595. 00661.488686.49:;:22122111112111121110 xyyyxyyyLLQLLQHH建立統(tǒng)計(jì)假設(shè)平行檢驗(yàn)30行的。,即認(rèn)為兩回歸線是平所以,沒有理由拒絕,由于0205. 0205. 02121212111)16(120. 2)16(05. 02699. 0601.502410104168.1735314.9517. 195. 0114HtttLLnnQQTxxxx201012010
22、0:;:HH假設(shè)共截距檢驗(yàn):建立統(tǒng)計(jì)2221212121212010114xxxxLxLxnnnnQQt313198. 0601.5047.18601.5047.18102410104168.1735314.9541.6256.5722截距的。,即認(rèn)為兩回歸線是共所以,沒有理由拒絕,由于0205. 0205. 0)16(120. 2)16(05. 0Httt.:;:201012010021110HHH假設(shè),檢驗(yàn)統(tǒng)計(jì)計(jì)假設(shè)重合檢驗(yàn):已經(jīng)接受統(tǒng)線重合。,即可以認(rèn)為兩條回歸接受,共平共0205. 02122120102121,110. 2)17(0478. 16970.39)(3404.60,624
23、4.59,0618. 1HtttLLLLQLLLLxxxxyyyyxxxxxyxy32多條回歸直線間比較多條回歸直線間比較kNffnNQQnfLLQLLLyxnjkixykkiikiikiiiixxiiyyiixyiyyixxiiiiijiiij2,2,., 2 , 1;, 2 , 1111210總總本計(jì)算結(jié)如下:為討論方便,記相應(yīng)樣條經(jīng)驗(yàn)回歸線:設(shè)建立了1121110020100,:kkH重假設(shè)重合分析就是檢驗(yàn)統(tǒng)計(jì)重合重合分析分析2,2110NfLLQLLLyxkxxyyxyyyxx重重個樣本合并,計(jì)算將33。,反之,接受,則否定如果,有對于給定的小概率從而有獨(dú)立與成立下,可以證明重合分析統(tǒng)
24、計(jì)假設(shè)重重重重總總重重總總重總總重重0022220)2, 1()2, 1()2, 1() 1()(2(),2(),1(HHkNkFFkNkFFPkNkFQkQQkNFQQQkNQkQQH平行平行分析分析不全相等假設(shè)平行分析就是檢驗(yàn)統(tǒng)計(jì)平020101121110,;:kkH341, 1, 2 , 1,1211101110kfkNfLLQkixyLLHkixxikiyyiiiikixxikixyi共平平平平成立下,計(jì)算有關(guān)量:在平行分析統(tǒng)計(jì)假設(shè))2, 1() 1()(2(),2(),1(22220kNkFQkQQkNFQQQkNQkQQH總總平平總總平總總平平從而有獨(dú)立與成立下,可以證明平行分析統(tǒng)
25、計(jì)假設(shè)35。,反之,接受,則否定如果,有對于給定的小概率平平平平00)2, 1()2, 1(HHkNkFFkNkFFP共截距共截距分析分析不全相等計(jì)假設(shè)共截距分析就是檢驗(yàn)統(tǒng)共121110020100,;:kkHkixxyxNxnyHiiinjijnjijnjijijikiiii, 2 , 1,12101100成立下,計(jì)算有關(guān)量:在共截距分析統(tǒng)計(jì)假設(shè)共361, 11122021121112kfkNfxLnxyxyQkinjijxxiikinjijnjijijkinjijiiii共平共共)2, 1() 1()(2(),2(),1(22220kNkFQkQQkNFQQQkNQkQQH總總共平總總共總
26、總共共從而有獨(dú)立與成立下,可以證明共截距分析統(tǒng)計(jì)假設(shè)37。,反之,接受,則否定如果,有對于給定的小概率共共共共00)2, 1()2, 1(HHkNkFFkNkFFP注意:k條回歸線的共截距分析方法略作改進(jìn)就可以用于檢驗(yàn)k條回歸線是否過指定點(diǎn)。具體做法如下:。條回歸線不過定點(diǎn)條回歸線過定點(diǎn)建立統(tǒng)計(jì)假設(shè)過過),(:);,(:) 1 (001000yxkHyxkHiijijijijnjkiyyyxxx, 2 , 1;, 2 , 1,)2(00所有樣本點(diǎn)實(shí)施變換。條回歸線過距,則共截?fù)?jù)分析,如果共截進(jìn)行用新樣本數(shù)據(jù)),(, 2 , 1;, 2 , 1),()3(00yxknjkiyxiijij38的回
27、歸線。與比較三種肥料下,實(shí)驗(yàn)數(shù)據(jù)如下表,試并測定各樹產(chǎn)量一種肥料,第二年每組施用其中一年測定各果樹產(chǎn)量組,第棵樹,隨機(jī)分成隨機(jī)選取在基礎(chǔ)條件一致的果園產(chǎn)效果,肥料對某蘋果樹種的增例:為了比較三種yxyxAAA)kg()kg(324,321肥料測定數(shù)據(jù)(xij, yij)和平均A1 x1j 47 58 53 46 49 56 54 44 y1j 54 66 63 51 56 66 61 5040746750.87558.375A2 x2j 52 53 64 58 59 61 63 66 y2j 54 53 67 62 62 63 64 6947649459.50061.750A3 x3j 44
28、48 46 50 59 57 58 53 y3j 52 58 54 61 70 64 69 6641549451.87561.7501298145554.08360.62539三種施肥試驗(yàn)下y對x回歸線分析變異來源(1)Lx1x1(2)Ly1y1(3)Lx1y1斜率(3)/(1)截距自由度剩余離差和總剩余離差和A1A2A3180.875178.00230.875293.875223.500313.500226.375195.00257.7501.25161.09551.1164-5.2979-3.43263.836566610.55439.876425.746646.1773平行性589.75
29、0830.875675.1251.1515-0.2100-6.76712.01352048.8305重合性945.833891.625765.7500.809616.839222271.6709。樣本相關(guān)系數(shù)分別為的經(jīng)驗(yàn)回歸線為對由表知三種肥料下*1*2 0,977. 0,9819. 01164. 18365. 30955. 14326. 32516. 12979. 5rrrxyxyxyxy40歸線的平行分析。合的,進(jìn)而進(jìn)行三條回說明三條回歸線不是重三條回歸線重合分析:總總重重*6868.481773.462)1773.466709.271(20) 1()(2(QkQ
30、QkNF:的三條經(jīng)驗(yàn)回歸線應(yīng)為對的,進(jìn)而說明三條回歸線是平行三條回歸線平行分析:總總平平xyQkQQkNF5433. 08305.482)1773.468305.48(20) 1()(2()875.51(1515. 1750.611164. 18365. 3)500.59(1515. 1750.611515. 17671. 6)875.50(1515. 1375.581515. 12100. 0222211xxyxxyxxy用。與肥料可能沒有交互作樹的基礎(chǔ)產(chǎn)能而不重合,預(yù)示著蘋果有不同的截距,即平行率,而具料的三條回歸線是共斜的極顯著影響,三種肥能力受基礎(chǔ)生產(chǎn)力料內(nèi),蘋果樹的生產(chǎn)能以上分析表明
31、:每種肥xxy41兩條相關(guān)系數(shù)間比較兩條相關(guān)系數(shù)間比較在生物科學(xué)研究中,人們經(jīng)常要探討某個試驗(yàn)指標(biāo)受不同控制因素影響關(guān)系的強(qiáng)弱。這一問題在相當(dāng)普遍情況下,可以通過相關(guān)系數(shù)的比較得以解決。,經(jīng)變換:系數(shù)分別為由樣本計(jì)算的樣本相關(guān)。抽取樣本的總體從具有相關(guān)系數(shù)iinjijijiYXryxyxii;2, 1,2, 1),(),(2 , 1011ln21011ln21irrrrrrZiiiiiii)3131, 0(),(212121nnNZZYXYXYXi成立時(shí)有:如果服從正態(tài)分布條件下,在42.31313131:;:02/21212/21212/010212121HunnZZunnZZPuHHHYX
32、YXYXYXYXYX時(shí),拒絕當(dāng)樣本數(shù)據(jù)使得是否成立:列辦法檢驗(yàn)由概率原理,可以用下使得,可找到成立,對于給定于是,如果建立統(tǒng)計(jì)假設(shè)43)(3131:;:221122112121210002/212110yyyyxxxxyxyxYXYXYXYXLLLLLLrHHHunnZZHH數(shù)估計(jì)為:情況下,共同的相關(guān)系。在接受只好接受,時(shí),沒有理由拒絕當(dāng)樣本數(shù)據(jù)使得建立統(tǒng)計(jì)假設(shè)的相關(guān)系數(shù)差異。與體斜長體重和與胸圍,試比較體重,本相關(guān)系數(shù)的樣與體斜長,體重的樣本相關(guān)系數(shù)與胸圍體重頭牛的實(shí)測數(shù)據(jù)計(jì)算得,由例:在研究貴陽水牛中21*12*114551.12920,1090.17598,3974.2615,9359
33、.31526678. 08256. 039212211xyxyLLLLrxyrxyyxyxxxxx44的相關(guān)系數(shù)相等。與體斜長和體重與胸圍所以,認(rèn)為體重于是,由題設(shè)條件的相關(guān)系數(shù)相等。與體斜長和體重與胸圍解:假設(shè)體重2122121212196. 156. 1339133918068. 01742. 131318068. 06678. 016678. 01ln211742. 18256. 018256. 01ln21xyxyunnzzzzxyxy7496. 0)(2211221121yyyyxxxxyxyxLLLLLLr:共同的相關(guān)系數(shù)估計(jì)為452.3 協(xié)方差分析(Analysis of cov
34、ariance)生物科學(xué)研究試驗(yàn),大部分情況下是自然試驗(yàn),或觀測試驗(yàn)。試驗(yàn)指標(biāo)除受人們關(guān)心的、嚴(yán)格控制因素影響以外,很多情況下會受到無法控制的可測量因素指標(biāo)的影響。如果在對試驗(yàn)指標(biāo)受嚴(yán)格控制因素影響的探索試驗(yàn)中,忽視這種無法控制的可測量因素指標(biāo)對試驗(yàn)結(jié)果的作用,無疑會由試驗(yàn)數(shù)據(jù)得到虛假結(jié)論。例如前面我們介紹的蘋果樹產(chǎn)能受施肥影響的實(shí)驗(yàn)中,如果忽視蘋果樹產(chǎn)能受基礎(chǔ)產(chǎn)能影響,直接由施肥后的產(chǎn)量數(shù)據(jù)進(jìn)行方差分析,會得到下列結(jié)論:變異來源離差平房和自由度均方F肥料間60.750230.3750.7677 |t| 變量 自由度 偏回歸系數(shù) 標(biāo)準(zhǔn)誤 t值 P值Intercept 22 5.94327 2.
35、82859 2.10 0.0473 X1 22 0.14245 0.36565 0.39 0.7006X2 22 0.35147 0.20420 1.72 0.0993 X3 22 -0.27059 0.12139 -2.23 0.0363 X4 22 0.63820 0.24326 2.62 0.0155糖尿病人血糖與其他血液理化指標(biāo)回歸的偏回歸系數(shù)t檢驗(yàn)72糖尿病人血糖與其他血液理化指標(biāo)回歸的偏回歸系數(shù)F檢驗(yàn)73) 1/() 1/(nLnlbLlbbYYjjjYYjjjj 變量變量回歸系數(shù)回歸系數(shù)b bj j標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化回歸系數(shù)回歸系數(shù)b bj jljj標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差S SX1X10.142
36、450.14245 0.07758 0.0775866.010366.01031.5934 1.5934 X2X20.351470.35147 0.30931 0.30931172.3648172.36482.5748 2.5748 X3X3-0.27059-0.27059-0.33948-0.33948350.3106350.31063.6706 3.6706 X4X40.63820.6382 0.39774 0.3977486.440786.44071.8234 1.8234 Y Y222.5519222.55192.9257 2.9257 74Root MSE 反映了回歸方程的精度,其值
37、越小說明回歸效果越好。 0095. 20382. 41) 1/()(2.12,)(mnQmnYYSmYdetermination coefficient6008. 05519.2228412.8815519.2227107.13312yyyyLQLUR說明所有自變量能解釋說明所有自變量能解釋Y變化的百分比。取值變化的百分比。取值(0,1),越,越接近接近1模型擬合越好模型擬合越好75 5282. 026/5519.22222/8412.881) 1/()1/(1) 1(1)1 (122nLpnQpnnRRyyc7751. 06008. 02RRY說明所有自變量與Y間的線性相關(guān)程度。 即觀察值Y
38、與估計(jì)值之間的相關(guān)程度。如果只有一個自變量,此時(shí) Y|r|R 響考慮了自變量個數(shù)的影,22RRc761. 變量多增加了模型的復(fù)雜度2. 計(jì)算量增大3. 估計(jì)和預(yù)測的精度下降4. 模型應(yīng)用費(fèi)用增加根據(jù)一些準(zhǔn)則(criterion)建立 “最優(yōu)”回歸模型校正決定系數(shù)(考慮了自變量的個數(shù))Cp準(zhǔn)則(C即criterion,p為所選模型中變量的個數(shù);)AIC(Akaikes Information Criterion)準(zhǔn)則; 771.Cp準(zhǔn)則的計(jì)算公式準(zhǔn)則的計(jì)算公式方和。程的殘差平個自變量所建立回歸方是由全部方和,程的殘差平個自變量所建立回歸方是由其中從預(yù)測效果優(yōu)角度提出馬勒斯年pQpkkQknpnQ
39、QCkkk )()1(2) 1/()Mallows(C.L.1964對回歸方程選優(yōu)。則不宜用有顯著作用的自變量變量自變量沒有包含對響應(yīng)個。但要注意:如果全部歸方程為最優(yōu)回歸方程的回最接近,因此應(yīng)選擇的期望值是程理論上為最優(yōu)時(shí),個自變量建立的回歸方當(dāng)有pkkCypkCkCk11782. 準(zhǔn)則的計(jì)算公式準(zhǔn)則的計(jì)算公式越小越好最小二乘法給出校正公式為年需校正。時(shí),樣本量滿足當(dāng)樣本量較小,即實(shí)際變量個數(shù)。是回歸方程中自,是回歸剩余離差平方和其中提出赤池弘次年由日本學(xué)者AICn-ppnnQAICAICn/ppQpnQnAICppp)(2ln Tsai and McQuarrie199840) 1(2/l
40、n)(AkaikeHirotsugu 1973c雙向篩選 ;引入有意義的變量(前進(jìn)法),剔除無意義變量(后退法).79自變量從無到有、從少到多。 1.Y對每一個自變量作直線回歸,對回歸平方和最大的自變量作F檢驗(yàn),有意義(p?。﹦t引入。2.在此基礎(chǔ)上,計(jì)算其它自變量的偏回歸平方和,選取偏回歸平方和最大者作F檢驗(yàn),。 局限性:即后續(xù)變量的引入可能會使先進(jìn)入方程的自變量變得不重要。后退后退先將全部自變量放入方程,然后逐步剔除。 1.偏回歸平方和最小的變量,作F檢驗(yàn)及相應(yīng)的p值,決定它是否剔除(p大); 2.建立新的回歸方程。重復(fù)上述過程。 局限性:自變量高度相關(guān)時(shí),可能得不出正確的結(jié)果.80逐步回歸
41、法與前進(jìn)法、后退法有所不同,它是一種對回歸方程中自變量的雙向篩選。該方法通過先引入有意義的自變量,后剔除無意義變量這種過程的反復(fù)重復(fù),直至既沒有有意義自變量可引入回歸方程,也沒有無意義變量從回歸方程剔除為止。 15. 0,10. 010. 0,05. 0出入出入大樣本時(shí)小樣本時(shí)剔出。,自變量或自變量剔除原則:引入。,自變量或自變量引入原則:出出iiiix)p,n(FFx)p,n(FFValue-P11Value-P11入入注意:注意:入選標(biāo)準(zhǔn)愈低,能進(jìn)入模型的變量愈少。8182糖尿病人血糖與其他血液理化指標(biāo)的逐步回歸過程演示模型模型UQLyyy與與x482.714482.7144139.837
42、5139.8375222.5519222.5519y與與x169.425169.4251153.1267153.1267222.5519222.5519y與與x246.787346.7873175.7645175.7645222.5519222.5519y與與x357.913357.9133164.6386164.6386222.5519222.5519從方程中無自變量開始,選取一元回歸回歸離差平方和最大的自變量,作F 檢驗(yàn)以決定是否選入方程。X4入選83模型模型UUiQFiP-Valuey與與x482.7144 82.7144 y與與x4, x1107.7903 107.7903 25.07
43、59 25.0759 114.7615114.7615 5.24415.24410.03110.0311y與與x4, x2107.4074 107.4074 24.6931 24.6931 115.1444115.1444 5.14695.14690.03260.0326y與與x4, x3106.5683 106.5683 23.8539 23.8539 115.9836115.9836 4.93604.93600.03600.0360在第一步基礎(chǔ)上,分別引入一個尚未進(jìn)入方程的自變量,選引入后回歸離差平方和最大者;對已進(jìn)入回歸方程的自變量檢驗(yàn)偏回歸顯著性,從而確定是否要剔除自變量。模型模型UU
44、iQFiP-Valuey與與x169.425138.3652 8.02330.0085y與與x482.7144 25.07595.24410.0311y與與x4, x1107.7903 114.7615剔出x1x1入選84在第二步基礎(chǔ)上,重復(fù)第二步的過程。模型模型UUiQFiP-Valuey與與x4,x1107.7903 y與與x4,x1,x2113.6472 5.8569y與與x4,x1,x3121.7480 13.9897 100.80383.18470.0875變變量量模型模型UUiQFiP-Valuey與與x4,1,3121.7480 100.804x1 1y與與x4,3106.568
45、315.1797 3.46350.0756x3y與與x4,1107.7903 13.9577 3.1847 0.0870 x4y與與x1,31,394.202627.5454 6.2849 0.0197剔出x3x3入選85在第三步基礎(chǔ)上,重復(fù)第二步的過程。模型模型UUiQFiP-Valuey與與x4,1,3,2133.710711.9627 88.84122.9624 0.099y與與x4,1,3121.7480 變變量量模型模型UUiQFiP-Valuey與與x4,1,3,2133.7107 88.8412 x2 2y與與x4,1,3 121.7480 11.9627 x1 1y與與x4,3
46、,2133.0978 0.6129 0.1518 0.7006 x3 3y與與x4,1,24,1,2113.6472 20.0635 x4y與與x1,3 ,21,3 ,2105.9167 27.7940 剔出x1x2入選86在第四步基礎(chǔ)上,檢驗(yàn)是否還有自變量需要剔出。變量變量模型模型UUiQFiP-Valuey與與x4,3,2133.0978 89.4540 x4 4y與與x3,2100.8292 32.2686 x3 3y與與x4,2107.4074 25.6904 6.6054 0.0171 x2 2y與與x4,3106.5683 26.5295 沒有可剔出的變量了4326632.0287
47、1.04023.04996.6xxxy最優(yōu)經(jīng)驗(yàn)回歸方程為變異來源變異來源自由度自由度SSMSFP-Value回歸3133.09844.36611.41*0.0001*殘差2389.4543.889總變異26222.551987觀察個體數(shù)n與變量個數(shù)m的比例一般至少應(yīng)為:n /m5108800000000a. 二元正態(tài)b. y的標(biāo)準(zhǔn)差隨x遞增c. y關(guān)于x的回歸是非線性的d. 非線性,且方差不等yyyyyyyyyyyyxxxxxxx89殘殘差標(biāo)準(zhǔn)差殘差標(biāo)準(zhǔn)化殘差:MSepnQYYeiiii) 1/(一般,觀測點(diǎn)的標(biāo)準(zhǔn)化殘差絕對值大于一般,觀測點(diǎn)的標(biāo)準(zhǔn)化殘差絕對值大于2,就認(rèn)為該,就認(rèn)為該觀測點(diǎn)為
48、觀測點(diǎn)為異常點(diǎn)異常點(diǎn)(outlier也稱離群值也稱離群值) 多元線性回歸中,若自變量間存在較強(qiáng)的線性相關(guān)關(guān)系,使一個或幾個自變量可以由另外的自變量線性表示時(shí),則稱自變量間存在有復(fù)共線性(Multi-Colinearity)。復(fù)共線性的存在,可使得回歸系數(shù)最小二乘估計(jì)方差加大,回歸系數(shù)估計(jì)穩(wěn)定性差,有時(shí)甚至?xí)?yán)重背離實(shí)際情況,結(jié)果分析困難。90),N(xxy,xxy1032102121的回歸線性模型為對設(shè)一系統(tǒng)中,現(xiàn)從該系統(tǒng)中,隨機(jī)抽取10個個體,觀測數(shù)據(jù)如下。試就這些數(shù)據(jù)建立經(jīng)驗(yàn)回歸方程,并比較經(jīng)驗(yàn)回歸系數(shù)與其理論值。 x11.11.41.71.71.81.81.92.02.32.4x21.1
49、1.51.81.71.91.81.82.12.42.5y16.316.819.218.019.520.921.120.920.322.0.986. 0,292.11591. 6307.1185. 5504. 1394. 184. 5394. 1329. 1292.11,86. 181,. 121210121212121xxrbbbbbbbbbbyxx這樣?原因在于值相差甚遠(yuǎn)。為什么會與理論,解得由數(shù)據(jù)計(jì)算得91顯然,復(fù)共線性有下列危害統(tǒng)計(jì)上會使經(jīng)驗(yàn)回歸系數(shù)嚴(yán)重不穩(wěn)定;應(yīng)用上,會使回歸系數(shù)的符號與專業(yè)知識推斷不符,自變量的重要性與專業(yè)認(rèn)識不符。1.符號檢驗(yàn)法符號檢驗(yàn)法 若某自變量在多元回歸模型中
50、的偏回歸系數(shù)的符號與相應(yīng)簡單回歸系數(shù)(或簡單相關(guān)系數(shù))的符號相反,表明有多重共線性存在,并確定該變量為引起多重共線性的變量。 2.簡單相關(guān)系數(shù)矩陣法簡單相關(guān)系數(shù)矩陣法 根據(jù)簡單相關(guān)系數(shù)確定多重共線性的嚴(yán)重程度。一般認(rèn)為相關(guān)系數(shù)在 0.6 以上均可導(dǎo)致多重共線性。 923.決定系數(shù)法決定系數(shù)法 整個方程決定系數(shù)R2高,但各自變量對應(yīng)的回歸系數(shù)均不顯著,則一定有復(fù)共線性。4.方差膨脹因子方差膨脹因子(the variance inflation factor,VIF)法:方差膨脹因子表達(dá)式為VIFi=1/(1-Ri2)。其中Ri為自變量xi對其余自變量作回歸分析的復(fù)相關(guān)系數(shù)。當(dāng)VIFi很大時(shí),表明
51、自變量間存在多重共線性。5.條件數(shù)與特征分析法條件數(shù)與特征分析法 在自變量的觀測值構(gòu)成的設(shè)計(jì)矩陣X中,求出自變量相關(guān)系數(shù)矩陣R的特征值,如果某個特征值很小(如小于0.05),或所有特征值的倒數(shù)之和為自變量數(shù)目的5倍以上,表明自變量間存在多重共線性關(guān)系。 對多重共線性的兩點(diǎn)認(rèn)識:在實(shí)際中,多重共線性是一個程度問題而不是有無的問題,有意義的區(qū)分不在于有和無,而在于多重共線性的程度。多重共線性是針對固定的自變量而言,是一種樣本的特征,而非總體的特征。93消除多重共線性的方法:1.增加樣本容量;2.利用先驗(yàn)信息改變;3.篩選自變量,刪除不必要的自變量或采用逐步回歸; 4.針對性估計(jì)法:嶺回歸(Ridg
52、e regression)主成分分析(Principal components analysis)偏最小二乘回歸法(Partial least squares regression) Lasso (The least absolute shrinkage and selectionoperator)回歸以下對4種針對性方法簡要介紹如下94嶺回歸嶺回歸( (Ridge regression) )嶺回歸法是1970年Hoerl(霍爾)和Kennard(凱南德)提出來的方法。主要用以引入偏誤為代價(jià),換取估計(jì)量方差的減小,回歸系數(shù)估計(jì)以下列方式實(shí)現(xiàn)),(minarg),()(),(21,2112121
53、211pppjjnipjijjipQxyQp主成分分析主成分分析(Principal components analysis)主成分回歸法是另外一種常用的處理多重共線性的有偏估計(jì)方法,它通過提取主成分,將解釋變量集合轉(zhuǎn)化為相互正交的少數(shù)幾個主成分變量,試圖通過降維消除解釋變量之間的多重共線性,然后再實(shí)施最小二乘回歸。 95偏最小二乘回歸法偏最小二乘回歸法(Partial least squares regression) 偏最小二乘回歸是1983年由H.Wold和C.Albano提出,其原理也是通過提取主成分方式來降維以消除多重共線性。在提取主成分過程中,偏最小二乘法不同于主成分回歸法,它要求所提取的主成分滿足兩個原則:(1)盡可能大地代表設(shè)計(jì)陣X中的變異信息;(2)提取出的主成分對因變量Y的解釋
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年企業(yè)vi設(shè)計(jì)實(shí)施合同
- 2024年工程機(jī)械租賃合同詳細(xì)條款
- 2024年工程技術(shù)轉(zhuǎn)讓與咨詢合同
- 2024年個人留學(xué)中介服務(wù)合同
- 2024年大型設(shè)備搬運(yùn)與倉儲物流服務(wù)合同
- 2024年企業(yè)借款分期付款合同
- 04版09號建筑材料‖裝修用品購銷合同
- 2024年廣告發(fā)布合同:網(wǎng)絡(luò)媒體廣告投放
- 2024年夫妻共同財(cái)產(chǎn)房產(chǎn)權(quán)分配合同
- 2024奶牛養(yǎng)殖廢棄物處理合同
- (零模)徐州市2024~2025學(xué)年上學(xué)期高三期中考試 英語試卷(含答案)
- 動脈瘤栓塞術(shù)術(shù)后護(hù)理
- 四川公安基礎(chǔ)知識模擬5
- 英語KET官方樣題Test1- Test 2
- 財(cái)務(wù)管理考試試題及答案
- 【課件】第七單元能源的合理利用與開發(fā)新版教材單元分析-九年級化學(xué)人教版(2024)上冊
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識 CCAA年度確認(rèn) 試題與答案
- 水庫除險(xiǎn)加固工程實(shí)施方案
- 5.1平行與垂直(進(jìn)階練習(xí))2024-2025學(xué)年人教版數(shù)學(xué)四年級上冊
- 8《安全記心上》第1課時(shí) 教學(xué)設(shè)計(jì)-2024-2025學(xué)年道德與法治三年級上冊統(tǒng)編版
- 2024年人教版小學(xué)六年級數(shù)學(xué)(上冊)期中考卷附答案
評論
0/150
提交評論