生物統(tǒng)計(jì)學(xué)教案10_第1頁(yè)
生物統(tǒng)計(jì)學(xué)教案10_第2頁(yè)
生物統(tǒng)計(jì)學(xué)教案10_第3頁(yè)
生物統(tǒng)計(jì)學(xué)教案10_第4頁(yè)
生物統(tǒng)計(jì)學(xué)教案10_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、生物統(tǒng)計(jì)學(xué)教案第十章 一元回歸及簡(jiǎn)單相關(guān)分析教學(xué)時(shí)間:5學(xué)時(shí)教學(xué)方法:課堂板書講授教學(xué)目的:重點(diǎn)掌握一元線性回歸方程,掌握一元線性回歸方程的檢驗(yàn)和相關(guān),了解一元非線性回歸和多元回歸與相關(guān)。講授難點(diǎn):一元線性回歸方程的檢驗(yàn)和相關(guān)10.1 回歸與相關(guān)的基本概念函數(shù)關(guān)系:Fma相關(guān)關(guān)系:?jiǎn)挝幻娣e的施肥量、播種量和產(chǎn)量;血壓和年齡;胸徑和高度;玉米的穗長(zhǎng)和穗重;身高和體重。相關(guān):設(shè)有兩個(gè)隨機(jī)變量X和Y,對(duì)于任一隨機(jī)變量的每一個(gè)可能的值,另一個(gè)隨機(jī)變量都有一個(gè)分布與之相對(duì)應(yīng),稱X和Y存在相關(guān)。回歸:對(duì)于變量X的每一個(gè)可能的值xi,都有隨機(jī)變量Y的一個(gè)分布相對(duì)應(yīng),則稱隨機(jī)變量Y對(duì)變量X存在回歸。X稱為自變

2、量,Y稱為因變量。條件平均數(shù):當(dāng)Xxi時(shí)Y的平均數(shù)Y.Xxi,稱為條件平均數(shù)。10.2 一元線性回歸方程10.2.1 散點(diǎn)圖NaCl含量X(g/kg土壤) 00.81.62.43.24.04.8干重Y(mg/dm2)809095115130115135例 不同NaCl含量對(duì)單位葉面積干物質(zhì)的影響從上圖雖可以看出Y對(duì)X的線性關(guān)系,但點(diǎn)子并不在一條直線上。例 每一NaCl含量下干物質(zhì)10次重復(fù)值干重(mg/dm2)重復(fù)值NaCl含量(g/kg土壤)00.81.62.43.24.04.81 80 90 951151301151352100 85 89 941061251373 75107115103

3、1031281284 89 93 921101101431275 911031151131281321556 79 921201081311211327101 78 951211171291488 85105 951101211121179 83 9310510811412013410 79 85 98111116130132平均值 86.2 93.1101.9109.3117.6125.5134.5如果增加每一NaCl濃度下的重復(fù)次數(shù),用其平均值畫成散點(diǎn)圖,則點(diǎn)子直線化的程度要好得多。上表給出10次重復(fù)的平均值,從下圖中可見(jiàn),點(diǎn)子更接近在一條直線上。當(dāng)以Y的條件平均數(shù)所做的散點(diǎn)圖,則完全在一

4、條上。10.2.2 一元正態(tài)線性回歸模型 xi和各xi上Y的條件平均數(shù)y.x可構(gòu)成一條直線: YX對(duì)于變量X的每一個(gè)值,都有一個(gè)Y的分布,其平均數(shù)是上式所示的線性函數(shù)。對(duì)于隨機(jī)變量Y: YX :NID(0,2) Y:NID(+X,2)上式稱為一元正態(tài)線性回歸模型。10.2.3 參數(shù)和的估計(jì) 在實(shí)際工作中,我們是無(wú)法得到和的,只能得到它們的估計(jì)值a和b,從而得到一條估計(jì)的回歸線: 上式稱為Y對(duì)X的回歸方程,所畫出的直線稱為回歸線。a是直線的截距,稱為常數(shù)項(xiàng);b是直線的斜率,稱為回歸系數(shù)。對(duì)于因變量Y的每一個(gè)觀測(cè)值yi: yi = a + bxi + ei yi 的回歸估計(jì)值是對(duì)的估計(jì),因此也是平

5、均數(shù)。在各種離差平方和中,以距平均數(shù)的離差平方和為最小。因此我們就把ei = yi-平方和為最小的直線作為最好的回歸線。記,求出使L達(dá)到最小時(shí)的a和b,這種方法稱為最小二乘法。為使達(dá)到最小,令:可以得到以下一組聯(lián)立方程:解該方程組,得到的最小二乘估計(jì):及a的最小二乘估計(jì):公式的分子部分稱為X和Y的校正交叉乘積和,以SXY表示。分母部分稱為X的校正平方和,以SXX表示。因變量Y的 平方和稱為總平方和,以SYY表示。因此,b又可以表示為:10.2.4 回歸方程的計(jì)算XX=X-2.4X2YY=Y-110Y2XY0 -2.4 5.76 80 -30 900 720.8 -1.6 2.56 90 -20

6、 400 321.6 -0.8 0.64 95 -15 225 122.4 0 0115 5 25 0 3.2 0.8 0.64130 20 400 164.0 1.6 2.56115 5 25 84.8 2.4 5.76135 25 625 60和 017.92 -102600 200由此得出回歸方程:回歸系數(shù)的含義是:當(dāng)自變量X每變動(dòng)一個(gè)單位,因變量Y平均變動(dòng)11.16個(gè)單位。10.3 一元線性回歸的檢驗(yàn)10.3.1 b和a的數(shù)學(xué)期望和方差上式中的2是由得到的,是實(shí)際觀測(cè)值與總體回歸估計(jì)值的離差。由于和都是未知的,因此無(wú)法得到i,只能用i的估計(jì)值ei,。稱為誤差平方和即為SSe 可以證明M

7、Se是2的無(wú)偏估計(jì)量,因此樣本回歸系數(shù)b的方差a的方差 根據(jù)表102中的7套重復(fù)數(shù)據(jù)(細(xì)線所示),和它們的平均數(shù)(粗虛線所示)所繪出的回歸線。如果無(wú)限增加重復(fù)次數(shù),最終將得到一條直線YX。實(shí)際上這條直線是無(wú)法獲得的,只能得到它的估計(jì)直線(由一套或幾套數(shù)據(jù)獲得),。這些估計(jì)直線是總體回歸線的無(wú)偏估計(jì)。它們有自己的分布,因此有自己的期望和方差。10.3.2 b和a的顯著性檢驗(yàn)10.3.2.1 b的顯著性檢驗(yàn)b的顯著性檢驗(yàn)原理與第五章所講的假設(shè)檢驗(yàn)原理類似。決定回歸線的傾斜程度,當(dāng)0時(shí)兩變量間不存在回歸關(guān)系。b有自己的分布,。根據(jù)b的分布,在0這一假設(shè)下計(jì)算出,獲得回歸系數(shù)為b的這一事件出現(xiàn)的概率很

8、小,而實(shí)際上它卻出現(xiàn)了,說(shuō)明假設(shè)的條件不正確,從而拒絕假設(shè)。上面已經(jīng)說(shuō)過(guò),b2無(wú)法得到,只能用sb2估計(jì),因此需用t檢驗(yàn)。所使用的檢驗(yàn)統(tǒng)計(jì)量為:服從n2自由度的t分布。因回歸系數(shù)是由Y.X的估計(jì)值得到的,因此sb是標(biāo)準(zhǔn)誤差,而不是標(biāo)準(zhǔn)差。例 對(duì)前述回歸方程的回歸系數(shù)的顯著性作檢驗(yàn)。解 H0:0 HA:0計(jì)算MSe,檢驗(yàn)統(tǒng)計(jì)量 t5,0.005=4.032,t > t0.005,P < 0.01,拒絕H0。結(jié)論是干物重在NaCl含量上的回歸極顯著。t檢驗(yàn)還可以檢驗(yàn)具有某一給定值的假設(shè)。例 對(duì)前述方程的以下假設(shè)做檢驗(yàn) H0:7 HA:7檢驗(yàn)統(tǒng)計(jì)量t5,0.025=2.571,t <

9、; t0.025,P>0.05,接受H0。b很可能抽自7的總體。10.3.2.2 a的顯著性檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量,在H0:0的假設(shè)下 , 具n - 2自由度在H0:0的假設(shè)下 , 具n - 2自由度例 對(duì)前述方程的a的顯著性做檢驗(yàn)解 H0: = 0 HA: 0先計(jì)算sa,計(jì)算統(tǒng)計(jì)量的值t5,0.025=2.571,t > t5,0.025,P<0.05,拒絕H0:0。例 對(duì)前述方程的a=100這一假設(shè)做檢驗(yàn)解 H0: =100 HA: 100sa在上例中已經(jīng)求出,計(jì)算統(tǒng)計(jì)量的值t5,0.025=2.571,|t|>t0.025,P < 0.05,結(jié)論是拒絕H0:100的

10、假設(shè)。10.3.4 一元回歸的方差分析10.3.4.1 無(wú)重復(fù)時(shí)一元回歸的方差分析 回歸方程方差分析的基本思想與第八章所述方差分析的基本思想是相同的。即將總變差的平方和分解為各個(gè)分量的平方和。從圖中可見(jiàn),將等式兩邊平方,然后對(duì)全部n個(gè)點(diǎn)求和。其中的第三項(xiàng)等于0,因此等號(hào)左邊一項(xiàng)是Y的平方和,稱為總校正平方和,記為SYY。等號(hào)右邊的第二項(xiàng)稱為回歸平方和,是由于X對(duì)Y的線性貢獻(xiàn)而產(chǎn)生的平方和,記為SSR。等號(hào)右邊的第一項(xiàng)是觀測(cè)值距回歸估計(jì)值離差的平方和,稱為誤差平方和或剩余平方和,記為SSe。“剩余平方和”的含義是,該平方和表示除了X對(duì)Y的線性影響外,一切因素對(duì)Y的變差的作用,包括X對(duì)Y的非線性影

11、響及實(shí)驗(yàn)誤差等。SYY具n 1自由度,SSR具1自由度,SSe具n 2自由度。由此可以得到相應(yīng)的均方。 ,以及檢驗(yàn)統(tǒng)計(jì)量方差分析的零假設(shè)H0:0,備擇假設(shè)HA:0。當(dāng)F >F1,n-2,時(shí)拒絕H0。在實(shí)際計(jì)算時(shí),可以利用以下二式求出誤差平方和及回歸平方和。 SSeSYYbSxy SSRSYYSSebSXY最后,將計(jì)算結(jié)果列成方差分析表。例 對(duì)前例的方程做方差分析。已知 SYY2585.71,SXY200,b11.16。由此計(jì)算出 SSRbSXY11.16×2002232, SSeSYYbSXY =2585.712232=353.71。將上述結(jié)果列成方差分析表變差來(lái)源平方和 自由

12、度 均 方 F 回歸 2232 1 2232 31.55* 剩余 353.71 5 70.74 總和 2585.71 6 *0.01F >F1,5,0.01,結(jié)果是回歸極顯著。10.3.4.2 有重復(fù)時(shí)的一元回歸的方差分析如果同一自變量,因變量重復(fù)觀測(cè)兩次以上,則稱為有重復(fù)觀測(cè)。這時(shí)誤差平方和可以通過(guò)重復(fù)平方和獲得,因此總平方和可以做如下分解: SYYSSRSSLOFSSpe其中SSpe稱為純實(shí)驗(yàn)誤差平方和,是通過(guò)重復(fù)觀測(cè)獲得的。SSLOF稱為失擬平方和,是剩余平方和除掉純實(shí)驗(yàn)誤差平方和之后的剩余部分,這部分是由于模型選擇不當(dāng)造成的。各項(xiàng)平方和的計(jì)算如下:設(shè)實(shí)驗(yàn)共收集i=1,2,n對(duì)數(shù)據(jù)

13、,在每一xi下做了j=1,2,m次重復(fù),各平方和由以下各式給出自由度分別為:回歸項(xiàng)為1,失擬項(xiàng)為n2,純誤差項(xiàng)為mnn,總和為mn-1。從而得出各項(xiàng)均方。在作檢驗(yàn)時(shí),首先用純誤差均方對(duì)失擬均方作檢驗(yàn)如果結(jié)果是顯著的,可能有以下幾個(gè)原因:除X外,還有其它影響Y的因素。模型選擇不當(dāng),X、Y之間可能是非線性關(guān)系。X和Y無(wú)關(guān)。這時(shí)沒(méi)有必要用SSLOF對(duì)MSR做檢驗(yàn)。若結(jié)果是不顯著的,說(shuō)明失擬平方和基本是由實(shí)驗(yàn)誤差造成的,這時(shí)需將失擬平方和與純誤差平方和合并,用合并的平方和對(duì)回歸平方和做檢驗(yàn)。若檢驗(yàn)的結(jié)果仍不顯著,可能的原因有:X和Y不存在回歸關(guān)系。實(shí)驗(yàn)誤差過(guò)大。例 以10.2節(jié)所給出的前兩次重復(fù)為例,

14、做方差分析。 NaCl含量00.81.62.43.24.04.8干重復(fù)I 80 90 95 115 130 115 135重重復(fù)II 100 85 89 94 106 125 137和16400153251694622061281362885036994 16471232400306253385643681556965760073984 327842由以上數(shù)據(jù)計(jì)算出回歸方程:,以及SYY4853.71和SSR3744.61。純誤差平方和代入上表右下角數(shù)字,得。失擬平方和SSLOFSYYSSRSSpe4853.713744.61791.00318.10。將以上結(jié)果列成方差分析表:變差來(lái)源平方和自

15、由度均 方F回 歸 3744.61 1 3744.61 40.52失 擬 318.10 5 63.62 0.56純誤差 791.00 7 113.00總 和 4853.71 13對(duì)失擬做檢驗(yàn)的結(jié)果,F(xiàn)0.56。將失擬平方和與誤差平方和合并后對(duì)回歸做檢驗(yàn)的結(jié)果F40.52。F>F0.01,Y與X存在極顯著的回歸關(guān)系。10.3.6 一元回歸分析的意義 1、預(yù)報(bào) 2、減少實(shí)驗(yàn)誤差10.4 一元非線性回歸10.4.2 對(duì)數(shù)變換例 用X射線照射大麥種子,記處理株第一葉平均高度占對(duì)照株高度的百分?jǐn)?shù)為X,存活百分?jǐn)?shù)為Y,得到以下結(jié)果。X283240506072808085Y81218283055618

16、580在直角坐標(biāo)紙上做成的散點(diǎn)圖和線性回歸線如下:可以明顯看出用直線擬合散點(diǎn)是不合適的。為了能夠以直線擬合散點(diǎn),對(duì)X和Y進(jìn)行坐標(biāo)變換,取X=lgX,Y=lgY,重新作圖如下:這時(shí)可按直線回歸,求出線性方程:將X=lgX,Y=lgY代入上式,經(jīng)整理得到如下回歸方程:例 鉤蟲(chóng)病人的重復(fù)治療次數(shù)X和復(fù)查陽(yáng)性率Y如下表:治療次數(shù) X12345678復(fù)查陽(yáng)性率 Y63.936.017.110.57.34.52.81.7散點(diǎn)圖如下:從散點(diǎn)圖可見(jiàn),Y和X顯然不是線性關(guān)系,很可能呈指數(shù)函數(shù)關(guān)系。令Y'=lnY,變換后的散點(diǎn)圖可用直線擬合,求出Y和X的線性方程,以lnY代替,整理后得到以下回歸方程: 圖

17、中的實(shí)線就是根據(jù)該方程繪出的。10.4.3 概率對(duì)數(shù)變換 在尋找半致死劑量時(shí),常用到這種變換。例 用不同劑量的射線照射小麥品種庫(kù)班克調(diào)查死苗率,得到以下結(jié)果:劑量(Kr)X14161820222426死苗率(%)Y6104070809395散點(diǎn)圖和擬合曲線如下:上圖為一S形曲線,曲線的下半部比較陡峭,上半部比較平緩。將劑量X作對(duì)數(shù)變換,變換后的圖形,成為對(duì)稱的S形曲線。該曲線的形狀與正態(tài)分布累積分布曲線的形狀是一樣的。因此,只要把死亡率的百分率坐標(biāo)變換為概率坐標(biāo),S形曲線便化作為直線。有時(shí)為了防止出現(xiàn)負(fù)值,將變換后的每一個(gè)值都加上5。當(dāng)然,不做這樣處理也可以。本例中,劑量是自變量,死亡率是因變

18、量,因此劑量為橫坐標(biāo),死亡率為縱坐標(biāo)。但是在計(jì)算半致死劑量時(shí),要求在死亡50時(shí)的劑量,這時(shí)經(jīng)常將死亡率作為橫坐標(biāo),劑量作為縱坐標(biāo)。經(jīng)概率坐標(biāo)變換的圖形如下:于是可以得到一個(gè)線性方程,。在半致死劑量處,X50,X0,回歸方程變?yōu)?。半致死劑量LD50可由下式得到:。上例經(jīng)變換后所得回歸方程為:半致死劑量的估計(jì)為: 。10.4.5 曲線擬合優(yōu)劣的檢驗(yàn)10.4.5.1 通過(guò)比較剩余均方來(lái)判斷曲線擬合好壞對(duì)于一個(gè)未知的曲線,可以用幾種不同的方法擬合。在幾種不同的擬合曲線中,必然有一種是最好的。為了得到最優(yōu)擬合曲線,可以計(jì)算各種擬合曲線的剩余平方和,哪一個(gè)剩余平方和最小,哪一個(gè)就是最優(yōu)擬合。但在計(jì)算剩余平方和時(shí)一定要用實(shí)測(cè)點(diǎn)與回歸估計(jì)點(diǎn)離差的平方和來(lái)計(jì)算,這一點(diǎn)至關(guān)重要。10.4.5.2 根據(jù)失擬均方的大小判斷曲線擬合優(yōu)劣 對(duì)于有重復(fù)的實(shí)驗(yàn)數(shù)據(jù),可以采取多種方法直線化,求出直線方程,按有重復(fù)實(shí)驗(yàn)方差分析方法進(jìn)行分析。用純誤差均方對(duì)失擬均方做檢驗(yàn),所得F值不顯著的擬合最好。10.4.5.3 根據(jù)相關(guān)指數(shù)做判斷相關(guān)指數(shù)記為R2。 在計(jì)算上式的SS剩余時(shí),不能使用變換后的X和Y根據(jù)來(lái)計(jì)算,而應(yīng)由實(shí)測(cè)值

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論