




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
#偏差平方和Q的大小與數(shù)據(jù)個(gè)數(shù)(自由度)有關(guān),一般來說,數(shù)據(jù)越多,其偏差平方和越大。稱MS=Q/fQ為均方和,即平均每個(gè)自由度上有多少平方和,度量一組數(shù)據(jù)的離散程度。對(duì)因子平方和S與誤差平方和S之間進(jìn)行比較,用其均方和AeMS=S/f,MS=S/fAAA eee進(jìn)行比較更為合理,因?yàn)榫胶团懦俗杂啥炔煌a(chǎn)生的干擾。故用MSS/fF= A=—AAMSS/feee作為檢驗(yàn)原假設(shè)的統(tǒng)計(jì)量,為給出檢驗(yàn)拒絕域,需要如下定理:定理8.1.2在單因子方差分析模型及前述符號(hào)下,有⑴S/a2?%2(n-r),從而E(S)=(n-r)o2eeE(S)=(r-1)a2+mXa2,進(jìn)而,若H成立,則有S/a2?A i 0Ai=1X2(r-1)oS與S獨(dú)立。Ae證明從簡(jiǎn)由上述定理知,若H成立,,則檢驗(yàn)統(tǒng)計(jì)量F服從自由度為f,f的F分0 Ae布。因此,由假設(shè)檢驗(yàn)的一般理論,拒絕域?yàn)閃={F>F(f,f)}1—aAe則計(jì)算結(jié)果可列成方差分析表單因子方差分析表來源平方和自由度均方和F比因子SAf=r-1AMS=S/fA AAF=MS/MSAe誤差S0f=n-rMS=S/f總和STf=n-1T對(duì)給定的a,可作如下判斷:如果F>F(f,f),則認(rèn)為因子A顯著;若F<F(f,f),則說1-aAe 1-aAe明因子A不顯著。若以7記服從F(f,f)的隨機(jī)變量,則檢驗(yàn)的p值為p=P(Y>F)Ae偏差平方和的計(jì)算:XrXm T2 1Xr T2S―y2y2——,S=——T^T2——,S―S—ST ijnAmineTAi=1j=1 i=1注意:偏差平方和公式中對(duì)數(shù)據(jù)作一個(gè)線性變換是不影響方差分析的結(jié)果的。例1在飼料養(yǎng)雞增肥的研究中,某研究所提出三種飼料配方:A是以魚粉
為主的飼料,A是以槐樹粉為主的飼料,A是以苜蓿粉為主的飼料,為比較23三種飼料的效果,特選24只相似的雛雞隨機(jī)均分為三組,每組各喂一種飼料,60天后觀察它們的重量。試驗(yàn)結(jié)果如下表所示:雞飼料試驗(yàn)數(shù)據(jù)飼料A 雞重/個(gè)A1 10731009106010011002101210091028A 11071092 99011091090107411221001A3 10931029108010211022103210291048解因子為飼料,廿個(gè)水平A1,A2,A3。此例中,將原始數(shù)據(jù)同時(shí)減去1000,并用列表的方法給出計(jì)算過程:雞飼料試驗(yàn)數(shù)據(jù)計(jì)算表T2 £y2i ij水平 數(shù)據(jù)(原始數(shù)據(jù)-1000)TiA1 739 601 2 129 28 j一 19437636 10024A2 10792-1010990741221585342225 60355A3 93 29 8021 223229 48354125316 209841133505177 91363可以算得各偏差平方和為:11332S=91363- =3787604,f=24-1二23,T 24 T505177113322,S一 一 一9660108f一3一1一A 8 24 AS一S-S一28215.96,f=3(8-1)一21eTA e把上述諸平方和及其自由度填入方差分析表,并繼續(xù)計(jì)算得到各均方和以及比。見下表例1方差分析表來源 平方和 自由度 均方和F比因子 9660.08 2 4830.04誤差 28215.96 21 1343.623.59總和 37876.04 23若取a一0.05,則F =3.47,由于F=3.59>3.47,故認(rèn)為因子A是顯著的,0.95即三種飼料對(duì)雞的增肥作用有明顯的差別。8.1.5參數(shù)估計(jì)在檢驗(yàn)結(jié)果為顯著時(shí),可以求出總均值N、各主效應(yīng)a和誤差方差。2的i估計(jì)。
、點(diǎn)估計(jì)使用最大似然估計(jì)方法求出以上各參數(shù)的估計(jì)。似然函數(shù)L(出a,…,a,02)=HH、點(diǎn)估計(jì)使用最大似然估計(jì)方法求出以上各參數(shù)的估計(jì)。似然函數(shù)L(出a,…,a,02)=HH1 ri=1j=(匕一「史”2o2其對(duì)數(shù)似然函數(shù)n 、nr/ 1lnL(N,a,…,a,o2)=-ln(2兀02)一1r 2 202£工(…一a)2iji=1j=1求偏導(dǎo),得似然方程視1££/ 、n-=--££(y-N-a)=0SN 2o2ijii=1j=1Sl1£/———(y-N-a)=0,i=1,…,rSa 2o2 %iSl n=1 1££/ 、八+--££(y-N-a)2=02o2 2o4 ijii=1j=1So2再由約束條件£a=0i可求出前述各參數(shù)的最大似然估計(jì)為i=1N=y,a=y-y,
ii££(y-y)2TOC\o"1-5"\h\zn2o2 ij i-i=1j=1由最大似然估計(jì)的不變性,各水平均值目的最大似然估計(jì)為由最大似然估計(jì)的不變性,各水平均值目的最大似然估計(jì)為口=yA由于o2不是o2無偏估計(jì),通常采用如下誤差方差的無偏估計(jì)o2=MS。\o"CurrentDocument"M e二、置信區(qū)間下面討論N的置信區(qū)間。由定理8.1.2知,y?N(N,o2/m),S/02i i? i eX2(f),且二者獨(dú)立,故e4m(y-n)——,i? i?t(f)yS/f eee由此A的水平均值N的1-a置信區(qū)間為i i[y±o-t (f)八m]i- 1-a/2eA其中,o2=MS。e例2接例1前面已經(jīng)指出飼料因子是顯著的,下面求諸水平均值的估計(jì)。解因子A的三個(gè)水平均值的估計(jì)分別為N=1000+198/8=1024.251N=1000+585/8=1073.132N=1000+354/8=1044.253從點(diǎn)估計(jì)來看,水平A是最優(yōu)的。誤差方差的無偏估計(jì)為2Ao2=MS=1343.62e進(jìn)而可求出各水平的置信區(qū)間。0=<1343.62=36.66,取0<=0.05,貝|t (f)=t(21)=2.07961-a/2e0.975從而6t (21)=26.95,于是各水平均值的0.95的置信區(qū)間分別為0.975白:1024.25±26.95=[997.30,1051.21]四:1073.13±26.95=[1046.18,1100.08]2白:1044.25±26.95=[1017.30,1071.21]由此可見,在單因子分析中得到如下三個(gè)結(jié)果:(1)因子A的顯著性;(2)試驗(yàn)的誤差方差62的估計(jì);(3)諸水平均值目的點(diǎn)估計(jì)和區(qū)間估計(jì)。在因子A顯著時(shí),i通常只需要對(duì)較優(yōu)的水平均值8.1.6重復(fù)數(shù)不等情形有時(shí),每個(gè)水平下重復(fù)試驗(yàn)次數(shù)不全相等,在這最一般情況下進(jìn)行方差分析與重復(fù)數(shù)相等情況下的方關(guān)差分析極為相似,只在幾處略有差別。下面指出差異之處。數(shù)據(jù)設(shè)從第i個(gè)水平下的總體獲得m個(gè)試驗(yàn)結(jié)果,記為J,J,…,J,TOC\o"1-5"\h\zi i1i2 imii=1,…/,故總試驗(yàn)次數(shù)為n=m+m+…+m,從而其統(tǒng)計(jì)模型為:12 rIJ二旦+£,i=1,…,r,j=1,…,mijiij i[各£相互獨(dú)立,且都服可(0,62)ij總均值諸N的加權(quán)平均(所有試驗(yàn)結(jié)果的均值的平均)i1/ 、1>日=(mRH Fm日)=乙m日n11 rrniii=1稱為總均值。第i個(gè)水平均值N與總均值N的差ia=n一旦,i=1,…,r。ii稱為因子A的第i個(gè)水平的效應(yīng)。效應(yīng)約束條件2ma=0iii=1且N=N+a,這表明第i個(gè)總體的均值是由總均值與該水平的效應(yīng)疊加而成ii的。而且有
y=^+8,i=1,-,r,j=1,…,m、j i ij i〈乙ma=0i8相互獨(dú)立,且都服從/V(0,。2)ij各平方和的計(jì)算記號(hào)如下T=£記號(hào)如下T=£yi ijj=1T?1一,i=1,-,rmiT=Et,y=ii=1rmnSTSA=£2(y-y)2,f =n-STSATOC\o"1-5"\h\zij Ti=1j=1\o"CurrentDocument"=m2(y-y)2,f=r-1ii- Ai=1=r(m-1)=n-rs=22(y-y)2=r(m-1)=n-r\o"CurrentDocument"i=1 j=1例4某食品公司對(duì)一種食品設(shè)計(jì)了四種新包裝,為考察哪種包裝最受顧客歡迎,選了10個(gè)地段繁華程度相似、規(guī)模相近的商店做試驗(yàn),其中兩種包裝各指定兩個(gè)商店銷售,另兩個(gè)包裝各指定三個(gè)商店銷售,在試驗(yàn)期內(nèi)各店貨架排放的位置、空間都相同,營(yíng)業(yè)員的促銷方法也基本相同,經(jīng)過一段時(shí)間,記錄其銷售量數(shù)據(jù),列于表的左半邊,其相應(yīng)結(jié)果列于右側(cè),則可進(jìn)行方差分析。銷售量數(shù)據(jù)及計(jì)算表包裝類型銷售量數(shù)據(jù)miTiT2/mii2y2ij/=1A11218無230450468A2141213339507509A319172135710831091A 2430無25414581476和n=10T=1802rT2/miii=1=349822y2iji=1j=1=3544T2 1802由此可求得各類偏差平方和如下( ==3240)n10S=3544-3240=304,f=10-1=9TTS=3498-3240=258,f=4-1=3TAS=304-258=46,f=10-4=6ee方差分析表如下例4方差分析表來源平方和自由度 均方和F比因子2583 8611.22誤差466 7.67總和3049若取a=0.01,查表得F0.01(3,6)=9.78<11.22,故認(rèn)為各水平間有顯著差異。由于因子顯著,岢以給出諸水平均值的估計(jì),因子A的四個(gè)水平均值的估計(jì)分別為口=30/2=15,口=39/3=13,口=57/3=19,口=54/2=271234由此可見第四種包裝方式效果最好。誤差方差的無偏估計(jì)為Ao2=MS=7.67e諸水平均值的置信區(qū)間,用m代替m。此處,0=J767=2.7695,若取ia=0.05,則t (f)=t(6)=2.4469,6t(6)=6.7767,于是效果TOC\o"1-5"\h\z1-a/2e0.975 0.975較好的第三和第四個(gè)水平均值的0.95置信區(qū)間分別為 _口:19土6.7767/v3=[15.09,22.91],口:27土6.7767八2=[22.21,31.79]3 4§8.2多重比較效應(yīng)差的置信區(qū)間方差分析中,如果因子A顯著,即因子A各水平的效應(yīng)不全相同,但這并不是說它們中一定沒有相同的。就指定的一對(duì)水平A和A,我們通過求ij日一日的區(qū)間估計(jì)來進(jìn)行比較,可以推出,ijJ—J?N(日一日,(+ )o2)i- 卜 ijmmij由定理8.1.2指出,S/o2?X2(f),且兩者獨(dú)立,故ee(y一y)一(N-日)j- ^j?t(f);1 1、Se(——十——)-卜mmfije由此給出口一日的置信水平為1-a的置信區(qū)間為ij [y-y-1(—十—)0-t (f),y-y+i(—+—)0-t(f)]八j-mmm山/2e八 j- mmm 「a/2 eij ijA其中02=S/f是02的無偏估計(jì)。ee例1接上節(jié)例1。已知飼料因子是顯著的,此處m=8,i=1,2,3,f=21, i e0="343.62=36.66,若取a=0.05,則t (f)=t(21)=2.0796, 1-a/2e0.975口+10t (21)=38.11。于是可算出各個(gè)置信區(qū)間為\8 80.975
——N:-48.88±38.11=[-86.99,-10.77]12———:-20±38.11=[-58.11,18.11]13———:28.88±38.11=[-9.23,66.99]23從以上區(qū)間可見,可以概率95%斷言認(rèn)為—<—。其他區(qū)間包含0點(diǎn),即從12點(diǎn)角度看水平均值估計(jì)有差別,但這種差異在0.05水平下是不顯著的。這里給出的置信區(qū)間與第六章中的兩樣本的t區(qū)間基本一致,區(qū)別在于這里的o2使用了全部樣本而不僅僅是A,A兩個(gè)水平下的觀測(cè)值。ij多重比較問題在方差分析中,如果經(jīng)過F檢驗(yàn)拒絕原假設(shè),表明因子A是顯著的,即r個(gè)水平對(duì)應(yīng)的水平均值不全相等,此時(shí),我們還需要進(jìn)一步確認(rèn)哪些水平均值間是確有差異的,哪些水平均值間無顯著差異。在r(r>2)個(gè)水平均值中同時(shí)比較任意兩個(gè)水平均值間有無明顯差異的問題總量稱為多重比較,即要以顯著性水平a同時(shí)檢驗(yàn)如下r(r—1)/2個(gè)假設(shè):Hij:—=—,1<i<j<r0ij直觀地看,當(dāng)原假設(shè)成立時(shí),y—y不應(yīng)過大,因此,關(guān)于假設(shè)的拒絕i- j-域應(yīng)有如下形式w=U{y—y>C}i- j- ij1<i<j<r諸臨界值應(yīng)在原假設(shè)成立時(shí)由P(w)=a確定。下面分重復(fù)數(shù)相等和不等分別介紹臨界值的確定。重復(fù)數(shù)相等場(chǎng)合的T法重復(fù)數(shù)相等時(shí),由對(duì)稱性自然可以要求諸C相等,記為。。記C2=S/f,ij ee則由給定條件有t= ?t(f)io/Jme于是當(dāng)上述原假設(shè)成立時(shí),—「…二—r=—,故有P(w)=P(U||y—y>C})=1—n{Iy—y<c}?i- j- ?i- j-1<i<j<r 1<i<j<r=1—P(max {y—y<c})=P(max {y—y>c})1<i<j<ri- j- 1<i<j<ri' j-=P(max1=P(max1<i<j<rc0/ml})TOC\o"1-5"\h\z=P(max(y「上)-mini0/、m j「 (y——) .一般稱為t化極差統(tǒng)計(jì)量。這里q(r,f)=max—i一般稱為t化極差統(tǒng)計(jì)量。e i0/飛m j
q(r,f)的分布與參數(shù)N,o2無關(guān),也與m無關(guān),該分布可由隨機(jī)模擬方法得到。e重復(fù)數(shù)相同時(shí)多重比較的步驟總結(jié)如下:TOC\o"1-5"\h\z對(duì)給定的顯著性水平a,查多重比較的分位數(shù)q(r,f)表,計(jì)算1—a ec=q(r,f)67m,比較諸y一y與c的大小,若了一y|>c,則認(rèn)1-a e i? j? i? j?為水平A,A間有顯著差異,反之則認(rèn)為水平A,A間無明顯差別。首先由ij ijTurkeyrjbm,稱為T法。例2接上例。在飼料因子顯著的情況下,進(jìn)行多重比較。取a=0.05,則查表知q(3,21)=3.57,而6=36.6554,從而計(jì)算得到c=46.27。1-0.051yl-y21=|1024.25-1073.13=48.88>46.27,因此認(rèn)為片,巴有顯著差異;卜-y3|=1024.25-1044.25=20<46.27,因此認(rèn)為4,%無顯著差異;|y2-y3|=|1073.13-1044.25=46.88>46.27,因此認(rèn)為N3,N2有顯著差異;重復(fù)數(shù)不等場(chǎng)合的S法在重復(fù)數(shù)不等時(shí),沿用上面的記號(hào),我們有(y-y)-(N-N)i?j 匕―?t(f)TOC\o"1-5"\h\z11 eK-+―mmm1ij在原假設(shè)成立時(shí),N=--=N=N,于是有1 r(y-y) (y-y)2ij ?t(f)或〕:j?—?F(1,f)\o"CurrentDocument".1 1 e/1 1、人 ei(一+一)6 (——+——)62\o"CurrentDocument"mm mmij ij1 — 1 r" 一工—,,…一從而可以要求c=c,(一+——),類似于重復(fù)數(shù)相等時(shí)的推導(dǎo),有ijmmm-ijp(w)=n1<ip(w)=n1<i<j<r{y-y>c|'(-+—)}
mj=P(max {1<i<j<r1-6——)6mjc>J)=P(max1<i<j<r((y-y)2{i? j?'/1 1」(——+——)262mmijc2})62c2=P(max F>1<i<j<rij621<i<j<r ij可以證明,(maxF)/(r-1)?F(r-1,f),從而P(W)1<i<j<r ij=(r-1)F(r—1,f),亦即TOC\o"1-5"\h\z1—a eI 1 1「c=l(r-1)F (r-1,f)(——+——)O2。ijV 1-a emmv ij例3在第一節(jié)例4中,已經(jīng)指出包裝方式對(duì)食品銷量有顯著影響,此處r=4,f=6,O2=7.67,若取a=0.05,則F(3,6)=4.76,注意到e 0.95m=m=2,m=m=3,故1 4 2 3 c=c=c=c=、.;3X4.76X(1/2+1/3)x7.67=9.613 24 34 ”c=、3x4.76x(1/2+1/2)x7.67=10.5t c=\3X4.76X(1/3+1/3)X7.67=8.5V由于1-1-2--y|=2<c1-1-2--y|=2<c,2-1 1274-1=12>c14一y=14>c4- 24B1-73-1=4<c,13-y3-l=6<c,23一了4-1=8<c34這說明A,A,A間無顯著差異,A,A與A有顯著差異,但A與A的差異卻12312 443尚未達(dá)到顯著水平。綜合上述包裝A4銷售量最佳。§8.2方差齊性檢驗(yàn)方差齊性檢驗(yàn)是對(duì)如下一對(duì)假設(shè)作出檢驗(yàn):H:O2=…=O2VSH:諸O2不全相等01 r 1 i對(duì)以上假設(shè)進(jìn)行檢驗(yàn)的方法主要有下面三種:Hartley檢驗(yàn),僅適用于樣本量相等的場(chǎng)合;Bartlett檢驗(yàn),可用于樣本量相等或不等場(chǎng)合,但是每個(gè)樣本量不得低于5修正Bartlett檢驗(yàn),在樣本量較小或較大、相等或不等場(chǎng)合均可使用。Hartley檢驗(yàn)當(dāng)各水平下試驗(yàn)重復(fù)次數(shù)相等時(shí),即m=…二m=m1rHartley提出檢驗(yàn)方瘠相等的檢驗(yàn)統(tǒng)計(jì)量— max{s2,…,s2}H= 1 min{s2,…,s2}1r它是r個(gè)樣本方差的最大值與最小值之比。該統(tǒng)計(jì)量尚無明確表達(dá)式,但在諸方差相等條件下,可通過隨機(jī)模擬方法獲得H分布的分位數(shù),該分布依賴于水平數(shù)r和樣本方差的自由度f=m-1,因此該分布可記為H(r,f),其分位數(shù)表列于附表10中。直觀上看,當(dāng)H成立,即諸方差相等時(shí),H愈大,諸方差間的差異就愈0大,這時(shí)應(yīng)拒絕H。由此可知,對(duì)給定的顯著性水平a,檢驗(yàn)H的拒絕域?yàn)?0W={H>H(r,f)}1-a其中H(r,f)為H分布的1-a分位數(shù)。1—a例1有四種不同牌號(hào)的鐵銹防護(hù)劑(防銹劑),現(xiàn)要比較其防銹能力。為此,制作40個(gè)大小形狀相同的鐵快(試驗(yàn)樣品),然后把它們隨機(jī)分為四組,每組10件樣品,在每一組樣品上涂上同一牌號(hào)的防銹劑,最后把40個(gè)樣品放在一個(gè)廣場(chǎng)上讓其經(jīng)受日曬、風(fēng)吹和雨打。一段時(shí)間后再行觀察其防銹能力。由于防銹能力無測(cè)量?jī)x器,只能請(qǐng)專家評(píng)分,五位受聘專家對(duì)評(píng)分標(biāo)準(zhǔn)進(jìn)行討論,取得共識(shí),樣品上無銹跡的評(píng)100分,全銹評(píng)0分。他們?cè)诓恢铺?hào)的情況下進(jìn)行獨(dú)立評(píng)分。最后把一個(gè)樣品的5個(gè)專家所給分?jǐn)?shù)的平均值作為該樣品的防銹能力,數(shù)據(jù)列表中防銹能力數(shù)據(jù)及有關(guān)計(jì)算因子A(防銹劑)A1A2A3A4數(shù)143.989.868.436.2據(jù)23987.169.345.2yij346.792.768.540.7443.890.666.440.5544.287.77039.3647.792.468.140.3743.686.170.643.2838.988.165.238.7943.690.863.840.9104089.169.239.7和Ti431.4894.4679.5404.7均值yi43.1489.4467.9540.47組內(nèi)平方和Qi8144.2842.3353.42這是一個(gè)重復(fù)次數(shù)相等的單因子試驗(yàn)。進(jìn)行比較分析。第一步是方差齊性檢驗(yàn)。s2=81/9=9,s2=44.28/9=4.92,s2=42.33/9=4.7,s2=53.42/9=5.9412 3 4由此得統(tǒng)計(jì)量H的值H=9/4.7=1.9149。在a=0.05時(shí),由附表10查得H(4,9)=6.31,由于H<6.31,所以應(yīng)該接受原假設(shè),即認(rèn)為四個(gè)總體方差0.95間無顯著差異。第二步,在正態(tài)性(正態(tài)概率紙)檢驗(yàn)通過的情況下,我們可用方差分析方法對(duì)四種不同牌號(hào)的防銹劑比較其防銹能力。由上表的數(shù)據(jù)可以算出T=T+T+T+T=2410從而求得三個(gè)偏差平方和分別為1234S=16174.5,f=39,S=15953.47,f=3,S=221.03,f=36。T T A Ae e得到方差分析表,可繼續(xù)計(jì)算各均方和與F比。
防銹能力的方差分析表來源平方和自由度均方和F比因子15953.4735317.82866.09誤差221.03366.14總和16174.539若給定顯著性水平a=0.05,查表得F(3,36)=2.87<F,故因子A顯著,0.95即四種防銹劑的防銹能力有顯著差異。各種防銹劑的防銹劑能力均值分別為口=43.14,口=89.44,口=67.95,口=40.471234第二種牌號(hào)的防銹劑的防銹能力均值最強(qiáng)。A第三,試驗(yàn)誤差的方差的估計(jì)o2=6.14,從而a的估計(jì)為6==2.48。第四,由于第二種牌號(hào)的防銹劑的防銹能力最強(qiáng),還可求出其均值的95%置信區(qū)間,現(xiàn)在t (n-r)=t (36)=2.0281,m=10,則日的95%置信TOC\o"1-5"\h\z1-a/2 0.975 2區(qū)間為 _[y±6.t (n-r)/、m]=89.44±1.73=[87.71,91.17]。\o"CurrentDocument"2 1-a/2Bartlett檢驗(yàn)在r個(gè)水平下的樣本的方差的幾何平均數(shù)記為GMS=[(s2)f1.?.(s2)fr]1/fee1其中f=其中f=f+…+f=2(m-1)=n-re1ri
i=1由于幾何平均數(shù)總不會(huì)超過算術(shù)平均數(shù),故有GMS<MSee其中等號(hào)成立當(dāng)且僅當(dāng)諸s2彼此相等,若諸s2間的差異愈大,則此兩個(gè)平均值相差也愈大。由此可見,當(dāng)諸總體方差相等時(shí),其樣本方差間不應(yīng)相差較大,從而比值MS/GMS接近于1。反之,在該比值較大時(shí),就意味諸樣本方差差ee異較大,從而反映諸總體方差差異也較大。這個(gè)結(jié)論對(duì)此比值的對(duì)數(shù)也成立。從而齊性檢驗(yàn)表示的一對(duì)假設(shè)的拒絕域應(yīng)是W={ln(MS/GMS)>d}eeBartlett證明了:在大樣本場(chǎng)合,ln(MS/GMS)的某個(gè)函數(shù)近似服從自由ee度為r-1的X2分布。具體是:X2(rX2(r-1)B=L(lnMS-lnGMS)Ce e其中c=1+」^[£-1-4],且通常會(huì)大于1。3(r-1)i=1fi fe根據(jù)上述結(jié)論,可取B=1(flnMS-工于lns2)作為檢驗(yàn)統(tǒng)計(jì)量,對(duì)Cee iii=1給定的顯著性水平a,檢驗(yàn)的拒絕域?yàn)閃={B>/2(—1)}1_a考慮到這里X2分布是近似分布,在諸樣本量m均不小于5時(shí)使用上述檢驗(yàn)是i適當(dāng)?shù)?。?茶是世界上最為廣泛的一種飲料,但很少人知其營(yíng)養(yǎng)價(jià)值。任一種茶葉都含有葉酸,它是一種維他命B。如今已慢測(cè)定茶葉中葉酸含量的方法,為研究各產(chǎn)地的綠茶的葉酸含量是否有顯著差異,特選四個(gè)產(chǎn)地綠茶,其中A制1作為了7個(gè)樣品,A制作了5個(gè)樣品,A,A各制作為了6個(gè)樣品,共有242 34個(gè)樣品,按隨機(jī)次序測(cè)試其葉酸含量(mg),測(cè)試結(jié)果如表水平數(shù)據(jù)重復(fù)數(shù)和均值組內(nèi)和A17.96.26.68.68.910.19.6 m1=7T1=57.98.27Q1=12.83A25.77.59.86.18.4m2=5T2=37.57.5Q2=11.3A36.47.17.94.55.04.0m3=6T3=34.95.82Q3=12.03A-4——6.87.55.05.36.17.4m 4-=6T 4=38.16.35Q 4-=5.61n=24 T=168.4S=41.77e平方和計(jì)算得到S=23.5,f=3,S=65.27,f=23,S=41.77,f=20A AT T e e方差分析表如下綠茶葉酸含量的方差分析表來源平方和自由度均方和F比因子23.537.833.75誤差41.77202.09總和65.2723若取顯著性水平a=0.05,查表得L(3,20)=3]<F,故應(yīng)拒絕原假設(shè),即認(rèn)為四種綠茶的葉酸平均含量有顯著差異。方差齊性檢驗(yàn)如下。由數(shù)據(jù)表可本得Q=12.83,Q=11.3,Q=12.03,Q=5.6134f=6,f=4,f=5,f=534從而用公式S2 =Q/f 求得s2 =2.14,s2 =2.83,s2 =2.41,s2 =1.12。再?gòu)膇ii 1 2 3 4方差分析表上查得MS=2.09,由公式得eC=1+v1n[£-T~;]T.0856,3(r-1).,ffi=1ie
再由Bartlett檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式得B=1(flnMS-EfIns2)=0.97Ce e iii=1對(duì)給定的顯著性水平a=0.05,查表知X2(4-1)=7.815>b,故應(yīng)接收原假0.95設(shè),即可認(rèn)為諸水平下的方差間無顯著差異。修正的Bartlett檢驗(yàn)針對(duì)樣本量低于5時(shí)不能使用Bartlett檢驗(yàn)的缺點(diǎn),Box提出了修正的Bartlett檢驗(yàn)統(tǒng)計(jì)量fBCBb=— f1(A-BC)其中B與C如下C=C=1+出2f-fi=1ieB=-1(fInMS-EfIns2)Ce e iii=1且有f1f1=r-1,「r+1f= ,2 (C-1)2A= f. 2-C+2/f2在原假設(shè)成立下,Box還證明了統(tǒng)計(jì)量Bb的近似分布是F分布F(f,f),對(duì)12給定的顯著性水平。,該檢驗(yàn)的拒絕域?yàn)閃={B'>F(f,f)}1-a1 2其中f的值可能不是整數(shù),這時(shí)可通過對(duì)F分布的分位數(shù)表施行行內(nèi)插法得到2分位數(shù)。例3對(duì)例2中綠茶葉酸含量的數(shù)據(jù),用修正Bartlett檢驗(yàn)再一次對(duì)方差齊性作出檢驗(yàn)。已經(jīng)求得C=1.0856B=0.97還可求得:r+1 4+1f=r
1-1f=r
1-1=4-1=3,f2(C-1)2 (1.0856C-1)2A=682.42-C+A=682.42-C+2/f2fBCBb=— =743.92-1.0856+2/682.4682.4x0.97x1.0856 =0.322f1(A-BC) 3(743.9-0.97x1.0856)對(duì)給定的顯著性水平a=0.05,在F分布的分位數(shù)表上可查得F(3,682.4)=F(3,+s)=2.60.950.95由于B'<2.6,故接收原假設(shè),即認(rèn)為四個(gè)水平下的方差間無顯著差異。§8.4一元線性回歸變量間的兩類關(guān)系確定性關(guān)系:這些變量間的關(guān)系完全是已知的,可以用函數(shù)y=f(x)來表示。相關(guān)關(guān)系:變量間有關(guān)系但不能用函數(shù)來表示。舉例說明這兩類關(guān)系。回歸分析的主要任務(wù):變量間的相關(guān)關(guān)系不能用完全確切的函數(shù)形式表示,但在平均意義下有一定的定量關(guān)系表達(dá)式,尋找這種定量關(guān)系表達(dá)式就是回歸分析的主要任務(wù)。一元線性回歸模型設(shè)y與x間有相關(guān)關(guān)系,稱x為自變量(預(yù)報(bào)變量),y為因變量(響應(yīng)變量),在知道x的取值后,y的取值并不是確定的,它是一個(gè)隨機(jī)變量,因此有一個(gè)分布,這個(gè)分布是在知道x的取值后y的條件密度函數(shù)p(y\x),關(guān)心的是y的均值E(Y\x),它是x的函數(shù),這個(gè)函數(shù)是確定性的:f(x)=E(Y\x)=1討yp(y\x)dy—8上式即為y關(guān)于x的理論回歸函數(shù)一條件期望,即要尋找的相關(guān)關(guān)系的表達(dá)式。以上的敘述是在y,x均為隨機(jī)變量場(chǎng)合進(jìn)行的,這是一類回歸問題。第二類回歸問題是,其自變量x是可控變量(一般變量),只有y是隨機(jī)變量,它們之間的相關(guān)關(guān)系可用正式表示y=f(x)+s其中8是隨機(jī)誤差,一般假設(shè)8?N(0,O2),由于8的隨機(jī)性,導(dǎo)致y是隨機(jī)變量,本節(jié)研究的重點(diǎn)是第二類回歸問題。進(jìn)行回歸分析首先是回歸函數(shù)形式的選擇,當(dāng)只有一個(gè)自變量時(shí),通??刹捎卯嬌Ⅻc(diǎn)圖的方法進(jìn)行選擇,具體如下例。例1由專業(yè)知識(shí)知道,合金的強(qiáng)度y(x107Pa)與合金中碳的含量x(%)有關(guān)。為了生產(chǎn)強(qiáng)度滿足用戶需要的合金,在冶煉時(shí)如何控制碳的含量?如果在冶煉過程中通過化驗(yàn)得知了碳的含量,能否預(yù)測(cè)這爐合金的強(qiáng)度?為解決這類問題就需要研究?jī)勺兞块g的關(guān)系。首先是收集數(shù)據(jù),將其記為數(shù)據(jù)對(duì)(x,y),i=1,2,…,n。ii合金鋼強(qiáng)度y與碳含量x的數(shù)據(jù)序號(hào)x(%)y(x107Pa)序號(hào)x(%)y(x107Pa)10.14270.164920.114380.175330.124590.185040.1345100.205550.1445110.215560.1547.5120.2360把每個(gè)數(shù)對(duì)描在直角坐標(biāo)系中,則得到散點(diǎn)圖,如下。
從散點(diǎn)圖發(fā)現(xiàn)12個(gè)點(diǎn)基本在一條直線附近,說明兩個(gè)變量之間有一個(gè)線性相關(guān)關(guān)系,若記y軸方向上的誤差為£,這個(gè)相關(guān)關(guān)系可以表示為V=0+0X+£01此即為y關(guān)于X的一元線性回歸的數(shù)據(jù)結(jié)構(gòu)式。這里總假定X為一般變量,是非隨機(jī)變量,其值是可以精確測(cè)量或嚴(yán)格控制的,0,0為未知參數(shù),0是直01 1線的斜率,它表示X每增加一個(gè)單位E(y)的增加量?!晔请S機(jī)誤差,通常假定E(£)=0,Var(£)=o2在對(duì)未知參數(shù)做區(qū)間估計(jì)或假設(shè)檢驗(yàn)時(shí),還需要假定誤差服從正態(tài)分布yE(£)=0,Var(£)=o2在對(duì)未知參數(shù)做區(qū)間估計(jì)或假設(shè)檢驗(yàn)時(shí),還需要假定誤差服從正態(tài)分布y?N(0+0x,02)01顯然,假定(2)比(1)更強(qiáng)。則一元線性回歸模型為:fy=0+0x+£,i=1,…,ni0 1ii[各£獨(dú)立同分布,其分布為N(0,02)i由數(shù)據(jù)對(duì)(X,y),i=1,2,…,n可以獲得0,0的估計(jì)0,0,稱(1)即(2)iiyi=00+0iX0101為y關(guān)于x的經(jīng)驗(yàn)回歸函數(shù),簡(jiǎn)稱為回歸方程,其圖形稱為回歸直線。x=x后,稱y=0+0x為回歸值(擬合值或預(yù)測(cè)值)。0 0 0 108.4.3回歸系數(shù)的最小二乘估計(jì)一般采用最小二乘方法估計(jì)一元線性回歸模型中的0,0,令01Q(0,0)=£(y-0-0x)2給定010,0應(yīng)該滿足01i0 1ii=1Q(0,0)=minQ(0,0)0 1 00 0 101稱這樣得到的0,0為0,0的最小二乘估計(jì),記為L(zhǎng)SE。01 01由于Q>0,且對(duì)0,0的導(dǎo)數(shù)存在,因此最小二乘估計(jì)可以通過求偏導(dǎo)數(shù)01并命其為0而得到:那aQ祁"1一2E(r00一%)=0=-22(y-0-0x)X=0i0 1ii這組方程稱為正規(guī)方程組,經(jīng)過整理,可得nP+nXP=ny二1Zy,
nilxy-X)(y-y)=ZlXXlyylxy-X)(y-y)=ZlXXlyy=y(xi=y(yii-x)2=yxy-nxy=Zxy--ZxZyii iin i ix2-nx2=yX2i i-1(EX)2
niy-y)2=乙y2-ny2=iy)2i解之得P=l/11xyxx
八 八P=y-Px此即為參數(shù)的最小二乘估計(jì),其計(jì)算通常可列表進(jìn)行如下A7yx=1.9iA7yx=1.9iX=0.1583
yx2=0.3194
inx2=0.3008l=0.0186XX例1計(jì)算表n=12Exy=95.925iinxy=93.4958l=2.4292
xyP=l/1=130.61 xy戶P=y-Px=28.53_0 1 Zy=590.5iy=49,2083Zy2=2939275iny2:29057.52l=335.23yyO2P?N(P,(廠))b八 八(2)O2P?N(P,(廠))b八 八(2)Cov(B。,,)XXX O2lXXXX⑶對(duì)給定的x0y=P+Px?N(0+(X0-X)2)o2)證明利用y(X-X)=0i可把P1,p0改寫為XXXXXX由此給出回歸方程為y=28.53+130.6x定理8.4.1在一元線性回歸模型下,有1X2⑴心?N(P0,(n+廠)O2),
j_yri (%—%)%]=y—p%=乙[—— ]y1nli下面分別求其%%下面分別求其它們是獨(dú)立正態(tài)變量y,…,y的線性組合,故都服從正態(tài)分布,1n期望與方差。E(I)=yFE(y)=y『(p°+%)=%%% %%Var(6)=y(i%))2Var(y)=y■(%~~%)—o2=02/11 l i l2 %%%%%%E(p)=E(y)—E(p)%=P+P%—P%=P0 1 01 1 0Var(B)=y[——(%一%)%]2Var(y)=(-+%2)o20nl inl%% %%這就證明了(1)。進(jìn)而,考慮到諸y之間的獨(dú)立性,可得iCov(B,B)=Cov(y[——(,i[%)%]y,y%%y)TOC\o"1-5"\h\z\o"CurrentDocument"0— nl ili%% %%Vr1(%一%)%r%—% %=乙[—i]io2=—o2n1 1 1%% %% %%這就證明了(2)。為了證明(3),注意到y(tǒng)=p+p%也是y,…,y的線性組合,0 0 10 1 nE(yE(yj)=E(p)+E(p)%=p+p%
0 0 1 0 0 10八 八=E(y)
0
八 八Var(yj)=Var(p)+Var(p)%+2Cov(p,p)0 0 10 01[(—+:)+
n1%%1%%[(—+:)+
n1%%1%%—2-0—]o2=[_+—o ]o21 n1%% %%證明完成。該定理說明:(i)P,P分別為P,P的無偏估計(jì);(2)y是01 01 0/\/\E(y)=P+P%的無偏估計(jì);(3)除%=0外,P,P是相關(guān)的;(4)要提高0 0 10 0 1P,P的估計(jì)精度(即降低它們的方差)就要求n在,1大(即要求%,…,%比較0 1 %% 1n分散)。8.4.4回歸方程的顯著性檢驗(yàn)如果p=0,則E(y)不隨%的變化而作線性變化,稱回歸方程不顯著。1否則稱回歸方程顯著。即作如下的顯著性檢驗(yàn)TOC\o"1-5"\h\z\o"CurrentDocument"H:P=0vsH:0W001 11拒絕原假設(shè)表示回歸方程是顯著的。通常有三種等價(jià)的檢驗(yàn)方法,使用中只需要任選其一。一、F檢驗(yàn)記y=p+p%為回歸值,y—y為殘差。數(shù)據(jù)總的波動(dòng)用總偏差平方i0 1i ii
和s=1表示,回歸平方和用S=Z(f-y)2表示,殘差平方和用s=乙0-Q)2表示。從而可以推導(dǎo)得到S=S+S,此即為一元線性回e ii TRe歸場(chǎng)合下的平方和分解式。定理8.4.2設(shè)y=p+px+8,其中£ 獨(dú)立,而且有/ 0 1zi 1 nE8=0,)=02,,=1,…,〃i i沿用上面的記號(hào),有E(S)=02+[32/,磯5)=5—2)6R 1xxeA這說明。2=SJ5-2)是。2的無偏估計(jì)。證明首先可以寫出s的簡(jiǎn)化公式:TOC\o"1-5"\h\zs=£(/-了)2=t(y+B(X—無)一刃2=日2/R i 1i 1xx從而E(S)=E(|32)/="(B)+(邱”]/R 1xx 1 1xxO2=(——+廿2)/=02+02// 1XX 1XXXX=£(y-y)2=^(P+p%=£(y-y)2=^(P+p%+s=Z[(B-P)2+X2(P--P-P%)2
0 1i)2+8;2+2(po-po)(p-p)x-2(8—P)£-2(8—P)xe
E(S)=nVar(|3)+2Lx2Wzr(p)+nVar(s)+2nxCov(^,p)證明完畢。將刊寫成小—2“(B8)-2^xE(ps)0i i1i線性組合,利用人與& j)的獨(dú)立性,有人 7將刊寫成小—2“(B8)-2^xE(ps)0i i1i線性組合,利用人與& j)的獨(dú)立性,有人 71(x—元)元E(p8)=E[S乙 Ji、]」(x-x)x)y]=(——^——)02jnIE(p£)=E[S1i ijE(p£)=O2,Z0ixxXXrX-X
y]=^-02JIXXXXxE(p£)=02i1i從而1E(S)從而1E(S)=n[
en元2 V%2 2nx2八八+]O2+乙i(J2+HC2- 02—202—202XX=(l+n-4)J2+XX=(l+n-4)J2+XX XX—-X)2(j2=(〃一2)02XXTOC\o"1-5"\h\z\o"CurrentDocument"定理8.4.3設(shè)J,…,J相互獨(dú)立,且J?N(P+Px,o2),i=1,…,n,1 n i 0 1i則在上述記號(hào)下,有(1)S/02?/2(n—2)e(2)若H成立,則有S/02?/2(1)0 R-a11a12???a 、1n:A=aaan—2,1 , n—2,2i n—2,n,——(x—a11a12???a 、1n:A=aaan—2,1 , n—2,2i n—2,n,——(x—x)/4ll1 "xx(x—x)/.ll2 *xx(x—x)/一n _'xx11/31/4尻1/、;n /(3)S與S、y獨(dú)立(或p與S、y獨(dú)立)。Re 1e證明取nxn的正交矩陣A,具有如下形式:由正交性,可得如下一些約束條小\o"CurrentDocument"i ijj ijj j j乙aa=0,1<i<j<n—2ikjkk這里共有n(n—2)個(gè)未知參數(shù),約束條件有3(n—2)+C2=(n—2)(n+3)/2n—2因此必定有解。令個(gè),只要n>3,未知參數(shù)個(gè)數(shù)就不少于約束條件數(shù),工qy因此必定有解。令jjj.=AY=AE=AY=An—2jj
j_Vx—x'j其中Zn—1E乙(x—'j其中Zn—1E乙(x—x)y j L二xxE(x—x)(y—y)l,;lPxxx1則Z仍然服從正態(tài)分布,且其期望與協(xié)方差陣分別為EZ= 0 ,Var(Z)=AVar(Y).At=O21nTOC\o"1-5"\h\zp4r nXX1,質(zhì)(p0+P1X)J這表明z,…,z相互獨(dú)立,Z,…,Z 的共同分布為N(0,02),z?1 n 1 n-2 n-1N(P ,o2),z?N晨n(p+pX),o2)。1'xx^-^ 、-n 0 1由于乙z2=乙y2=S+ny2=S+S+ny2,而z=.nny,人i iT Re nz=『B=.\S~,于是有z2+…+z2=S,所以S,S,y三者相互獨(dú)n-1 X.xx1Rr 1 n-2 e eR立,并有S/O2
e=名(z/o2)S/O2
e=名(z/o2)?X2(n-2),i在p=0時(shí)1證明完畢。i=1S/O2R與方差分析類似,F(xiàn)=SRS/(n-2)e可以考慮采用F作為檢驗(yàn)統(tǒng)計(jì)量在p=0時(shí),F(xiàn)?F(1,n-2),其中f=1,f=n-2,對(duì)于給定的顯著性水1 Re平a,拒絕域?yàn)镕>F(1,n-2)1-a檢驗(yàn)過程也可以列成方差分析表。例3在例2中,已經(jīng)求出了回歸方程,這里將對(duì)回歸方程的顯著性加以檢驗(yàn)。經(jīng)計(jì)算有S=l=335.23,f=11Tyy TS=p2l=317.26,f=1R1XX RS=S-S=17.97,f=10eTR e把各平方和移入方差分析表,繼續(xù)進(jìn)行計(jì)算來源平方和自由度均方和F比因子誤差S=317.26RS=17.97ef=1Rf=10eMS=317.26RMS=1.80eF=MS/MSRe=176.26總和S=335.23Tf=11T合金鋼強(qiáng)度與碳含量回歸方程的方差分析表若取a=0.01,則F0.99(1.10)=10<176.55,因此,在顯著性水平a=0.01下回歸方程是顯著的。、t檢驗(yàn)O2xxTOC\o"1-5"\h\z對(duì)回歸方程顯著性的檢驗(yàn)也可以基于t分布進(jìn)行。由于P?N(P,(--)),1 1lxx八Pt- 1 ?t(n—2)O/、〃八Pt- 1 ?t(n—2)O/、〃xx其中0-S/(n-2),由于o.-0/J廠,因此稱6.=6/丁為B的標(biāo)、e p xx p xx1準(zhǔn)誤,即t的標(biāo)準(zhǔn)差的估計(jì),因此上述t分布的統(tǒng)計(jì)量可用來檢驗(yàn)假設(shè)H:p=0vsH:pw001 11對(duì)給定的顯著性水平a,拒絕域?yàn)閰n=卬={t>t (n-2)}1-a/2注意:這里12=F,因此該檢驗(yàn)與前述F檢驗(yàn)等同。注意:這里12=F,因此該檢驗(yàn)與前述F檢驗(yàn)等同。例4接例3。計(jì)算得八P 130.6022t= 1^== ——0/.1 <1.797/v0.0186xx-13.2872若取a=0.01,則t0.995(10)=3」698<13.2872,因此在顯著性水平0.01下回歸方程是顯著的。三、相關(guān)系數(shù)檢驗(yàn)當(dāng)一元線性回歸方程是反映兩個(gè)隨機(jī)變量x,y間的線性相關(guān)關(guān)系時(shí),它的顯著性檢驗(yàn)還可通過對(duì)二維總體相關(guān)系數(shù)P的檢驗(yàn)進(jìn)行。它的一對(duì)假設(shè)是H:p=0vsH:pw001所用的檢驗(yàn)統(tǒng)計(jì)量為樣本相關(guān)系數(shù)工(x.-所用的檢驗(yàn)統(tǒng)計(jì)量為樣本相關(guān)系數(shù)工(x.-x)(y-y)xxxxyyy其中(x,y),i=1,2,…,n是容量為n的二維樣本。ii利用施瓦茨不等式可以證明:樣本相關(guān)系數(shù)也滿足|r<1,其中等號(hào)成立條件是存在兩個(gè)實(shí)數(shù)a,b,使得對(duì)i=1,2,…,n有y=a+bx。由此可見n個(gè)ii點(diǎn)(x,y),i=1,2,…,n在散點(diǎn)圖上的位置與樣本相關(guān)系數(shù)丫有關(guān)。(1)r=±1,iin個(gè)點(diǎn)完全在一條上升或下降的直線上;(2)r>0,當(dāng)x增加時(shí),y有線性增加的趨勢(shì),此時(shí)稱正相關(guān);(3)r<0,當(dāng)x增加時(shí),y反而有線性減少的趨勢(shì),此時(shí)稱負(fù)相關(guān);(4)r=0,n個(gè)點(diǎn)可能毫無規(guī)律,也可能呈某種曲線趨勢(shì),此時(shí)稱不相關(guān)。根據(jù)樣本相關(guān)系數(shù)的上述性質(zhì),檢驗(yàn)的原假設(shè)的拒絕域?yàn)閃-{|r|>c}
其中臨界值C可由原假設(shè)成立時(shí)樣本相關(guān)系數(shù)的分布寫出,該分布與自由度n-2有關(guān)。對(duì)給定的顯著性水平a,由P(W)=尸{|r|>c}=a知,臨界值c應(yīng)是原假TOC\o"1-5"\h\z設(shè)成立下”的分布的1-a分位數(shù),故記為c=r(n-2)。還可以用f分布來1 1-a確定臨界值c如下。由樣本相關(guān)系數(shù)的定義可以得到統(tǒng)計(jì)量r與F的之間的關(guān)系l2SSS/Sr2=一工=-R-= R——= R e—lSS+SS/S+1xxyy TR eR e而MSSS(n-2)F= R-= R =7 MSS/(n-2)See e綜合二者得F2二F+(n-2)這表明|r是F的嚴(yán)格單調(diào)增函數(shù),故可以從F分布的1-a分位數(shù)Fia(1,n-2)得到r的1-a分位數(shù)為:F(1,n-2)c=r(n-2)=——1-a 1-a A:F(1,n-2)+1' 1-a上例中,對(duì)于a=0.01,n=12,查表知F(1,10)=10.04,于是0.99r0.99r0.99“oxfi1黑=0.708為實(shí)際使用方便,已經(jīng)編制了r(n-2)表,見附表9。上例中,可以計(jì)算得2.4292=0.9728r=上例中,可以計(jì)算得2.4292=0.9728r=J0.0186x335.2292若取a=0.01,查附表9知r(10)=0.708<0.9728,因此在顯著性水平0.01下0.99回歸方程是顯著的。8.4.5估計(jì)與預(yù)測(cè)當(dāng)回歸方程檢驗(yàn)后是顯著的,便可以用來做估計(jì)和預(yù)測(cè)。估計(jì)問題:當(dāng)%=工時(shí),尋求均值E(J)=0+P%的點(diǎn)估計(jì)與區(qū)間估
0 0 0 10計(jì)(這里的E(J0)是常量),此即估計(jì)問題。預(yù)測(cè)問題:當(dāng)%=%時(shí),y0的觀察值在什么范圍內(nèi),由于丁°是隨機(jī)變量,為此只能求一個(gè)區(qū)間,P(y0-yr3為此只能求一個(gè)區(qū)間,P(y0-yr3)=1-a,稱區(qū)間[y-3,y+3]為y的概率為1-a的預(yù)測(cè)00 0區(qū)間,這是預(yù)測(cè)問題。
一、E(y)的估計(jì)0在x=x時(shí),其對(duì)應(yīng)的因變量y是一個(gè)隨機(jī)變量,有一個(gè)分布,經(jīng)常需要00對(duì)該分布的均值給出估計(jì)。該分布的均值為E(y)=0+px,因此,一個(gè)直TOC\o"1-5"\h\z0 0 10觀的估計(jì)應(yīng)為E^(y)=0+0x0 0 10上述估計(jì)記為y(注意它表示E(y)的估計(jì),而不表示y的估計(jì),因?yàn)閥是隨0 0 00機(jī)變量,它是沒有估計(jì)的)。由于0,0分別為0,0的無偏估計(jì),因此y也是01 01 0E(y)的無偏估計(jì)。0為得到E(y)的區(qū)間估計(jì),需要知道y的分布。由定理8.4.1知00y=b+Bx?n(B+Bx,((-+(xo:x”內(nèi)2)0 0 10 0 10nlxxzx又由定理8.4.3知S/o2?X2(n—2),且與y=y+0(x—x)相互獨(dú)立,e 0 10記抗=S/(n-2)e1(x-x)(y-Ey1(x-x)(y-Ey)/ +一一,nl xx2_oy0-Ey01S,八/(n-2)O21(x-x)2,'-+ ,nl, xx?t(n—2)于是E(y0)的1-a的置信區(qū)間是[y0-3o,yo+3。],其中3=t0 1-a/2(n-2)%-0——lxx二、%的預(yù)測(cè)區(qū)間事實(shí)上,y=Ey+£,由于通常假定8?N(0,o2),因此y的最可能00 0取值仍然為y,于是可以使用以y為中心的一個(gè)區(qū)間00(y-3,y+3)00作為y的取值范圍,為確定3的值,需要如下的結(jié)果:由于y與y獨(dú)立,故0 00y0-y0?N(0,[(1+n+ ]O2)xx因此有八yn-yn 0 0 ?t(n—2)1(x-x)2o1+—+—0 nl' xx從而預(yù)測(cè)區(qū)間中3的表達(dá)式為1 (x—元)20=0(x)=t (n-2)o1+—+—o 0 「a/2 \nlxx上述預(yù)測(cè)區(qū)間與E(y)的置信區(qū)間的差別在于根號(hào)里多個(gè)1,計(jì)算時(shí)要注意到0這個(gè)差別,這也是導(dǎo)致預(yù)測(cè)區(qū)間要比置信區(qū)間寬一些的原因。從0的表達(dá)式中可以看出預(yù)測(cè)區(qū)間的長(zhǎng)度20與樣本量n,x的偏差平方和l,x到x的距離有關(guān)。x到x距離越遠(yuǎn),預(yù)測(cè)精度就越差。當(dāng)xe[x,x]xx0 0 0 (1) (n)時(shí),預(yù)測(cè)精度可能變得很差,在這種情況下的預(yù)測(cè)稱作外推,需要特別小心。因此,若x,…,x較為集中時(shí),那么l就較小,也會(huì)導(dǎo)致預(yù)測(cè)精度的降低,因1 n xx此,在收集數(shù)據(jù)時(shí)要使x,…,x盡量分散,這對(duì)提高精度有利。如下圖,在x=x1n時(shí)預(yù)測(cè)區(qū)間最短,遠(yuǎn)離x的預(yù)測(cè)區(qū)間越來越長(zhǎng),呈喇叭狀。當(dāng)n較大時(shí)(>30),t分布可以用正態(tài)分布近似,進(jìn)而,若x0與x相差不大時(shí),0可以近似取為0=6u1-a/2其中u 是標(biāo)準(zhǔn)正態(tài)分布的1-a/2分位數(shù)。如上圖。1-a/2例4在例2中,如果x=0.16,則行預(yù)測(cè)值為0y=28.5364+130.6022x0.16=49.43280 若取a=0.05,則t(10)=2.2281,又。=J17.9703/(12-2)=1.3405,0.975應(yīng)用0表達(dá)式得0 0=1.3405x2.2281X。+(0.6-0,9)2=1.080 \,12 0.0186故x=0.16對(duì)應(yīng)因變量y的均值E(y)的0.95置信區(qū)間為0 0049.43±1.08=(48.35,50.51)應(yīng)用0表達(dá)式得 0=1.3405x2.2281xJ1+X+(0.16-0.19)2=3.181 12 0.0186從而y的概率為0.95的預(yù)測(cè)區(qū)間為049.43±3.18=(46.25,52.61)由此可見,E(y)的0.95置信區(qū)間比y的概率為0.95的預(yù)測(cè)區(qū)間窄很多,這00是因?yàn)殡S機(jī)變量的均值相對(duì)于隨機(jī)變量本身而言要更容易估計(jì)。也可以求近似預(yù)測(cè)區(qū)間,用正態(tài)分布近似t分布。由于u =1.96,Be1.96X1.34=2.63,則所求區(qū)間為0.97549.43±2.63=(46.8,52.06)此處近似預(yù)測(cè)區(qū)間與精確預(yù)測(cè)區(qū)間相差較大是因?yàn)閚較小的原因。例5在動(dòng)物學(xué)研究中,有時(shí)需要找出某種動(dòng)物的體積與重量的關(guān)系。因?yàn)閯?dòng)物的重量相對(duì)而言容易測(cè)量,而測(cè)量體積比較困難,因此,人們希望用動(dòng)物的重量預(yù)測(cè)其體積,下面是18只某種動(dòng)物的體積與重量數(shù)據(jù),在這里,動(dòng)物重量被看作自變量,用X表示,單位為kg,動(dòng)物體積則作為因變量,用y表示,單位為dm3,18組數(shù)據(jù)列于下表中18只動(dòng)物的重量X與體積y數(shù)據(jù)XyXyXy10.410.215.114.816.515.910.510.415.115.116.716.611.911.615.114.517.116.712.111.915.715.717.116.713.813.515.815.217.817.61514.51615.818.418.3為了能用動(dòng)物重量估計(jì)動(dòng)物體積,必須建立動(dòng)物體積y關(guān)于動(dòng)物重量X的回歸方程。首先畫出散點(diǎn)圖,如下圖從散點(diǎn)中發(fā)現(xiàn)18個(gè)點(diǎn)基本在一條直線附近,這說明兩個(gè)變量之間有一個(gè)線性相關(guān)關(guān)系,下面求該線性回歸方程,計(jì)算過程如下例5計(jì)算表Zx=270.1iX:15.0056n=18Zy=265iy=14.7222ZX2=4149.39inx2=4053.0006ZXy=4071.71iinXy=3976.4722Zy2=3996.14iny2=3901.3889l=96.3894XXl=95.2378Xyl=94.7511w八p=l/1=0.98811Xy XX0=y-xP1=-0.1048由此給出回歸方程為Q=—0.1048+0.988k下面進(jìn)行回歸方程的顯著性檢驗(yàn)。經(jīng)計(jì)算S=l=94.7511,f=17TOC\o"1-5"\h\zTQQ TS=B21=0.98812x96.3894=94.109,f=1R1xx RS=S—S=0.6421,f=16eTR e將諸平方和移入方差分析表內(nèi),繼續(xù)計(jì)算得動(dòng)物體積與重量回歸方程的方差分析表來源平方和 自由度 均方和 F比因子誤差F=MS/MSS=94.109f=1MS=94.109 ReR R R =23469S=0.6421f=16MS=0.0401 = .e ee總和ST=94.7511 fT=17若取a=0.01,則F(1,16)=8.53<2346.9,因此,在顯著性水平0.01下回歸0.99方程是顯著的。如果測(cè)得某動(dòng)物的重量為x=17.6kg,則由回歸方程計(jì)算得0Q=—0.1048+0.9881X17.6=17.28580 若取a=0.05,則t (16)=2.1199,6=%'0.0401=0.2002,由8表0.975達(dá)式得 8=0.2002X2.1199x.1+X+(17.6-15"05?2=0.477618 96.3894從而該動(dòng)物體積的概率為0.95的預(yù)測(cè)區(qū)間為(17.2858±0.4776)=(16.8082,17.7634)近似預(yù)測(cè)區(qū)間,由于u =1.96,則8^1.96x0.2002=0.3924,則所求區(qū)0.975間為(17.2858±0.3924)=(16.8934,17.6782)。此處近似預(yù)測(cè)區(qū)間與精確預(yù)測(cè)區(qū)間差距已經(jīng)不大了,當(dāng)n更大時(shí),兩者差距會(huì)更小一些?!?.5一元非線性回歸例1煉鋼廠出鋼水時(shí)用的鋼包,在使用過程中由于鋼水及爐渣對(duì)耐火材料的侵蝕,共容積不斷增大?,F(xiàn)在鋼包的容積用盛滿鋼水時(shí)的質(zhì)量Q(kg)表示,相應(yīng)的試驗(yàn)次數(shù)用x表示。數(shù)據(jù)見下表,要找出Q與x的定量關(guān)系表達(dá)式。需要分三步進(jìn)行。
鋼包的重量y與試驗(yàn)次數(shù)%數(shù)據(jù)序號(hào) 工y序號(hào)Xy12106.42811110.5923108.2914110.634109.581015110.945109.51116110.7657110121811168109.931319111.2710110.498.5.1確定可能的函數(shù)形式首先畫出散點(diǎn)圖,如下圖。觀測(cè)這13個(gè)點(diǎn)構(gòu)成的散點(diǎn)圖,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西制造職業(yè)技術(shù)學(xué)院《社會(huì)統(tǒng)計(jì)軟件應(yīng)用雙語》2023-2024學(xué)年第二學(xué)期期末試卷
- 四川文化產(chǎn)業(yè)職業(yè)學(xué)院《商務(wù)英語函電一》2023-2024學(xué)年第一學(xué)期期末試卷
- 上海閔行職業(yè)技術(shù)學(xué)院《體育場(chǎng)館經(jīng)營(yíng)與管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 閩教版信息技術(shù)四年級(jí)下冊(cè)《第二單元 鏡頭下的美麗世界 8 組接鏡頭串主題》教學(xué)設(shè)計(jì)
- 標(biāo)準(zhǔn)無證房屋買賣合同范本
- 浙教版八年級(jí)上冊(cè)《任務(wù)二 打蛋器的制作》教學(xué)設(shè)計(jì)
- 九年級(jí)化學(xué)下冊(cè) 第十二單元 化學(xué)與生活 課題3 有機(jī)合成材料教學(xué)設(shè)計(jì) (新版)新人教版
- 2025年-江西建筑安全員B證(項(xiàng)目經(jīng)理)考試題庫(kù)
- 八年級(jí)英語下學(xué)期期中模擬卷(南通專用)(原卷版)
- 采購(gòu)合同貨物保險(xiǎn)合同樣本
- 電力安全生產(chǎn)管理試題及答案
- 專題02 概括文章中心思想(講義)(原卷+答案解釋)2024-2025學(xué)年小升初語文講練測(cè) 統(tǒng)編版
- 門診口腔科消防演習(xí)方案及劇本2024.3.20
- (二模)溫州市2025屆高三第二次適應(yīng)性考試政治試卷(含答案)
- 2024年中國(guó)冶金地質(zhì)總局總部招聘筆試真題
- 飛利浦超聲基礎(chǔ)培訓(xùn)
- 電梯安全管理人員測(cè)試習(xí)題和答案
- 2024年陜煤集團(tuán)榆林化學(xué)有限責(zé)任公司招聘考試真題
- (高清版)DB11∕T780-2024大型群眾性活動(dòng)安全檢查規(guī)范
- 大學(xué)生創(chuàng)新創(chuàng)業(yè)演講稿
- 歐盟電池和廢電池法規(guī)(EU) 2023-1542 (中文翻譯版)
評(píng)論
0/150
提交評(píng)論