概率論第八章

上傳人：6*** IP屬地：湖北上傳時間：2021-11-11 格式：PPT 頁數(shù)：119 大?。?.10MB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩114頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

1、8.1 方差分析8.2 多重比較8.3 方差齊性分析8.4 一元線性回歸8.5 一元非線性回歸 8.1.1 問題的提出實際工作中我們經(jīng)常碰到多個正態(tài)總體均值的比較問題，處理這類問題通常采用所謂的方差分析方法。例8.1.1 在飼料養(yǎng)雞增肥的研究中，某研究所提出三種飼料配方：A1是以魚粉為主的飼料，A2是以槐樹粉為主的飼料，A3是以苜蓿粉為主的飼料。為比較三種飼料的效果，特選 24 只相似的雛雞隨機均分為三組，每組各喂一種飼料，60天后觀察它們的重量。試驗結(jié)果如下表所示：飼料A雞重（克）A110731009106010011002101210091028A21107109299011091

2、090107411221001A310931029108010211022103210291048 本例中，我們要比較的是三種飼料對雞的增肥作用是否相同。為此，把飼料稱為因子，記為A，三種不同的配方稱為因子A的三個水平水平，記為A1, A2, A3，使用配方Ai下第 j 只雞60天后的重量用yij表示，i=1, 2, 3, j=1, 2, 10。我們的目的是比較三種飼料配方下雞的平均重量是否相等，為此，需要做一些基本假定，把所研究的問題歸結(jié)為一個統(tǒng)計問題，然后用方差分析的方法進行解決。在例8.1.1中我們只考察了一個因子，稱其為單因子試驗。通常，在單因子試驗中，記因子為 A, 設其有r個水

3、平，記為A1, A2, Ar，在每一水平下考察的指標可以看成一個總體，現(xiàn)有 r 個水平，故有 r 個總體，假定：o每一總體均為正態(tài)總體，記為 N(i , i 2)， i1, 2, r ；o各總體的方差相同: 1 2= 22= r2 = 2 ；o從每一總體中抽取的樣本是相互獨立的，即所有的試驗結(jié)果 yij 都相互獨立。我們要比較各水平下的均值是否相同, 即要對如下的一個假設進行檢驗: H0 ：1 =2 =r （8.1.1）備擇假設為H1 ：1, 2, , r 不全相等在不會引起誤解的情況下， H1 通?？墒÷圆粚憽?如果H0成立，因子A的r個水平均值相同，稱因子A的r個水平間沒有顯著

4、差異，簡稱因子A不顯著；反之，當H0不成立時，因子A的r個水平均值不全相同，這時稱因子A的不同水平間有顯著差異，簡稱因子A顯著。為對假設（8.1.1）進行檢驗，需要從每一水平下的總體抽取樣本，設從第i個水平下的總體獲得m個試驗結(jié)果，記 yij 表示第i個總體的第j次重復試驗結(jié)果。共得如下n=rm個試驗結(jié)果：yij， i1, 2, r ， j1, 2, , m, 其中r為水平數(shù)，m為重復數(shù)，i為水平編號， j 為重復編號。在水平Ai下的試驗結(jié)果yij與該水平下的指標均值 i 一般總是有差距的，記 ij = yiji， ij 稱為隨機誤差。于是有 yij = i +ij （8.1.2）（8.

5、1.2）式稱為試驗結(jié)果 yij 的數(shù)據(jù)結(jié)構(gòu)式。單因子方差分析的統(tǒng)計模型：（8.1.3）總均值與效應: 稱諸 i 的平均為總均值. 稱第 i 水平下的均值 i 與總均值的差: ai=i - 為 Ai 的效應。 2,1,2,., ,1,2,.,(0,)ijiijijyir jmN諸相互獨立，且都服從1111(.)rriirr 模型（8.1.3）可以改寫為 (8.1.8) 假設（8.1.1）可改寫為 H0 ：a1 =a2 =ar =0 （8.1.9） 12,1,2,., ,1,2,.,0N(0,)ijiijriiijyair jma相互獨立，且都服從一、試驗數(shù)據(jù) 通常在單因子方差分析中可將

6、試驗數(shù)據(jù)列成如下頁表格形式。表8.1.2中的最后二列的和與平均的含義如下：.111,2,miiijijriiTTyyirmTTTTyr mnnr m總試驗次數(shù)因子水平試驗數(shù) 據(jù) 和平均 A1y11 y12 y1m T1A2y21 y22 y2mT2Aryr1 yr2 yrmTrT1y2yyry 數(shù)據(jù)間是有差異的。數(shù)據(jù)yij與總平均間的偏差可用yij 表示，它可分解為二個偏差之和（8.1.10）記二、組內(nèi)偏差與組間偏差.()()ijijiiyyyyyy.1111111,mrrmiijiijjiijmrnyy 由于（8.1.11）所以yij - 僅反映組內(nèi)數(shù)據(jù)與組內(nèi)平均的隨機誤差

7、，稱為組內(nèi)偏差；而（8.1.12）除了反映隨機誤差外，還反映了第i個水平的效應，稱為組間偏差。.()()ijiiijiiijiyyijy.()()iiiiiyya. iyy在統(tǒng)計學中，把k個數(shù)據(jù)y1 , y2 , , yk分別對其均值 =(y1+ + yk )/k 的偏差平方和稱為k個數(shù)據(jù)的偏差平方和，它常用來度量若干個數(shù)據(jù)分散的程度。三、偏差平方和及其自由度y22211()()()kkiiQyyyyyy在構(gòu)成偏差平方和Q的k個偏差y1 , , yk 間有一個恒等式，這說明在Q中獨立的偏差只有k1個。在統(tǒng)計學中把平方和中獨立偏差個數(shù)稱為該平方和的自由度，常記為f，如Q的自由度為fQ=k

8、1。自由度是偏差平方和的一個重要參數(shù)。 yy1()0kiiyy各yij間總的差異大小可用總偏差平方和表示，其自由度為fT=n1；四、總平方和分解公式僅由隨機誤差引起的數(shù)據(jù)間的差異可以用組內(nèi)偏差平方和表示，也稱為誤差偏差平方和，其自由度為 fe=nr ；211()rmTijijSyy 2.11()rmeijiijSyy由于組間差異除了隨機誤差外，還反映了效應間的差異，故由效應不同引起的數(shù)據(jù)差異可用組間偏差平方和表示，也稱為因子A的偏差平方和，其自由度為 fA=r1； 2.1()rAiiSmyy定理8.1.1 在上述符號下，總平方和ST可以分解為因子平方和SA與誤差平方和Se之和，其

9、自由度也有相應分解公式，具體為： ST =SA +Se , fT =fA +fe （8.1.16）（8.1.16）式通常稱為總平方和分解式。偏差平方和Q的大小與自由度有關(guān)，為了便于在偏差平方和間進行比較，統(tǒng)計上引入了均方和的概念，它定義為MS=Q/fQ ，其意為平均每個自由度上有多少平方和，它比較好地度量了一組數(shù)據(jù)的離散程度。如今要對因子平方和 SA 與誤差平方和 Se 之間進行比較，用其均方和 MSA= SA /fA ， MSe= Se /fe 進行比較更為合理，故可用作為檢驗H0的統(tǒng)計量。8.1.4 檢驗方法/AAAeeeMSSfFMSSf定理8.1.2 在單因子方差分析模型 (8

10、.1.8) 及前述符號下，有 (1) Se / 2 2(nr) ，從而E(Se ) (nr) 2 ，進一步，若H0成立，則有SA/ 2 2(r1) (2) SA與Se獨立。 221()(1)rAiiE Srma由定理8.1.2，若H0成立，則檢驗統(tǒng)計量F服從自由度為fA和fe的F分布，因此拒絕域為W=FF1 (fA ,fe)，通常將上述計算過程列成一張表格，稱為方差分析表。表8.1.3 單因子方差分析表來源平方和自由度均方和F比因子SAfA=r1MSA= SA/fAF MSA/ MSe誤差Sefe=nrMSe= Se/fe總和STfT=n1對給定的，可作如下判斷：若F F1 (fA ,f

11、e) ，則說明因子A不顯著。該檢驗的p值也可利用統(tǒng)計軟件求出，若以Y記服從F(fA ,fe)的隨機變量，則檢驗的 p 值為 p=P(YF)。如果 F F1 (fA ,fe)，則認為因子A顯著；常用的各偏差平方和的計算公式如下：（8.1.19）一般可將計算過程列表進行。 22112211rmTijijrAiieTATSynTSTmnSSS例8.1.2 采用例8.1.1的數(shù)據(jù)，將原始數(shù)據(jù)減去1000，列表給出計算過程：表8.1.4 例8.1.2的計算表水平數(shù)據(jù)（原始數(shù)據(jù)-1000）TiTi2A173 96012129281943763610024A210792-10109907412

12、2158534222560355A393 298021223229483541253162098411335051779136321mijjy 利用(8.1.19)，可算得各偏差平方和為：把上述諸平方和及其自由度填入方差分析表2211339136337876.0417,24 1 2324505177 11339660.0833,3 1282437876.0417 9660.0833 28215.9584,3(8 1) 21TTAAeTAeSfSfSSSf 表8.1.5 例8.1.2的方差分析表來源平方和自由度均方和F比因子9660.083324830.04173.5948 誤差28215.

13、9584211343.6171總和37876.041723若取=0.05，則F0.95 (2 ,21)=3.47 ，由于F=3.59483.47，故認為因子A（飼料）是顯著的，即三種飼料對雞的增肥作用有明顯的差別。在檢驗結(jié)果為顯著時，我們可進一步求出總均值、各主效應ai和誤差方差 2的估計。一、點估計由模型(8.1.8)知諸yij相互獨立，且yij N(+ ai , 2) ，因此，可使用極大似然方法求出一般平均、各主效應ai和誤差方差 2的估計:由極大似然估計的不變性，各水平均值i的極大似然估計為，由于不是 2的無偏估計，可修偏： .iiy2M2eMS.2211,1,1()iir

14、meMijijyayyirSyynn 由于，可給出Ai的水平均值i的1- 的置信區(qū)間為其中。 .() ()/iieeem yt fSf二、置信區(qū)間.1/2.1/2()/,()/ieieytfmytfm2eMS例8.1.3 繼續(xù)例8.1.2，此處我們給出諸水平均值的估計。因子A的三個水平均值的估計分別為從點估計來看，水平2（以槐樹粉為主的飼料）是最優(yōu)的。 12319410001024.25,858510001073.125,835410001044.25,8 誤差方差的無偏估計為利用(8.1.23)可以給出諸水平均值的置信區(qū)間。此處，，若取0.05 ，則t1- /2( fe )= t

15、0.95( 21 )=2.0796，，于是三個水平均值的0.95置信區(qū)間分別為21343.6171eMS1343.6171 36.65540.975(21)/ 8 26.9509t123:1024.25 26.9509 = 997.2891, 1051.2109,:1073.125 26.9509 = 1046.1741, 1100.0759,:1044.25 26.9509 = 1017.2891, 1071.2109. 在單因子試驗的數(shù)據(jù)分析中可得到如下三個結(jié)果：因子是否顯著；試驗的誤差方差 2的估計；諸水平均值i的點估計與區(qū)間估計。在因子A顯著時，通常只需對較優(yōu)的水平均值作參數(shù)

16、估計，在因子A不顯著場合，參數(shù)估計無需進行。8.1.6 重復數(shù)不等情形單因子方差分析并不要求每個水平下重復試驗次數(shù)全相等，在重復數(shù)不等場合的方差分析與重復數(shù)相等情況下的方差分析極為相似，只在幾處略有差別。數(shù)據(jù)：設從第i個水平下的總體獲得mi個試驗結(jié)果，記為yi1 , yi2 , yim ，i=1,2, r，統(tǒng)計模型為：（8.1.24） 2,1,2,., ,1,2,.,(0,)ijiijiijyirjmN各相互獨立，且都服從總均值：諸i的加權(quán)平均（所有試驗結(jié)果的均值的平均）（8.1.25）稱為總均值或一般平均。效應約束條件：各平方和的計算： SA的計算公式略有不同 222.11()

17、rriAiiiiiTTSm yymn10riiim a11111(.)rrriiimmmnn例8.1.4 某食品公司對一種食品設計了四種新包裝。為考察哪種包裝最受顧客歡迎，選了10個地段繁華程度相似、規(guī)模相近的商店做試驗，其中二種包裝各指定兩個商店銷售，另二個包裝各指定三個商店銷售。在試驗期內(nèi)各店貨架排放的位置、空間都相同，營業(yè)員的促銷方法也基本相同，經(jīng)過一段時間，記錄其銷售量數(shù)據(jù)，列于表8.1.6左半邊，其相應的計算結(jié)果列于右側(cè)。包裝類型銷售量 miTiTi2 / miA112214 12319 17 2135710831091A424

18、 3025414581476和n=10T=18021imijjy213498riiiTm2113544imrijijy由此可求得各類偏差平方和如下方差分析表如表8.1.8所示 .若取0.01，查表得F0.01(3,6)=9.78，由于 F=11.229.78，故我們可認為各水平間有顯著差異。 3544 3240304,10 1 93498 3240258,4 1 3304 25846,10 46TTAAeeSfSfSf 22180324010Tn來源平方和自由度均方和F比因子A25838611.22 誤差e4667.67總和T3049 由于因子顯著，我們還可以給出諸水平均值的估計。因子A的四

19、個水平均值的估計分別為由此可見，第四種包裝方式效果最好。誤差方差的無偏估計為123430/215,39/313,57/319,54/227,27.67eMS 進一步，利用(8.1.23)也可以給出諸水平均值的置信區(qū)間，只是在這里要用不同的mi代替那里相同的m。此處，，若取0.05，則t1-/2( fe )=t0.95(6)=2.4469，，于是效果較好的第三和第四個水平均值的0.95置信區(qū)間分別為 7.672.76950.975(6)6.7767t:196.7767/3 15.0875,22.9125,3:276.7767/2 22.2081,31.7919.48.2.1 效應差的置信區(qū)

20、間如果方差分析的結(jié)果因子A顯著，則等于說有充分理由認為因子A各水平的效應不全相同，但這并不是說它們中一定沒有相同的。就指定的一對水平Ai與Aj，我們可通過求i - j的區(qū)間估計來進行比較。由于，故由此給出i - j的置信水平為1-的置信區(qū)間為 (8.2.1)其中是 2的無偏估計。這里的置信區(qū)間與第六章中的兩樣本的t區(qū)間基本一致，區(qū)別在于這里 2的估計使用了全部樣本而不僅僅是兩個水平Ai, Aj下的觀測值。2.11(,()ijijijyyNmm.()()()11()ijijeeijeyytfSmmf.11221111()(),()()ijeijeijijyytfyytfmmmm2/eeS

21、f例8.2.1 繼續(xù)例8.1.2，，fe=21，取0.05 ，則t1-/2( fe )= t0.975(21)=2.0796，于是可算出各個置信區(qū)間為可見第一個區(qū)間在0的左邊，所以我們可以概率95%斷言認為1 小于2，其它二個區(qū)間包含0點，雖然從點估計角度看水平均值估計有差別，但這種差異在0.05水平上是不顯著的。 0.9751 1(21) 38.11438 8t121323:48.875038.1143 86.9893,10.7607:2038.1143 58.11433, 18.1143:28.875038.1143 9.2393, 66.9893 1343.6171 36.6554

22、8.2.2 多重比較問題對每一組(i, j)， (8.2.1) 給出的區(qū)間的置信水平都是1 ，但對多個這樣的區(qū)間，要求其同時成立，其聯(lián)合置信水平就不再是1 了。譬如，設E1 , , Ek是k個隨機事件，且有 P(Ei)=1，i=1 ,k ，則其同時發(fā)生的概率這說明它們同時發(fā)生的概率可能比1 小很多。為了使它們同時發(fā)生的概率不低于1，一個辦法是把每個事件發(fā)生的概率提高到1 /k. 這將導致每個置信區(qū)間過長，聯(lián)合置信區(qū)間的精度很差，一般人們不采用這種方法。 111()1()1()1kkkiiiiiiPEPEP Ek 在方差分析中，如果經(jīng)過F檢驗拒絕原假設，表明因子A是顯著的，即r個水平對應

23、的水平均值不全相等，此時，我們還需要進一步確認哪些水平均值間是確有差異的，哪些水平均值間無顯著差異。同時比較任意兩個水平均值間有無明顯差異的問題稱為多重比較，多重比較即要以顯著性水平同時檢驗如下r(r1)/2個假設：（8.2.2） 0:,1,ijijHijr 直觀地看，當H0ij成立時，不應過大，因此，關(guān)于假設(8.2.2)的拒絕域應有如下形式諸臨界值應在（8.2.2）成立時由P(W)= 確定。下面分重復數(shù)相等和不等分別介紹臨界值的確定。 .1|ijijij rWyyc .|ijyy 8.2.3 重復數(shù)相等場合的T法在重復數(shù)相等時，由對稱性自然可以要求諸cij相等，記為c. 記，則

24、由給定條件不難有 2/eeSf. () /iiieytt fm 于是當 (8.2.2) 成立時，1= r = ，可推出其中，稱為t化極差統(tǒng)計量，其分布可由隨機模擬方法得到。于是 , 其中q1(r, fe)表示q(r, fe)的1 分位數(shù)，其值在附表8中給出。 ()( ,)/eP WP q r fmc.()()( ,)maxmin/jieijyyq r fmm1( ,)/ecqr fm 重復數(shù)相同時多重比較可總結(jié)如下：對給定的的顯著性水平，查多重比較的分位數(shù)q(r,fe)表，計算，比較諸與c的大小，若則認為水平Ai與水平Aj間有顯著差異，反之，則認為水平Ai與水平Aj間無明顯差別。

25、這一方法最早由Turkey提出，因此稱為T法。 1( ,)/ecqr fm.|ijyy.|ijyyc 例8.2.2 繼續(xù)例8.1.2，若取 =0.05，則查表知q1-0.05(3, 21)=3.57，而。所以，認為1與2有顯著差別，認為1與3無顯著差別，認為2與3有顯著差別這說明： 1與3之間無顯著差別，而它們與2之間都有顯著差異。 36.65543.57 36.6554/846.2659c 1.2.|48.87546.2659yy1.3.| 2046.2659yy2.3.| 46.87546.2659yy在重復數(shù)不等時，若假設 (8.2.2) 成立，則或從而可以要求，在此要求

26、下可推出.() ()11ijijeijyytt fmm2.2()(1,)11()ijijeijyyFFfmm11ijijccmm21()(max( /) )ij rijP WPFc 可以證明，從而亦即1max(1,)1ij rijeFF rfr 21(1,)( /)1eFrfcr2111(1)(1,)()ijeijcrFrfmm 例8.2.3 在例8.1.4中，我們指出包裝方式對食品銷量有明顯的影響，此處r=4, fe =6, ，若取 =0.05 ，則F0.95(3,6)=4.76。注意到m1= m4=2，m2= m3=3，故27.671213243414233 4.76 (1/2 1/3

27、) 7.679.63 4.76 (1/2 1/2) 7.6710.53 4.76 (1/3 1/3) 7.678.5cccccc 由于這說明A1 , A2 , A3間無顯著差異，A1 , A2與A4有顯著差異，但 A4與A3 的差異卻尚未達到顯著水平。綜合上述，包裝A4銷售量最佳。 1.2.121.3.131.4.142.3.232.4.243.4.34| 2,| 4,| 12| 6,| 14,| 8yycyycyycyycyycyyc 在進行方差分析時要求r個方差相等，這稱為方差齊性。理論研究表明，當正態(tài)性假定不滿足時對F檢驗影響較小,即F檢驗對正態(tài)性的偏離具有一定的穩(wěn)健性，而F檢驗對方差

28、齊性的偏離較為敏感。所以r個方差的齊性檢驗就顯得十分必要。所謂方差齊性檢驗是對如下一對假設作出檢驗：（8.3.1） 22220121riHvsH：諸不全相等很多統(tǒng)計學家提出了一些很好的檢驗方法，這里介紹幾個最常用的檢驗，它們是： Hartley檢驗，僅適用于樣本量相等的場合； Bartlett檢驗，可用于樣本量相等或不等的場合，但是每個樣本量不得低于5；修正的Bartlett檢驗，在樣本量較小或較大、相等或不等場合均可使用。當各水平下試驗重復次數(shù)相等時，即m1=m2=mr=m,Hartley提出檢驗方差相等的檢驗統(tǒng)計量：（8.3.2）這個統(tǒng)計量的分布無明顯的表達式，但在諸方差

29、相等條件下，可通過隨機模擬方法獲得H分布的分位數(shù)，該分布依賴于水平數(shù)r 和樣本方差的自由度f=m1，因此該分布可記為H (r，f)，其分位數(shù)表列于附表10上。 2221222212max,min,rrsssHsss 直觀上看，當H0成立，即諸方差相等（12 =22=r2）時，H的值應接近于1，當H的值較大時，諸方差間的差異就大，H愈大，諸方差間的差異就愈大，這時應拒絕 (8.3.1)中的H0。由此可知，對給定的顯著性水平，檢驗H0的拒絕域為 W=H H1(r, f ) （8.3.3）其中H1(r, f )為H分布的1 分位數(shù)。例8.3.1 有四種不同牌號的鐵銹防護劑（簡稱防銹劑），現(xiàn)要比

30、較其防銹能力。數(shù)據(jù)見表8.3.1。這是一個重復次數(shù)相等的單因子試驗。我們考慮用方差分析方法對之進行比較分析，為此，首先要進行方差齊性檢驗。本例中，四個樣本方差可由表8.3.1中諸Qi求出，即由此可得統(tǒng)計量H的值在 =0.05時，由附表10查得H0.95(4,9) =6.31，由于H d （8.3.4） Bartlett證明了，檢驗的拒絕域為 W=B 1- 2 (r-1) （8.3.8）考慮到這里2分布是近似分布，在諸樣本量mi均不小于5時使用上述檢驗是適當?shù)摹?例8.3.2 為研究各產(chǎn)地的綠茶的葉酸含量是否有顯著差異，特選四個產(chǎn)地綠茶，其中A1制作了7個樣品， A2制作了5個樣品，

31、A3與A4各制作了6個樣品，共有24個樣品，按隨機次序測試其葉酸含量，測試結(jié)果如表8.3.3所示。為能進行方差分析，首先要進行方差齊性檢驗，從表8.3.3中數(shù)據(jù)可求得s12=2.14, s22=2.83, s32=2.41, s42=1.12，再從表8.3.4上查得MSe =2.09，由(8.3.6)，可求得再由(8.3.7)，還可求得Bartlett檢驗統(tǒng)計量的值對給定的顯著性水平 =0.05，查表知0.952 (41) =7.815。由于B7.815，故應保留原假設H0，即可認為諸水平下的方差間無顯著差異。 11111111.08563(4 1)645520C 120 ln2.096

32、 ln2.144 ln2.835 ln2.41 5 ln1.120.97 01.0856B 針對樣本量低于5時不能使用Bartlett檢驗的缺點，Box提出修正的Bartlett檢驗統(tǒng)計量（8.3.9）其中B與C如（8.3.7）與（8.3.6）所示，且21()f BCBf ABC 2122211,(1)22/frfrfACCf 在原假設H0：12 =22=r2成立下，Box還證明了統(tǒng)計量的近似分布是F分布F(f1, f2)，對給定的顯著性水平，該檢驗的拒絕域為（8.3.10）其中f2的值可能不是整數(shù)，這時可通過對F分布的分位數(shù)表施行內(nèi)插法得到分位數(shù)。 B112(,)WBFff 例8

33、.3.3 對例8.3.2中的綠茶葉酸含量的數(shù)據(jù)，我們用修正的Bartlett檢驗再一次對等方差性作出檢驗。在例8.3.2中已求得：C=1.0856，B=0.970，還可求得：對給定的顯著性水平 =0.05，在F分布的分位數(shù)表上可查得 F0.95(3,682.4)= F0.95(3,)=2.60 由于 2.60，故保留原假設H0，即認為四個水平下的方差間無顯著差異。 B1224 134 1682.4(1.08561)682.4743.92 1.08562/682.4682.4 0.970 1.08560.3223(743.90.970 1.0856)ffCAB 8.4.1 變量間的兩類關(guān)系

34、十九世紀，英國生物學家兼統(tǒng)計學家高爾頓研究發(fā)現(xiàn)：其中x表示父親身高， y 表示成年兒子的身高（單位：英寸，1英寸=2.54厘米）。這表明子代的平均高度有向中心回歸的意思，使得一段時間內(nèi)人的身高相對穩(wěn)定。之后回歸分析的思想滲透到了數(shù)理統(tǒng)計的其它分支中。 33.730.516yx 回歸分析便是研究變量間相關(guān)關(guān)系的一門學科。它通過對客觀事物中變量的大量觀察或試驗獲得的數(shù)據(jù)，去尋找隱藏在數(shù)據(jù)背后的相關(guān)關(guān)系，給出它們的表達形式回歸函數(shù)的估計。變量間的相關(guān)關(guān)系不能用完全確切的函數(shù)形式表示，但在平均意義下有一定的定量關(guān)系表達式，尋找這種定量關(guān)系表達式就是回歸分析的主要任務。回歸分析處理的是變量與變量間

35、的關(guān)系。變量間常見的關(guān)系有兩類：確定性關(guān)系與相關(guān)關(guān)系。 8.4.2 一元線性回歸模型設y與x間有相關(guān)關(guān)系，稱x為自變量(預報變量)，y為因變量(響應變量)，在知道x取值后，y有一個分布p(yx)，我們關(guān)心的是y的均值E(Yx)： (8.4.1) 這便是y關(guān)于x的理論回歸函數(shù)條件期望，也就是我們要尋找的相關(guān)關(guān)系的表達式。通常，相關(guān)關(guān)系可用下式表示 y =f (x)+ 其中是隨機誤差，一般假設 N(0, 2)。 ( )(|)(|)fxE Yxyp yx dy 例8.4.1 合金的強度y (107Pa) 與合金中碳的含量x (%) 有關(guān)。為研究兩個變量間的關(guān)系。首先是收集數(shù)據(jù)，我們把收集到的數(shù)據(jù)

36、記為(xi,yi),i=1,2,n。本例中，我們收集到12組數(shù)據(jù)，列于表8.4.1中進行回歸分析首先是回歸函數(shù)形式的選擇。當只有一個自變量時，通常可采用畫散點圖的方法進行選擇。序號x(%)y (107Pa)序號x(%)y (107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.0 為找出兩個量間存在的回歸函數(shù)的形式，可以畫一張圖：把每一對數(shù)(xi,yi)看成直角坐標系中的一個點，在圖上畫出n個點，稱這張圖為散點圖，

37、見圖8.4.1 0 .1 00 .1 50 .2 04 05 06 0碳含量合金鋼強度圖8 .4 .1 合金鋼強度及碳含量的散點圖從散點圖我們發(fā)現(xiàn)12個點基本在一條直線附近，這說明兩個變量之間有一個線性相關(guān)關(guān)系，這個相關(guān)關(guān)系可以表示為 y =0+ 1x+ (8.4.2) 這便是y關(guān)于x的一元線性回歸的數(shù)據(jù)結(jié)構(gòu)式。通常假定 E() =0, Var() = 2 (8.4.3) 在對未知參數(shù)作區(qū)間估計或假設檢驗時，還需要假定誤差服從正態(tài)分布，即 y N(0+ 1x, 2 ) (8.4.4) 顯然，假定(8.4.4) 比 (8.4.3) 要強。由于 0, 1均未知，需要我們從收集到的數(shù)據(jù)(

38、xi,yi)，i=1,2,n，出發(fā)進行估計。在收集數(shù)據(jù)時，我們一般要求觀察獨立地進行，即假定y1, y2, yn,相互獨立。綜合上述諸項假定，我們可以給出最簡單、常用的一元線性回歸的數(shù)學模型： (8.4.5) 0121,2, (0,) iiiiyxinN，各獨立同分布，其分布為由數(shù)據(jù)(xi,yi)，i=1,2,n，可以獲得0, 1的估計，稱 (8.4.6) 為y關(guān)于x的經(jīng)驗回歸函數(shù)，簡稱為回歸方程，其圖形稱為回歸直線。給定x=x0后，稱為回歸值（在不同場合也稱其為擬合值、預測值）。 01,01 yx0010 yx 一般采用最小二乘方法估計模型(8.4.5)中的0, 1 ：令：應該

39、滿足稱這樣得到的稱為0, 1的最小二乘估計，記為LSE。 01,01,201011(,)()niiiQyx10101,(,)min(,)QQ 最小二乘估計可以通過求偏導數(shù)并命其為0而得到： (8.4.7) 這組方程稱為正規(guī)方程組，經(jīng)過整理，可得 (8.4.8) 011001112()02()0niiiniiiiQyxQyx x 01201iiinnxnynxxx y解(8.4.8)可得（8.4.9）這就是參數(shù)的最小二乘估計，其中 101/xyxxllyx222222222211,1()()1()1()iixyiiiiiiiixxiiiiyyiiiixxyynnlxxyyx ynx yx

40、yxynlxxxnxxxnlyyynyyyn xi=1.90n=12yi=590.5xi2=0.3194xi yi =95.9250yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此給出回歸方程為: 28.5340 130.6022yx例8.4.2 使用例8.4.1種合金鋼強度和碳含量數(shù)據(jù)，我們可求得回歸方程，見下表. 0.1583x 49.2083y 20.3008nx 93.4958n x y229057.5208ny 1/130.6022xyxxll0128.5340yx 定理8.4.1 在模型(8.4.5)下，有（1）（2）（3）對給定

41、的x0，22200111,xxxxxNNnll，201Covxxxl ，220001 001 0()1xxxxyxNxnl，關(guān)于最小二乘估計的一些性質(zhì)羅列在如下定理之中定理8.4.1 說明分別是0, 1的無偏估計； 01, 是E(y0)=0+ 1 x0的無偏估計； 0 y 除外，與是相關(guān)的； 0 x10 要提高的估計精度（即降低它們的方差）就要求n大，lxx大（即要求x1, x2, xn較分散）。 01, 在使用回歸方程作進一步的分析以前，首先應對回歸方程是否有意義進行判斷。如果1=0，那么不管x如何變化，E(y)不隨x的變化作線性變化，那么這時求得的一元線性回歸方程就沒有意

42、義，稱回歸方程不顯著。如果10，E(y)隨x的變化作線性變化，稱回歸方程是顯著的。綜上，對回歸方程是否有意義作判斷就是要作如下的顯著性檢驗：H0：1=0 vs H1： 10 拒絕H0表示回歸方程是顯著的。一、F 檢驗采用方差分析的思想，我們從數(shù)據(jù)出發(fā)研究各yi不同的原因。數(shù)據(jù)總的波動用總偏差平方和表示。引起各yi不同的原因主要有兩個因素：其一是H0可能不真，E(y)隨x的變化而變化，從而在每一個x的觀測值處的回歸值不同，其波動用回歸平方和表示；其二是其它一切因素，包括隨機誤差、x對E(y)的非線性影響等，這可用殘差平方和表示。且有如下平方和分解式： ST= SR + Se (8.

43、4.13) 在一元線性回歸中有三種等價的檢驗方法，下面分別加以介紹。2()TiyySyyl2()RiSyy2()eiiSyy定理8.4.2 設yi=i+ 1 xi + i，其中i n相互獨立，且Ei=0，Var(yi)= 2，i=1,n，沿用上面的記號，有 (8.4.14) (8.4.15) 這說明是 2的無偏估計。關(guān)于SR 和 Se所含有的成分可由如下定理說明。 221()RxxE Sl2()(2)eE Sn2/(2)eSn定理8.4.3 設 y1, y2, yn 相互獨立，且 yiN(i + 1 xi , 2)， i=1, , n，則在上述記號下，有（1）Se / 2 2(n2)

44、，（2）若H0成立，則有SR / 2 2(1) （3） SR與Se ，獨立（或與Se ，獨立）。 yy1 如同方差分析那樣，我們可以考慮采用F比作為檢驗統(tǒng)計量：在1 =0時，F(xiàn)F(1, n2)，其中fR =1, fe =n2. 對于給定的顯著性水平，拒絕域為 F F1-(1, n2) 整個檢驗也可列成一張方差分析表。 /(2)ReSFSn來源平方和自由度均方和F比回歸 SR =317.2589fA=1MSA=317.2589176.55殘差Se =17.9703fe=10MSe= 1.79703總和 ST =335.2292fT=11例8.4.3 在合金鋼強度的例8.4.2中，我們已

45、求出了回歸方程，這里我們考慮關(guān)于回歸方程的顯著性檢驗。經(jīng)計算有若取=0.01，則F0.99(1,10) =103.1698，因此，在顯著性水平0.01下回歸方程是顯著的。 130.602213.28721.7970 /0.0186t 三、相關(guān)系數(shù)檢驗一元線性回歸方程是反映兩個隨機變量x與y間的線性相關(guān)關(guān)系，它的顯著性檢驗還可通過對二維總體相關(guān)系數(shù)的檢驗進行。它的一對假設是 H0：=0 vs H1： 0 (8.4.18) 所用的檢驗統(tǒng)計量為樣本相關(guān)系數(shù) (8.4.19) 拒絕域為W=rc，其中臨界值c應是H0: =0成立下r的分布的1 分位數(shù)，故記為c=r1- (n2). 22()()()(

46、)xyiixx yyiilxxyyrl lxxyy 由樣本相關(guān)系數(shù)的定義可以得到 r與F統(tǒng)計量之間的關(guān)系這表明， r是F的嚴格單調(diào)增函數(shù)，故可以從F分布的1 分位數(shù) F1-(1, n2) 得到 r 的1 分位數(shù)為2(2)FrFn111(1,2)(2)(1,2) 1FncrnFn 譬如，對 =0.01，n=12， F0.99(1,10)=10.04 ，于是。為實際使用方便，人們已對r1- (n-2)編制了專門的表，見附表9。以例8.4.2中數(shù)據(jù)為例，可以計算得到若取 =0.01，查附表9知 r0.99(10)=0.708, 由于0.97280.708，因此，在顯著性水平0.01下回歸方

47、程是顯著的。 0.9910.04(10)0.70810.041r2.42920.97280.0186335.2292r 8.4.5 估計與預測當回歸方程經(jīng)過檢驗是顯著的后，可用來做估計和預測。這是二個不同的問題：（1）當x=x0時，尋求均值E(y0)=0+ 1 x0的點估計與區(qū)間估計（注意這里E(y0)是常量）是估計問題；（2）當x=x0時，y0的觀察值在什么范圍內(nèi)？由于y0是隨機變量，為此只能求一個區(qū)間，使y0落在這一區(qū)間的概率為1- ，即要求，使稱區(qū)間為y0的概率為1- 的預測區(qū)間，這是預測問題。 00()1P yy 00,yy一、 E(y0)的估計在x=x0時，其對應

48、的因變量y0是一個隨機變量，有一個分布，我們經(jīng)常需要對該分布的均值給出估計。由于E(y0)=0+ 1 x0，一個直觀的估計應為我們習慣上將上述估計記為（注意這里表示的是E(y0)的估計，而不表示y0的估計，因為y0是隨機變量，它是沒有估計的）。由于分別是0, 1的無偏估計，因此，也是E(y0)的無偏估計。 0 y0 y0 y01,0010()E yx 為得到E(y0)的區(qū)間估計，我們需要知道的分布。由定理8.4.1，又由定理8.4.3知， Se / 2 2(n-2)，且與相互獨立，故010()yyxx2200010010()1xxxxyxNxnl，200000202()1()/

49、 (2)()1/(2)xxexxxxyEynlyEyt nSxxnnl0 y于是E(y0)的1 的置信區(qū)間（CI）是（8.4.20）其中（8.4.21）2001/2()1(2)xxxxtnnl0000,yy 二、 y0的預測區(qū)間實用中往往更關(guān)心x=x0時對應的因變量y0的取值范圍。 y0的最可能取值為，于是，我們可以使用以為中心的一個區(qū)間作為y0的取值范圍。經(jīng)推導，的表達式為 (8.4.23）上述預測區(qū)間（PI）與E(y0)的置信區(qū)間的差別就在于根號里多個1。 0 y0 y00(,)yy2001/2()1()(2)1xxxxxtnnl 預測區(qū)間的長度2與樣本量n、x的偏差平方和

50、lxx、 x0 到的距離有關(guān)。當時，預測精度可能變得很差，在這種情況下的預測稱作外推，需要特別小心。另外，若x1, x2, xn較為集中時，那么lxx就較小，也會導致預測精度的降低。因此，在收集數(shù)據(jù)時要使x1, x2, xn盡量分散，這對提高精度有利。當n較大時（如n 30)， t分布可以用正態(tài)分布近似，進一步，若x0與相差不大時，可以近似取為。 0|xxx0(1)( ),nxxxx1/2u 例8.4.4 在例8.4.2中，如果x0=0.16，則得預測值為若取 =0.05，則t0.975(10)=2.2281，又，應用(8.4.21)，故x0=0.16對應因變量y0的均

51、值E(y0)的0.95置信區(qū)間為(49.4328-1.0480, 49.4328+1.0480) =(48.3488, 50.5168)028.5364 130.6022 0.1649.4328y 17.9703/(122)1.3405201(0.160.19)1.3405 2.22811.0840120.0186 應用(8.4.23)，從而y0的概率為0.95的預測區(qū)間為 E(y0)的0.95置信區(qū)間比y0的概率為0.95的預測區(qū)間窄很多，這是因為隨機變量的均值相對于隨機變量本身而言要更容易估計出來。 21(0.160.19)1.3405 2.228113.1774120.0186(49.43283.1774,49.43283.1774)(46.2554,52.6102) 例 8.5.1 煉鋼廠出鋼水時用的鋼包，在使用過程中由于鋼水及爐渣對耐火材料的浸蝕，其容積不斷增大?，F(xiàn)在鋼包的容積用盛滿鋼水時的重量y (kg)表示，相應的試驗次數(shù)用x表示。數(shù)據(jù)見表8.5.1，要找出y 與x的定量關(guān)系表達式。序號xy序號xy12106.42811110.5923108.209141

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

概率論第八章

文檔簡介

溫馨提示

最新文檔

評論

概率論第八章

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔