數(shù)理統(tǒng)計基本概念與假設(shè)檢驗

上傳人：b*** IP屬地：安徽上傳時間：2022-02-22 格式：DOC 頁數(shù)：78 大?。?.01MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩73頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)理統(tǒng)計與Matlab講義宋向東燕山大學(xué)理學(xué)院統(tǒng)計學(xué)系2010年7月73 / 78目錄第1章數(shù)理統(tǒng)計基本概念11.1 總體與樣本11.1.1簡單隨機樣本11.1.2有限總體的無放回樣本31.2 統(tǒng)計量31.2.1樣本k階矩31.2.2順序統(tǒng)計量41.2.3經(jīng)驗分布函數(shù)41.3 三個常用分布61.3.1分布61.3.2t分布71.3.3F分布8第2章參數(shù)估計102.1 點估計102.1.1無偏性102.1.2有效性122.1.3相合性122.2 區(qū)間估計132.2.1單正態(tài)總體均值的置信區(qū)間132.2.2單正態(tài)總體方差的置信區(qū)間142.2.3兩正態(tài)總體均值差的置信區(qū)間152.2.4兩正態(tài)總體

2、方差比的置信區(qū)間15第3章假設(shè)檢驗173.1 假設(shè)檢驗的基本概念173.2 正態(tài)總體參數(shù)的假設(shè)檢驗193.2.1單正態(tài)總體均值的假設(shè)檢驗193.2.2單正態(tài)總體方差的假設(shè)檢驗203.2.3兩正態(tài)總體均值的假設(shè)檢驗213.2.4兩正態(tài)總體方差的假設(shè)檢驗213.2.5大樣本非正態(tài)總體均值的假設(shè)檢驗223.3 三個常用的非參數(shù)檢驗233.3.1符號檢驗233.3.2 Wilcoxon秩和檢驗253.3.3 Wilcoxon符號秩檢驗303.4 檢驗的功效函數(shù)323.5 總體分布的假設(shè)檢驗373.5.1檢驗373.5.2 Kolmogorov檢驗39第4章回歸分析444.1 一元回歸分析444.1.1

3、回歸方程的計算444.1.2回歸方程的顯著性檢驗454.2 多元回歸分析484.2.1多元回歸方程的計算484.2.2顯著性檢驗494.2.3逐步回歸分析52第5章方差分析565.1 單因素方差分析565.1.1方差分析的基本概念565.1.2單因素方差分析的計算595.1.3單因素方差分析的多重比較635.2 雙因素方差分析655.2.1有重復(fù)實驗的雙因素方差分析655.2.2無重復(fù)實驗的雙因素方差分析69參考文獻73第1章數(shù)理統(tǒng)計基本概念1.1 總體與樣本總體：研究對象的全體。一維或多維數(shù)量指標(biāo)。隨機變量。個體：每個研究對象。樣本：總體的一部分。1.1.1簡單隨機樣本，i.i.d，獨立同

4、分布。無限總體抽樣。在Matlab中各種隨機數(shù)可以認(rèn)為是獨立同分布的，即簡單隨機樣本。以下羅列在Matlab中的實現(xiàn)方法。，均勻分布樣本n=10;x=rand(1,n)n=10;a=-1;b=3;x=rand(1,n);x=(b-a)*x+a，正態(tài)分布樣本n=10;x=randn(1,n)mu=80.2;sigma=7.6;m=1;n=10;x=normrnd(mu,sigma,m,n)上面首先對總體均值賦值mu=80.2;再對標(biāo)準(zhǔn)差賦值sigma=7.6; m=1;n=10;分別對生成的隨機陣對的行數(shù)和列數(shù)進行賦值，然后可直接利用Matlab自帶的函數(shù)normrnd生成正態(tài)分布的隨機數(shù)。類似

5、地可生成m行n列的隨機矩陣，服從指定的分布。生成隨機數(shù)的函數(shù)后綴都是rnd，前綴為分布的名稱。常用分布的隨機數(shù)產(chǎn)生方法羅列如下，注意使用前先要對參數(shù)賦值。x=betarnd(a,b,m,n) 參數(shù)為a,b的beta分布；x=binornd(N,p,m,n) 參數(shù)為N,p的二項分布；x=chi2rnd(N,m,n) 自由度為N的分布；x=exprnd(mu,m,n) 總體期望為mu的指數(shù)分布；x=frnd(n1,n2,m,n) 自由度為n1與n2的F分布；x=gamrnd(a,b,m,n) 參數(shù)為a,b的分布；x=lognrnd(mu,sigma,m,n)參數(shù)為mu與sigma的對數(shù)正態(tài)分布；x

6、=poissrnd(mu,m,n) 總體均值為mu的Poisson分布；x=trnd(N,m,n) 自由度為N的T分布；Matlab統(tǒng)計工具箱中還有一些其它分布，不再一一列舉。對于已知密度函數(shù)的不常用連續(xù)型總體，若想產(chǎn)生服從該分布的隨機數(shù)，可用如下方法。例1.1 設(shè)總體密度函數(shù)為試從該總體中抽取容量為1000的簡單隨機樣本。解利用matlab編輯窗口保存以下程序，保存為ex11.mn=1000;x=zeros(1,n);k=0;while k<n a=rand*pi-pi/2; b=rand/2;if b<(cos(a)/2) k=k+1; x(k)=a;endend注意理解其原

7、理。保存完成之后，在命令窗口執(zhí)行ex11，則x被賦值。再執(zhí)行下列命令，就可以得到這個容量為1000的樣本的直方圖。hist(x,-pi/2:0.2:pi/2)1.1.2有限總體的無放回樣本若有限總體為，希望從中無放回抽取容量為n的樣本，這里N與n已經(jīng)賦值，則可利用r=randperm(N)產(chǎn)生的一個隨機全排列，即r是一個N維向量。于是，對于給定的N維向量X，令x=X(r(1:n)即可得到容量為n的無放回抽樣本x。無放回抽樣中，各樣本點不是獨立的。1.2統(tǒng)計量統(tǒng)計量：樣本的函數(shù)，不含參數(shù)，可根據(jù)樣本觀察值立即計算出數(shù)值。以下設(shè)為來自總體的簡單隨機樣本，列舉出一些常用統(tǒng)計量。以下總假設(shè)為樣本，為一

8、行列矩陣，在Matlab中已經(jīng)賦值。1.2.1樣本k階矩稱為樣本k階原點矩，對于已經(jīng)賦值的正整數(shù)k,可以用如下命令得到a(k)=mean(X.k)特別地，樣本一階原點矩就是樣本均值，在matlab中用mean計算。稱為樣本k階中心矩，對于已經(jīng)賦值的正整數(shù)k,可以用如下命令得到mu(k)=mean(X-mean(X).k)特別地，稱為未修正樣本方差，將稱為樣本方差。稱為樣本標(biāo)準(zhǔn)差。Matlab中用var（X）計算樣本方差，用std(X)計算樣本標(biāo)準(zhǔn)差。1.2.2順序統(tǒng)計量對于樣本，若將其依照數(shù)值大小由小到大重新排列為則稱每個為原來樣本的順序統(tǒng)計量?？梢宰C明，若總體服從(0,1)上的均勻分布，

9、則有特別地，就是樣本中的最小值，可用min(X)計算；就是樣本中的最大值，可用max(X)計算。Matlab命令Y=sort(X)可立即得到X的順序統(tǒng)計量，滿足利用matlab中的sort函數(shù)，比自己編程序排序，可能會有較高效率。當(dāng)在循環(huán)語句中反復(fù)使用排序時，應(yīng)該優(yōu)先選用。1.2.3經(jīng)驗分布函數(shù)定義1.1 設(shè)總體分布函數(shù)為，為簡單隨機樣本，為順序統(tǒng)計量，記（1-1）則稱為經(jīng)驗分布函數(shù)或者樣本分布函數(shù)。著名的格里汶科定理指出，當(dāng)時，有 a.s.以下命令產(chǎn)生了來自自由度為5的分布樣本，樣本容量為1000，并畫出了此樣本的經(jīng)驗分布函數(shù)。結(jié)果如圖1-1所示 Y=chi2rnd(5,1,1000);F

10、,X=ecdf(Y); plot(X,F)圖1-1 經(jīng)驗分布函數(shù)示意圖以下自己編程擴展實現(xiàn)函數(shù)功能，將以下程序在matlab編輯窗口中輸入并保存為myfn.m，今后對于myfn就可以像其它庫函數(shù)一樣直接調(diào)用。注意自己編寫的函數(shù)文件，要注意最好可直接處理矩陣向量。以下myfn函數(shù)文件可以調(diào)試通過，但是，其編寫過程還可以精確些，使得計算效率更高。如何改善請讀者完成。function y=myfn(t,x)N=length(x); x=sort(x);m,n=size(t); y=zeros(m,n);for i=1:mfor j=1:n s=0;for k=1:Nif t(i,j)>=x(

11、k) s=s+1;endend y(i,j)=s/N;endend1.3三個常用分布以下羅列出數(shù)理統(tǒng)計中三個重要分布的概念與性質(zhì)。1.3.1分布定義1.2 設(shè)一維連續(xù)型隨機變量的密度函數(shù)為（1-2）則稱服從自由度為的分布，記為。圖1-2 分布密度函數(shù)示意圖（1）期望與方差：，（2）來源：若獨立同分布，則（3）可加性：若，且兩者獨立，則有(4)重要結(jié)論：若，則以下給出了自由度為5,10,20的分布的密度函數(shù)，如圖1-2所示。1.3.2t分布定義1.3 設(shè)一維連續(xù)型隨機變量的密度函數(shù)為（1-3）則稱服從自由度為的分布，記為。圖1-3 t分布密度函數(shù)與標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)（1）密度函數(shù)特點：與標(biāo)

12、準(zhǔn)正態(tài)分布類似，方差較大。時，（標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)）執(zhí)行Matlab命令x=-3:0.01:3; y5=tpdf(x,5);y10=tpdf(x,10);y20=tpdf(x,20);y=normpdf(x);plot(x,y5,x,y10,x,y20,x,y)得到自由度為5，10，20的分布密度函數(shù)與標(biāo)準(zhǔn)正態(tài)分布密度函數(shù)的圖形，如圖1-3所示。（2）來源：設(shè)，且兩者獨立，則（3）重要結(jié)論：設(shè)，則1.3.3F分布定義1.4 設(shè)一維連續(xù)型隨機變量的密度函數(shù)為（1-4）其中常數(shù)則稱服從第一自由度，第二自由度的F分布，記為。（1）密度函數(shù)特點：在附近密度函數(shù)取值較大，為單峰非對稱的。當(dāng)兩個自由度

13、都很大時，取值以較大概率集中在附近。以下Matlab命令畫出了的密度函數(shù)。x=0:0.01:3;y=fpdf(x,8,12);plot(x,y);結(jié)果如圖1-4所示。圖1-4 F分布密度函數(shù)（2）來源：設(shè)，且兩者獨立，則（3）重要結(jié)論：設(shè)為來自總體的簡單隨機樣本，為來自總體的簡單隨機樣本，且兩者獨立。又設(shè)兩個樣本方差分別為與，則第2章參數(shù)估計2.1 點估計點估計：對于給定的總體和樣本，如果用某個統(tǒng)計量的值估計總體的某個未知參數(shù)，這種估計方法稱為點估計，該統(tǒng)計量稱為點估計量。例如用樣本均值估計總體均值，用樣本方差估計總體方差，都屬于點估計。常用的求點估計量的方法有：矩估計法、最大似然估計法，

14、是考研究生要求掌握的方法，常用教材都有詳細(xì)敘述。對于同一個未知參數(shù)，常有多種估計方法，如何選擇？這涉與到估計量的評價標(biāo)準(zhǔn)。常從以下三個不同角度考察。2.1.1無偏性定義1.5 設(shè)總體含有未知參數(shù)，為來自總體的簡單隨機樣本，又設(shè)為的一個估計量。若在給定圍無論如何取值，總有，則稱為的一個無偏估計量；若，則稱為的一個有偏估計量。注意無偏估計的含義是：由于樣本的隨機性，估計值有時候偏大，有時候偏小，多次估計的平均值才能靠近真實的未知參數(shù)值。無論無偏估計還是有偏估計，可以統(tǒng)一使用“均方誤差”MSE評價：（2-1）對于無偏估計，但可能很大，果真如此，它就不是一個好的估計量。反之，對于有偏估計，雖然，但如

15、果與相加之后仍然較小，則它就是一個較好的估計量。例2.1 設(shè)總體，為來自總體的簡單隨機樣本，欲估計總體均值（注意未知），比較以下三個點估計量的好壞：，解本例題給出了利用MSE評價點估計量的隨機模擬方法。由于的總體均值為，因此我們可以先取定一個固定值，例如，然后在這個參數(shù)已知且固定的總體中抽取容量為20的樣本，分別用樣本值依照三種方法分別計算估計值（注意誰也別偷看底牌），看看哪種方法誤差大，哪種方法誤差小。一次估計的比較一般不能說明問題，正如低手射擊也可能命中10環(huán)，高手射擊也可能命中9環(huán)。如果連續(xù)射擊1萬次，比較總環(huán)數(shù)（或平均環(huán)數(shù)），多者一定是高手。同理，如果抽取容量為20的樣本次，分別計算

16、小者為好。N=10000; m=5; n=20;mse1=0; mse2=0; mse3=0;for k=1:N x=chi2rnd(m,1,n); m1=101*x(1)-100*x(2); m2=median(x); m3=mean(x); mes1=mse1+(m1-m)2; mes2=mse2+(m2-m)2; mes3=mse3+(m3-m)2;endmse1=mes1/Nmse2=mes2/Nmse3=mes3/N以上程序保存為ex21.m，命令窗口中鍵入ex21，運算結(jié)果為mse1 = 58.1581mse2 = 7.8351e-005mse3 = 9.4469e-006可見第一

17、個雖為無偏估計量，但MSE極大，表現(xiàn)很差。第二個雖為有偏估計，但表現(xiàn)與第三個相差不多，也是較好的估計量。另外，重復(fù)運行ex21，每次的結(jié)果是不同的，但優(yōu)劣表現(xiàn)幾乎是一致的。例2.2 設(shè)為來自上服從均勻分布的總體的簡單隨機樣本，容易得到未知參數(shù)的矩估計量，最大似然估計量，試用隨機模擬的方法比較兩者的優(yōu)劣。解不妨設(shè)，以下程序給出了兩者的評價。s=5;N=10000;mse1=0; mse2=0;for k=1:N x=5.*rand(1,50); s1=2*mean(x); s2=max(x); mse1=mse1+(s1-s)2; mse2=mse2+(s2-s)2;endmse1=mse1/

18、N; mse2=mse2/N;mse1,mse2參考運行結(jié)果： 0.1655 0.0186本例中，最大似然估計精度較高。注意矩法估計量是無偏估計，本例中最大似然估計量顯然是有偏估計，且一定是偏小的。2.1.2有效性對于無偏估計，在中第二項為零，故比較兩個無偏估計量，只需比較各自的方差即可。稱方差小的無偏估計量為有效的，當(dāng)然指的是兩個無偏估計相對而言。2.1.3相合性設(shè)為總體未知參數(shù)的估計量，如果對于任意給定的，總有（2-2）則稱為的相合估計量。又若（2-3）則稱為的強相合估計量。相合估計的含義是：樣本容量越大，估計值越精確。2.2區(qū)間估計所謂區(qū)間估計，就是用兩個估計量與估計未知參數(shù)，使得隨

19、機區(qū)間能夠包含未知參數(shù)的概率為指定的。即：稱滿足上述條件的區(qū)間為的置信區(qū)間，稱為置信水平。稱為置信下限，稱為置信上限。2.2.1單正態(tài)總體均值的置信區(qū)間（1）方差已知情形查表求滿足：對于，。對于總體中的樣本，的置信區(qū)間為：（2-4）其中可以用norminv(1-a /2)計算。例2.3 設(shè)1.1, 2.2, 3,3, 4.4, 5.5為來自正態(tài)總體的簡單隨機樣本，求的置信水平為95%的置信區(qū)間。解以下用Matlab命令計算：x=1.1,2.2,3.3,4.4,5.5; n=length(x);m=mean(x);c=2.3/sqrt(n);d=c*norminv(0.975);a=m-d

20、; b=m+d;a,b計算結(jié)果為1.2840 5.3160（2）方差未知情形對于總體中的樣本，的置信區(qū)間為：（2-4）其中為自由度的分布臨界值。數(shù)據(jù)同上，繼續(xù)利用Matlab計算S=std(x); dd=S*tinv(0.975,4)/sqrt(n);aa=m-dd; bb=m+dd; aa,bb結(jié)果為 1.1404 5.45962.2.2單正態(tài)總體方差的置信區(qū)間由于，查表求臨界值與，使得則的置信區(qū)間為（2-5）其中查表可用chi2inv進行。數(shù)據(jù)同上，以下求的置信區(qū)間。c1=chi2inv(0.025,4);c2=chi2inv(0.975,4);T=(n-1)*var(x);aaa=T

21、/c2; bbb=T/c1;aaa,bbb計算結(jié)果為1.0859 24.97842.2.3兩正態(tài)總體均值差的置信區(qū)間（1）方差已知情形設(shè)，兩樣本獨立，此時的置信區(qū)間為（2-6）這里我們已經(jīng)知道可用norminv(0.975)求得，Matlab計算很容易。（2）方差未知但相等：此時的置信區(qū)間為（2-7）其中，而依照自由度計算。2.2.4兩正態(tài)總體方差比的置信區(qū)間此時，查自由度為的分布臨界值表，使得則的置信區(qū)間為：（2-7）例2.4 設(shè)兩臺車床加工同一零件，各加工8件，長度的誤差為：A：-0.12 -0.80 -0.05 -0.04 -0.01 0.05 0.07 0.21B：-1.50 -0.8

22、0 -0.40 -0.10 0.20 0.61 0.82 1.24求方差比的置信區(qū)間。解用Matlab計算如下：x=-0.12,-0.80,-0.05,-0.04,-0.01,0.05,0.07,0.21;y=-1.50,-0.80,-0.40,-0.10,0.20,0.61, 0.82,1.24;v1=var(x); v2=var(y);c1=finv(0.025,7,7); c2=finv(0.975,7,7);a=(v1/v2)/c2; b=(v1/v2)/c1; a,b計算結(jié)果為： 0.0229 0.5720方差比小于1的概率至少達到了95%，說明車床A的精度明顯高。第3章假設(shè)檢驗

23、3.1 假設(shè)檢驗的基本概念例3.1 已知小麥畝產(chǎn)服從正態(tài)分布，傳統(tǒng)小麥品種平均畝產(chǎn)800斤，現(xiàn)有新品種產(chǎn)量未知，試種10塊，每塊一畝，產(chǎn)量為：775,816,834,836,858,863,873,877,885,901問：新產(chǎn)品畝產(chǎn)是否超過了800斤？假設(shè)檢驗就是概率意義上的反證法。要證明命題H1：，可以首先假設(shè)H0：。本體中容易計算樣本均值超過800了，有沒有可能超過800的原因是由于抽樣的隨機性引起的？是否總體均值根本沒有變化？我們看如下的統(tǒng)計量：容易看出，如果新品種確有增產(chǎn)效應(yīng)，應(yīng)偏大，不利于H0，取，查表求臨界值，使得，即構(gòu)造不利于H0，有利于H1的小概率事件，如果在一次試驗中該小概

24、率事件發(fā)生了，就有理由拒絕H0，認(rèn)為H1成立。嚴(yán)格邏輯意義上的反證法思路如下：欲證H1成立，先假設(shè)其否命題H0成立，然后找出邏輯意義上的矛盾，從而推翻H0成立，嚴(yán)格證明H1成立。假設(shè)檢驗的思路類似，只不過引出的不是矛盾，而是小概率事件在一次實驗中發(fā)生。我們稱想要證明的命題H1為備擇假設(shè)，對立的命題H0稱為原假設(shè)，面對樣本，我們必須表態(tài)是接受原假設(shè)還是拒絕原假設(shè)，這有可能出現(xiàn)兩類錯誤。如果客觀上原假設(shè)的確成立，面對樣本的異常我們拒絕了原假設(shè)，這種“以真為假”的錯誤我們稱為第一類錯誤，發(fā)生的概率用表示；如果客觀上備擇假設(shè)成立，我們卻接受了原假設(shè)，這種“以假為真”的錯誤我們稱為第二類錯誤，用發(fā)生的概

25、率用表示。假設(shè)假設(shè)檢驗一般首先控制第一類錯誤，即：當(dāng)我們拒絕原假設(shè)時有比較充足的理由，犯錯誤的概率不超過預(yù)設(shè)的，稱為顯著性水平。常用的顯著性水平有這種預(yù)設(shè)顯著性水平的假設(shè)檢驗也稱為顯著性檢驗，以后我們提到的假設(shè)檢驗都是顯著性檢驗。對于顯著性檢驗，當(dāng)接受原假設(shè)時，可以認(rèn)為是拒絕的證據(jù)不足。對于例3.1的問題，取，當(dāng)時拒絕原假設(shè)。這里稱為檢驗統(tǒng)計量，所確定的的取值圍稱為拒絕域。x=775,816,834,836,858,863,873,877,885,901;T=(mean(x)-800)/(std(x)/sqrt(9),ta=tinv(0.95,9),計算結(jié)果T=4.1669>ta=1.8

26、331，故拒絕原假設(shè)，認(rèn)為確有增產(chǎn)。之所以查表求臨界值，是因為當(dāng)初計算機與數(shù)學(xué)軟件尚未普與，人們利用稀有的計算機資源計算出了一些關(guān)鍵的臨界值，供沒有計算機的人們膜拜使用。因此上述解題套路是幾乎所有教科書上使用的方法，不妨稱為“查表法”。由于計算機與數(shù)學(xué)軟件的普與，統(tǒng)計方法的使用套路也應(yīng)該更新，如果寫作業(yè)寫論文都用計算機打字，真正數(shù)學(xué)計算反而要翻書本查表，怎么看也都很滑稽。其實，Matlab可以計算常用分布在任意一點的分布函數(shù)的值，例如對于上述T=4.1669，可以直接計算分布函數(shù)在該點的值：p=tcdf(T,9)計算結(jié)果為0.9988，超過了?；蛘哂嬎愠?-p=0.0012，小于我們預(yù)設(shè)的顯著

27、性水平。面對0.0012這個值，我們拒絕了原假設(shè)，就是使用了概率意義上的反證法。我們可以做一個比喻：三每天上網(wǎng)游戲，期末考試肯定不與格，我們說：“要想三與格，除非明天太陽從西邊出來”。這里原假設(shè)是“與格”，備擇假設(shè)“不與格”是我們想證明的東西。其等價的逆否命題是：因為明天太陽不會從西邊出來，所以三一定不與格。這是我們說話的含邏輯?！疤枏奈鬟叧鰜怼笔遣豢赡苁录覀兪褂玫氖钦Z文上“夸”的修辭方法以表達對三的極度鄙視。現(xiàn)在，面對新品種畝產(chǎn)數(shù)據(jù)，我們的結(jié)論是：要說沒有增產(chǎn)效應(yīng)，除非明天下大雹子。這里沒有“夸”，因為1-p=0.0012大約為千分之一，是類似于不可能事件的極小概率事件，和明天下大雹子

28、一樣罕見（大約三年才得一見）。我們計算出來的1-p越小，說明備擇假設(shè)成立的證據(jù)越充足。幾十年前，對于自由度為9的分布，我們只能將1.3830，1.8331 ，2.2622，2.8214等少數(shù)幾個值印在書上，現(xiàn)在我們可以計算p=tcdf(T,9)在任意一點分布函數(shù)的值。3.2正態(tài)總體參數(shù)的假設(shè)檢驗3.2.1單正態(tài)總體均值的假設(shè)檢驗設(shè)為來自正態(tài)總體簡單隨機樣本，為我們關(guān)心的已知的值，原假設(shè)為：H0：（1）方差已知情形此時，檢驗統(tǒng)計量為，H0成立時，依據(jù)備擇假設(shè)的不同提法，分三種情況分別給出拒絕域。1）雙側(cè)檢驗備擇假設(shè)H1：拒絕域：這種情形我們關(guān)心的是總體均值是否發(fā)生了變化，增多減少都是我們同等

29、關(guān)注的。例如要研究某種藥物的副作用，是否引起血壓的變化，變大變小都是副作用，如果實驗證明了確有副作用，就該停產(chǎn)或慎用。2）單側(cè)檢驗（右側(cè)）備擇假設(shè)H1：拒絕域：這種情形我們關(guān)心的是總體均值是否有增加效應(yīng)，例如小麥畝產(chǎn)。無增產(chǎn)效應(yīng)或者減產(chǎn)都是我們不希望看到的，我們希望證明的是增產(chǎn)了。3）單側(cè)檢驗（左側(cè)）備擇假設(shè)H1：拒絕域：這種情形我們希望看到總體均值變小了。每匹布上疵點的個數(shù)。新工藝后是否有減少。（2）方差未知情形原假設(shè)H0：此時，檢驗統(tǒng)計量為，H0成立時，依據(jù)備擇假設(shè)的不同提法，分三種情況分別給出拒絕域。1）雙側(cè)檢驗備擇假設(shè)H1：拒絕域：2）單側(cè)檢驗（右側(cè)）備擇假設(shè)H1：拒絕

30、域：3）單側(cè)檢驗（左側(cè)）備擇假設(shè)H1：拒絕域：其實，上一章中區(qū)間估計與這里的雙側(cè)檢驗本質(zhì)上是一樣的：區(qū)間套中接受原假設(shè)，沒套中則拒絕原假設(shè)。只不過檢驗統(tǒng)計量的計算更簡單些。類似于單側(cè)檢驗，也可以有單側(cè)區(qū)間估計。3.2.2單正態(tài)總體方差的假設(shè)檢驗設(shè)為來自正態(tài)總體簡單隨機樣本，為我們關(guān)心的已知的值，原假設(shè)為H0：，檢驗統(tǒng)計量為當(dāng)H0成立時，由此可查臨界值表，構(gòu)造拒絕域。（1）雙側(cè)檢驗此時備擇假設(shè)為H1：，也就是說，我們希望通過樣本找到總體方差比較有明顯變化的證據(jù)，無論變大變小都是我們希望證明的。此時取臨界值與，使得，拒絕域為：（方差變小了），或者（方差變大了）。當(dāng)已經(jīng)賦值的時候，執(zhí)行如下M

31、atlab命令可得到臨界值。a=0.05, n=20, c1=chi2inv(a/2,n-1), c2=chi2inv(1-a/2,n-1),（2）單側(cè)檢驗（右側(cè)）此時備擇假設(shè)為H1：，也就是說，我們關(guān)心的是方差是否變大了。此時臨界值為滿足，可用c=chi2inv(1-a,n-1)（3）單側(cè)檢驗（左側(cè)）此時備擇假設(shè)為H1：，也就是說，我們關(guān)心的是方差是否變小了。此時臨界值為滿足，可用c=chi2inv(a,n-1)3.2.3兩正態(tài)總體均值的假設(shè)檢驗設(shè)為來自正態(tài)總體的簡單隨機樣本，為來自正態(tài)總體的簡單隨機樣本，且兩樣本獨立。為比較兩個總體的期望，提出如下原假設(shè)：H0：與前面類似，備擇假設(shè)有雙

32、側(cè)、單側(cè)（左側(cè)、右側(cè)）等提法。（1）方差已知情形此時檢驗統(tǒng)計量為，當(dāng)H0成立時服從標(biāo)準(zhǔn)正態(tài)分布，臨界值，含義與計算方法同前。1）雙側(cè)檢驗 H1：，拒絕域： 2）右側(cè)檢驗 H1：，拒絕域： 3）左側(cè)檢驗 H1：，拒絕域：（2）方差未知但相等情形此時原假設(shè)仍為H0：，備擇假設(shè)同樣有三種提法。檢驗統(tǒng)計量為：當(dāng)H0成立時，由此得臨界值，。1）雙側(cè)檢驗 H1：，拒絕域： 2）右側(cè)檢驗 H1：，拒絕域： 3）左側(cè)檢驗 H1：，拒絕域：3.2.4兩正態(tài)總體方差的假設(shè)檢驗設(shè)為來自正態(tài)總體的簡單隨機樣本，為來自正態(tài)總體的簡單隨機樣本，且兩樣本獨立。為比較兩個總體的方差，提出如下原假設(shè)：H0：與前面類似，備擇假設(shè)

33、有雙側(cè)、單側(cè)（左側(cè)、右側(cè)）等提法。此時檢驗統(tǒng)計量為，當(dāng)H0成立時，在Matlab中，如果m,n已經(jīng)賦值，例如m=8,n=10則c1=finv(0.025,7,9)，c2=finv(0.975,7,9)分別給出了時的兩個臨界值，雙側(cè)檢驗的拒絕域為或。c3=finv(0.05,7,9)給出了左側(cè)檢驗臨界值，時拒絕原假設(shè)，認(rèn)為備擇假設(shè)H1：成立。c4=finv(0.95,7,9)給出了右側(cè)檢驗臨界值，時拒絕原假設(shè)，認(rèn)為備擇假設(shè)H1：成立。3.2.5大樣本非正態(tài)總體均值的假設(shè)檢驗設(shè)為來自非正態(tài)總體的簡單隨機樣本，設(shè)總體均值與總體方差有限，原假設(shè)H0：此時可以將作為近似的檢驗統(tǒng)計量，當(dāng)樣本容量很大時（例

34、如100），由中心極限定理知H0成立時近似服從標(biāo)準(zhǔn)正態(tài)分布，可以仿照3.2.1小節(jié)中的算法檢驗如下三個備擇假設(shè)：H1：； H1：； H1：設(shè)為來自非正態(tài)總體的簡單隨機樣本，為來自非正態(tài)總體的簡單隨機樣本，且兩樣本獨立。兩個總體有有限的均值與方差，均值為與，為比較兩個總體的期望，提出如下原假設(shè)：H0：與前面類似，備擇假設(shè)有雙側(cè)、單側(cè)（左側(cè)、右側(cè)）等提法。此時可以將近似作為檢驗統(tǒng)計量，當(dāng)兩個樣本容量都很大時（例如100），由中心極限定理知H0成立時近似服從標(biāo)準(zhǔn)正態(tài)分布，可以仿照3.2.3小節(jié)中的算法檢驗如下三個備擇假設(shè)：H1：； H1：； H1：3.3三個常用的非參數(shù)檢驗大樣本情形下，對于非正態(tài)總

35、體，可以利用中心極限定理近似用標(biāo)準(zhǔn)正態(tài)分布進行假設(shè)檢驗。小樣本情形，若總體不是正態(tài)分布的，可以使用非參數(shù)檢驗的方法。非參數(shù)檢驗的效率稍差，但適應(yīng)各種總體類型，應(yīng)用圍較廣。3.3.1符號檢驗例3.2 已知原來工藝下生產(chǎn)的某種燈泡的中位數(shù)為800小時，現(xiàn)改進生產(chǎn)工藝，試產(chǎn)10只燈泡，實驗得到每只壽命為：775,816,834,836,858,863,873,877,885,901問：新工藝生產(chǎn)的燈泡壽命中位數(shù)是否超過了800小時？H0：一般情況下，燈泡壽命不是正態(tài)分布的，不能用例3.1的方法。符號檢驗使用的是計數(shù)統(tǒng)計量，先設(shè)則有即記錄樣本點于800的個數(shù)。若H0成立，應(yīng)該大約占樣本容量的一半左右

36、，若異常的大，說明備擇假設(shè)H1：成立。H0成立時，可以利用二項分布構(gòu)造拒絕域：使得若H0成立時，利用二項分布的分布律可以計算出臨界值，用如下Matlab函數(shù)文件計算。function t=bt(n,a)SS=2n*a;S=0;c=1;k=n+1;while S<=SS k=k-1; S=S+c; c=c*k/(n-k+1); endt=k+1;以上自定義函數(shù)擴展了Matlab的功能，可以替代教科書上的“符號檢驗臨界值表”，并且可以使用任意的n與。在例3.2中，對于，使用命令t=bt(10,0.05)可以得到臨界值9，臨界值9，落在拒絕域，故拒絕原假設(shè)，認(rèn)為新工藝生產(chǎn)的燈泡壽命中位數(shù)超過了

37、800小時。只要去代替，也可以進行雙側(cè)符號檢驗。例3.3 20個品酒師對A、B兩種白酒進行品嘗，有17個品酒師認(rèn)為A品質(zhì)好，3個品酒師認(rèn)為B品質(zhì)好，在的顯著性水平下，檢驗兩種白酒品質(zhì)是否存在差異？解，設(shè)原假設(shè)為H0：兩種白酒品質(zhì)無差異令表示認(rèn)為A品質(zhì)好的品酒師的人數(shù)，則H0成立時應(yīng)該在10左右取值，如果值異常大，或者異常小，都說明兩種白酒品質(zhì)有差異。取臨界值與，使得，由于關(guān)于對稱，故有，因此可用水平為的單側(cè)檢驗求出臨界值。命令t2=bt(20,0.05/2)得到，因此，此例中拒絕域為，或者落在拒絕域，可以認(rèn)為兩種白酒品質(zhì)有顯著差異。有些教科書中沒有0.025的臨界值，而我們的函數(shù)bt.m擴

38、展了功能。 Matlab中有自帶的SIGNTEST函數(shù)，可以直接用于符號檢驗。默認(rèn)的檢驗是雙側(cè)的。對于配對實驗的兩總體均值檢驗問題，也可用符號檢驗。3.3.2Wilcoxon秩和檢驗我們要研究的問題是兩總體均值的假設(shè)檢驗，設(shè)，要檢驗第二個總體是否有增加效應(yīng)，即檢驗如下問題：H0：H1：Wilcoxon秩和檢驗的方法是：將兩個樣本混合為混合之后樣本容量為，每個樣本點在樣本中從小到大排列的名次稱為該樣本點的秩，用表示在混合樣本中的秩，表示在混合樣本中的秩，檢驗統(tǒng)計量為例如諸為 1.1，3.3，5.5，7.7，諸為2.2，4.4，6.6，以下列表給出混合樣本與秩混合樣本1.13.35.57.72.2

39、4.46.6秩1357246則。若H0成立，則的值應(yīng)該適中。注意到每個秩序的平均值為，故H0成立時，的值在此值附近應(yīng)該是正常的。若的值異常偏大，說明第二個總體確有增加效應(yīng)。利用matlab自身的函數(shù)p = ranksum(X,Y)可以進行雙側(cè)的秩和檢驗。返回的p值小于給定的則拒絕原假設(shè)，認(rèn)為H1：成立。H0成立時，可以證明關(guān)于對稱，要檢驗H1：，只要判定，并且p = ranksum(X,Y)即可。自定義rsum函數(shù)用于求function W=rsum(x,y)s,t=size(x);m=max(s,t);if t<m x=x'ends,t=size(y);n=max(s,t);

40、N=m+n;if t<n y=y'endxy=x,y;z,I=sort(xy);W=0;for i=1:Nif(I(i)>m W=W+i;endend為了求出Wilcoxon秩和檢驗的臨界值，我們給出如下定理，證明參見文獻1。定理3.1在H0成立時，的概率分布為其中表示從中取個數(shù)其和恰為的取法的個數(shù)?？捎萌缦鲁跏紬l件與遞推公式計算：當(dāng)自己編程tmnd.m計算如下：function tmn=tmnd(m,n,d)N=m+n;nn=n*(n+1)/2;NN=n*(2*m+n+1)/2;if m<0 | n<0 | d<nn | d>NN tmn=0;el

41、seif m>0 & n=0 & d=0 tmn=1;elseif m>0 & n=0 & d>0 tmn=0;elseif m=0 & n>0 & d=nn tmn=1;elseif m=0 & n>0 & dnn tmn=0;elseT=zeros(m,n,NN);for i=1:m for k=1:i+1; T(i,1,k)=1; endendfor j=1:n kk=j*(j+1)/2; KK=(j+1)*(j+2)/2-1; for k=kk:KK T(1,j,k)=1; endendfor

42、 i=2:m for j=2:n s=i+j; for k=1:d if k<=s T(i,j,k)=T(i-1,j,k); else T(i,j,k)=T(i,j-1,k-s)+T(i-1,j,k); end end endendtmn=T(m,n,d);end 可以證明，H0成立時，的概率分布關(guān)于E=n*(m+n+1)/2對稱，我們給出單側(cè)檢驗臨界值的求法，以下自定義函數(shù)wr.m，其中輸入?yún)?shù)m,n,alpha分別是對照組樣本容量、實驗組樣本容量、檢驗的顯著性水平，而輸出值c表示右側(cè)臨界值，即滿足的最小正整數(shù)。function c=wr(m,n,alpha)% return the

43、min c such that P(W>=c)<=alphaNN=n*(2*m+n+1)/2;nn=n*(n+1)/2;N=m+n;E=n*(N+1)/2;a=1;for k=1:n a=a*(N+1-k)/k;endAlpha=a*alpha;k=nn;P=0;while P<Alpha P=P+tmnd(m,n,k); k=k+1;endc1=k-1;c=2*E-c1;上述函數(shù)可用于右側(cè)檢驗。若左側(cè)檢驗，c1=2*E-c即為左側(cè)臨界值。若雙側(cè)檢驗，先求出c2=wr(m,n,alpha/2)，再由c1=2*E-c2即可。例3.4 某班級共15名同學(xué)，某次英語水平考試，分?jǐn)?shù)如

44、下：男：53，55，59，65，71，77，81 女：56，62，68，76，84，86，90，96在顯著性水平下，能否認(rèn)為女生英語水平高于男生？要求采用Wilcoxon秩和檢驗。解注意這是一個單側(cè)檢驗問題，使用matlab命令：x=53,55,59,65,71,77,81y=56,62,68,76,84,86,90,96rsum(x,y)c=wr(7,8,0.05)上述計算中，注意到rsum(x,y)=78，而臨界值為c=78,的值落在拒絕域，故可拒絕原假設(shè)，認(rèn)為女生成績顯著高于男生。3.3.3Wilcoxon符號秩檢驗設(shè)為來自連續(xù)總體的簡單隨機樣本，關(guān)于點對稱，檢驗假設(shè)H0：H1：Wi

45、lcoxon符號秩檢驗統(tǒng)計量為：其中，即把依照絕對值由小到大排列，的名次。H0成立時，故在此值附近取值說明原假設(shè)成立。若異常大，則要拒絕原假設(shè)，說明H1：成立。對于雙側(cè)檢驗問題H0：H1：Matlab有自帶的函數(shù)p=signrank(x,m)這里x為樣本，m代表，若顯著性水平為，則時拒絕原假設(shè)。對于單側(cè)檢驗，H1：，要拒絕原假設(shè)需要同時滿足兩個條件：條件一，；條件二，p=signrank(x,m)<。為計算，自編函數(shù)：function wp=rpsum(x,m);n=length(x);x=x-m;y=abs(x);z,I=sort(y);wp=0;for i=1:nif x(I(i)&

46、gt;0 wp=wp+i;endend保存了上述函數(shù)后，即可進行單側(cè)檢驗。例3.5 某班級共15名同學(xué)，某次英語水平考試，分?jǐn)?shù)如下： 53，55，59，65，71，77，81，56，62，68，76，84，86，90，96在顯著性水平下，能否認(rèn)為平均成績高于60分？要求分別用：（1）符號檢驗；（2）Wilcoxon符號秩檢驗。解注意這是一個單側(cè)檢驗問題：H0：H1：使用matlab命令：x=53,55,59,65,71,77,81,56,62,68,76,84,86,90,96（1）符號檢驗注意這里n=15,B=11,利用前面自定義的bt.m函數(shù)計算：t=bt(15,0.05)得到臨界值，B

47、=11<，沒有落入拒絕域，故接受H0，認(rèn)為平均成績沒有明顯高于60分。（2）Wilcoxon符號秩檢驗E=n*(n+1)/4,wp=rpsum(x,60),計算結(jié)果發(fā)現(xiàn)wp=106> E=60，滿足單側(cè)檢驗條件一，再計算p=signrank(x,60)結(jié)果得p=0.0071<2，故拒絕原假設(shè)，認(rèn)為平均成績明顯高于60分。3.4檢驗的功效函數(shù)為了簡單起見，我們只討論位置參數(shù)的單側(cè)檢驗：H0：H1：其中為總體的中位數(shù)。對于上述檢驗，當(dāng)總體為方差已知正態(tài)總體時，有檢驗；當(dāng)總體為方差未知正態(tài)總體時，有檢驗；當(dāng)總體為連續(xù)對稱總體時，有符號檢驗與Wilcoxon符號秩檢驗。自然有一個問

48、題，如何評價不同的檢驗方法的優(yōu)劣？對于一樣的樣本容量，對于一樣的顯著性水平，一般比較區(qū)間時拒絕的概率，此時為犯第二類錯誤的概率。不同的檢驗方法犯第一類錯誤的概率已經(jīng)被控制了，具有一樣的水平，此時比較時的，小者為好；或者等價地說，比較時的，越大越好。稱，為檢驗的功效函數(shù)。功效大的檢驗就是好的檢驗。以下畫出正態(tài)總體方差已知時檢驗的功效函數(shù)。H0時，不妨設(shè)總體服從標(biāo)準(zhǔn)正態(tài)分布，已知，均值用m表示。以下固定樣本容量n=20，固定顯著性水平a=0.05，此時檢驗臨界值為u0=norminv(0.95)=1.6449。當(dāng)m>0時，檢驗統(tǒng)計量為容易計算=1-normcdf(u0-m*sqrt(20)以

49、下利用Matlab作圖功能畫出此時的功效函數(shù)。u0=norminv(0.95)m=0:0.01:1;w=1-normcdf(u0-m*sqrt(20);plot(m,w)結(jié)果如圖3-1所示。圖圖3-1 n=20，=0.05單側(cè)檢驗功效函數(shù) 請讀者自己研究，隨著樣本容量的增加，功效函數(shù)的圖形會有怎樣的變化？注意，這是水平為的檢驗的出發(fā)點，類似于百米賽跑，此點是起跑點。如果一樣起跑點，隨著的增加，功效函數(shù)越來越大，對于兩條功效函數(shù)曲線，在備擇假設(shè)的圍大者為佳。上述功效函數(shù)容易得到精確的曲線，稍微復(fù)雜的情形，拒絕概率的精確值不易計算，可以使用隨機模擬的方法得到功效函數(shù)。例如，要研究t檢驗的功效函數(shù)、

50、符號檢驗的功效函數(shù)、Wilcoxon符號秩檢驗的功效函數(shù)，并與檢驗的功效函數(shù)進行對比。首先固定如下四個因素：（1）總體分布；（2）樣本容量；（3）顯著性水平a=0.05;（4）取定前三條都滿足時，三種方法的臨界值就完全確定了，拒絕域也完全確定了：t檢驗：，拒絕域為t0=tinv(0.95,19)=1.7291；符號檢驗：大于0樣本點個數(shù)，拒絕域t=bt(20,0.05)=15；Wilcoxon符號秩檢驗：拒絕域為評價不同的檢驗，我們可以分別計算功效函數(shù)。這可以采用隨機模擬的方法，利用萬次隨機試驗中拒絕的頻率近似代替拒絕概率。以下命令文件保存為p123.mm=0:0.1:1;p1=zeros(1

51、,11);p2=zeros(1,11);p3=zeros(1,11);t0=tinv(0.95,19);b0=15;w0=150;s20=sqrt(20);N=10000;for mm=1:11for k=1:N x=randn(1,20)+m(mm); T=s20*mean(x)/std(x);if T>=t0 p1(mm)=p1(mm)+1;end B=0;for i=1:20if x(i)>0 B=B+1;endendif B>=b0 p2(mm)=p2(mm)+1;end wp=rpsum(x,0);if wp>=w0 p3(mm)=p3(mm)+1;endend p1(mm)=p1(mm)/N; p2(mm)=p2(mm)/N; p3(mm)=p3(mm)/N; mmendP=p1;p2;p3plot(m,p1,m,p2,m,p3)計算結(jié)果為P = 0.0482 0.1105 0.2100 0.3522 0.5304 0.6958 0.8292 0.9132 0.9609 0.9874 0.9953 0.0192 0.04

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)理統(tǒng)計基本概念與假設(shè)檢驗

文檔簡介

溫馨提示

最新文檔

評論

數(shù)理統(tǒng)計基本概念與假設(shè)檢驗

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔