正態(tài)性檢驗(yàn)的一般方法_第1頁(yè)
正態(tài)性檢驗(yàn)的一般方法_第2頁(yè)
正態(tài)性檢驗(yàn)的一般方法_第3頁(yè)
正態(tài)性檢驗(yàn)的一般方法_第4頁(yè)
正態(tài)性檢驗(yàn)的一般方法_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、正態(tài)性檢驗(yàn)的一般方法 姓名:藍(lán)何忠學(xué)號(hào):1101200203班號(hào):1012201正態(tài)性檢驗(yàn)的一般方法【摘要】:正態(tài)分布是自然界中一種最常見的也是最重要的一種分布.因此,人們?cè)趯?shí)際使用統(tǒng)計(jì)分析時(shí),總是樂于正態(tài)假定,但該假定是否成立,牽涉到正態(tài)性檢驗(yàn).在一般性的概率統(tǒng)計(jì)教科書中,只是把這個(gè)問(wèn)題放在一般性的分布擬合下作簡(jiǎn)短處理,而這種"萬(wàn)精油"式的檢驗(yàn)方法,對(duì)正態(tài)性檢驗(yàn)不具有特效.鑒于此,該文從不同角度出發(fā)介紹正態(tài)性檢驗(yàn)的幾種常見的方法,并且就各種方法作了優(yōu)劣比較, 【引言】一般實(shí)際獲得的數(shù)據(jù),其分布往往未知。在數(shù)據(jù)分析中,經(jīng)常要判斷一組數(shù)據(jù)的分布是否來(lái)自某一特定的分布,比如對(duì)于

2、連續(xù)性分布,常判斷數(shù)據(jù)是否來(lái)自正態(tài)分布,而對(duì)于離散分布來(lái)說(shuō),常判斷是否來(lái)自二項(xiàng)分布.泊松分布,或判斷實(shí)際觀測(cè)與期望數(shù)是否一致,然后才運(yùn)用相應(yīng)的統(tǒng)計(jì)方法進(jìn)行分析。幾種正態(tài)性檢驗(yàn)方法的比較。一、擬合優(yōu)度檢驗(yàn):(1)當(dāng)總體分布未知,由樣本檢驗(yàn)總體分布是否與某一理論分布一致。H0: 總體X的分布列為pX=xi=pi,i=1,2,H1:總體 X的分布不為pi.構(gòu)造統(tǒng)計(jì)量=t=1knpifin-pi2=i=1kfi-npi2npi其中fi為樣本中Ai發(fā)生的實(shí)際頻數(shù), npi為H0為真時(shí)Ai發(fā)生的理論頻數(shù)。(2)檢驗(yàn)原理若=0,則fi=npi,意味著對(duì)于Ai,觀測(cè)頻數(shù)與期望頻數(shù)完全一致,即完全擬合。觀察頻數(shù)

3、與期望頻數(shù)越接近,則值越小。當(dāng)原假設(shè)為真時(shí),有大數(shù)定理,fin與pi不應(yīng)有較大差異,即值應(yīng)較小。若值過(guò)大,則懷疑原假設(shè)。拒絕域?yàn)镽=d,判斷統(tǒng)計(jì)量是否落入拒絕域,得出結(jié)論。二、Kolmogorov-Smirnov正態(tài)性檢驗(yàn):Kolmogorov-Smirnov檢驗(yàn)法是檢驗(yàn)單一樣本是否來(lái)自某一特定分布。比如檢驗(yàn)一組數(shù)據(jù)是否為正態(tài)分布。它的檢驗(yàn)方法是以樣本數(shù)據(jù)的累積頻數(shù)分布與特定理論分布比較,若兩者間的差距很小,則推論該樣本取自某特定分布族。即對(duì)于假設(shè)檢驗(yàn)問(wèn)題:H0:樣本所來(lái)自的總體分布服從某特定分布H1:樣本所來(lái)自的總體分布不服從某特定分布統(tǒng)計(jì)原理:Fo(x)表示分布的分布函數(shù),F(xiàn)n(x)表示一

4、組隨機(jī)樣本的累計(jì)概率函數(shù)。設(shè)D為Fo(x)與Fn(x)差距的最大值,定義如下式: D=max|Fn(x)-Fo(x)|對(duì)于給定的a,PDn>d=a.例如:35位健康男性在未進(jìn)食前的血糖濃度如表所示,試測(cè)驗(yàn)這組數(shù)據(jù)是否來(lái)自均值=80,標(biāo)準(zhǔn)差=6的正態(tài)分布87 77 92 68 80 78 84 77 81 80 80 77 92 86 76 80 81 75 77 72 81 90 84 86 80 68 77 87 76 77 78 92 75 80 78 n=35檢驗(yàn)過(guò)程如下:假設(shè) H0:健康成人男性血糖濃度服從正態(tài)分布 H1: 健康成人男性血糖濃度不服從正態(tài)分布計(jì)算過(guò)程如表:結(jié)論:上

5、表中的理論值F0(x)是根據(jù)標(biāo)準(zhǔn)化值z(mì)查表得到,實(shí)際上D=max |Fn(x)-F0(x)|=0.1754<D0.55, 35=0.23查D值表,故不能拒絕H0即健康成年男人血糖濃度服從正態(tài)分布,當(dāng)樣本容量n大時(shí)可以用D,n=1.36/求得結(jié)果,如上述D0.55, 35=1.36/=0.2299=0.23結(jié)論:當(dāng)實(shí)際觀測(cè)D>Dn,則接受H1,反之則不拒絕H0假設(shè)。擬合優(yōu)度檢驗(yàn)與K-S正態(tài)檢驗(yàn)的比較:擬合優(yōu)度檢驗(yàn)與K-S正態(tài)檢驗(yàn)都采用實(shí)際頻數(shù)與期望頻數(shù)進(jìn)行檢驗(yàn)。它們之間最大的不同在于前者主要用于類別數(shù)據(jù),而后者主要用于有計(jì)量單位的連續(xù)和定量數(shù)據(jù),擬合優(yōu)度檢驗(yàn)雖然也可以用于定量數(shù)據(jù),但

6、必須先將數(shù)據(jù)分組得到實(shí)際觀測(cè)頻數(shù),并要求多變量之間獨(dú)立,而K-S正態(tài)檢驗(yàn)法可以不分組直接把原始數(shù)據(jù)的n個(gè)觀測(cè)值進(jìn)行檢驗(yàn),所以它對(duì)數(shù)據(jù)的利用較完整。三、Lilliefor正態(tài)分布檢驗(yàn)該檢驗(yàn)是對(duì)Kolmogorov-Smirnov檢驗(yàn)的修正,當(dāng)總體均值和方差未知時(shí),Lilliefor提出用樣本均值和標(biāo)準(zhǔn)差代替總體的期望和標(biāo)準(zhǔn)差,然后使用Kolmogorov-Smirnov正態(tài)性檢驗(yàn)法,它定義了一個(gè)D統(tǒng)計(jì)量;D=max| Fn(x)- Fo(x)|參數(shù)未知,由=X,2=S2計(jì)算得到統(tǒng)計(jì)量,查表得Lilliefor檢驗(yàn)的臨界值,確定拒絕域,得出結(jié)論。四、偏度峰度檢驗(yàn)法:(一)偏度檢驗(yàn):設(shè)隨機(jī)變量 X

7、具有數(shù)學(xué)期望 R 和方差2>0,1為X的偏度,所謂偏度檢驗(yàn)就是檢驗(yàn)如下假設(shè):H0:1=0 H1:10注意到,拒絕原假設(shè)H0,則可以認(rèn)為樣本不是來(lái)自正態(tài)總體。接受原假設(shè)H0,并不等價(jià)于接受原假設(shè)“樣本來(lái)自正態(tài)總體”。這是因?yàn)槿我粚?duì)稱分布的偏度都為0,無(wú)法排除樣本來(lái)自非正態(tài)的對(duì)稱分布的可能。因此,偏度檢驗(yàn)只能檢驗(yàn)數(shù)據(jù)分布的對(duì)稱性。由于總體分布未知,無(wú)法直接得到總體的偏度,故可以利用樣本偏度作為檢驗(yàn)上述假設(shè)的檢驗(yàn)統(tǒng)計(jì)量,記mk=1ni=1nxi-xk定義1 設(shè)x1,x2,xn 為隨機(jī)變量X的n個(gè)相互獨(dú)立的樣本,偏度檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量為b1=m3m232=1ni=1nyi-y31ni=1nyi-y

8、232 (*)b1常被用于雙尾檢驗(yàn),因?yàn)榉钦龖B(tài)分布可能出現(xiàn)左偏,也可能出現(xiàn)右偏。在原假設(shè)成立時(shí),b10,在顯著性水平(0,1)下取定分位點(diǎn)cn,,若|b1|cn,則拒絕原假設(shè)。事實(shí)上,bi的分布是對(duì)稱的,因此采取雙尾檢驗(yàn)的做法是合理的。定理1 設(shè)b1為(*)式中定義的偏度檢驗(yàn)統(tǒng)計(jì)量,則nb1漸進(jìn)服從均值為 0,方差為6的正態(tài)分布,即nb1DN0,6 (N)樣本容量有限的情形,使用漸進(jìn)情形下的結(jié)論就會(huì)導(dǎo)致較高的出錯(cuò)率,這也是偏度檢驗(yàn)的一個(gè)缺陷。需要指出的是,只有在確定對(duì)稱性是唯一影響分布的形態(tài)時(shí),偏度檢驗(yàn)才是合適的選擇,否則應(yīng)該避免使用偏度檢驗(yàn)。(二)峰度檢驗(yàn)設(shè)隨機(jī)變量 X 具有數(shù)學(xué)期望R和方差

9、2>0,2為 X 的峰度,所謂峰度檢驗(yàn),實(shí)際上是將正態(tài)性檢驗(yàn)轉(zhuǎn)化為檢驗(yàn)如下假設(shè):H0:2=3 H1 :2 3如同偏度檢驗(yàn)一樣,峰度為 3 的非正態(tài)分布也是存在的。所以,接受原假設(shè)H0并不能表明 X 一定服從正態(tài)分布,這一事實(shí)也導(dǎo)致對(duì)數(shù)據(jù)的正態(tài)性檢驗(yàn)會(huì)有一定的出錯(cuò)率。定義2 設(shè)x1,x2,xn為隨機(jī)變量X的n個(gè)相互獨(dú)立的樣本,峰度檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量為b2=m4m221ni=1nyi-y41ni=1nyi-y22 (*2)定理 2設(shè)b2為(*2)式中定義的峰度統(tǒng)計(jì)量,則nb2-3DN0,24 n同偏度統(tǒng)計(jì)量一樣,b2的收斂速度也是比較慢的.五、小樣本場(chǎng)合(3<n<50)的W檢驗(yàn)w檢驗(yàn)是檢驗(yàn)樣本容量n 50時(shí),樣本是否符合正態(tài)分布的一種方法。其檢驗(yàn)步驟如下:將數(shù)據(jù)按數(shù)值大小重新排列,使x1x2xn;計(jì)算 計(jì)算 式中:當(dāng)n為偶數(shù)時(shí),i=n/2;n為奇數(shù)時(shí),i=(n1)/2; 值可查表得出;計(jì)算檢驗(yàn)統(tǒng)計(jì)量若值小于判斷界限值(可通過(guò)查表求得),按表上行寫明的顯著性水平舍棄正態(tài)性假設(shè);若>,接受正態(tài)性假設(shè)。 六、大樣本場(chǎng)合(50<n<100)的D檢驗(yàn) 檢驗(yàn)統(tǒng)計(jì)量:再令Y=D-0.28209479n0.2998598則在顯著性水平時(shí),拒絕域?yàn)閅Y2或YY1-2。其中YY2和 YY1-2分別為Y的2和1-2分位數(shù)。總結(jié)在各種正態(tài)性檢驗(yàn)方法中,一般通

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論