R語(yǔ)言學(xué)習(xí)系列25-K-S分布檢驗(yàn)與正態(tài)性檢驗(yàn)分析_第1頁(yè)
R語(yǔ)言學(xué)習(xí)系列25-K-S分布檢驗(yàn)與正態(tài)性檢驗(yàn)分析_第2頁(yè)
R語(yǔ)言學(xué)習(xí)系列25-K-S分布檢驗(yàn)與正態(tài)性檢驗(yàn)分析_第3頁(yè)
R語(yǔ)言學(xué)習(xí)系列25-K-S分布檢驗(yàn)與正態(tài)性檢驗(yàn)分析_第4頁(yè)
R語(yǔ)言學(xué)習(xí)系列25-K-S分布檢驗(yàn)與正態(tài)性檢驗(yàn)分析_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

23.K-S分布檢驗(yàn)與正態(tài)性檢驗(yàn)(一)假設(shè)檢驗(yàn)什么是假設(shè)檢驗(yàn)?實(shí)際中,我們只能得到抽取的樣本(部分)的統(tǒng)計(jì)結(jié)果,要進(jìn)一步推斷總體(全部)的特征,但是這種推斷必然有可能犯錯(cuò),犯錯(cuò)的概率為多少時(shí)應(yīng)該接受這種推斷呢?為此,統(tǒng)計(jì)學(xué)家就開發(fā)了一些統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)檢定,通過(guò)把所得到的統(tǒng)計(jì)檢定值,與統(tǒng)計(jì)學(xué)家樹立了一些隨機(jī)變量的概率分布進(jìn)行對(duì)比,我們可以知道在百分之多少的機(jī)遇下會(huì)得到目前的結(jié)果。倘若經(jīng)比較后發(fā)現(xiàn),涌現(xiàn)這結(jié)果的機(jī)率很少,即是說(shuō),是在時(shí)機(jī)很少、很罕有的情況下才出現(xiàn);那我們便可以有信念地說(shuō),這不是巧合,該推斷結(jié)果是具有統(tǒng)計(jì)學(xué)上的意義的。否則,就是推斷結(jié)果不具有統(tǒng)計(jì)學(xué)意義。假設(shè)檢驗(yàn)的基本思想——小概率反證法思想小概率思想是指小概率事件(P<a,a=0.05或0.01)在一次試驗(yàn)中基本上不會(huì)發(fā)生。反證法思想是先提出原假設(shè)(H0),再用適當(dāng)?shù)慕y(tǒng)計(jì)方法確定假設(shè)成立的可能性(P值)大小,如可能性?。≒Wa),則認(rèn)為原假設(shè)不成立,若可能性大,則還不能認(rèn)為備擇假設(shè)(H1)成立。原假設(shè)與備擇假設(shè)原假設(shè)與備擇假設(shè)是完備且相互獨(dú)立的事件組,一般,原假設(shè)(H0)—-研究者想收集證據(jù)予以反對(duì)的假設(shè);備擇假設(shè)(H1)—-研究者想收集證據(jù)予以支持的假設(shè);假設(shè)檢驗(yàn)的P值,就是在H0為真時(shí),觀察到的差異來(lái)源于抽樣誤差的可能性大小。假設(shè)檢驗(yàn)判斷方法有:臨界值法、P值檢驗(yàn)法。四、假設(shè)檢驗(yàn)分類及步驟(以t檢驗(yàn)為例)雙側(cè)檢驗(yàn).原假設(shè)H0:-與備擇假設(shè)H1:pWp0;.根據(jù)樣本數(shù)據(jù)計(jì)算出統(tǒng)計(jì)量t的觀察值t0;in.p值=p{iti三itoi}=t0的雙側(cè)尾部的面積;W.若P值Wa(在雙尾部分),則在顯著水平a下拒絕H0;若P值,a,則在顯著水平。下接受H0;注意:a為臨界值,看P值在不在陰影部分(拒絕域),空白部分為接受域。臨界值樣本統(tǒng)計(jì)量臨界值置信水平抽樣分布拒絕人拒絕一左側(cè)檢驗(yàn).原假設(shè)H0:口,備擇假設(shè)H1:…0;.根據(jù)樣本數(shù)據(jù)計(jì)算出統(tǒng)計(jì)量t的觀察值t0(<0);in.p值=P{twt0}=t0的左側(cè)尾部的面積;W.若P值Wa(在左尾部分),則在顯著水平a下拒絕H0;若P值,a,則在顯著水平。下接受H0;右側(cè)檢驗(yàn).原假設(shè)H0:哼燈備擇假設(shè)H1:四邛0;.根據(jù)樣本數(shù)據(jù)計(jì)算出統(tǒng)計(jì)量t的觀察值t0(>0);n.p值=P{t三t0}=t0的右側(cè)尾部的面積;W.若P值Wa(在右尾部分),則在顯著水平a下拒絕H0;若P值,a,則在顯著水平。下接受H0;樣本統(tǒng)計(jì)量臨界值觀察到的樣本統(tǒng)計(jì)量抽樣分布埋侑水平右側(cè)檢驗(yàn)(二)K-S分布檢驗(yàn)Kolmogorov-Smirnov檢驗(yàn),用來(lái)檢驗(yàn)一組樣本數(shù)據(jù)是否服從某已知分布,或兩組樣本數(shù)據(jù)是否服從相同分布。用函數(shù)ks.test()實(shí)現(xiàn),基本格式為:ks.test(x,y,...,alternative=,exact=NULL)其中,x為樣本數(shù)據(jù);y為分布名(此時(shí)…為該分布的參數(shù))或樣本數(shù)據(jù);alternative設(shè)置是"two.sided,雙側(cè)檢驗(yàn)(默認(rèn))、"less"左側(cè)檢驗(yàn)、"greater”右側(cè)檢驗(yàn);exact設(shè)置是否計(jì)算精確p值,默認(rèn)NULL。1.K-S單樣本總體分布檢驗(yàn)用來(lái)檢驗(yàn)樣本數(shù)據(jù)是否服從某已知分布。它是一種基于經(jīng)驗(yàn)分布函數(shù)的檢驗(yàn),令D=supIF(x)-F(x)In n0n其中,F(xiàn)(x)為一組隨機(jī)樣本的累計(jì)概率分布函數(shù),F(xiàn)(x)為真實(shí)的分n0布函數(shù)。當(dāng)nT6時(shí),D的極限分布滿足:n工(-1)jexp(—2j2九2),九〉0P{JnD〈九}fK(九)二1n j=-80, X<0原假設(shè)H:F二F即分布相同;備擇假設(shè)H:二者分布不同。0n0 *1X=c(420,500,920,1380,1510,1650,1760,2100,2300,2350)#某設(shè)備10次無(wú)故障工作時(shí)間的數(shù)據(jù)lambdav-mean(X)lambda[1]1489ks.test(x,"pexp”,1/lambda)#檢驗(yàn)是否服從參數(shù)為1/1489的指數(shù)分布One-sampleKolmogorov-Smirnovtestdata:XD=0.30418,p-value=0.2563alternativehypothesis:two-sidedP值=0.2563>0.05,接受原假設(shè)H0,即服從指數(shù)分布。2.兩獨(dú)立樣本K-S同分布檢驗(yàn)假定有分別來(lái)自兩個(gè)獨(dú)立總體的兩個(gè)樣本,要檢驗(yàn)是否服從同一分布。設(shè)兩個(gè)樣本的樣本量分別為n和n,累積經(jīng)驗(yàn)分布函數(shù)分別為12F(x)和F(x),令D=F(x)-F(x),則統(tǒng)計(jì)量1 2 j1j2jZ二maxIDI.:nin2

jjnn+n1 2近似服從正態(tài)分布。原假設(shè)H:F二F服從同一分布;備擇假設(shè)H:不服從同一分012 1布。xx=c(0.61,0.29,0.06,0.59,-1.73,-0.74,0.51,-0.56,0.39,1.64,0.05,-0.06,0.64,-0.82,0.37,1.77,1.09,-1.28,2.36,1.31,1.05,-0.32,-0.40,1.06,-2.47)yy=c(2.20,1.66,1.38,0.20,0.36,0.00,0.96,1.56,0.44,1.50,-0.30,0.66,2.31,3.29,-0.27,-0.37,0.38,0.70,0.52,-0.71)ks.test(xx,yy)#檢驗(yàn)兩組數(shù)據(jù)是否服從同一分布Two-sampleKolmogorov-Smirnovtestdata:xxandyyD=0.23,p-value=0.5286alternativehypothesis:two-sidedP值=0.5286>0.05,接受原假設(shè),即兩組數(shù)據(jù)服從同一分布。注1:在做K-S檢驗(yàn)時(shí),有時(shí)會(huì)有錯(cuò)誤提示"Kolmogorov-Smirnov檢驗(yàn)里不應(yīng)該有連結(jié)”,這是因?yàn)镵-S檢驗(yàn)只對(duì)連續(xù)CDF有效,而連續(xù)CDF中出現(xiàn)相同值的概率為0,因此R會(huì)報(bào)錯(cuò)。這也提醒我們,在做正態(tài)性檢驗(yàn)之前,要先對(duì)數(shù)據(jù)進(jìn)行描述性分析,對(duì)數(shù)據(jù)整體要先有個(gè)大致的認(rèn)識(shí),這也才后續(xù)才能選擇正確的檢驗(yàn)方法。注2:K-S檢驗(yàn)主要用于定量數(shù)據(jù),而卡方同質(zhì)性檢驗(yàn)主要用于分類數(shù)據(jù)。(三)正態(tài)性檢驗(yàn)原假設(shè)H0:服從正態(tài)分布;備擇假設(shè)H1:不服從正態(tài)分布一、Shapiro-Wilk檢驗(yàn)(W檢驗(yàn))適合在樣本量8WnW50時(shí)使用。W檢驗(yàn)是建立在次序統(tǒng)計(jì)量的基礎(chǔ)上,對(duì)n個(gè)獨(dú)立觀測(cè)值按非降排序,記為X,X,,X,檢驗(yàn)統(tǒng)計(jì)量:12n[Zna(x —X)]2^W= in+1-i i… Zn(X-X)2i=1i當(dāng)總體分布為正態(tài)分布時(shí),W值應(yīng)該接近于1。用函數(shù)shapiro.test()實(shí)現(xiàn),基本格式為:shapiro.test(x)其中,x為樣本數(shù)據(jù)。attach(mtcars)shapiro.test(mpg)Shapiro-Wilknormalitytestdata:mpgW=0.94756,p-value=0.1229detach(mtcars)P值=0.1229>0.05,接受原假設(shè),即服從正態(tài)分布。二、Kolmogorov-Smirnov檢驗(yàn)(D檢驗(yàn))適合在樣本量50WnWl000時(shí)使用。即將前文的K-S單樣本總體分布檢驗(yàn)的已知分布,設(shè)為正態(tài)分布即可?;蛘呤褂肔illiefor檢驗(yàn),它是Kolmogorov-Smirnov正態(tài)性檢驗(yàn)修正,使用nortest包中的函數(shù)lillie.test()實(shí)現(xiàn)?;靖袷綖椋簂illie.test(x)其中x為樣本數(shù)據(jù)。library(nortest)attach(mtcars)lillie.test(mpg)Lilliefors(Kolmogorov-Smirnov)normalitytestdata:mpgD=0.1263,p-value=0.2171detach(mtcars)P值=0.2171>0.05,接受原假設(shè),即服從正態(tài)分布。三、Jarque-Bera正態(tài)性檢驗(yàn)是基于偏度和峰度的聯(lián)合分布檢驗(yàn)法。記偏度為S,峰度為K,則統(tǒng)計(jì)量:JB=n-k-(S2+K)~X2(2)6 4用tseries包中的使用函數(shù)jarque.bera.test()實(shí)現(xiàn),基本格式:jarque.bera.test(x)其中,x為樣本數(shù)據(jù)。library(tseries)attach(mtcars)jarque.bera.test(mpg)JarqueBeraTestdata:mpgX-squared=2.2412,df=2,p-value=0.3261detach(mtcars)P值=0.2412>0.05,接受原假設(shè),即服從正態(tài)分布。注:還可以使用nromtest包中的函數(shù)jb.norm.test()和ajb.norm.test(),前者參數(shù)除了x之外,多了一個(gè)蒙特卡羅模擬值,默認(rèn)是2000,后者是J-B檢驗(yàn)的修正,主要解決JB統(tǒng)計(jì)量收斂速度慢的缺點(diǎn)。四、其它正態(tài)性檢驗(yàn)nortest包中還提供了:AD正態(tài)性檢驗(yàn)函數(shù)ad.test(x),計(jì)算統(tǒng)計(jì)量A值(越接近0越服從正態(tài)分布)和P值。Cramer-vonMises正態(tài)性檢驗(yàn)函數(shù)cvm.test(x)Pearson卡方正態(tài)性檢驗(yàn)函數(shù)pearson.test(x)Shapiro-Francia正態(tài)性檢驗(yàn)函數(shù)sf.test(x)五、多元正態(tài)性檢驗(yàn)W檢驗(yàn)shapiro.test()可推廣到多元正態(tài)性檢驗(yàn),使用mvnormtest包中的函數(shù)mshapiro.test()或者使用Q-Q圖檢驗(yàn),若有一個(gè)pX1的多元正態(tài)隨機(jī)向量x,均值為u,協(xié)方差矩陣為2,那么x與u的馬氏距離的平方服從自由度為p的卡方分布。Q-Q圖展示卡方分布的分位數(shù),橫縱坐標(biāo)分別是樣本量與馬氏距離平方值。如果點(diǎn)全部落在斜率為1、截距項(xiàng)為0的直線上,則表明數(shù)據(jù)服從多元正態(tài)分布。library(MASS)attach(UScereal)y<-cbind(calories,fat,sugars)head(y)caloriesfatsugars[1,]212.12123.03030318.18182[2,]212.12123.03030315.15151[3,]100.00000.0000000.00000[4,]146.66672.66666713.33333[5,]110.00000.00000014.00000[6,]173.33332.66666710.66667#mshapiro.test()函數(shù)檢驗(yàn)多元正態(tài)性library(mvnormtest)mshapiro.test(t(y))#注意要對(duì)y轉(zhuǎn)置Shapiro-Wilknormalitytestdata:ZW=0.6116,p-value=7.726e-12#Q-Q圖檢驗(yàn)多元正態(tài)性centerv-colMeans(y)n<-nrow(y)p<-ncol(y)cov<-cov(y)d<-mahalanobis(y,center,cov)coord

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論