R語(yǔ)言假設(shè)檢驗(yàn)_第1頁(yè)
R語(yǔ)言假設(shè)檢驗(yàn)_第2頁(yè)
R語(yǔ)言假設(shè)檢驗(yàn)_第3頁(yè)
R語(yǔ)言假設(shè)檢驗(yàn)_第4頁(yè)
R語(yǔ)言假設(shè)檢驗(yàn)_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、R語(yǔ)言 假設(shè)檢驗(yàn)(非參數(shù)) 學(xué)習(xí)筆記1.皮爾森擬合優(yōu)度塔防檢驗(yàn)。假設(shè)H0:總體具有某分布F 備擇假設(shè)H1:總體不具有該分布。我們將數(shù)軸分成若干個(gè)區(qū)間,所抽取的樣本會(huì)分布在這些區(qū)間中。在原假設(shè)成立的條件下,我們便知道每個(gè)區(qū)間包含樣本的個(gè)數(shù)的期望值。用實(shí)際值Ni 與期望值Npi可以構(gòu)造統(tǒng)計(jì)量K 。皮爾森證明,n趨向于無窮時(shí),k收斂于m-1的塔防分布。m為我們分組的個(gè)數(shù)。有了這個(gè)分布,我們就可以做假設(shè)檢驗(yàn)。例:?12345678#如果是均勻分布,則沒有明顯差異 。這里組其實(shí)已經(jīng)分好了,直接用 。H0:人數(shù)服從均勻分布> x <- c(21

2、0,312,170,85,223)> n <- sum(x); m <- length(x)> p <- rep(1/m,m)> K <- sum(x-n*p)2/(n*p); K #計(jì)算出K值1 136.49> p <- 1-pchisq(K,m-1); p #計(jì)算出p值1 0 #拒絕原假設(shè)。在R語(yǔ)言中 chisq.tes

3、t(),可以完成擬合優(yōu)度檢驗(yàn)。默認(rèn)就是檢驗(yàn)是否為均勻分布,如果是其他分布,需要自己分組,并在參數(shù)p中指出。上面題目的解法?123456chisq.test(x)         Chi-squared test for given probabilities data:  xX-squared = 136.49, df = 4, p-value < 2

4、.2e-16 #同樣拒絕原假設(shè)。例,用這個(gè)函數(shù)檢驗(yàn)其他分布。 抽取31名學(xué)生的成績(jī),檢驗(yàn)是否為正態(tài)分布。?123456789101112131415> x <- c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,89,89,90,91,91,92,100)> A <- table(cut(x,breaks=c(0,69,79,89,100) #對(duì)樣本數(shù)據(jù)進(jìn)行分組。> A 

5、;  (0,69  (69,79  (79,89 (89,100        8        5       13        5 > p <- pnorm(c(

6、70,80,90,100),mean(x),sd(x) #獲得理論分布的概率值> p <- c(p1,p2-p1,p3-p2,1-p3)> chisq.test(A,p=p)         Chi-squared test for given probabilities data:  AX-squared = 8.334, df 

7、;= 3, p-value = 0.03959  #檢驗(yàn)結(jié)果不是正態(tài)的。例:大麥雜交后關(guān)于芒性的比例應(yīng)該是 無芒:長(zhǎng)芒:短芒=9:3:4 。 我們的實(shí)際觀測(cè)值是335:125:160 。請(qǐng)問觀測(cè)值是否符合預(yù)期??12345678> p <- c(9/16,3/16,4/16)> x <- c(335,125,160)> chisq.test(x,p=p)       

8、  Chi-squared test for given probabilities data:  xX-squared = 1.362, df = 2, p-value = 0.5061 在分組的時(shí)候要注意,每組的頻數(shù)要大于等于5.如果理論分布依賴于多個(gè)未知參數(shù),只能先由樣本得到參數(shù)的估計(jì)量。然后構(gòu)造統(tǒng)計(jì)量K,此時(shí)K的自由度減少位置參數(shù)的數(shù)量個(gè)。 2.ks檢驗(yàn)。R語(yǔ)言中提供了ks.test()函數(shù),理論上

9、可以檢驗(yàn)任何分布。他既能夠做單樣本檢驗(yàn),也能做雙樣本檢驗(yàn)。單樣本 例:記錄一臺(tái)設(shè)備無故障工作時(shí)常,并從小到大排序420 500 920 1380 1510 1650 1760 2100 2300 2350。問這些時(shí)間是否服從拉姆達(dá)=1/1500的指數(shù)分布??12345678> x <- c(420,500,920,1380,1510,1650,1760,2100,2300,2350)> ks.test(x,"pexp",1/1500)       

10、  One-sample Kolmogorov-Smirnov test data:  xD = 0.3015, p-value = 0.2654alternative hypothesis: two-sided雙樣本 例:有兩個(gè)分布,分別抽樣了一些數(shù)據(jù),問他們是否服從相同的分布。?12345678910111213141516171819> X<-scan()1: 0.61 0.29 0.06 

11、;0.59 -1.73 -0.74 0.51 -0.56 0.3910: 1.64 0.05 -0.06 0.64 -0.82 0.37 1.77 1.09 -1.2819: 2.36 1.31 1.05 -0.32 -0.40 1.06 -2.4726: Read 25 items> Y<-scan()1: 2.20

12、0;1.66 1.38 0.20 0.36 0.00 0.96 1.56 0.4410: 1.50 -0.30 0.66 2.31 3.29 -0.27 -0.37 0.38 0.7019: 0.52 -0.7121: Read 20 items> ks.test(X,Y)        &#

13、160;Two-sample Kolmogorov-Smirnov test #原假設(shè)為 他們的分布相同 data:  X and YD = 0.23, p-value = 0.5286alternative hypothesis: two-sided 3.列聯(lián)表數(shù)據(jù)獨(dú)立性檢驗(yàn)。chisq.test() 同樣可以做列聯(lián)表數(shù)據(jù)獨(dú)立性檢驗(yàn),只要將數(shù)據(jù)寫成矩陣的形式就可以了。?1234567891011> x

14、0;<- matrix(c(60,3,32,11),nrow=2) #參數(shù)correct是邏輯變量 表示帶不帶連續(xù)矯正。> x     ,1 ,21,   60   322,    3   11> chisq.test(x)         Pears

15、on's Chi-squared test with Yates' continuity correction data:  xX-squared = 7.9327, df = 1, p-value = 0.004855  #拒絕假設(shè) 認(rèn)為有關(guān)系如果一個(gè)單元格內(nèi)的數(shù)據(jù)小于5 那么做pearson檢驗(yàn)是無效的。此時(shí)應(yīng)該使用Fisher精確檢驗(yàn)。?1234567891011121314

16、151617> x <- matrix(c(4,5,18,6),nrow=2)> x     ,1 ,21,    4   182,    5    6> fisher.test(x)         Fisher's

17、 Exact Test for Count Data data:  xp-value = 0.121 alternative hypothesis: true odds ratio is not equal to 195 percent confidence interval: 0.03974151 1.76726409  #p

18、值大與0.05, 區(qū)間估計(jì)包含1,所以認(rèn)為沒有關(guān)系。sample estimates:odds ratio  0.2791061McNemar檢驗(yàn)。這個(gè)不是相關(guān)性檢驗(yàn)。是配對(duì)卡放檢驗(yàn)。也就是說,我們是對(duì)一個(gè)樣本做了兩次觀測(cè),本身不是獨(dú)立的樣本而是相關(guān)的樣本,而我們檢驗(yàn)的是變化的強(qiáng)度。H0:頻數(shù)沒有發(fā)生變化。?1用法就不舉例了。單元格內(nèi)數(shù)字不得小于5.n要大于100. 4.符號(hào)檢驗(yàn)。當(dāng)我們以中位數(shù)將數(shù)據(jù)分為兩邊,一邊為正,一邊為負(fù),那么樣本出現(xiàn)在兩邊的概率應(yīng)該都為1/2。因此,使用p=0.2的二項(xiàng)檢驗(yàn)就可以做符號(hào)檢驗(yàn)了。例:統(tǒng)計(jì)了66個(gè)

19、城市的生活花費(fèi)指數(shù),北京的生活花費(fèi)指數(shù)為99 。請(qǐng)問北京是否位于中位數(shù)以上。?123456789101112131415161718192021> x <- scan()1: 66 75 78 80 81 81 82 83 83 83 8312: 84 85 85 86 86 86 86 87 87 88 8823: 88&#

20、160;88 88 89 89 89 89 90 90 91 9134: 91 91 92 93 93 96 96 96 97 99 10045: 101 102 103 103 104 104 104 105 106 109 10956: 110 110 1

21、10 111 113 115 116 117 118 155 19267: Read 66 items> binom.test(sum(x>99),length(x),alternative="less")         Exact binomial test data:  sum(x >

22、 99) and length(x)number of successes = 23, number of trials = 66, p-value = 0.009329alternative hypothesis: true probability of success is less than 0.595 percent confid

23、ence interval: 0.0000000 0.4563087sample estimates:probability of success              0.3484848   #北京位于中位數(shù)下。 符號(hào)檢驗(yàn)也可以用來檢驗(yàn)兩個(gè)總體是否存在明顯差異。要是沒有差異,那么兩者之差為正的概率為0.5.例:?1234567891011121314&

24、gt; y <- c(19,32,21,19,25,31,31,26,30,25,28,31,25,25)> x <- c(25,30,28,23,27,35,30,28,32,29,30,30,31,16)> binom.test(sum(x<y),length(x)         Exact binomial test data:  sum(x

25、0;< y) and length(x)number of successes = 4, number of trials = 14, p-value = 0.1796alternative hypothesis: true probability of success is not equal to 0.595 percent&#

26、160;confidence interval: 0.08388932 0.58103526sample estimates:probability of success              0.2857143  #無明顯差異。這個(gè)例子不是很好 題目中標(biāo)識(shí)為0的意思是兩者同樣喜歡。?123456789101112> binom.test(3,12

27、,alternative="less",conf.level=0.9)         Exact binomial test data:  3 and 12number of successes = 3, number of trials = 12, p-value = 0.073alternat

28、ive hypothesis: true probability of success is less than 0.590 percent confidence interval: 0.0000000 0.4752663sample estimates:probability of success  #p<0.1 接受備擇假設(shè) 認(rèn)為有差異   

29、60;              0.25 5.秩相關(guān)檢驗(yàn)。在R語(yǔ)言中,rank()函數(shù)用來求秩,如果向量中有相同的數(shù)據(jù),求出的秩可能不合我們的要求,對(duì)數(shù)據(jù)做微調(diào)即可?123456> x <- c(1.2,0.8,-3.1,2,1.2)> rank(x)1 3.5 2.0 1.0 5.0 3.5> x <-&

30、#160;c(1.2,0.8,-3.1,2,1.2+1e-5)> rank(x)1 3 2 1 5 4利用秩可以做相關(guān)性檢驗(yàn)。具體在上上篇筆記里已經(jīng)講了。cor.test( method="spearman,kendell") 6.wilcoxon檢驗(yàn)。符號(hào)檢驗(yàn)只考慮了符號(hào),沒有考慮要差異的大小。wilcoxon解決了這個(gè)問題。假設(shè),數(shù)據(jù)是連續(xù)分布的,數(shù)據(jù)是關(guān)于中位數(shù)對(duì)稱的。例: 某電池廠商生產(chǎn)的電池中位數(shù)為140.現(xiàn)從新生產(chǎn)的電池中抽取20個(gè)測(cè)試。請(qǐng)問電池是否合格?123456789>

31、60;x <- c(137,140,138.3,139,144.3,139.1,141.7,137.3,133.5,138.2,141.1,139.2,136.5,136.5,135.6,138,140.9,140.6,136.3,134.1)> wilcox.test(x,mu=140,alternative="less",exact=F,correct=F,=T)         Wilcoxon signed&

32、#160;rank test data:  xV = 34, p-value = 0.007034alternative hypothesis: true location is less than 140wilcox.test() 做成對(duì)樣本檢測(cè)。例:在農(nóng)場(chǎng)中選擇了10塊農(nóng)田,將每一塊農(nóng)田分成2小塊,分別用不同的化肥種菜。請(qǐng)問化肥會(huì)不會(huì)提高蔬菜產(chǎn)量。?123456789> x <- c(459

33、,367,303,392,310,342,421,446,430,412)> y <- c(414,306,321,443,281,301,353,391,405,390)> wilcox.test(x-y,alternative="greater")         Wilcoxon signed rank test data:  x - yV = 47, p-value = 0.02441alternative hypothesis: true location is greater than 0 #能夠提高產(chǎn)量非配對(duì)雙樣本檢測(cè):?12345678910111213> x <- c(24,26,29,34,43,58,63,72,87,101)> y

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論