非參數(shù)統(tǒng)計(R軟件)參考答案講述_第1頁
非參數(shù)統(tǒng)計(R軟件)參考答案講述_第2頁
非參數(shù)統(tǒng)計(R軟件)參考答案講述_第3頁
非參數(shù)統(tǒng)計(R軟件)參考答案講述_第4頁
非參數(shù)統(tǒng)計(R軟件)參考答案講述_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、內(nèi)容:A.3, A.10, A.12A.3 上機實踐:將MASS數(shù)據(jù)包用命令library(MASS)加載到R中,調(diào)用自帶“老忠實”噴泉數(shù)據(jù)集geyer,它有兩個變量:等待時間waiting和噴涌時間duration,其中(1) 將等待時間70min以下的數(shù)據(jù)挑選出來;(2) 將等待時間70min以下,且等待時間不等于57min的數(shù)據(jù)挑選出來;(3) 將等待時間70min以下噴泉的噴涌時間挑選出來;(4) 將噴涌時間大于70min噴泉的等待時間挑選出來。解:讀取數(shù)據(jù)的R命令:library(MASS);#加載MASS包data(geyser);#加載數(shù)據(jù)集geyserattach(geyser

2、);#將數(shù)據(jù)集geyser的變量置為內(nèi)存變量(1) 依題意編定R程序如下:sub1geyser=geyserwhich(waiting<70),1;#提取滿足條件(waiting<70)的數(shù)據(jù),which(),讀取下標(biāo)sub1geyser1:5;#顯示子數(shù)據(jù)集sub1geyser的前5行1 57 60 56 50 54(2) 依題意編定R程序如下:Sub2geyser=geyserwhich(waiting<70)&(waiting!=57),1;#提取滿足條件(waiting<70& (waiting!=57)的數(shù)據(jù).Sub2geyser1:5;#顯示

3、子數(shù)據(jù)集sub1geyser的前5行1 60 56 50 54 60 原數(shù)據(jù)集的第1列為waiting噴涌時間,所以用which(waiting<70),2(3) Sub3geyser=geyserwhich(waiting<70),2;#提取滿足條件(waiting<70)的數(shù)據(jù),which(),讀取下標(biāo)Sub3geyser1:5;#顯示子數(shù)據(jù)集sub1geyser的前5行1 4.000000 4.383333 4.833333 5.450000 4.866667原數(shù)據(jù)集的第2列為噴涌時間,所以用which(waiting<70),2(4) Sub4geyser=ge

4、yserwhich(waiting>70),1;#提取滿足條件(waiting<70)的數(shù)據(jù),which(),讀取下標(biāo)Sub4geyser1:5;#顯示子數(shù)據(jù)集sub1geyser的前5行1 80 71 80 75 77.A.10如光盤文件student.txt中的數(shù)據(jù),一個班有30名學(xué)生,每名學(xué)生有5門課程的成績,編寫函數(shù)實現(xiàn)下述要求:(1) 以data.frame的格式保存上述數(shù)據(jù);(2) 計算每個學(xué)生各科平均分,并將該數(shù)據(jù)加入(1)數(shù)據(jù)集的最后一列;(3) 找出各科平均分的最高分所對應(yīng)的學(xué)生和他所修課程的成績;(4) 找出至少兩門課程不及格的學(xué)生,輸出他們的全部成績和平均成績

5、;(5) 比較具有(4)特點學(xué)生的各科平均分與其余學(xué)生平均分之間是否存在差異。先將數(shù)據(jù)集讀入R系統(tǒng)student=read.table("",header=T)class(student):#顯示數(shù)據(jù)集student的類型,1 "data.frame"#student是數(shù)據(jù)框names(student);#顯示數(shù)據(jù)框student的變量1 "name" "math" "physics" "chem" "literat" "english"

6、; "mean"#輸出顯示,數(shù)據(jù)框student有7個變量,第7個變量是平均值mean。(1)write.table(student,"F:gzmu非參數(shù)統(tǒng)計data2014各章數(shù)據(jù)附錄Ax.txt",s=T)打開x.txt"name" "math" "physics" "chem" "literat" "english""1" "Katty" 65 61 72 84 79&quo

7、t;2" "Leo" 77 77 76 64 55(2) 依題意,要為原始數(shù)據(jù)集添加一個變量,即添加一列在最后。?,6=?me=rep(0,30);for(i in 1:30)x=as.numeric(studenti,2:6); mei=mean(x);student$mean=me;#上面程序的最后一行也可以如此:student,7=menames(student);1 "name" "math" "physics" "chem" "literat" "

8、;english" "mean" #如上顯示,程序運行后數(shù)據(jù)框student添加了第7列mean.(3) 依題意,在(2)的程序運行后做,要用到which(mean=max(mean),如同A.3。attach(student);maxme=studentwhich(mean=max(mean),;#找出最高平均分的記錄,并賦予maxme;maxme; name math physics chem literat english mean15 Liggle 78 96 81 80 76 82.2(4) 依題意,要用到二重的for和if. 由原數(shù)據(jù)框geyser給d

9、ata1賦值時要用到數(shù)據(jù)轉(zhuǎn)換:#x=as.numeric(studenti,2:6);#讀取student第i行2:6列的數(shù)據(jù),#data1k,=x;#將x賦給data4#的第k行。sum(x<60)是不及格門數(shù)。Data1=student1,;#賦初值k=0;for(i in 1:30)x=as.numeric(studenti,2:6); if (sum(x<60)>1)k=k+1;data1k,=studenti,;data1 name math physics chem literat english mean1 Ricky 67 63 49 65 57 60.27

10、Simon 66 71 67 52 57 62.69 Jed 83 100 79 41 50 70.610 Jack 86 94 97 51 55 76.612 Jetty 67 84 53 58 56 63.613 Corner 81 62 69 56 52 64.014 Osten 71 64 94 52 52 66.625 Amon 74 79 95 59 59 73.2(5) 依題意,要創(chuàng)造兩個子集data4和data2, 用兩樣本的比較方法比較他們的平均成績是否有顯著差異。類似創(chuàng)造data1的方法,創(chuàng)造data2。并設(shè)x=data1$mean,y=data2$mean,比較二樣本x,

11、y是否有顯著差異,由于還沒有學(xué)非參數(shù)檢驗,試用t檢驗檢驗之(R的t檢驗函數(shù)為t.test(x,y),原假設(shè)H0是兩樣本的均值相等,備擇假設(shè)H1是兩樣本不等)。如果P值p-value<0.05,則拒絕原假設(shè)。data2=student1,;k=0;for(i in 1:30)x=as.numeric(studenti,2:6); if (sum(x<60)<2)k=k+1;data2k,=studenti,;下面做t檢驗x=data1$mean;y=data2$mean;t.test(x,y) Welch Two Sample t-testdata: x and yt = -3

12、.0236, df = 9.309, p-value = 0.01386alternative hypothesis: true difference in means is not equal to 095 percent confidence interval: -11.493236 -1.684037sample estimates: mean of x mean of y : 67.17500 73.76364結(jié)論:p-value = 0.01386<0.05,拒絕原假設(shè),即認(rèn)為兩樣本的平均成績有顯著差異。A.12 在一張圖上,用取值(-10,10)之間間隔均等的1000個點,采

13、用不同的線型一顏色給制sin(),cos(),sin()+cos()的函數(shù)圖形,圖形要求有主標(biāo)題和副標(biāo)題,標(biāo)示出從坐標(biāo)x=seq(-10,10,length=50);#構(gòu)造向量x,x1:5;#顯示x的前5個數(shù)據(jù)1 -10.00000 -9.97998 -9.95996 -9.93994 -9.91992sin=sin(x);#計算sin函數(shù)值cos=cos(x);sc=sin(x)+cos(x);plot(sinx,xlab="x",ylab="y",ylim=c(-1.5,1.5),type="l",col=1);lines(cos

14、x,type="b", col=2);#點線圖lines(scx,type="o", col=1);title("三角函數(shù)圖");所得圖形如下圖,sin為黑色,cos為紅色,sin+cos為綠色:內(nèi)容:1.1; 1.2; 1.11;(附加題:1.4; 1.7; 1.8 有能力的可做附加題)1.1 某批發(fā)市場從廠家購置一批燈泡,根據(jù)合同的規(guī)定,燈泡的使用的壽命平均不低于1000h。已知燈泡的使用壽命服從正態(tài)分布,標(biāo)準(zhǔn)差是20h,從總體中隨機抽取了100只燈泡,得知樣本均值為996h,問題是:批發(fā)商是否應(yīng)該購買該批燈泡?(1) 零假設(shè)和備

15、擇假設(shè)應(yīng)該如何設(shè)置?給出你的理由。(2)在零假設(shè)之下,給出檢驗的過程并做出決策,如果不能拒絕零假設(shè),可能是哪里出了問題。解:(1) 根據(jù)題意,問題的假設(shè)為理由:是批發(fā)商的意愿,違背這個意愿,也就是拒絕原假設(shè)H0,他就購這批燈泡了。不能輕易否定的事情應(yīng)置于被保護地位H0。這個問題的檢驗統(tǒng)計量為,z=(996-1000)/2=-2P值pvalue=pnorm(z,0,1)= 0.02275013, 在alpha=0.05時拒絕原假設(shè),根據(jù)合同,不購這批燈泡。(2) 假設(shè)檢驗問題:。這樣的假設(shè)是有問題的。假設(shè)檢驗是一種這樣哲學(xué):不輕易否定舊過程,置舊過程為H0于被保護的位置,而以小概率否定之。而一但

16、被拒絕,以小概率事件原理,拒絕域不是小概率。反證H0不真。所謂“天欲報之,必先厚之”也,以顯我為人之厚道,雖如此也不能保護H0,怪不得我也。面此假設(shè)違返舊過程,這樣的假設(shè)毫無意義。如果按照這個檢驗問題,檢驗的P值是pvalue=1- pnorm(z,0,1)= 0.9772499, 沒有充分的理由拒絕原假設(shè),結(jié)論也是不購進(jìn)這批燈泡。但是犯批II類錯誤的概率是多少,鬼才知道呢。1.2 考慮下面檢驗問題(不用計算已給的數(shù)據(jù)).(1)如果X服從N(0, 1)分布,假設(shè)檢驗問題。可以知道的似然比檢驗,如果X>1.645, 則將會拒絕H0: ,而且按照Neyman-Pearson引理,該檢驗是最優(yōu)

17、的。現(xiàn)在,如果我們觀察到X=2.1,該水平0.05的最優(yōu)檢驗告訴我們拒絕=0的零假設(shè),接受=1000的備擇假設(shè),你覺得有問題嗎?問題在哪里?如何解決?答:有問題。假設(shè)檢驗在原假設(shè)條件成立下,得到拒絕域,意思是拒絕,接受。而只是其中的一種情況,故不能接受。改進(jìn)方法:可直接提出假設(shè)“均值為1000”進(jìn)行檢驗。即檢驗(2) 有兩組學(xué)生的成績,第一組為11名,成績?yōu)閤:100,99,99,100,100,100,100,99, 100, 99, 99; 第二組為2名,成績?yōu)閥: 50, 0. 我們對這兩組數(shù)據(jù)作同樣水平= 0.05的t檢驗(假設(shè)總體的均值為),。對第二組數(shù)據(jù)的檢驗結(jié)果為:df=10,

18、t= -2.8868,mean(x)= 99.54545, 單邊檢驗(<100, less)的P值為p-value = 0.008099。所以拒絕原假設(shè),認(rèn)為<100。對第二組數(shù)據(jù)檢驗的結(jié)果為:df=1, t值為-3,單邊(<100, less)的P值為p-value = 0.1024,不拒絕原假設(shè)=100。但是mean(y)=25.解:兩個結(jié)論都不是合理的,t檢驗是針對正態(tài)數(shù)據(jù)做的,第一組數(shù)據(jù)事實上是兩點分布,x的取值域為99,100,所以t檢驗的基本假設(shè)不滿足,所以第一個檢驗是不合理的;第二組數(shù)據(jù)的t檢驗也是不合理的,樣本量太少,不具有代表性。(3)寫出上面所用的t檢驗統(tǒng)

19、計量,及p值的定義,解釋水平=0.05的意義(注意,這里是一般情況,不要聯(lián)系(2)中的具體數(shù)據(jù)例子),如果沒有給定水平,如何用p值來做出結(jié)論?解:設(shè)樣本 iid , 對于三種假設(shè)(雙邊假設(shè),兩個單邊假設(shè))都用同一個t統(tǒng)計量,p值p_value=(雙邊檢驗,alternative=”two.side”),p_value=(右邊檢驗, alternative=”greater”),p_value=(左邊檢驗alternative=”less”),其中。p_value小于檢驗水平時拒絕原假設(shè),接受H1 。則有I. 雙邊假設(shè)檢驗,拒絕原假設(shè)H0 p_value=<II. 右尾假設(shè)檢驗,拒絕原假設(shè)

20、H0 p_value=<III. 左尾假設(shè)檢驗,拒絕原假設(shè)H0 p_value=<(4) 寫出和t檢驗有關(guān)的關(guān)于均值的100(1-)%置信區(qū)間(不要聯(lián)系(2)中的數(shù)據(jù),說明你所有的符號的意義(如果有的話))解:t檢驗是在正態(tài)樣本條件下做。確實,雙邊假設(shè)的t檢驗與置信區(qū)間一一對應(yīng)。其雙邊假設(shè)檢驗式,有其中隨機變量T服從t(n-1)分布。S是正態(tài)樣本的樣本方差。(5) 如果服從正態(tài)分布,其中未知,寫出有關(guān)的關(guān)于均值的100(1-)%的置信區(qū)間。一般來說,如果知道有未知均值和已知方差,但分布不知道,我們不能用上面寫的置信區(qū)間?如果能,需要什么條件?根據(jù)是什么?用公式說明。解:如果服從正態(tài)

21、分布,其中未知,寫出有關(guān)的關(guān)于均值的100(1-)%的置信區(qū)間。用到下面兩個統(tǒng)計量:,如果方差已知,則用正態(tài)置信區(qū)間,用Z構(gòu)造置信區(qū)間。如果方差未知,則用t構(gòu)造置信區(qū)間:如果知道有未知均值和已知方差,但分布不知道,我們不能用上面寫的置信區(qū)間,用切比雪夫不等式構(gòu)造置信區(qū)間:,令=(6)在切比雪夫不等式中,令B=,所以對給定的檢驗水平,1.11 (數(shù)據(jù)光盤文件:beenswax.txt)為探測蜂蠟結(jié)構(gòu),生物學(xué)家做了很多實驗,在每個蜂蠟里碳?xì)浠衔?hydrocarbon)所占的比例對蜂蠟結(jié)構(gòu)有特殊的意義,數(shù)據(jù)中給出了一些觀測。(1)畫出beenswax數(shù)據(jù)的經(jīng)驗累積分布、直方圖和Q-Q圖。(2)找

22、出0.9,0.75,0.50,0.25,0.10的分位數(shù)。(3)這個分布是高斯分布嗎?解:beenswax=read.table("F:gzmu非參數(shù)統(tǒng)計data2014各章數(shù)據(jù)第1章beenswax.txt",header=T);attach(beenswax);names(beenswax)1 "MeltingPoint" "Hydrocarbon"說明beenswax有兩個變量:"MeltingPoint" "Hydrocarbon",分別表示,熔點和碳?xì)浠衔锼急壤?1) 依題意,對

23、Hydrocarbon的作圖程序如下得圖1.11-1cdf=ecdf(Hydrocarbon);#計算經(jīng)驗分布函數(shù)par(mfrow=c(2,2);#定義圖矩陣為2行2列plot(cdf);hist(Hydrocarbon);qqnorm(Hydrocarbon);qqline(Hydrocarbon) 圖1.11-1 圖1.11-2將上述程序中的Hydrocarbon替換成MeltingPoint,對MeltingPoint的作圖程序如下得圖1.11-2cdf=ecdf(MeltingPoint);#計算經(jīng)驗分布函數(shù)par(mfrow=c(2,2);#定義圖矩陣為2行2列plot(cdf);

24、hist(MeltingPoint);qqnorm(MeltingPoint);qqline(MeltingPoint)(3) 從直方圖看,兩者基本成對稱,鐘形,從兩者的正態(tài)Q-Q圖,也知道,兩者的散點基本在兩條直線的附近。所以兩近似正態(tài)分布(高斯分布)。對Hydrocarbon和MeltingPoint做ks.test,P值分別為:0.9766和0.7774, 兩個檢驗都沒有拒絕原假設(shè)(數(shù)據(jù)呈正態(tài)分布)。程序如下:ks.test(Hydrocarbon,pnorm,mean(Hydrocarbon),sd(Hydrocarbon);ks.test(MeltingPoint,pnorm,mea

25、n(MeltingPoint),sd(MeltingPoint);內(nèi)容:2.1, 2.2, 2.4, 2.1 2, 2.142.1 超市經(jīng)理想了解每位顧客在該超市購買的商品平均件數(shù)是否為10件,隨機觀察12位顧客,得到如下數(shù)據(jù):顧客123456789101112件數(shù)229451161526478317(1) 采用符號檢驗進(jìn)行決策。(2) 采用Wilcoxon符號秩檢驗進(jìn)行決策,比較它和符號檢驗的結(jié)果。(如果分布對稱,則Wilcoxont符號秩檢驗較優(yōu),P值小者較優(yōu))解:(1) 采用符號檢驗進(jìn)行決策:根據(jù)題意,檢驗的假設(shè)為雙邊假設(shè)x=c(22,9,4,5,1,16,15,26,47,8,31,7

26、);sg=sum(x>10);sl=sum(x<10);n1=sg+sl;k=min(sg,sl);binom.test(k,n1,0.5);結(jié)果輸出: Exact binomial test圖2.1.1 數(shù)據(jù)分布直方圖data: k and n1number of successes = 6, number of trials = 12, p-value = 1alternative hypothesis: true probability of success is not equal to 0.595 percent confidence interval: 0.210944

27、6 0.7890554sample estimates:probability of success 0.5p-value = 1,不拒絕原假設(shè)H0 (2) Wilcoxon符號秩檢驗,假設(shè)如果(1): Wilcoxon signed rank test with continuity correctiondata: x - 10V = 53, p-value = 0.2892alternative hypothesis: true location is not equal to 0p-value = 0.2892, 沒有充分理由拒絕原假設(shè)。注:雖然兩個檢驗的結(jié)論相同,但我們認(rèn)為(1)可靠。

28、因為數(shù)據(jù)的分布不是對稱,而后者是基于對稱分布的。而本題的數(shù)據(jù)分布直方圖如下,顯然是不對稱的,所針對本題數(shù)據(jù),wilcox.test不可靠。2.2考查某疾病的患者共計350名,男性150人,女性200人,問該疾病得病的男女性別比是否為1:1,即其男女比例是否各為1/2?提示:用中心極限定理,正態(tài)近似檢驗,即Demoive-Laplace中心極限定理:p=0.5,n=350,Xb(350,0.5),E(X)=175, Var(X)=npq=n/4=350/4。標(biāo)準(zhǔn)化X近似于標(biāo)準(zhǔn)正態(tài)。解:根據(jù)題意,設(shè)男性患者的比例為p,則檢驗的假設(shè)為設(shè)男性患者數(shù)為X,則Xb(350,0.5),E(X)=175, V

29、ar(X)=npq=n/4=350/4。標(biāo)準(zhǔn)化X近似于標(biāo)準(zhǔn)正態(tài)。,p-value=2*min(pnorm(z,0,1),1- pnorm(z,0,1)= 0.007526315, 拒絕原假設(shè)p=0.5,認(rèn)為患者中男性比率不是0.5, 男女比例不是1:1. 注:究其實,男性患者的比率顯著地< 下表中的數(shù)據(jù)是兩個籃球聯(lián)賽中三分球的進(jìn)球次數(shù),該數(shù)據(jù)的目的是考察兩個聯(lián)賽三分球得分次數(shù)是否存在顯著性差異。(1) 符號檢驗。(2) 配對Wilcoxon符號秩檢驗。(3) 在這些數(shù)據(jù)中哪個檢驗更好?為什么?(P值小者好) 三分球進(jìn)球次數(shù)隊伍序號聯(lián)賽1 聯(lián)賽2191812465131086

30、3499515110466105457191668576493490108128解:設(shè)聯(lián)賽1和聯(lián)賽2的三分球得分次數(shù)分別為X和Y,題意只問“X和Y”是否存在顯著差異,所以檢驗的假設(shè)為設(shè)Z=X-Y,問題轉(zhuǎn)化為(1) 檢驗的R程序為:x=c(91,46,108,99,110,105,191,57,34,81);y=c(81,51,63,51,46,45,66,64,90,28);z=x-y;sg=sum(z>0);sl=sum(z<0);n1=sg+sl;k=min(sg,sl)binom.test(k,n1,0.5) Exact binomial testdata: k and n1

31、number of successes = 3, number of trials = 10, p-value = 0.3438alternative hypothesis: true probability of success is not equal to 0.595 percent confidence interval: 0.06673951 0.65245285sample estimates:probability of success 0.3P值p-value = 0.3438,不拒絕原假設(shè),認(rèn)為兩個聯(lián)賽的三分球得分次數(shù)沒有顯著差異。(2) 作z的直方圖如圖2.4.1,圖形顯示

32、z的分布不存在顯著不對稱的跡象,可以做wilcox.testwilcox.test(z) Wilcoxon signed rank testdata: zV = 45, p-value = 0.08398alternative hypothesis: true location is not equal to 0圖2.4.1 z的直方圖檢驗的P值p-value = 0.08398,在alpha=0.05下,不拒絕原假設(shè)。與符號檢驗的結(jié)論相同,但P值小了很多。(3) 在如上的檢驗中,由于數(shù)據(jù)的分布不存在顯著不對稱的跡象,wilcox.test是可靠的,因而wilcox.test理好。事實wilc

33、ox.test的P值小了很多,更能區(qū)分差異。在檢驗可靠的情形下,P值越小越好。2.12 在白令海所捕捉的12歲的某種魚的長度(單位:cm)樣本為長度/cm64 65 66 67 68 69 70 71 72 73 74 75 77 78 79 數(shù)目1 2 1 1 4 3 4 5 3 3 0 1 6 1 1您能否同意所聲稱的12歲的這種魚的長度的中位數(shù)總是在6972cm之間?解:這是求置信區(qū)間的問題,設(shè)=0.05. x=c(64,65,65,66,67,68,68,68,68,69,69,69,70,70,70,70,71,71,71,71,71,72,72,72,73,73,73,75,77,

34、77,77,77,77,77,78,83);數(shù)據(jù)探索:正態(tài)Q-Q圖和密度函數(shù)圖如下兩者顯示數(shù)據(jù)x近似于對稱分布,ks正態(tài)性檢驗的P值為0.58,也沒有拒絕正態(tài)性假設(shè),因此可以認(rèn)為數(shù)據(jù)分布不拒絕對稱性假設(shè)。因此可以做Walsh中位數(shù)置信區(qū)間,基于Bootstrap方差估計的中位數(shù)正態(tài)置信區(qū)間、樞軸量置信區(qū)間、分位數(shù)置區(qū)間,下面求walsh置信區(qū)間。(1) walsh中位數(shù)置信區(qū)間walsh=NULL;n=length(x);for(i in 1:n)for (j in i:n)w=(xi+xj)/2; walsh=c(walsh,w);list(med=median(walsh), nwalsh

35、=length(walsh);# median(walsh)=71, length(walsh)=666 #編程求walsh中位數(shù)的(1-)*100%=95%的置信區(qū)間walsh.conf=function(x,alpha)walsh=NULL;n=length(x);for(i in 1:n)for (j in i:n)w=(xi+xj)/2; walsh=c(walsh,w); nw=length(walsh); #walsh的長度walsh.sort=sort(walsh);#搜索walsh中位數(shù)的置信區(qū)間,對稱地砍掉左尾和右尾for(k in seq(1,(nw/2),1)F=pbin

36、om(nw-k,nw,0.5)- pbinom(k,nw,0.5);if (F<(1-alpha)lk=k-1;breaklci=walsh.sortlk;uci=walsh.sortnw-lk+1;list(lci=lci,uci=uci,lk=lk,uk=nw-lk) #調(diào)用函數(shù)walsh.conf(x,0.05)$lci= 71, $uci=71.5結(jié)論:12歲的這種魚的長度的中位數(shù)的95%的walsh置信區(qū)間是(71, 71.5)(cm).(2) 其它置信區(qū)間,基于Bootstrap方差的樞軸區(qū)間是最好的,它是(69,73),還是沒有Walsh區(qū)間好,因為數(shù)據(jù)分布是對稱的。依wa

37、lsh平均,可以說12歲的這種魚的長度在6972之間(置信水平95%)。2.14 社會學(xué)家欲了解抑郁癥的發(fā)病率是否在一年時間隨季節(jié)的不而不同,他使用了來年一所大醫(yī)院的病人數(shù)據(jù),按一個4個季節(jié),依次記錄過去5年中第一次被確診為患抑郁癥的病人數(shù),數(shù)據(jù)如下表(單位:人)季節(jié)春季 夏季 秋季 冬季 合計人數(shù)495 503 491 581 2070請問:發(fā)病率是否與季節(jié)有關(guān)?解:這是一個假設(shè)問題。也稱為獨立性檢驗問題。如果兩者獨立,即無關(guān),則發(fā)病人數(shù)在4個季節(jié)是均勻(發(fā)病率為1/4),否則兩者是相關(guān)的。Pearson檢驗過程如下:H0;p1=p2=p3=p4=1/4;H1;p1,p2,p3,p4不全等;

38、V=c(495,503,491,581);p=1/4;n=sum(V);df=4-1;chi2=sum(V-n*p)2/(n*p)pvalue=1-pchisq(chi2,df);pvalue;#請思考:為什么用右尾概率?10.01453647結(jié)論:在=0.05時拒絕原假設(shè),認(rèn)為發(fā)病率與季節(jié)有關(guān)。具體地說,冬天的發(fā)病率高(p3= 0.2807)。當(dāng)然,為了要得到科學(xué)的結(jié)論,應(yīng)該要規(guī)范抽樣,使得樣本有代表性,畢竟一個醫(yī)院的數(shù)據(jù)其代表性是值得商榷的。內(nèi)容P106: 3.1; 3.4; 在一項研究毒品對增強人體攻擊性影響的實驗中,組A使用安慰劑,組B使用毒品,試驗后進(jìn)行攻擊性測試,測

39、量得分顯示在如下表中(得分越高表示攻擊性越強)組A10,8,12,16,5,9,7,11,6組B12,15,20,18,13,14,9,16(1)給出這個實驗的零假設(shè).(2)畫出表現(xiàn)這些數(shù)據(jù)的曲線圖.(3)分析這些數(shù)據(jù)用哪種檢驗方法最合適.(4)用您選擇的檢驗對數(shù)據(jù)進(jìn)行分析.(5)是否有足夠的證據(jù)拒絕零假設(shè)?如何解釋數(shù)據(jù)?解:(1)這個實驗的目的是要檢驗毒品是否具有顯著的攻擊性。根據(jù)假設(shè)檢驗的原則,其零假設(shè)其位置參數(shù)(均值或中位數(shù))是無顯著差異,即檢驗假設(shè)為:.(2)A=c(10,8,12,16,5,9,7,11,6);B=c(12,15,20,18,13,14,9,16);min=min(c

40、(A,B);max=max(c(A,B);plot(A,type="b",pch="A",xlim=c(0,9),ylim=c(min,max);lines(B,type="b",pch="B");title("數(shù)據(jù)A,B折線圖");折線圖如圖3.1.1.能更好地反映數(shù)據(jù)還有箱線圖,程序如下,圖如圖3.1.2group=factor(rep(c("A","B"),c(9,8)plot(c(A,B)group)圖3.1.1 數(shù)據(jù)A、B折線性圖 圖3.1.2

41、數(shù)據(jù)A、B箱線圖從圖看,藥品B的攻擊性是乎強一些,有否顯著地強,有待于檢驗。(3)如果兩樣本都呈正態(tài)分布,可以進(jìn)行二樣本t檢驗,如果兩樣本分布相似,可進(jìn)行Wilcoxon秩和檢驗。二樣本正態(tài)性檢驗的程序和結(jié)果如下:ks.test(A,pnorm,mean(A),sd(A) One-sample Kolmogorov-Smirnov testdata: AD = 0.1047, p-value = 0.9997alternative hypothesis: two-sided因為檢驗的P值為0.9997,沒有充分的理由拒絕A的正態(tài)性假設(shè)。ks.test(B,pnorm,mean(B),sd(B)

42、 One-sample Kolmogorov-Smirnov testdata: BD = 0.0991, p-value = 1alternative hypothesis: two-sided.因為檢驗的P值為1,沒有充分的理由拒絕B的正態(tài)性假設(shè)。所以可以進(jìn)行t檢驗t.test(A,B,alternative="less",var.eaqual=FALSE) Welch Two Sample t-testdata: A and Bt = -3.1763, df = 14.686, p-value = 0.0032alternative hypothesis: true

43、difference in means is less than 095 percent confidence interval: -Inf -2.366982sample estimates:mean of x mean of y 9.333333 14.625000再做兩樣本分布相似檢驗ks.test(A-median(A),B-median(B) Two-sample Kolmogorov-Smirnov testdata: A - median(A) and B - median(B)D = 0.1389, p-value = 0.9998alternative hypothesis:

44、 two-sided因為檢驗的P值為0.9998,沒有充分理由拒絕兩樣本分布相似的假設(shè),所以可做wilcox.testwilcox.test(A,B,alternative="less") Wilcoxon rank sum test with continuity correctiondata: A and BW = 9.5, p-value = 0.006097alternative hypothesis: true location shift is less than 0因為t檢驗的P值為0.0032,而Wilcoxon秩和檢驗的P值為0.00609,在=0.01時

45、,兩者均有充分的理由拒絕零假設(shè),認(rèn)為毒品B具有顯著的攻擊性。(4) (5)因為t檢驗的P值為0.0032,而Wilcoxon秩和檢驗的P值為0.00609,在=0.01時,兩者均有充分的理由拒絕零假設(shè),認(rèn)為毒品B具有顯著的攻擊性。3.4 兩個不同學(xué)院教師一年的課時量分別為(單位:學(xué)時)A學(xué)院:321,266,256,386,330,329,303,334,299,221,365,250,258,342,243,298,238,317B學(xué)院:488,593,507,428,807,342,512,350,672,589,665,549,451,492,514,391,366,469根據(jù)這兩個樣本

46、,兩個學(xué)院教師講課的課時是否存在顯著差異?估計這些差異。從兩個學(xué)院教師講課的課時來看,教師完成講課任務(wù)的情況是否類似?給出檢驗和判斷。提示:先檢驗“教師完成講課任務(wù)的情況是否類似”,再選擇檢驗方法,推斷是否存在顯著差異。解:A=c(321,266,256,386,330,329,303,334,299,221,365,250,258,342,243,298,238,317);B=c(488,593,507,428,807,342,512,350,672,589,665,549,451,492,514,391,366,469);(1) 檢驗“教師完成講課任務(wù)的情況是否類似”方法ks.test檢驗

47、:。ks.test(A-median(A),B-median(B)檢驗結(jié)果: Two-sample Kolmogorov-Smirnov testdata: A - median(A) and B - median(B)D = 0.2778, p-value = 0.5026alternative hypothesis: two-sided因為檢驗的P值為0.5026,不拒絕零假設(shè),即不拒絕兩樣本分布類似的假設(shè)。注:如果分別用正態(tài)性檢驗,則在不拒絕正態(tài)性假設(shè)的基礎(chǔ)上,還要檢驗兩樣本方差齊性。思考一下為什么?(2)在(1)的檢驗中,兩樣本分布相似,所以可以用Wilcoxon秩和檢驗檢驗兩樣本中位

48、數(shù)是否有顯著差異:wilcox.test(A,B)檢驗結(jié)果: Wilcoxon rank sum test with continuity correctiondata: A and BW = 5.5, p-value = 7.977e-07alternative hypothesis: true location shift is not equal to 0因為檢驗的P值為7.977e-07<<0.01,所以拒絕零假設(shè),兩樣本的中位數(shù)有顯著差異。兩學(xué)院教師的教學(xué)任務(wù)有顯著差異。(3)可以在(2)的基礎(chǔ)上進(jìn)一步檢驗,兩樣本A與B不但分布相似,而且相似于正態(tài)分布(兩者均呈正態(tài)分布)

49、,所以可以用二樣本t檢驗:t.test(A,B)檢驗結(jié)果: Welch Two Sample t-testdata: A and Bt = -6.8841, df = 21.916, p-value = 6.637e-07alternative hypothesis: true difference in means is not equal to 095 percent confidence interval: -276.8201 -148.6243sample estimates: mean of x mean of y 297.5556 510.2778因為檢驗的P值為6.637e-07

50、<<0.01,所以拒絕零假設(shè),兩樣本的均值存在顯著差異。即兩學(xué)院教師的平均教學(xué)課時有顯著差異。兩學(xué)院教師平均教學(xué)課時分別為297.5556,510.2778,B學(xué)院教師的平均課時顯著地高于A學(xué)院。(4)兩樣本位置(均值、中位數(shù))差的各種估計,置信區(qū)間討論:(5)兩樣本密度估計,非參數(shù)密度估計:您有什么想法?將這些方法實施于理學(xué)院本科學(xué)生成績分析,教師教學(xué)任務(wù)的統(tǒng)計分析?您愿意做這些平凡的實際工作?如果您展開充分的思考,提升到社會學(xué)乃至心理學(xué),我看是可以做學(xué)位論文的。精彩的統(tǒng)計分析工作還可以在以后章節(jié)遇到。世界上怕就怕您高不成低不就??!3.5 對A和B兩塊土壤有機質(zhì)含量抽檢結(jié)果如下,

51、試用Mood和Moses兩種方法檢驗兩組數(shù)據(jù)的方差是否存在顯著差異。A8.8,8.2 5.6,4.9 8.9,4.2 3.6,7.1 5.5,8.6 6.3,3.9B13.0,14.5 16.5,22.6, 20.7,19.6, 18.4,21.3, 24.2,19.6, 11.7, 18.9,14.6, 19.8,14.5解:A=c(8.8,8.2,5.6,4.9,8.9,4.2,3.6,7.1,5.5,8.6,6.3,3.9);B=c(13.0,14.5,16.5,22.6,20.7,19.6,18.4,21.3, 24.2,19.6,11.7,18.9,14.6,19.8,14.5);(

52、1) Mood方差檢驗是數(shù)據(jù)中心化后,用混合樣本的秩代替離差平方和公式中的原始數(shù)據(jù)。即設(shè)樣本,檢驗的假設(shè)為。再設(shè)X在混合樣本c(X,Y)中的秩為R=(R1,R2,Rm),當(dāng)H0成立時,混合樣本c(X,Y)= (; ) iid 而秩統(tǒng)計量應(yīng)該不大(在平均值(m+n+1)/2附近波動),而當(dāng)X的方差大于Y的方差時,會在遠(yuǎn)離平均值(m+n+1)/2的地方出現(xiàn),因而當(dāng)M超大時,拒絕零假設(shè)。檢驗可以編程計算,也可以調(diào)用R的現(xiàn)成函數(shù)mood.test()。本題數(shù)據(jù)運行mood.test(A,B) Mood two-sample test of scaledata: A and BZ = 0.6342, p

53、-value = 0.526alternative hypothesis: two.sided由于P值為0.526,沒有充分理由拒絕原假設(shè)。(2) Moses的方法是將兩樣本分組,用各組的離差平方和反映方差。分組要注意到每組中至少有3個樣本。本題中樣本容量分別為12,15,所以分別分為4組,5組。SSA=NULL;for (i in 1:4)group=A(i-1)*3+1):(3*i);SSA=c(SSA,2*var(group)SSA=(5.786667 12.860000 6.140000 11.046667)SSB=NULL;for (j in 1:5)group=B(i-1)*3+1

54、):(3*i);SSB=c(SSB,2*var(group)SSB=(38.24667 38.24667 38.24667 38.24667 38.24667);wilcox.test(SSA,SSB) Wilcoxon rank sum test with continuity correctiondata: SSA and SSBW = 0, p-value = 0.0108alternative hypothesis: true location shift is not equal to 0結(jié)論:兩組數(shù)據(jù)的方差有顯著差異,由median(SSA)=8.593333,median(SSB

55、)=38.24667,所B數(shù)據(jù)方差顯著大于A組數(shù)據(jù)的方差。Moses的缺點是,分組后樣本量縮小了,很不好。用Bootstrap方法,直接比較Bootstrap樣本的方差,思想方法簡單:重抽樣B次,各得方差的B個大樣本,由大樣本理論比較兩樣本方差。(3) Bootstrap方法x=c(8.8,8.2,5.6,4.9,8.9,4.2,3.6,7.1,5.5,8.6,6.3,3.9);y=c(13.0,14.5,16.5,22.6,20.7,19.6,18.4,21.3, 24.2,19.6,11.7,18.9,14.6,19.8,14.5);VBx=NULL;VBy=NULL;nx=length(x);ny=length(y);B=1000;for (i in 1:B)xb=sample(x,nx,T);Vbx=var(xb); VBx=c(VBx,Vbx); yb=sample(y,ny,T);Vby=var(yb); VBy=c(VBy,Vby); MVx=mean(VBx);MVy=mean(VBy); Varxy=var(VBx)+var(VBy); Z=(MVx-MVy)/sqrt(Va

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論