非參數(shù)統(tǒng)計參考答案_第1頁
非參數(shù)統(tǒng)計參考答案_第2頁
非參數(shù)統(tǒng)計參考答案_第3頁
非參數(shù)統(tǒng)計參考答案_第4頁
非參數(shù)統(tǒng)計參考答案_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、內(nèi)容:geyer,它上機實踐:將MAS嗷據(jù)包用命令library(MASS)加載到R中,調(diào)用自帶“老忠實”噴泉數(shù)據(jù)集 有兩個變量:等待時間 waiting 和噴涌時間duration ,其中(1)將等待時間70min以下的數(shù)據(jù)挑選出來;(2)將等待時間70min以下,且等待時間不等于 57min的數(shù)據(jù)挑選出來;(3)將等待時間70min以下噴泉的噴涌時間挑選出來;(4)將噴涌時間大于70min噴泉的等待時間挑選出來。解:讀取數(shù)據(jù)的R命令:library(MASS);# 加載 MASWdata(geyser);#力口載數(shù)據(jù)集 geyserattach(geyser);#將數(shù)據(jù)集geyser的變量

2、置為內(nèi)存變量(1)依題意編定R程序如下:sub1geyser=geyserwhich(waiting70),1;#提取滿足條件(waiting70 )的數(shù)據(jù),which(),讀取下標(biāo) sub1geyser1:5;#顯示子數(shù)據(jù)集 sub1geyser 的前 5 行1 57 60 56 50 54(2)依題意編定R程序如下:Sub2geyser=geyserwhich(waiting70)&(waiting!=57),1;#提取滿足條件(waiting70& (waiting!=57) 的數(shù)據(jù).Sub2geyser1:5;#顯示子數(shù)據(jù)集 sub1geyser 的前 5 行1 60 56 50 54

3、 60原數(shù)據(jù)集的第1列為waiting噴涌時間,所以用which(waiting70),2Sub3geyser=geyserwhich(waiting70),2;#提取滿足條件(waiting70 )的數(shù)據(jù),which(),讀取下標(biāo) Sub3geyser1:5;#顯示子數(shù)據(jù)集 sub1geyser 的前 5 行1原數(shù)據(jù)集的第2列為噴涌時間,所以用which(waiting70),1;#提取滿足條件(waiting70 )的數(shù)據(jù),which(),讀取下標(biāo) Sub4geyser1:5;#顯示子數(shù)據(jù)集 sub1geyser 的前 5 行1 80 71 80 75 77如光盤文件中的數(shù)據(jù),一個班有30

4、名學(xué)生,每名學(xué)生有 5門課程的成績,編寫函數(shù)實現(xiàn)下述要求:(1)以的格式保存上述數(shù)據(jù);(2)計算每個學(xué)生各科平均分,并將該數(shù)據(jù)加入(1)數(shù)據(jù)集的最后一列;(3)找出各科平均分的最高分所對應(yīng)的學(xué)生和他所修課程的成績;(4)找出至少兩門課程不及格的學(xué)生,輸出他們的全部成績和平均成績;(5)比較具有(4)特點學(xué)生的各科平均分與其余學(xué)生平均分之間是否存在差異。先將數(shù)據(jù)集讀入R系統(tǒng)student=(,header=T)class(student):#顯示數(shù)據(jù)集student的類型,1 #student是數(shù)據(jù)框names(student);# 顯示數(shù)據(jù)框student 的變量name math physi

5、cs chem literat english mean#輸出顯示,數(shù)據(jù)框 student有7個變量,第7個變量是平均值 mean(1)(student,F:gzmu非參數(shù)統(tǒng)計各章數(shù)據(jù)附錄A,=T)打開name math physics chem literat english1 Katty 65 61 72 84 792 Leo 77 77 76 64 55(2)依題意,要為原始數(shù)據(jù)集添加一個變量,即添加一列在最后。?,6=?me=rep(0,30);for(i in 1:30)x=(studenti,2:6);mei=mean(x);student$mean=me;#上面程序的最后一行也可

6、以如此:student,7=menames(student);name math physics chem literat english mean#如上顯示,程序運行后數(shù)據(jù)框student添加了第7列mean.(3)依題意,在(2)的程序運行后做,要用到 which(mean=max(mean),如同。attach(student);maxme=studentwhich(mean=max(mean),;#找出最高平均分的記錄,并賦予 maxme;maxme;name math physics chem literat english mean15 Liggle 7896 818076(4)依

7、題意,要用到二重的for和if.由原數(shù)據(jù)框geyser給data1賦值時要用到數(shù)據(jù)轉(zhuǎn)換:#x=(studenti,2:6);# 讀取 student 第 i 行 2:6 列的數(shù)據(jù),#data1k,=x;# 將 x 賦給 data4 #的第k行。sum(x60)是不及格門數(shù)。Data1=student1,;# 賦初值k=0;for(i in 1:30)x=(studenti,2:6);if (sum(x1)k=k+1;data1k,=studenti,;data1name math physics chem literat english mean1Ricky67634965577Simon66

8、716752579Jed8310079415010Jack869497515512 Jetty678453585613 Corner816269565214Osten716494525225Amon7479955959(5)依題意,要創(chuàng)造兩個子集data4和data2,用兩樣本的比較方法比較他們的平均成績是否有顯著差異。類似創(chuàng)造datal的方法,創(chuàng)造 data2。并設(shè)x=data1$mean,y=data2$mean,比較二樣本 x,y是否有顯著差異, 由于還沒有學(xué)非參數(shù)檢驗,試用t檢驗檢驗之(R的t檢驗函數(shù)為(x,y),原假設(shè)H)是兩樣本的均值相等,備擇假設(shè)H是兩樣本不等)。如果P值p-va

9、lue,則拒絕原假設(shè)。data2=student1,;k=0;for(i in 1:30)x=(studenti,2:6);if (sum(x60)2)k=k+1;data2k,=studenti,;下面做t檢驗x=data1$mean;y=data2$mean;(x,y)Welch Two Sample t-testdata: x and yt = , df = , p-value =alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:sample e

10、stimates: mean of x mean of y結(jié)論:p-value = ,則將會拒絕 H):,而且按照Neyman-Pearson弓I理,該檢驗是最優(yōu)的?,F(xiàn)在,如果我們觀察到X=,該水平的最優(yōu)檢驗告訴我們拒絕=0的零假設(shè),接受 =1000的備擇假設(shè),你覺得有問題嗎?問題在哪里?如何解決?答:有問題。假設(shè)檢驗在原假設(shè)條件成立下,得到拒絕域,意思是拒絕,接受。而只是其中的 一種情況,故不能接受。改進方法:可直接提出假設(shè)“均值為1000”進行檢驗。即檢驗(2)有兩組學(xué)生的成績,第一組為 11 名,成績?yōu)?x:100,99,99,100,100,100,100,99,100, 99,99;

11、第二組為2名,成績?yōu)閥: 50, 0.我們對這兩組數(shù)據(jù)作同樣水平=的t檢驗(假設(shè)總體的均值為),H。:100 Hi :100。對第二組數(shù)據(jù)的檢驗結(jié)果為:df=10, t= ,mean(x)=,單邊檢驗(100, less)的P值為p-value = o所以拒絕原假設(shè),認為100。對第二組數(shù)據(jù)檢驗的結(jié)果為:df=1, t值為-3 ,單邊(100, less)的P值為p-value =,不拒絕原假設(shè)二100。但是mean(y)=25.解:兩個結(jié)論都不是合理的,t檢驗是針對正態(tài)數(shù)據(jù)做的,第一組數(shù)據(jù)事實上是兩點分 布,x的取值域為99, 100,所以t檢驗的基本假設(shè)不滿足,所以第一個檢驗是不合理的;

12、第二組數(shù)據(jù)的t檢驗也是不合理的,樣本量太少,不具有代表性。(3)寫出上面所用的t檢驗統(tǒng)計量,及p值的定義,解釋水平二的意義(注意,這里是一般情況,不要聯(lián)系(2)中的具體數(shù)據(jù)例子),如果沒有給定水平,如何用 p值來做出結(jié)論?解:設(shè)樣本X1,X2,.,Xn iid N( , 2),對于三種假設(shè)(雙邊假設(shè),兩個單邊假設(shè))都用同一X個 t 統(tǒng)計重 t 產(chǎn),p 值 p_value= P |T | t (雙邊檢驗,alternative= ),S/ . n一p_value= P T t (右邊 檢驗,alternative= greater ) , p_value= P T t (左 邊檢驗alterna

13、tive= less ”),其中Tt(n 1)。p_value小于檢驗水平時拒絕原假設(shè),接受Hi。則有.雙邊假設(shè)檢驗Ho:0 H1 :0,拒絕原假設(shè)H t t /2 p_value= P |T | t .右尾假設(shè)檢驗Ho:0 H 1 :0,拒絕原假設(shè)H0 t t p_value= P T t . 左尾假設(shè)檢驗H0:0 Hi:0,拒絕原假設(shè) H t tp_value= P T t 10);sl=sum(x10);n1=sg+sl;k=min(sg,sl);(k,n1,;結(jié)果輸出:Exact binomial test圖數(shù)據(jù)分布直方圖=1data: k and n1number of succes

14、ses = 6, number of trials = 12, p-value alternative hypothesis: true probability of success is not equal to 95 percent confidence interval:sample estimates:probability of successp-value = 1,不拒絕原假設(shè)H(2) Wilcoxon符號秩檢驗,假設(shè)如果(1):Wilcoxon signed rank test with continuity correction data: x - 10V = 53, p-va

15、lue =alternative hypothesis: true location is not equal to 0p-value =,沒有充分理由拒絕原假設(shè)。而后者是基于對稱分布的。注:雖然兩個檢驗的結(jié)論相同,但我們認為(1)可靠。因為數(shù)據(jù)的分布不是對稱,而本題的數(shù)據(jù)分布直方圖如下,顯然是不對稱的,所針對本題數(shù)據(jù),不可靠。考查某疾病的患者共計 350名,男性150人,女性200人,問該疾病得病的男女性別比是否為1:1 ,即其男女比例是否各為1/2 ?提示:用中心極限定理,正態(tài)近似檢驗,即 Demoive-Laplace中心極限定理:p=,n=350, Xb(350,E(X)=175, V

16、ar(X)=npq=n/4=350/4。標(biāo)準化 X近似于標(biāo)準正態(tài)。解:根據(jù)題意,設(shè)男性患者的比例為p,則檢驗的假設(shè)為 Ho : p 0.5 Hi : p 0.5設(shè)男性患者數(shù)為 X,則Xb(350,E(X)=175, Var(X)=npq=n/4=350/4。標(biāo)準化X近似于標(biāo)準正態(tài)。150 175n n/4-2.672612X np N 0,1 , z npqp-value=2*min(pnorm(z,0,1),1-pnorm(z,0,1)=,拒絕原假設(shè)p=,認為患者中男性比率不是,男女比例不是1:1. 注:究其實,男性患者的比率顯著地0);sl=sum(z0);n1=sg+sl;k=min(s

17、g,sl) (k,n1,Exact binomial testdata: k and n1number of successes = 3, number of trials = 10,p-value =alternative hypothesis: true probability of success is not equal to95 percent confidence interval: 0. sample estimates:probability of successP值p-value =,不拒絕原假設(shè),認為兩個聯(lián)賽的三分球得分次數(shù)沒有顯著差異。(2)作z的直方圖如圖,圖形顯示z的

18、分布不存在顯著不對稱的跡象,可以做(z)Wilcoxon signed rank test data: zV = 45, p-value =alternative hypothesis: true location is not equal to 0檢驗的P值p-value =, 在alpha=下,不拒絕原假設(shè)。與符號檢驗的結(jié)論相同, 但P值小了很多。圖z的直方圖(3)在如上的檢驗中,由于數(shù)據(jù)的分布不存在顯著不對稱的跡象,是可靠的,因而理好。事實的P值小了很多,更能區(qū)分差異。在檢驗可靠的情形下,P值越小越好。在白令海所捕捉的12歲的某種魚的長度(單位:cm)樣本為長度/cm64 65 66 6

19、7 68 69 70 71 72 73 74 75 77 78 79數(shù)目1 2 1 1 4 3 4 5 3 3 0 1 6 1 1您能否同意所聲稱的12歲的這種魚的長度的中位數(shù)總是在6972cm之間?解:這是求置信區(qū)間的問題,設(shè) =.x=c(64,65,65,66,67,68,68,68,68,69,69,69,70,70,70,70,71,71,71,71,71,72,72,72,73,73,73,75,77,7 7,77,77,77,77,78,83);數(shù)據(jù)探索:正態(tài) Q-Q圖和密度函數(shù)圖如下兩者顯示數(shù)據(jù)x近似于對稱分布,ks正態(tài)性檢驗的P值為,也沒有拒絕正態(tài)性假設(shè),因此可以認為數(shù)據(jù)分布不

20、拒絕對稱性假設(shè)。因此可以做 Walsh中位數(shù)置信區(qū)間,基于 Bootstrap方差估計的中位數(shù)正態(tài)置信區(qū) 間、樞軸量置信區(qū)間、分位數(shù)置區(qū)間,下面求 walsh置信區(qū)間。walsh 中位數(shù)置信區(qū)間walsh=NULL;n=length(x);for(i in 1:n)for (j in i:n)w=(xi+xj)/2;walsh=c(walsh,w);list(med=median(walsh), nwalsh=length(walsh);# median(walsh)=71, length(walsh)=666 # 編程求 walsh 中位數(shù)的(1-)*100%=95%勺置信區(qū)間=functi

21、on(x,alpha)walsh=NULL;n=length(x);for(i in 1:n)for (j in i:n)w=(xi+xj)/2;walsh=c(walsh,w);nw=length(walsh); #walsh 的長度=sort(walsh);# 搜索walsh中位數(shù)的置信區(qū)間,對稱地砍掉左尾和右尾for(k in seq(1,(nw/2),1)F=pbinom(nw-k,nw,- pbinom(k,nw,;if (F(1-alpha)lk=k-1;breaklci=lk;uci=nw-lk+1;list(lci=lci,uci=uci,lk=lk,uk=nw-lk) #調(diào)用

22、函數(shù)(x,$lci= 71, $uci=結(jié)論:12歲的這種魚的長度的中位數(shù)的95%勺walsh置信區(qū)間是(71, ) (cm).(2)其它置信區(qū)間,基于 Bootstrap 方差的樞軸區(qū)間是最好的,它是(69, 73),還是沒有 Walsh區(qū)間好,因為數(shù)據(jù)分布是對稱的。依walsh平均,可以說12歲的這種魚的長度在6972之間(置信水平95%。社會學(xué)家欲了解抑郁癥的發(fā)病率是否在一年時間隨季節(jié)的不而不同,他使用了來年一所大醫(yī)院的病人數(shù)據(jù),按一個4個季節(jié),依次記錄過去5年中第一次被確診為患抑郁癥的病人數(shù),數(shù)據(jù)如下表(單位:人)季節(jié)夏季秋季冬季合計人數(shù)495503 4915812070請問:發(fā)病率是

23、否與季節(jié)有關(guān)?解:這是一個假設(shè)問題。也稱為獨立性檢驗問題。如果兩者獨立,即無關(guān),則發(fā)病人數(shù)在4個季節(jié)是均勻(發(fā)病率為1/4 ),否則兩者是相關(guān)的。 Pearson 2檢驗過程如下:H); Pl = P2 = P3=P4=1/4 ; Hl; Pl, P2, P3, P4不全等;V=c(495,503,491,581);p=1/4;n=sum(V);df=4-1;chi2=sum(V-n*P)A2/(n*P)Pvalue=1-Pchisq(chi2,df);Pvalue;# 請思考:為什么用右尾概率?結(jié)論:在=時拒絕原假設(shè),認為發(fā)病率與季節(jié)有關(guān)。具體地說,冬天的發(fā)病率高( P3=)。當(dāng)然,為了要得

24、到科學(xué)的結(jié)論,應(yīng)該要規(guī)范抽樣,使得樣本有代表性,畢竟一個醫(yī)院的數(shù)據(jù)其代表性是值得商榷的。內(nèi)容P106:;.在一項研究毒品對增強人體攻擊性影響的實驗中,組A使用安慰劑,組 B使用毒品,試驗后進行攻擊性測試,測量得分顯示在如下表中(得分越高表示攻擊性越強)組A10,8,12,16,5,9,7,11,6組B12,15,20,18,13,14,9,16(1)給出這個實驗的零假設(shè).(2)畫出表現(xiàn)這些數(shù)據(jù)的曲線圖.(3)分析這些數(shù)據(jù)用哪種檢驗方法最合適.(4)用您選擇的檢驗對數(shù)據(jù)進行分析.(5)是否有足夠的證據(jù)拒絕零假設(shè)?如何解釋數(shù)據(jù)?解:(1)這個實驗的目的是要檢驗毒品是否具有顯著的攻擊性。根據(jù)假設(shè)檢驗

25、的原則,其零假設(shè)其位置參數(shù)(均值或中位數(shù))是無顯著差異,即檢驗假設(shè)為: Ho: Ma M b H1:Ma MbA=c(10,8,12,16,5,9,7,11,6);B=c(12,15,20,18,13,14,9,16);min=min(c(A,B);max=max(c(A,B);Plot(A,tyPe=b,Pch=A,xlim=c(0,9),ylim=c(min,max);lines(B,tyPe=b,Pch=B);title( 數(shù)據(jù)A,B折線圖);折線圖如圖能更好地反映數(shù)據(jù)還有箱線圖,程序如下,圖如圖 A,B),c(9,8)Plot(c(A,B)grouP)圖 數(shù)據(jù)A、B折線性圖圖 數(shù)據(jù)A、

26、B箱線圖從圖看,藥品B的攻擊性是乎強一些,有否顯著地強,有待于檢驗。(3)如果兩樣本都呈正態(tài)分布,可以進行二樣本t檢驗,如果兩樣本分布相似,可進行 Wilcoxon秩和檢驗。二樣本正態(tài)性檢驗的程序和結(jié)果如下:(A,Pnorm,mean(A),sd(A)One-samPle Kolmogorov-Smirnov testdata: AD = , P-value =alternative hyPothesis: two-sided因為檢驗的P值為,沒有充分的理由拒絕A的正態(tài)性假設(shè)。(B,pnorm,mean(B),sd(B)One-sample Kolmogorov-Smirnov test da

27、ta: BD = , p-value = 1 alternative hypothesis: two-sided.因為檢驗的P值為1,沒有充分的理由拒絕B的正態(tài)性假設(shè)。所以可以進行t檢驗(A,B,alternative=less尸F(xiàn)ALSE)Welch Two Sample t-test data: A and B t = , df = , p-value = alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf sample estimates:

28、mean of x mean of y 再做兩樣本分布相似檢驗 (A-median(A),B-median(B)Two-sample Kolmogorov-Smirnov test data: A - median(A) and B - median(B) D = , p-value = alternative hypothesis: two-sided 因為檢驗的P值為,沒有充分理由拒絕兩樣本分布相似的假設(shè),所以可做 (A,B,alternative=less)Wilcoxon rank sum test with continuity correction data: A and BW =

29、 , p-value = alternative hypothesis: true location shift is less than 0 因為t檢驗的P值為,而Wilcoxon秩和檢驗的P值為,在 =時,兩者均有充分的理由拒絕零假設(shè),認為毒 品B具有顯著的攻擊性。(4) (5)因為t檢驗的P值為,而Wilcoxon秩和檢驗的P值為,在=時,兩者均有充分的理由拒絕零假設(shè),認為毒品B具有顯著的攻擊性。兩個不同學(xué)院教師一年的課時量分別為(單位:學(xué)時)A 學(xué)院:321,266,256,386,330,329,303,334,299,221,365,250,258,342,243,298,238,

30、317B 學(xué)院:488,593,507,428,807,342,512,350,672,589,665,549,451,492,514,391,366,469根據(jù)這兩個樣本,兩個學(xué)院教師講課的課時是否存在顯著差異?估計這些差異。從兩個學(xué)院教師講課的課 時來看,教師完成講課任務(wù)的情況是否類似?給出檢驗和判斷。提示:先檢驗“教師完成講課任務(wù)的情況是否類似,再選擇檢驗方法,推斷是否存在顯著差異。解:A=c(321,266,256,386,330,329,303,334,299,221,365,250,258,342,243,298,238,317);B=c(488,593,507,428,807,3

31、42,512,350,672,589,665,549,451,492,514,391,366,469);(1)檢驗“教師完成講課任務(wù)的情況是否類似” 方法檢驗:H0:兩樣本分布類似H1 :兩樣分布不類似。(A-median(A),B-median(B)檢驗結(jié)果:Two-sample Kolmogorov-Smirnov test data: A - median(A) and B - median(B) D = , p-value = alternative hypothesis: two-sided因為檢驗的P值為,不拒絕零假設(shè)H 0 ,即不拒絕兩樣本分布類似的假設(shè)。注:如果分別用正態(tài)性檢驗

32、,則在不拒絕正態(tài)性假設(shè)的基礎(chǔ)上,還要檢驗兩樣本方差齊性。思考一下為什 么?(2)在(1)的檢驗中,兩樣本分布相似,所以可以用Wilcoxon秩和檢驗檢驗兩樣本中位數(shù)是否有顯著差異:H 0 : Medx Medy H 1 : Medx Medy(A,B)檢驗結(jié)果:Wilcoxon rank sum test with continuity correctiondata: A and BW = , p-value =alternative hypothesis: true location shift is not equal to 0因為檢驗的P值為,所以拒絕零假設(shè),兩樣本的中位數(shù)有顯著差異。兩

33、學(xué)院教師的教學(xué)任務(wù)有顯著差異。(3)可以在(2)的基礎(chǔ)上進一步檢驗,兩樣本 A與B不但分布相似,而且相似于正態(tài)分布(兩者均呈正態(tài)分 布),所以可以用二樣本t檢驗:(A,B)檢驗結(jié)果:Welch Two Sample t-testdata: A and Bt = , df = , p-value =alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:sample estimates: mean of x mean of y因為檢驗的P值為,所以拒絕零假設(shè),

34、兩樣本的均值存在顯著差異。即兩學(xué)院教師的平均教學(xué)課時有顯著 差異。兩學(xué)院教師平均教學(xué)課時分別為,B學(xué)院教師的平均課時顯著地高于A學(xué)院。(4)兩樣本位置(均值、中位數(shù))差的各種估計,置信區(qū)間討論:(5)兩樣本密度估計,非參數(shù)密度估計:您有什么想法? 將這些方法實施于理學(xué)院本科學(xué)生成績分析,教師教學(xué)任務(wù)的統(tǒng)計分析?您愿意做這些平 凡的實際工作?如果您展開充分的思考,提升到社會學(xué)乃至心理學(xué),我看是可以做學(xué)位論文的。精彩的統(tǒng) 計分析工作還可以在以后章節(jié)遇到。世界上怕就怕您高不成低不就??!對A和B兩塊土壤有機質(zhì)含量抽檢結(jié)果如下,試用Mood和Moses兩種方法檢驗兩組數(shù)據(jù)的方差是否存在顯著差異。A,B,

35、解:a=g,;b=g, ,;(1) Mood方差檢驗是數(shù)據(jù)中心化后,用混合樣本的秩代替離差平方和公式中的原始數(shù)據(jù)。即設(shè)樣本X (X1,X2,.,Xm)iid F(x/ 1)Y (Yi,Y2,.,Yn)iid F(x/ 2)檢驗的假設(shè)為222H0 :12Hi:i22再設(shè)X在混合樣本c(X,Y)中的秩為R=(Ri,R2,Rm),當(dāng) H成立時,混合樣本 c(X,Y)=(X1,X2,.,Xm;Yi,Y2,.,Yn) iidF x/E Ri而秩統(tǒng)計量R (mn 1)/2 2應(yīng)該不大(R在平均值(m+n+1)/2附近波動),而當(dāng)X的方差大于Y的方差時,R會在遠離平均值(m+n+1)/2 的地方出現(xiàn),因而當(dāng)

36、M超大時,拒絕零假設(shè)。檢驗可以編程計算,也可以調(diào)用R的現(xiàn)成函數(shù)()。本題數(shù)據(jù)運行(A,B)Mood two-sample test of scale data: A and B Z = , p-value = alternative hypothesis:由于P值為,沒有充分理由拒絕原假設(shè)。(2) Moses的方法是將兩樣本分組,用各組的離差平方和反映方差。分組要注意到每組中至少有3個樣本。本題中樣本容量分別為12, 15,所以分別分為4組,5組。SSA=NULL;for (i in 1:4)group=A(i-1)*3+1):(3*i);SSA=c(SSA,2*var(group)SSA=S

37、SB=NULL;for (j in 1:5)group=B(i-1)*3+1):(3*i);SSB=c(SSB,2*var(group) SSB=;(SSA,SSB)Wilcoxon rank sum test with continuity correction data: SSA and SSB W = 0, p-value = alternative hypothesis: true location shift is not equal to 0 結(jié)論:兩組數(shù)據(jù)的方差有顯著差異,由 median(SSA)=,median(SSB)=,所B數(shù)據(jù)方差顯著大于 A組數(shù)據(jù)的方 差。Moses的

38、缺點是,分組后樣本量縮小了,很不好。用Bootstrap方法,直接比較Bootstrap樣本的方差,思想方法簡單:重抽樣 B次,各得方差的B個大樣本,由大樣本理論比較兩樣本方差。 Bootstrap 方法 x=c ,,,y=c, ,;VBx=NULL;VBy=NULL;nx=length(x);ny=length(y);B=1000;for (i in 1:B)xb=sample(x,nx,T);Vbx=var(xb);VBx=c(VBx,Vbx);yb=sample(y,ny,T);Vby=var(yb);VBy=c(VBy,Vby);MVx=mean(VBx);MVy=mean(VBy);

39、Varxy=var(VBx)+var(VBy);Z=(MVx-MVy)/sqrt(Varxy);# 計算Z值,大樣本就是要用Z值,要用中心極限定理。p1=pnorm(Z);p2=1-pnorm(Z);pvalue=2*min(p1,p2);pvalue;1此結(jié)果與(2)相同。內(nèi)容:P143 ;對A,B,C三個燈泡廠生產(chǎn)的燈泡進行壽命測試,每種品牌隨機試驗不等量燈泡,結(jié)果得到如下列壽命數(shù)據(jù)(單位:天),試比較三品牌燈泡壽命是否相同。A83 64 67 62 70B85 81 80 78C88 89 79 90 95解:(1)三個樣本A、B C均為獨立隨機樣本,非區(qū)組試驗數(shù)據(jù),樣本量不同,只能用

40、Kruskal秩方差分 析方法。檢驗的假設(shè)Ho:三樣本的中位數(shù)相同VS Hi :三樣本的中位數(shù)不全相同因為樣本少,免做樣本數(shù)據(jù)分布相似檢驗,直接做 ,程序如下:A=c(83,64,67,62,70);B=c(85,81,80,78);C=c(88,89,79,90,95);n1=length(A); n2=length(B); n3=length(C);x=c(A,B,C);group=factor(rep(1:3,c(n1,n2,n3);(xgroup)結(jié)果:Kruskal-Wallis rank sum testdata: x by groupKruskal-Wallis chi-squa

41、red = , df = 2, p-value =即檢驗的P值為,拒絕原假設(shè),即 A,B,C三個燈泡廠生產(chǎn)的燈泡的壽命的中位數(shù)有顯著差異。(2)進一步分析差異出自何處,請看箱線盒須圖:plot(xgroup)圖三個廠的燈泡壽命圖顯示,至少處理C與處理A有顯著差異,由于燈泡壽命是望大的,所以C廠生產(chǎn)的燈泡壽命最長,最優(yōu)。(3)兩兩比較的程序和結(jié)果如下A=c(83,64,67,62,70);B=c(85,81,80,78);C=c(88,89,79,90,95);n1=length(A); n2=length(B); n3=length(C);k=3;n=c(n1,n2,n3);alpha=; a

42、lphas=alpha/(k*(k-1);Z=qnorm(alphas,0,1);N=sum(n);MST=N*(N+1)/12;x=c(A,B,C);R=rank(x);Rbar=rep(0,k);group=factor(rep(1:3,c(n1,n2,n3);for(i in 1:k)Rbari=median(Rgroup=i)d=NULL;for(i in 1:(k-1)for (j in (i+1):k)SE=sqrt(MST*(1/ni+1/nj);d=c(d,abs(Rbari卜Rbarj)/SE)nd=length(d);dsig=rep(0,nd)for (i in 1:nd

43、)if (di=Z)dsigi=1dsig;#dsig=0,兩者有顯著差異。length(dsig)=k*(k-1)/2dsig 1-2 1-3 2-30 0 0說明多重比較中,兩兩均有顯著差異。下表是美國三大汽車公司(A,B,C三種處理)的五種不同的車型某年產(chǎn)品的油耗,試分析不同公司的油耗是 否存在差異。12345ABC解:(1)事實上,這張表的實驗數(shù)據(jù)是雙因素(公司,車型)試驗數(shù)據(jù)表,A、B C的樣本數(shù)據(jù)獨立但不同分布,所以要檢驗不同公司的車的油耗,即檢驗A、B C的差異,要剔除區(qū)組之影響,不能用,而只能用,檢驗程序如下:A=c,;B=c,;C=c,;n1=length(A); n2=le

44、ngth(B); n3=length(C);x=c(A,B,C);M=matrix(x,3,5,byrow=T);(t(M); #這里要小心啊,該檢驗以區(qū)組為列檢驗結(jié)果:Friedman rank sum testdata: t(M)Friedman chi-squared = , df = 2, p-value =即檢驗的P值為,拒絕原假設(shè),即 A,B,C三個公司汽車的油耗有顯著差異。(2)進一步分析差異出自何處,請看箱線盒須圖:plot(xgroup)圖三個公司汽車的油耗圖顯示,至少處理 C與處理A有顯著差異,由于汽車油耗是望小的,所以公司A汽車油耗是最少的,是最優(yōu)的。如果從只從油耗考慮,買汽車應(yīng)該買 A公司的汽車。(3)兩兩比較的程序與結(jié)果如下A=c,;B=c,;C=c,;n1=length(A); n2=length(B); n3=length(C);k=3;n=c(n1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論