非參數(shù)統(tǒng)計(jì)翻譯7_第1頁
非參數(shù)統(tǒng)計(jì)翻譯7_第2頁
非參數(shù)統(tǒng)計(jì)翻譯7_第3頁
非參數(shù)統(tǒng)計(jì)翻譯7_第4頁
非參數(shù)統(tǒng)計(jì)翻譯7_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章中位數(shù)和百分位數(shù)的置信區(qū)間7.1舊方法:以t分布為基礎(chǔ)計(jì)算均值置信區(qū)間我們知道如何用t公式找出平均值u的95%的置信區(qū)間。x土x土t0.025\:n利用R中t檢驗(yàn)函數(shù)很容易計(jì)算該置信區(qū)間。然而,當(dāng)以假設(shè)為基礎(chǔ)的常規(guī)理論不被滿足時(shí),我們可以轉(zhuǎn)而尋找總體中位數(shù)M的95%的置信區(qū)間來替代非參數(shù)。這不是簡(jiǎn)單的任務(wù),但如果你能遵循置信區(qū)間構(gòu)造邏輯,它是可行的。此外,該程序可以很容易地推廣到除中位數(shù)外的百分?jǐn)?shù)(例如,我們可以找到四分之一分位數(shù)置信區(qū)間,80%分位數(shù)置信區(qū)間等)。7.2中位數(shù)M的非參數(shù)置信區(qū)間回顧構(gòu)造置信區(qū)間的基本概念:利用95%的置信區(qū)間來估計(jì)一些總體非參數(shù)°,我們需要找到兩個(gè)常數(shù)c和c,使得12p(c<0<c)=0.95.12區(qū)間(c,c)被認(rèn)為是非參數(shù)0在95%的置信度下的置信區(qū)間。在總體均值M下,我12們想要找到中位數(shù)的上極限Ml和下極限Mu使得p(M<M<M)=0.95.L U假設(shè)我們的樣本包括n個(gè)變量值XXX?我們知道任何一個(gè)變量值下降高于或1, 2, n(低于)中位數(shù)M的概率為0.5。我們已經(jīng)建立了,它的樣本值都在中位數(shù)以上,T統(tǒng)計(jì)量將是一個(gè)隨機(jī)變量并且服從x?B(n,0.50)二項(xiàng)式抽樣分布。從尋找中位數(shù)M邊界置信區(qū)間開始,由于p二0.5,所以我們可以充分利x?B(n,0.50)二項(xiàng)式抽樣分布是對(duì)稱分布這一事實(shí),任何變量值高于中位數(shù)M或低于中位數(shù)M概率都是相同的。(如果p豐0.5,則不滿足)。為了說明這一點(diǎn),這里有三種P二0.5的不同的二項(xiàng)式抽樣分布,

己一5匚①0o0 10 20 30 40 己一5匚①0o0 10 20 30 40 50Numberofsiiccess50Numberofsuccess100 150 200將變量值X⑴,X(2), X(n)按從小到大的順序排列(即X(1)<X⑵<X⑶<?……X(n))。由于對(duì)稱性,但這些數(shù)據(jù)按順序放置時(shí),在每個(gè)端點(diǎn)處,中位數(shù)M的置信區(qū)間的端點(diǎn)的數(shù)值相同。因?yàn)橹挥杏^察有限數(shù)量的樣本,這將導(dǎo)致考慮在可能的間隔內(nèi)的有限數(shù)量。所以對(duì)于(MM)可能的函數(shù)值有L,U(X(1),x(n)),(x(2),x(n-1)),(x(3),X(n一2)),....下面我們來看一個(gè)例子。例:睡眠模式。關(guān)于阿格紐睡眠模式的研究。通過測(cè)量16個(gè)年齡在50歲和60歲之間身心健康的男性在0級(jí)睡眠的時(shí)間占總睡眠時(shí)間的百分比。以下是相關(guān)數(shù)據(jù):0.070.691.741.901.992.413.073.083.103.533.714.01&11&239.1010.16找到在0級(jí)睡眠時(shí)間真實(shí)中位數(shù)百分比的95%的置信區(qū)間。我們將輸入的數(shù)據(jù)轉(zhuǎn)換成一個(gè)R向量,然后儲(chǔ)存它:〉x<-c(0.07,0.69,1.74,1.90,1.99,2.41,3.07,3.08,3.10,3.53,3.71,+4.01,8.11,8.23,9.10,10.16)x.sorted<-sort(x)x.sorted[1]0.070.691.741.901.992.413.073.083.103.533.714.01[13]8.118.239.1010.16M置信區(qū)間可能取值有(0.07,10.16), (0.69,9.10), (1.74,8.23)等。剩下的唯一要做的是找到與這些區(qū)間關(guān)聯(lián)的置信度水平。我們希望為我們的答案,找到最窄的置信區(qū)間。邏輯。為了展示這是如何工作,我們考慮區(qū)間(0.07,10.16)。這是最大的置信區(qū)間,如果M不在數(shù)據(jù)的范圍之內(nèi),它將無法覆蓋M。如果發(fā)生這種情況,那么要么所有的樣本值都高于M或都低于M,所以超過M隨機(jī)樣本的變量值必須滿足T=0(都不滿足)或者T=16(都滿足)。因?yàn)門服從二項(xiàng)分布x?B(16,0.5),所以概率為dbinom(0,16,.5)+dbinom(16,16,.5)[1]3.051758e-05因此“未能覆蓋”的概率,覆蓋概率,或置信水平是1-(dbinom(0,16,.5)+dbinom(16,16,.5))[1]0.9999695區(qū)間(0.07,10.16)是M的99.99695%的置信區(qū)間。這實(shí)現(xiàn)了我們所期望的95%的置信水平,但是該區(qū)間可能太寬。如果我們移動(dòng)到下一個(gè)最寬的區(qū)間(0.69,9.10)呢?因?yàn)樵搮^(qū)間更窄,所以它的置信水平就更低。但是,如果它仍然在95%以上,那么說明它比區(qū)間(0.07,10.16)更好。通過使用上述相同的邏輯,除非T>1或T<15,否則區(qū)間(0.69,9.10)將無法覆蓋M。區(qū)間(0.69,9.10)的覆蓋概率為>1-sum(dbinom(c(0,1,15,16),16,0.5))[1]0.9994812如果你希望看到這趨勢(shì)發(fā)展。如果繼續(xù)這個(gè)過程,將得到以下的結(jié)果:CutpointlocationsIntervalendpointsConfidencelevel0infromeachend(0.07,10.16)0.99996951infromeachend(0.69,9.10)0.99948122infroineachend(1.74,8.23)0.99581903infromeachend(1.90, 1)0.97872924infromeachend(1.99,丄01)0.9231873因此,M的95%的置信區(qū)間是。因此我們知道年齡在50歲至60歲之間的健康男性0級(jí)睡眠時(shí)間占總睡眠時(shí)間的中位數(shù)百分比的95%置信區(qū)間是(1.90,&11)。注意事項(xiàng):1?當(dāng)樣本n非常小的和樣本二項(xiàng)分布x?B(n,0.5)是高度離散的,實(shí)際的置信水平與95%的置信水平有一些差別。(由明尼蘇達(dá)大學(xué)的查爾斯?格耶和格倫?麥所提出的一個(gè)著名的模糊置信區(qū)間方法試圖解決這個(gè)問題,這里不再贅述。)上面的方法是比較保守,也就是說,它產(chǎn)生的置信水平,將永遠(yuǎn)不會(huì)低于既定置信水平的區(qū)間。然而,這可能會(huì)導(dǎo)致一個(gè)間隔較寬(不太精確)置信水平。3?該過程可以概括為尋找置信區(qū)間百分比的中位數(shù)(50%分位數(shù))等。下面是定制R函數(shù),自動(dòng)化上面的過程,并發(fā)現(xiàn)對(duì)于任何百分位數(shù)都是廣義非參數(shù)置信區(qū)間。pctile?ci<-function(x,p=0.5,conf.level=0?95){Producesanexactconfidenceintervalonthe100*pthpercentile,basedonthebinomialtest,wheretiedvaluesareexcluded.#、isthevectorofobservations.'p*isthepercentileofinterest(e.g.p=0.5->50thpercentile=median)?'conf?1evel'istheconfidencelevel(between0and1)forthereturnedCT?delta<-(max(x)-min(x))/lelOxgrid<-c(x,x+deltarx-delta)value?in.ci<-rep(NA,length(xgrid))for(iiiin1:length(xgrid)){xl<-c(sum(x<xgrid[iii])tsum(x>xgrid[iii]));n<-sum(xl)value?in.ci[iii]<-binom?test(xl,ntp,alternative= sided",conf?1evel)$p??1evel}-'ci<-c(min(xgrid[value?in?ci])[,max(xgrid[value?in?ci]))result<-as.data?f工ame(list(percentile=p,lower=ci[1]rupper=ci[2]))class(resuit)<-ntable11result下面是在載入一個(gè)R函數(shù)執(zhí)行后,前面的例子:〉x<-c(0.07,0.69,1.74,1.90,1.99,2.41,3.07,3.08,3.10,3.53,+3.71,4.01,8.11,8.23,9.10,10.16)>pctile.ci(x)percentilelowerupper0.51.98.114?如果n過小或者所要求的百分位是太極端了,上述過程可以分解(即無法產(chǎn)生可信限)。例如,它可能會(huì)為一個(gè)給定的數(shù)據(jù)集來計(jì)算總體中位數(shù)的置信區(qū)間,但它可能無法找到一個(gè)百分之九十八分位數(shù)的置信區(qū)間。5?如果n很小,這些方法相對(duì)來說是粗糙的,但它們?nèi)匀皇怯杏玫摹?.3采用大樣本正態(tài)逼近中位數(shù)/百分位數(shù)置信區(qū)間回顧一下,如果二項(xiàng)分布x?B(n,p)并且滿足np>10,(1-n)p>10,那么近似正態(tài)分布:T逼近芒(u=np,6=^(1-n)p)因此用這些大樣本,我們可以用一個(gè)95%的正態(tài)分布捕獲“區(qū)域”,以確定其中95%置信區(qū)間的邊界。步驟如下:檢驗(yàn)是否滿足np>10且(1-n)p>10將這些變量值按從小到大的順序的排列(記為X(1)<X⑵<X⑶<…….X(n))要計(jì)算人口百分位數(shù)95%的置信區(qū)間,找到下列指數(shù):L=np—1.96\::np(1-p)?將L四舍五入到高階整數(shù)。U=np+1.96*np(1-p).將U四舍五入到高階整數(shù)。4?百分位數(shù)的95%的置信區(qū)間是((X(l),X(U)).例:犯罪率。一位犯罪學(xué)家為研究在美國(guó)中型縣中教育水平和犯罪率水平之間的關(guān)系,收集的數(shù)據(jù)為84個(gè)縣中隨機(jī)抽取。將兩個(gè)變量進(jìn)行測(cè)量:樣本中至少具有高中文憑的百分比,以及犯罪率(報(bào)告為每10萬居民的犯罪數(shù)量)。該數(shù)據(jù)出現(xiàn)在我們的庫的文本文件crimerate.txt中。發(fā)現(xiàn)并解釋在所有大中型美國(guó)的縣中犯罪率分布的75%分位數(shù)的90%的置信區(qū)間。解決方案:我們讀取該文本文件到名為crimerateR的數(shù)據(jù)框,檢查這兩個(gè)變量的名稱,然后提取犯罪率變量轉(zhuǎn)換成自身的向量:〉site<-"/hughesmr/sta333/crimerate.txt"crimerate<-read.table(site,header=TRUE)names(crimerate)[1]"rate""pct.diploma"rate<-crimerate$rate現(xiàn)在我們按照步驟求四分之三分位數(shù)的置信區(qū)間:1?檢驗(yàn)是否滿足np>10且(1-n)p>10:length(rate)*0.75>10[1]TRUElength(rate)*(1-0.75)>10[1]TRUE2.將這些變量值按從小到大的順序的排列:>sort.rate<-sort(rate)3?求出90%置信區(qū)間相應(yīng)的端點(diǎn)有序索引:L<-length(mte)*0.75+qnorm(0.05)*sqrt(length(rmte)*0?75*(1-0?75))U<一length(rate)*0?75+qnorm(0?95)*sqrt(length(rate)*0?75*(1一0?75))L[1]56?47219U[1]69?52781ceiling(c(LrU)) #theRfunctionceiling()alwaysroundsup[1]57704?找到90%的置信區(qū)間indices<-ceiling(c(L,U))sort.rate[indices][1]82209697對(duì)于調(diào)查的所有的中型美國(guó)縣中犯罪率的四分之三位數(shù)90%的置信區(qū)間是每10萬居民犯罪數(shù)在8220到9697之間。注:以下是采用7.2節(jié)所述的精確的二項(xiàng)分布方法求得的相同的置信區(qū)間pctile.ci(rate,p=0.75,conf.level=0.90)percentilelowerupper0.75 8179 9697因此,正太逼近效果是相當(dāng)不錯(cuò)的。當(dāng)n值越大時(shí),逼近效果更好。使用R做下列各題。使用盡可能通用的R代碼指令,并且還盡可能高效。1?成年美國(guó)人每天睡眠時(shí)間平均7.8小時(shí)。您認(rèn)為大學(xué)生睡眠少于這個(gè)平均值,那么你收集的在邁阿密的15名大學(xué)生進(jìn)行隨機(jī)抽樣,并獲得其準(zhǔn)確的每天的睡眠量(以小時(shí)計(jì)),數(shù)據(jù)如下:6.74.56.48.65.58.25.97.54.46.06.38.37.35.710.1將這些觀測(cè)值按從小到大順序排列,并將區(qū)間(4.5,8.6),作為對(duì)穆大學(xué)生的天真實(shí)睡眠時(shí)間的置信區(qū)間,計(jì)算相關(guān)的置信水平。b.找到M以90%的置信區(qū)間。使用R函數(shù)pctile.ci()。解釋在文中的時(shí)間間隔。2根據(jù)R中uwecsample數(shù)據(jù),其中包含從UWEC本科生樣本的當(dāng)前數(shù)據(jù)。我們尤其對(duì)學(xué)生高中百分位排名(根據(jù)數(shù)據(jù)變量HSP)感興趣。找到所有UWEC本科生中位數(shù)高中排名百分位數(shù)均值的95%的置信區(qū)間。使用已建立的R函數(shù)pctile.ci()。并解釋在文中的置信區(qū)間。你怎樣解釋a和b結(jié)果的差異找到所有UWEC本科生的高中排名的70%百分位數(shù)的95%的置信區(qū)間。(我知道這聽起來很繞口,但仔細(xì)想一分鐘)。并解釋在文中的置信區(qū)間。第8章配對(duì)數(shù)據(jù)測(cè)試:符號(hào)檢驗(yàn)8.1成對(duì)樣本我們現(xiàn)在要看看幾個(gè)用于分析成對(duì)(或匹配)方法樣本?并以這樣的方式收集兩個(gè)總體的隨機(jī)樣本,這樣每個(gè)樣本的每個(gè)值可以與其他樣本確定的值有效配對(duì)或匹配。這通常是通過對(duì)一組受試者測(cè)量相同屬性的兩倍(即在兩種不同的情況下)來完成。例:猴子的刺激一位生理學(xué)家想知道猴子更喜歡的大腦區(qū)域A的刺激,還是大腦區(qū)域B的刺激。在實(shí)驗(yàn)中,14只獼猴被指導(dǎo)按下兩個(gè)鍵。當(dāng)燈亮起時(shí),壓在燈1上的總是導(dǎo)致區(qū)域A的刺激;壓在燈2上的總是導(dǎo)致區(qū)域B的刺激。學(xué)習(xí)按下鍵之后,對(duì)猴子進(jìn)行15分鐘的測(cè)試,記錄下在段時(shí)間內(nèi)按下兩個(gè)鍵的頻率。頻率越高,優(yōu)先級(jí)越高。數(shù)據(jù)顯示在右邊。這是成對(duì)的數(shù)據(jù)的一個(gè)例子,因?yàn)槊總€(gè)測(cè)試者(猴)都被測(cè)試了兩次。

SubjectBarIBar2120402182532438斗1427553162621715328293891525109181125321231281335338.2舊方法:成對(duì)t檢驗(yàn)以及使用t檢驗(yàn)求置信區(qū)間29H。:H。:M1_M2—0vs.Ha:MH。:M1_M2—0vs.Ha:MHo:M1_M2—0vs.Ha:M1-M2工0 (雙側(cè)檢驗(yàn))1-卩2>0 (上尾檢驗(yàn))1-M2<0 (下尾檢驗(yàn))這里u是第一總體均值,u是第二總體均值?;仡櫼幌履切┏蓪?duì)數(shù)據(jù),我們12可以對(duì)每個(gè)匹配對(duì)di=x1i-x2i形成樣本差異。然后對(duì)總體均值之差d的估計(jì),我們據(jù)此求出相應(yīng)的SE標(biāo)準(zhǔn)誤差。dt檢驗(yàn)統(tǒng)計(jì)量和95%置信區(qū)間分別由下式給出d—0t二 和d土t xSESE 0.025dd這些都可以在R中使用t檢驗(yàn)、采用配對(duì)為真選項(xiàng)來完成。例:厭食癥的治療.神經(jīng)性厭食癥是在年輕女性中一個(gè)嚴(yán)重的飲食失調(diào)癥。接受家庭治療之前和接收家庭治療之后的文件anorexiatherapy,txt數(shù)據(jù)提供的17名年輕厭食癥婦女的重量(磅)家庭治療對(duì)厭食癥的年輕女性平均重量有沒有顯著作用呢?解決方案。在研究的問題上沒有特定的方向,所以我們將采用雙側(cè)檢驗(yàn)。把文件讀入R的數(shù)據(jù)框(命名為anorexiatherapy)后,我們運(yùn)行測(cè)試:site<-"http://www?users?muohlo?edu/hughesmr/sta333/anorexiatherapy?txtnanorexiatherapy<-read?table(site,header=TRUE)attach(anorexiatherapy)t?test(wt?beforefwt?after,paired=TRUE)Pairedt-testdata: wt.beforeandwt?aftert=一4?1849,df=16,p-value=0?0007003alternativehypothesis:truedifferenceinmeansisnotequalto095percentconfidenceinterval:一10?944712 一3?584700sampleestimates:meanofthedifferences一7?264706該數(shù)據(jù)由兩個(gè)數(shù)值列(wt.before和wt,after)構(gòu)成的。我們?cè)趖檢驗(yàn)中引入雙邊檢驗(yàn)來測(cè)試配對(duì)t檢驗(yàn)。自由度為16的t統(tǒng)計(jì)值是-4.185,并且p值是0.0007。因?yàn)閜〈0.05,則拒絕原假設(shè)H°。因此說明家庭治療對(duì)厭食癥的年輕女性平均重量有顯著性影響。相應(yīng)的95%置信區(qū)間為u u 為(-10.94磅,-3.58磅)。wt.before wt.after該時(shí)間間隔pwt.before-pwt.after是完全負(fù)值,所以我們認(rèn)為,在治療之前,真實(shí)的平均體重比治療后的3.58磅到10.96磅低。但要記住????配對(duì)t檢驗(yàn)是一種參數(shù)檢驗(yàn)。為什么呢?由于調(diào)查結(jié)果的有效性取決于對(duì)差分值的總體正態(tài)假設(shè)。在非參數(shù)統(tǒng)計(jì),但是,我們要拿出兩個(gè)總體進(jìn)行比較的一種方式(治療后治療前,如權(quán)重與權(quán)重;大腦區(qū)域A對(duì)腦區(qū)域B的激勵(lì)水平,等等),不需要這個(gè)假設(shè)。這是本節(jié)的主題。8.3符號(hào)檢驗(yàn)配對(duì)樣本符號(hào)檢驗(yàn)是最簡(jiǎn)單非參數(shù)檢驗(yàn)之一。它是用于相同的受試者(如上面給出的兩個(gè)例子)重復(fù)測(cè)量的配對(duì)樣本使用。符號(hào)檢驗(yàn)唯一的假設(shè)是:1?將樣本隨機(jī)采集。該數(shù)據(jù)是在(x,y)成對(duì)數(shù)據(jù)形式,其中:?X是第一個(gè)樣本的配對(duì)數(shù)據(jù)值i?Y是第二個(gè)樣本的配對(duì)數(shù)據(jù)值i2?測(cè)量值至少是有序的(即個(gè)體值至少是有序的)邏輯:對(duì)于每一個(gè)函數(shù),從第一個(gè)配對(duì)函數(shù)值減去第二個(gè)配對(duì)函數(shù)值,然后寫下不同的符號(hào)。(也就是說,如果差值為負(fù),記為“-”;如果差值為正,記為“+”。)如果值是一樣的,則說明它們是被束縛的:通常我們從測(cè)試中刪除這樣的對(duì)…但后來這樣的對(duì)會(huì)更多。X-Y>0T指定該配對(duì)為+TOC\o"1-5"\h\zi iX一Y<0T指定該配對(duì)為-i iX-Y=0T該值被束縛:通常從總體中去掉改組配對(duì)數(shù)據(jù)值i i通常該檢驗(yàn)的原假設(shè)是,有兩個(gè)中位數(shù)值M和M之間沒有差異。如果是這樣,那X Y么“+”號(hào)(或“-”號(hào),對(duì)于這個(gè)問題)的數(shù)量滿足n為受試者人數(shù)和p=0.5二項(xiàng)式抽樣分布。換句話說,符號(hào)檢驗(yàn)僅僅是一個(gè)使用“+”和-”代替“成功”和“失敗”的二項(xiàng)式測(cè)試。假設(shè):假設(shè)如下H:M=M H:M豐M(雙側(cè)檢驗(yàn))TOC\o"1-5"\h\z0X Y aX YH:M>M(上尾檢驗(yàn))a X YH:M<M(下尾檢驗(yàn))a X Y與之前一樣,根據(jù)相關(guān)研究問題挑選合適的H。a

檢驗(yàn)統(tǒng)計(jì)量:讓T等于所有為“+”的個(gè)數(shù)。檢驗(yàn)統(tǒng)計(jì)量的原分布。于解開對(duì)的數(shù)目。如果原假設(shè)H0為真,那么二項(xiàng)分布x?B(n'0?50),其中n等p值:根據(jù)定義,對(duì)于任意假設(shè)檢驗(yàn)的p值是看到樣本值中至少有一對(duì)矛盾的H0(和同意H0)作為你的實(shí)際樣本中觀察到的概率。在這種情況下,p值將可能是來自于二項(xiàng)分布B(n,0.50)原分布。然后,我們將該值與預(yù)先確定的顯著性水平Q相比較。配對(duì)樣本的符號(hào)檢驗(yàn)僅僅是p=0.5的二項(xiàng)式檢驗(yàn)例如:猴子的刺激。一位生理學(xué)家想知道猴子是更喜歡大腦區(qū)域A的刺激,還是更喜歡大腦區(qū)域B的刺激。在這種情況下,研究人員沒有預(yù)測(cè)一個(gè)特定的結(jié)果,而是想知道,這兩種情況是否不同。因此,另一種假設(shè)是無方向性的,也就是說,是雙面假設(shè):H:猴子對(duì)A和B刺激區(qū)域沒有偏好0H:有刺激區(qū)域A和B之間的偏好a?由于是成對(duì)的數(shù)據(jù)值,比較中位數(shù)符號(hào)檢驗(yàn)可用于測(cè)試假設(shè)。?“+”號(hào)值的中位數(shù)(以np=14(0.5)二7)將與原假設(shè)H是一致的。0?在這種情況,多個(gè)或兩個(gè)數(shù)“+”的值將與備擇H是一致的。a我們建立了檢驗(yàn)統(tǒng)計(jì)量:SubjectBar/Bar2DifferenceSignofdifference12040-20一21825-7一32438-14一41427-13一5531-26一62621+5+71532-17一82938-9一91525-10一10918-9一112532-7一123128+3+133533+2+141229-17一因此結(jié)果顯示T3。所以這些數(shù)據(jù)沒有打結(jié),所以T的原分布是二項(xiàng)分布x?B(14,0.5)。我們將展示在R中我們?nèi)绾问褂胋inom.test()函數(shù)做這一切:x<-c(20,18,24,14,5,26,15,29,15,9,25,31,35,12)y<-c(40,25,38,27,31,21,32,38,25,18,32,28,33,29)d<-x-yd[1]-20-7-14-13-265-17-9-10-9-732-17T<-length(d[d〉0])T[1]3binom.test(T,length(d[d!=0]),alternative="two.sided"ded")Exactbinomialtestdata:Tandlength(d[d!=0])numberofsuccesses=3,numberoftrials=14,p-value=0.05737alternativehypothesis:trueprobabilityofsuccessisnotequalto0.595percentconfidenceinterval:0.046579290.50797568sampleestimates:probabilityofsuccess0.214285用于檢驗(yàn)的p值是0.0574,這是統(tǒng)計(jì)上的邊界顯著。也就是說,有輕微顯著表明,在猴子中刺激區(qū)域A和B之間有一個(gè)偏好。由于“+”的數(shù)量較少,這表明區(qū)域B有更高的頻率,因此B區(qū)是首選。&4打結(jié)和零糊弄對(duì)于給定的題,如果X和Y觀測(cè)值是打結(jié)的又會(huì)怎樣呢?采用以下步驟處理符號(hào)檢驗(yàn)的零差異。定義的差異向量d后,我們可以這樣做:d<-d[d!=0]n<-length(d)這種方法把零差異數(shù)據(jù)看做好像他們不是數(shù)據(jù)的一部分(樣本大小n相應(yīng)減少)。這就是所謂的零糊弄。?大多數(shù)非參數(shù)統(tǒng)計(jì)的書籍推薦零糊弄方法(或至少先介紹它)。?從理論的角度來看,它是假設(shè)一個(gè)有效的測(cè)試H:P(XvY)二P(X>Y)0 ii iiH:P(XvY)豐P(X>Y)a ii ii(或類似的片面的替代方法)。但這些假設(shè)不是你要測(cè)試的!你要測(cè)試的假設(shè)是中位數(shù)是相同的還是不同的。為了說明這一點(diǎn),考慮在猴子的例子中通過增加一百萬零差異數(shù)據(jù)到數(shù)據(jù)中以修改這些數(shù)據(jù)?!傲愫狈椒ǜ嬖V我們,扔掉那些零數(shù)據(jù),做同樣的分析,得到p值=0.0574,—個(gè)輕微顯著的結(jié)果?但是對(duì)于整個(gè)數(shù)據(jù)集來說,在100萬個(gè)數(shù)據(jù)中,只有14個(gè)數(shù)據(jù)有不同的反應(yīng),我們得到完全相同的兩個(gè)大腦反應(yīng)區(qū)域。這是比較中位數(shù)的原假設(shè)的最有利的證據(jù)。并且是非常顯著的證據(jù)用以推翻“零糊弄”測(cè)試的原假設(shè)這個(gè)故事的寓意:在解釋顯著性檢驗(yàn)中,我們僅有p值小于0.05這是遠(yuǎn)遠(yuǎn)不夠的。更重要的是我們要知道原假設(shè)是什么。拒絕任何無科學(xué)價(jià)值的虛無假設(shè)。因此,零糊弄是一種隱蔽的做假。雖然被廣泛接受,但是是假的。之所以大家喜歡它是因?yàn)楸绕鹌渌呗裕a(chǎn)生的p值往往小于0.5,即使它是假的,每個(gè)人都喜歡得到“統(tǒng)計(jì)量顯著”的結(jié)果 那么,該怎么辦?當(dāng)打結(jié)數(shù)據(jù)的數(shù)量非常小時(shí)(也就是說,數(shù)據(jù)少于5%),實(shí)行“零糊弄”通常是可行。(換句話說,你欺騙一點(diǎn),沒有人會(huì)注意到。)這里有一些其他的方法來處理很多打結(jié)數(shù)據(jù)的情況。通常需要考慮以下幾點(diǎn):?如果只有2個(gè)受試者與打結(jié)數(shù)據(jù)掛鉤,做一個(gè)(+)號(hào)和一個(gè)(-)號(hào)。?一般來說,如果有偶數(shù)個(gè)受試者與打結(jié)數(shù)據(jù)掛鉤,做一半的(+)符號(hào),做一半的(-)符號(hào)。?抖動(dòng)。打結(jié)通常是處理那些對(duì)離散數(shù)據(jù)測(cè)量的響應(yīng)的結(jié)果。因此,一個(gè)更精確的方法來避開解打結(jié),添加自身移動(dòng)或抖動(dòng)的無窮小數(shù)列到每個(gè)變量值中,在這些變量值中抖動(dòng)是積極的還是消極的概率為1。例如,再次考慮猴子示例的數(shù)據(jù):x<-c(20,18,24,14,5,26,15,29,15,9,25,31,35,12)y

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論