非參數(shù)統(tǒng)計(jì)課件_第1頁
非參數(shù)統(tǒng)計(jì)課件_第2頁
非參數(shù)統(tǒng)計(jì)課件_第3頁
非參數(shù)統(tǒng)計(jì)課件_第4頁
非參數(shù)統(tǒng)計(jì)課件_第5頁
已閱讀5頁,還剩210頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

非參數(shù)統(tǒng)計(jì)第一章緒論主要內(nèi)容1.統(tǒng)計(jì)的實(shí)踐2.非參數(shù)統(tǒng)計(jì)方法簡介3.參數(shù)統(tǒng)計(jì)過程與非參數(shù)統(tǒng)計(jì)的比較4.非參數(shù)統(tǒng)計(jì)的歷史5.必要的準(zhǔn)備知識1.統(tǒng)計(jì)的實(shí)踐我們周圍的世界符號和數(shù)據(jù)就是整個(gè)世界。數(shù)據(jù)繁衍,信息匱乏:觀察數(shù)據(jù)激增,設(shè)計(jì)數(shù)據(jù)細(xì)分。數(shù)據(jù)的復(fù)雜性和不確定性的特點(diǎn)更為突出。數(shù)據(jù)分析方法和手段不足。統(tǒng)計(jì)的方法論就方法論而言,統(tǒng)計(jì)分析主要解決兩方面的問題:

尋找數(shù)據(jù)內(nèi)部差異中共同的特征。尋找數(shù)據(jù)之間本質(zhì)的差異。統(tǒng)計(jì)分析的目標(biāo)是從數(shù)據(jù)中發(fā)現(xiàn)比數(shù)據(jù)本身更為有用的知識2.非參數(shù)統(tǒng)計(jì)方法簡介參數(shù)方法定義:樣本被視為從分布族的某個(gè)參數(shù)族抽取出來的總體的代表,而未知的僅僅是總體分布具體的參數(shù)值,推斷問題就轉(zhuǎn)化為對分布族的若干個(gè)未知參數(shù)的估計(jì)問題,用樣本對這些參數(shù)做出估計(jì)或者進(jìn)行某種形式的假設(shè)檢驗(yàn),這類推斷方法稱為參數(shù)方法。比如:(1)研究保險(xiǎn)公司的索賠請求數(shù)時(shí),可能假定索賠請求數(shù)來自泊松分布P(a);(2)研究化肥對農(nóng)作物產(chǎn)量的影響效果時(shí),平均意義之下,每測量單元(可能是)產(chǎn)量服從正態(tài)分布N(a,b).一個(gè)典型的參數(shù)檢驗(yàn)過程1.總體參數(shù)Example:PopulationMean2.假定數(shù)據(jù)的形態(tài)為

WholeNumbersorFractions

Example:HeightinInches(72,60.5,54.7)3.有很強(qiáng)的假定Example:正態(tài)分布4.例子:ZTest,tTest,

2Test一個(gè)例子:對兩組學(xué)生進(jìn)行語法測試,如何比較兩組學(xué)生的成績是否存在差異?原始數(shù)據(jù)秩2530293424251332243032379.514.012.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5非參數(shù)檢驗(yàn)過程1.不涉及總體的分布Example:ProbabilityDistributions,Independence2.數(shù)據(jù)的形態(tài)各異定量數(shù)據(jù)定序數(shù)據(jù)Example:Good-Better-Best名義數(shù)據(jù)Example:Male-Female3.例子:WilcoxonRankSumTest/RunTestF,F,F,F,F,F,F,F,M,M,M,M,M,M,MF,M,F,M,F,M,F,M,F,M,F,M,F,M,F3.參數(shù)統(tǒng)計(jì)與非參數(shù)統(tǒng)計(jì)比較對總體假定較少,有廣泛的適用性,結(jié)果穩(wěn)定性較好。1.假定較少2.不需要對總體參數(shù)的假定3.與參數(shù)結(jié)果接近針對幾乎所有類型的數(shù)據(jù)形態(tài)。容易計(jì)算在計(jì)算機(jī)盛行之前就已經(jīng)發(fā)展起來。非參數(shù)檢驗(yàn)的優(yōu)點(diǎn)1. 可能會浪費(fèi)一些信息特別當(dāng)數(shù)據(jù)可以使用參數(shù)模型的時(shí)候。Example:ConvertingDataFromRatiotoOrdinalScale2. 大樣本手算相當(dāng)麻煩3. 一些表不易得到非參數(shù)檢驗(yàn)的弱點(diǎn)本學(xué)期內(nèi)容結(jié)構(gòu)體系非參數(shù)統(tǒng)計(jì)的主要內(nèi)容內(nèi)容非參數(shù)檢驗(yàn)相應(yīng)的參數(shù)檢驗(yàn)2獨(dú)立樣本中位數(shù)檢驗(yàn)秩和檢驗(yàn)獨(dú)立樣本t檢驗(yàn)2配對樣本/單一樣本符號檢驗(yàn)Wilcoxon檢驗(yàn)成對樣本t-檢驗(yàn)>2獨(dú)立樣本Kruskal-Wallis檢驗(yàn)單一因素ANOVA兩因素Friedman檢驗(yàn)雙因素ANOVA相關(guān)性檢驗(yàn)Spearman秩相關(guān)Pearson相關(guān)性檢驗(yàn)分布的檢驗(yàn)Kolmogorov-Smirnov4.非參數(shù)統(tǒng)計(jì)的歷史非參數(shù)統(tǒng)計(jì)的歷史非參數(shù)統(tǒng)計(jì)的形成主要?dú)w功于20世紀(jì)40年代~50年代化學(xué)家F.Wilcoxon等人的工作。Wilcoxon于1945年提出兩樣本秩和檢驗(yàn),1947年Mann和Whitney二人將結(jié)果推廣到兩組樣本量不等的一般情況;Pitman于1948年回答了非參數(shù)統(tǒng)計(jì)方法相對于參數(shù)方法來說的相對效率方面的問題;非參數(shù)統(tǒng)計(jì)的歷史(續(xù))60年代中后期,Cox和Ferguson最早將非參數(shù)方法應(yīng)用于生存分析。70年代到80年代,非參數(shù)統(tǒng)計(jì)借助計(jì)算機(jī)技術(shù)和大量計(jì)算獲得更穩(wěn)健的估計(jì)和預(yù)測,以P.J.Huber以及F.Hampel為代表的統(tǒng)計(jì)學(xué)家從計(jì)算技術(shù)的實(shí)現(xiàn)角度,為衡量估計(jì)量的穩(wěn)定性提出了新準(zhǔn)則。90年代有關(guān)非參數(shù)統(tǒng)計(jì)的研究和應(yīng)用主要集中在非參數(shù)回歸和非參數(shù)密度估計(jì)領(lǐng)域,其中較有代表性的人物是Silverman和J.Fan。5.必要的準(zhǔn)備知識(1)假設(shè)檢驗(yàn)(2)漸進(jìn)相對效率(3)秩檢驗(yàn)統(tǒng)計(jì)量(4)U統(tǒng)計(jì)量(1)假設(shè)檢驗(yàn)回顧問題:

(a)新引進(jìn)的生產(chǎn)過程是否優(yōu)于舊過程?(b)幾種不同的肥料哪一種更有效?(c)大學(xué)生的就業(yè)率與城市失業(yè)率之間是否存在關(guān)系?內(nèi)容

(a)假設(shè)的真正涵義和作用(b)如何選擇零假設(shè)和備擇假設(shè)(c)檢驗(yàn)的p-值和顯著性水平的作用(d)兩類錯(cuò)誤(e)置信區(qū)間和假設(shè)檢驗(yàn)之間的關(guān)系單邊檢驗(yàn)和雙邊檢驗(yàn)的p值??例2:Poisson分布

H0:>1H1:按照假設(shè)檢驗(yàn)的步驟,可以選取統(tǒng)計(jì)量為檢驗(yàn)統(tǒng)計(jì)量,檢驗(yàn)的目的是使得

C=5C=7同樣顯著性水平之下的檢驗(yàn)在

不同樣本量下的勢函數(shù)0.99012630.9997043(2)檢驗(yàn)的相對效率漸進(jìn)效率的概念分位數(shù)和非參數(shù)置信區(qū)間秩檢驗(yàn)統(tǒng)計(jì)量無結(jié)點(diǎn)秩的定義例題:某學(xué)院本科三年級有9個(gè)專業(yè)組成,統(tǒng)計(jì)每個(gè)專業(yè)學(xué)生每月消費(fèi)數(shù)據(jù)如下,用S-Plus求消費(fèi)數(shù)據(jù)的秩和順序統(tǒng)計(jì)量的現(xiàn)值:

300230208580690200263215520

2.有結(jié)數(shù)據(jù)的秩設(shè)樣本取自總體X的簡單隨機(jī)抽樣,將數(shù)據(jù)排序后,相同的數(shù)據(jù)點(diǎn)組成一個(gè)“結(jié)”,稱重復(fù)數(shù)據(jù)的個(gè)數(shù)為結(jié)長。例1:3.83.21.21.23.43.23.2解:結(jié)長為3。U統(tǒng)計(jì)量核的概念例:總體期望有無偏估計(jì)X1,總體期望是1可估的,X1是總體期望的核。對稱核和U統(tǒng)計(jì)量的概念U統(tǒng)計(jì)量的特征計(jì)算U統(tǒng)計(jì)量的大樣本性質(zhì)U統(tǒng)計(jì)量舉例第一節(jié)S-Plus環(huán)境S-Plus用戶界面算術(shù)運(yùn)算S-PlusS語言和S的擴(kuò)展S-Plus,是由AT&TBell實(shí)驗(yàn)室于20世紀(jì)70年代末~80年代初研制開發(fā)的,其中RickBecker和JohnChambers是主要創(chuàng)始人之一。S-Plus的主要應(yīng)用特點(diǎn):S-Plus擁有強(qiáng)大的面向?qū)ο蟮拈_發(fā)環(huán)境。作為標(biāo)準(zhǔn)的統(tǒng)計(jì)語言,S擁有幾乎所有,在S-Plus中,用戶可以隨處自定義的各種函數(shù),延伸基本的分析方法。

作為面向?qū)ο蟮恼Z言,S集數(shù)據(jù)的定義、插入、修改和函數(shù)計(jì)算等功能于一體,語言風(fēng)格統(tǒng)一,可以獨(dú)立完成數(shù)據(jù)分析生命周期的全部活動。S-Plus提供了非常豐富的2D和3D圖形庫。與S-Plus類似的有新近開發(fā)的R,R最早由Auckland大學(xué)統(tǒng)計(jì)系的RobertGentleman和RossIhaka于1995年開始研制開發(fā),從1997年開始免費(fèi)公開發(fā)布。R在計(jì)算功能上比S-Plus有更高的效率,但由于推出時(shí)間較短,因而不如S-Plus普及。S-Plus和R二者在語法和功能實(shí)現(xiàn)上區(qū)別不大,因而學(xué)習(xí)S-Plus的用戶可以輕松轉(zhuǎn)到R,反之亦然。S-Plus界面六項(xiàng)內(nèi)容:ObjectExplorer(對象瀏覽器);CommandsWindow(命令窗口);GraphSheets(圖形操作表);ScriptWindow(草稿窗口);Menus(菜單);Toolbars(工具欄)。第二節(jié)向量的基本操作

一、向量的定義和表示二、向量的基本操作二、向量的算術(shù)運(yùn)算三、向量的邏輯運(yùn)算一、向量的定義一、算術(shù)運(yùn)算:S-Plus默認(rèn)的命令提示符是“>”1)計(jì)算7X3,可如下執(zhí)行命令:

>7*3>212)計(jì)算(7+2)X3,可如下執(zhí)行命令:

>(7+2)*3>423)計(jì)算\log2

(12/3),可如下執(zhí)行命令:

>log(12/3,2)>24)計(jì)算冪2X32,可如下執(zhí)行命令:

>2*(3^2)>18一、向量的定義二、賦值:

>x<-3>y_1+x

屏幕打印變量如下,x:

>x>3>print(x*y)>12

二、向量的基本操作

1、連接命令;2、序列命令seq;3、循環(huán)命令rep;1、連接命令

例1:>A.brand<-c(15,27,89)#生成數(shù)值類型的向量

>A.brand*0.8[1]12.021.671.2>title.text<-c(“This”,“is”,“for”,“sale”)#生成非數(shù)值類型的向量1.向量a中第i位置元素表示:

>A.brand[1][1]15>A.brand[length(A.brand)][1]89

如果輸入的位置超出向量的長度,則S-Plus輸出NA,NA表示數(shù)據(jù)缺失,如下所示:

>A.brand[6][1]NA1、連接命令(續(xù))2.在向量中插入新的數(shù)據(jù):在A.brand向量末尾添加兩個(gè)新產(chǎn)品價(jià)格的書寫方法是:例1續(xù):>add.A.brand<-c(A.brand,189,240)>add.A.brand[1]152789189240在向量的開頭插入新數(shù)據(jù)的書寫方法如下:>addbegin.A.brand<-c(12,13,A.brand)[1]1213152789思考題1:如何在向量的第i個(gè)位置后插入數(shù)據(jù)?1、連接命令(續(xù))3.向量與向量的合并:B.brand<-c(35,40,58)AB.brand<-c(A.brand,B.brand)[1]152789354658

向量中元素的個(gè)數(shù),稱為向量的長度,查看向量中元素的個(gè)數(shù),可以使用length命令,如下所示:length(add.A.brand)[1]51、連接命令(續(xù))4.在向量中刪除數(shù)據(jù):將A.brand向量中起始位置的產(chǎn)品價(jià)格刪除的方法用減法表示,如下表示:例1續(xù):>delete.A.brand<-add.A.brand[-1]>delete.A.brand[1]2789189240

將A.brand向量末尾的產(chǎn)品價(jià)格刪除的方法是:

>delete.A.brand<-add.A.brand[-length(add.A.brand)]>delete.A.brand[1]1527891892、序列命令seqseq命令的語法如下所示:

seq(lower,upper,[increment],[length],...)例2:>seq(1,10)[1]12345678910>seq(1900,2000,6)[1]1900190619121918192419301936194219481954[11]1960196619721978198419901996>seq(1,0,-0.1)[1]1.00.90.80.70.60.50.40.30.20.10.0>1:10#seq(1,10)>seq(0,1,0.05,length=10)3、循環(huán)命令reprep命令的語法結(jié)構(gòu)如下所示:

rep(pattern,numberoftimes,length)例3>rep(2,6)222222>rep(c(0,5),2)0505>rep(1:3,3)123123123>rep(c(1,4,6),length=5)14614

思考題3:猜測如下程序的輸出結(jié)果:rep(c(1,2,3),c(1,2,3))三、向量的算術(shù)運(yùn)算向量算術(shù)運(yùn)算是對標(biāo)量運(yùn)算的擴(kuò)展:例4:>a<-seq(0,20,3)>2*a061218243036>a<-2*(0:2)>b<-1:3四、向量的邏輯運(yùn)算S-Plus中有兩個(gè)邏輯值:TRUE和FALSE:>3==4F

常用的邏輯運(yùn)算符如表1.3:向量的邏輯運(yùn)算例:例6:假設(shè)price表示某一公司推出的所有產(chǎn)品價(jià)目表,將price中大于10的所有數(shù)據(jù)找出來:

>price<-c(2,3,10,11,15)>large10<-price[price>10][1]1115第三節(jié)復(fù)雜的數(shù)據(jù)結(jié)構(gòu)矩陣數(shù)組數(shù)據(jù)框架列表一、矩陣1.定義矩陣:

例7:假定有國民經(jīng)濟(jì)數(shù)據(jù)data,其中顯示了2003年中國、日本、韓國三個(gè)國家的國家生產(chǎn)總值GDP(單位:1012US$),年末人口(單位:億)及通貨膨脹率(單位:100%):>macroecno<-c(1.4,12.92,1.2,4.5,0.56,-0.8,10.88,2.91,1.2)>asia.data<-matrix(macroecno,nrow=3,ncol=3,byrow=T,dimnames)>asia.data[,1][,2][,3][1,]1.412.921.2[2,]4.50.56-0.8[3,]0.40.51.7例題例7續(xù):給數(shù)據(jù)指定列名和行名:>dimnames(asia.data)NULL>dim(asia.data)3,3><-c("P.R.China","Japan","KOREA")><-c("GDP","POP","INFLAT")>dimnames(asia.data)<-list(,NULL)>asia.data[,1][,2][,3]P.R.China1.412.921.2Japan4.50.56-0.8KOREA0.40.51.7>dimnames(asia.data)<-list(NULL,)例題(續(xù))>asia.dataGDPPOPINFLAT[1]1.412.921.2[2]4.50.56-0.8[3]0.40.51.7>dimnames(asia.data)<-list(,)>asia.dataGDPPOPINFLATP.R.China1.412.921.2Japan4.50.56-0.8KOREA0.40.51.7>dimnames(asia.data)[[1]]:[1]"P.R.China""Japan""KOREA"[[2]]:[1]"GDP""POP""INFLAT"1、矩陣2.矩陣元素的表示:矩陣a中第i,j位置的元素表示為:a[i,j],比如:

>asia.data[2,1:2]GDPPOP4.50.56例7續(xù):>asia.data[2,]GDPPOPINFLAT4.50.56-0.8>asia.data["Japan","POP"]<-59#可以用行名或列名直接提取行或列向量

>asia.data["Japan","POP"]591、矩陣3.矩陣的運(yùn)算:(1)元素對元素的加、減、乘、除法運(yùn)算是向量的運(yùn)算的確延拓。(2)一個(gè)數(shù)與矩陣的運(yùn)算相當(dāng)于數(shù)與矩陣的每一個(gè)元素的運(yùn)算。(3)矩陣用%*%表示:

>a[,1][,2][1,]13[2,]24

(4)>x<-c(2,1)>a%*%x[,1][1,]5[2,]8>solve(a)[,1][,2][1,]-21.5[2,]1-0.5思考題4.計(jì)算asia.data中的人均GDP.1、矩陣4.矩陣的合并:

增加若干列用cbind函數(shù),增加若干行用rbind函數(shù);求矩陣列數(shù)用cnol表示,求解矩陣行數(shù)用rnol表示:>a[,1][,2][1,]13[2,]24>addc<-c(5,6)>a<-cbind(a,addc)>aaddc[1,]135[2,]246思考題5.在asia.data中插入Australia數(shù)據(jù):GDP:0.53;POP:0.10;INFL:2.3.二、數(shù)組數(shù)組則是多維矩陣,生成數(shù)組與生成矩陣類似:>a<-array(1:24,c(3,4,2))>a,,1[,1][,2][,3][,4][1,]14710[2,]25811[3,]36912,,2[,1][,2][,3][,4][1,]13161922[2,]14172023[3,]151821242.數(shù)組的行列計(jì)算函數(shù):

apply(data,dim,function,...)

例1.7續(xù):計(jì)算asia.data中GDP,POP,INFLAT的最小值:>apply(asia.data,2,min)GDPPOPINFLAT0.40.5-0.8例1.7續(xù):求數(shù)組asia.data中的最小值所在的行和列:

>col(a)[asia.data==min(asia.data)]>3>row(a)[asia.data==min(asia.data)]>2思考題6.請輸出asia.data中GDP最小值所在的行和列.三、數(shù)據(jù)框架

數(shù)據(jù)框架可以理解為二維數(shù)據(jù)表,其中不同列具有不同的數(shù)據(jù)類型。

>asia.frame<-data.frame(asia.frame,IS.AS)>asia.frameGDPPOPINFLATIS.ASP.R.China1.412.921.2ASJapan4.50.56-0.8ASKOREA0.40.51.7AS>apply(asia.data,2,max)GDPPOPINFLAT4.512.921.7四、列表

列表是比數(shù)據(jù)框架更為松散的數(shù)據(jù)結(jié)構(gòu),列表可以將不同類型,不同長度的數(shù)據(jù)打包,而數(shù)據(jù)框架中要求被插入的數(shù)據(jù)長度和原來的長度是一致的。

>IS.AS<-c("P.R.China","Japan","KOREA")>list(asia.frame,country)[[1]]:GDPPOPINFLATIS.ASP.R.China1.412.921.2ASJapan4.50.56-0.8ASKOREA1.44.50.4AS[[2]]:[1]"P.R.China""Japan""KOREA"第四節(jié)數(shù)據(jù)處理1.從鍵盤輸入數(shù)據(jù):

例8:>x_scan()1:23456885:3477:>x[1]23456883472.讀入矩陣:

例9:>matrix(scan("c:\\data\\wh.txt"),,3)V1V2V310.640.32020.280.14130.001.230第四節(jié)數(shù)據(jù)處理3.讀入數(shù)據(jù)框架:>a_read.table("c:\\data\\wh.txt",header=T)V1V2V310.640.32020.280.14130.001.230第四節(jié)數(shù)據(jù)處理編寫函數(shù):常用的函數(shù)控制命令及語法如下所示:

控制結(jié)構(gòu):if(condition){語句1}else{語句2}

循環(huán)結(jié)構(gòu):for(變量in序列)語句while(condition)語句repeat(語句)

跳出:break舉例例11:計(jì)算1,2,…數(shù)列的連乘積,直到積大于105.\small\begin{verbatim}>n<-0#iterationcounter>times.so.far<-1while(times.so.far<=10^5){n<-n+1times.so.far<-times.so.far*n}常用統(tǒng)計(jì)函數(shù)dnorm(x):計(jì)算標(biāo)準(zhǔn)正態(tài)分布點(diǎn)x處的密度值;pnorm(x,2,1):計(jì)算均值為2,標(biāo)準(zhǔn)差為1的正態(tài)分布點(diǎn)x處的分布函數(shù)值P(X<x);qnorm(p,3,2):計(jì)算均值為3,標(biāo)準(zhǔn)差為2的正態(tài)分布p-分位數(shù);rnorm(n):產(chǎn)生標(biāo)準(zhǔn)正態(tài)分布偽隨機(jī)數(shù)n個(gè).x<-1:20y<-x**3plot(x,y)points(rev(x),y)lines(x,5432-0.5*y)points(x^0.5,y,pch=3)#addcrossespoints(x,8000-y,pch="$")#useadollarsymbollines(x,y,lwd=4)#thicklinelines(rev(x),y,lty=2)#dashedlineplot(x,y,xlab="XIsAcross",ylab="YisUp")title("TitlesareTops")text(6,4000,"Thisgoesanywhere")

第五節(jié)S-Plus圖形功能作圖:繼續(xù)y<-rt(200,df=5)qqnorm(y)qqline(y,col=2)x<-seq(-10,10,length=30)y<-xf<-function(x,y){r<-sqrt(x^2+y^2);10*sin(r)/r}z<-outer(x,y,f)persp(x,y,z)第一節(jié)符號檢驗(yàn)和分位數(shù)推斷假設(shè)總體,M是總體的中位數(shù),對于假設(shè)檢驗(yàn)問題:是待檢驗(yàn)的中位數(shù)取值

定義,,,則,在零假設(shè)情況下,在顯著性水平為的拒絕域?yàn)槠渲衚是滿足上式最大的k值。

例3.1.假設(shè)某地16座預(yù)出售的樓盤均價(jià),單位(百元/平方米)如下表所示:

36323125283640324126353532873335

One-samplet-Testdata:build.price-37t=-0.1412,df=15,p-value=0.8896alternativehypothesis:truemeanisnotequalto095percentconfidenceinterval:-8.0458537.045853sampleestimates:meanofx-0.5結(jié)果討論k是滿足式子的最大值

單邊符號檢驗(yàn)問題結(jié)論:符號檢驗(yàn)在總體分布未知的情況下優(yōu)于t檢驗(yàn)!大樣本結(jié)論當(dāng)n較大時(shí):當(dāng)n不夠大的時(shí)候可用修正公式進(jìn)行調(diào)整。雙邊:,p-值左側(cè):,p-值右側(cè):,p-值

置信區(qū)間采用Neyman原則選擇最優(yōu)置信區(qū)間,首先找出置信度大于的所有區(qū)間,然后再從中選擇區(qū)間長度最小的一個(gè)。對于大樣本,可以用近似正態(tài)分布求置信區(qū)間。

根據(jù)順序統(tǒng)計(jì)量構(gòu)造置信區(qū)間:符號檢驗(yàn)在配對樣本比較運(yùn)用

配對樣本(x1,y1),(x2,y2),…(xn,yn)

將記為“+”,記為“-”,記為“0”,記P+

為“+”比例,P-

為“-”比例,那么假設(shè)檢驗(yàn)問題:可以用符號秩檢驗(yàn)。H0:P+=P-

H1:P+=P-例3.4如右表是某種商品在12家超市促銷活動前后的銷售額對比表,用符號檢驗(yàn)分析促銷活動的效果如何?連促銷前促銷后鎖銷售額銷售額符號店14240+25760-33838044947+56365-63639-74849-85850+947470105152-118372+122733-

根據(jù)同樣原理,可以將中位數(shù)符號檢驗(yàn)推廣為任意分位點(diǎn)的符號檢驗(yàn)。Cox-Staut趨勢存在性檢驗(yàn)

檢驗(yàn)原理:設(shè)數(shù)據(jù)序列:,雙邊假設(shè)檢驗(yàn)問題:令:取數(shù)對,,為正的數(shù)目,為負(fù)的數(shù)目,當(dāng)正號或者負(fù)號太多的時(shí)候,認(rèn)為數(shù)據(jù)存在趨勢。在零假設(shè)情況下Di服從二項(xiàng)分布。從而轉(zhuǎn)化為符號檢驗(yàn)問題。X1,X2,…,Xn例3.6某地區(qū)32年來的降雨量如下表問(1):該地區(qū)前10年來降雨量是否有變化?(2):該地區(qū)32年來降雨量是否有變化?年份19711972197319741975197619771978

降雨量206223235264229217188204

年份19791980198119821983198419851986

降雨量182230223227242238207208

年份19871988198919901991199219931994

降雨量216233233274234227221214

年份19951996199719981999200020012002

降雨量226228235237243240231210隨機(jī)游程檢驗(yàn)隨機(jī)游程問題:一個(gè)二元0/1序列當(dāng)中,一段全由0或者全由1構(gòu)成的串成為一個(gè)游程,游程中數(shù)據(jù)的個(gè)數(shù)稱為游程長度,序列中游程的個(gè)數(shù)記為R,反映0和1輪換交替的頻繁程度。在序列長度N固定的時(shí)候,如果游程過少過者過多,都說明序列的隨機(jī)性不好。當(dāng)游程過多或者過少時(shí),就會懷疑序列的隨機(jī)性。例3.7序列1100001110110000111100共有8個(gè)游程檢驗(yàn)原理和計(jì)算方法

設(shè)是由0或者1組成的序列,假設(shè)檢驗(yàn)問題:

R為游程個(gè)數(shù),假設(shè)有個(gè)0,個(gè)1,,這時(shí)R取任何一個(gè)值的概率都是,R的條件分布

建立了抽樣分布之后,在零假設(shè)成立時(shí),可以計(jì)算或者的值,進(jìn)行檢驗(yàn)。

X1,X2,…,Xn小樣本的例子H0:樣本中的觀測是隨機(jī)產(chǎn)生的.Ha:樣本中的觀測是隨機(jī)產(chǎn)生的

=.05n1=18n2=8如果7

R

17,不能拒絕H0否則拒絕H0.1

2

3

4

5

6

7

8

9

10

11

12DCCCCCDCCDCCCCDCDCCCDDDCCCR=12由于7

R=12

17,不能拒絕H0RunsTest:大樣本的例子經(jīng)驗(yàn)表明:如果n1或n2>20,R

的抽樣分布近似為正態(tài)RunsTest:大樣本例子H0:樣本中的觀測是隨機(jī)產(chǎn)生的.Ha:樣本中的觀測是隨機(jī)產(chǎn)生的

=.05n1=40n2=10如果-1.96

Z

1.96,不能拒絕H0否則拒絕H0.11

2

3

4

5

6

7

8

9

0

11NNNFNNNNNNNFNNFFNNNNNNFNNNNFNNNNN12

13FFFFNNNNNNNNNNNN

R=13RunsTest:大樣本例子-1.96

Z=-1.81

1.96,不能拒絕H0正態(tài)近似當(dāng)時(shí),利用正態(tài)分布近似:給定水平之后,可以利用近似公式得到拒絕域的臨界值:Wilcoxon符號秩檢驗(yàn)

基本概念及性質(zhì)

對稱分布的中心一定是中位數(shù),在對稱分布情況下,中位數(shù)不唯一,研究對稱中心比中位數(shù)更有意義。

例:下面的數(shù)據(jù)中,O是對稱中心嗎?0Wilcoxon符號秩檢驗(yàn)原理以及性質(zhì)

首先設(shè)樣本絕對值的順序統(tǒng)計(jì)量,如果數(shù)據(jù)關(guān)于0點(diǎn)對稱,那么對稱中心兩側(cè)的數(shù)據(jù)疏密程度應(yīng)該一樣,整數(shù)在取絕對值以后的樣本中的秩應(yīng)該和負(fù)數(shù)在絕對值樣本中的秩和相近。

用表示在絕對值樣本中的秩,反秩由定義。表示的符號,稱為符號秩統(tǒng)計(jì)量。Wilcoxon符號秩統(tǒng)計(jì)量定義為:Wilcoxon符號秩統(tǒng)計(jì)量的性質(zhì)定理3.2如果零假設(shè)成立,那么獨(dú)立于

定理3.3如果零假設(shè)成立,那么獨(dú)立于

定理3.4如果零假設(shè)成立,那么獨(dú)立同分布,

Wilcoxon符號秩檢驗(yàn)步驟:3.令表示和對應(yīng)的的秩和,令表示和對應(yīng)的的秩和。

2.找出的秩,打結(jié)時(shí)取平均秩。1.計(jì)算4.雙邊檢驗(yàn),取,當(dāng)W很小時(shí)拒絕零假設(shè);對,??;對,取。

5.根據(jù)W的值查Wilcoxon符號秩檢驗(yàn)分布表。對n很大的時(shí)候,可以采用正態(tài)近似。

Wilcoxon符號秩統(tǒng)計(jì)量分布

在小樣本情況下可以計(jì)算Wilcoxon符號秩統(tǒng)計(jì)量的精確分布。在大樣本情況下可以使用正態(tài)近似:

計(jì)算出Z值以后,查正態(tài)分布表對應(yīng)的p-值,如果p-值很小,則拒絕零假設(shè)。

在小樣本情況下,用連續(xù)性修正公式:

Wilcoxon符號秩檢驗(yàn)導(dǎo)出Hodges-Lemmann估計(jì)性質(zhì)及運(yùn)用

定義:簡單隨機(jī)樣本,計(jì)算其中任意兩個(gè)數(shù)的平均,稱為Walsh平均,即

定理:Wilcoxon符號秩統(tǒng)計(jì)量可表示為:

定義:假設(shè)獨(dú)立同分布于,當(dāng)F對稱時(shí),定義Walsh平均中位數(shù):作為的Hodges-Lemmann估計(jì)。正態(tài)計(jì)分檢驗(yàn)檢驗(yàn)原理以及計(jì)算:基本思想是把升冪排列的秩用對應(yīng)的正態(tài)分位點(diǎn)替代,為了保證秩為正的,用變化的式子:其中就是第個(gè)數(shù)據(jù)的正態(tài)記分。計(jì)算步驟

對假設(shè)檢驗(yàn)問題:對單邊或者雙邊。

1.將的秩按升冪排列,并加上對應(yīng)的符號,也就是構(gòu)造符號秩.2.用正態(tài)記分代替符號秩:

記,構(gòu)造統(tǒng)計(jì)量:

3.T有近似的正態(tài)分布,當(dāng)T大的時(shí)候,考慮拒絕零假設(shè)。

擬合優(yōu)度檢驗(yàn)原理以及計(jì)算

類別12….C總和觀測頻數(shù)

假設(shè)檢驗(yàn)問題:觀測頻數(shù)和理論頻數(shù)的差別作為檢驗(yàn)總體分布和理論分布是否一致的標(biāo)準(zhǔn),定義Pearson統(tǒng)計(jì)量:當(dāng),拒絕零假設(shè)。

Kolmogorov-Smirnov正態(tài)性檢驗(yàn)

Kolmogorov-Smirnov正態(tài)性檢驗(yàn)根據(jù)樣本經(jīng)驗(yàn)分布和理論分布的比較,檢驗(yàn)樣本是否來自于該理論分布。假設(shè)檢驗(yàn)問題:

假設(shè)樣本的經(jīng)驗(yàn)分布函數(shù)為,定義當(dāng)時(shí),拒絕零假設(shè)。

Liliefor正態(tài)性檢驗(yàn)

正態(tài)性檢驗(yàn)根據(jù)樣本經(jīng)驗(yàn)分布和理論分布的比較,檢驗(yàn)樣本是否來自于該理論分布。假設(shè)檢驗(yàn)問題:兩樣本位置和尺度檢驗(yàn)樣本之間相互獨(dú)立,為位置參數(shù),稱為尺度參數(shù)。假設(shè)樣本:(X1,X2,…,Xn)~i.i.d.F1

(Y1,Y2,…,Yn)~i.i.d.F2

Brown-Mood中位數(shù)檢驗(yàn)Moses方法Mood檢驗(yàn)Mann-Whitney秩和檢驗(yàn)。

Brown-Mood中位數(shù)檢驗(yàn)原理:在零假設(shè)成立時(shí),如果數(shù)據(jù)有相同中位數(shù),那么混合樣本的中位數(shù)應(yīng)該和混合前的項(xiàng)等。假設(shè)(X1,X2,…,Xn)~i.i.d.F(x),

(Y1,Y2,…,Yn)~i.i.d.F(x-)首先將兩個(gè)樣本混合,找出混合樣本中位數(shù),將X和Y按照在兩側(cè)分類計(jì)數(shù),即:

在給定m,n和t的時(shí)候,在零假設(shè)成立時(shí),A的分布服從超幾何分布:

當(dāng)A值太大時(shí),考慮拒絕零假設(shè)。

計(jì)算和例子檢驗(yàn)基本內(nèi)容P-值

檢驗(yàn)統(tǒng)計(jì)量

對于水平,如果p-值小于,那么拒絕零假設(shè)

大樣本檢驗(yàn)對于大樣本情況下,可以使用超幾何分布的正態(tài)近似進(jìn)行檢驗(yàn):另外可求得置信區(qū)間:其中c和c’滿足:

Mann-Whitney秩和檢驗(yàn)假設(shè)樣本來自于,來自于并且獨(dú)立。假設(shè)檢驗(yàn)問題:

將兩個(gè)樣本混合,在混合樣本中的秩;定義,同樣可定義,稱為Wilcoxon秩和統(tǒng)計(jì)量。

W-M-W統(tǒng)計(jì)量稱為Man-Whitney統(tǒng)計(jì)量:在零假設(shè)情況下,和獨(dú)立同分布,并且和Wilcoxon秩和統(tǒng)計(jì)量等價(jià)。當(dāng)統(tǒng)計(jì)量偏小的時(shí)候,考慮拒絕零假設(shè)。性質(zhì)和檢驗(yàn)定理4.2在零假設(shè)下:若,且,時(shí):在檢驗(yàn)時(shí),,,其中a,b值由前面定理確定。在水平為拒絕域?yàn)椋海渲衚是使式子成立的最大值。對于打結(jié)的情況需要使用修正的公式。

典型例題例4.2例題解答Mood方差檢驗(yàn)檢驗(yàn)問題以及原理假定兩分布位置參數(shù)相等,設(shè),獨(dú)立,檢驗(yàn)問題:令表示在混合樣本之中的秩,在零假設(shè)成立的情況下,有:考慮Mood秩統(tǒng)計(jì)量:如果X的方差偏大,那么M的值也應(yīng)該偏大,對于大的M可以考慮拒絕零假設(shè)。

大樣本近似在,且,的時(shí)候,可以采用大樣本近似:其中對于打結(jié)情況可以考慮用修正公式.

Moses方差檢驗(yàn)原理及計(jì)算過程:不用假定均值相等,設(shè)來自方差為的獨(dú)立同分布樣本;來自方差為的獨(dú)立同分布樣本。假設(shè)檢驗(yàn)問題:

Moses方差檢驗(yàn)統(tǒng)計(jì)量計(jì)算1.將隨機(jī)分為組,每組k個(gè)觀測,記為;將隨機(jī)分為組,每組k個(gè)觀測,記為

2.求每組內(nèi)樣本偏差平方和:

Moses方差檢驗(yàn)統(tǒng)計(jì)量計(jì)算3.將,混合,并求出在混合樣本中對應(yīng)的秩.4.求第1組樣本對應(yīng)的秩和,構(gòu)造Moses統(tǒng)計(jì)量:如果值很大,那么就考慮拒絕零假設(shè)。實(shí)際檢驗(yàn)時(shí)可以查分布表。

本章內(nèi)容多總體的統(tǒng)計(jì)檢驗(yàn)多總體檢驗(yàn)問題:Kruskal-Wallis單因素方差分析

基本原理:類似處理兩個(gè)樣本相關(guān)性位置檢驗(yàn)的W-M-W方法類似,將多個(gè)樣本混合起來求秩,如果遇到打結(jié)的情況,采用平均秩,然后再按樣本組求秩和。

檢驗(yàn)方法計(jì)算第j組的樣本平均秩:

對秩仿照方差分析原理:得到Kruskal-Wallis的H統(tǒng)計(jì)量:

在零假設(shè)情況下,H近似服從,當(dāng)?shù)臅r(shí)候拒絕零假設(shè)。

對比其中每兩組差異對比其中每兩組差異的時(shí)候,用Dunn(1964)年提出用:其中如果那么表示i和j兩組之間存在差異,,為標(biāo)準(zhǔn)正態(tài)分布分位數(shù)。

Jonckheere-Terpstra檢驗(yàn)檢驗(yàn)原理以及方法假設(shè)k個(gè)獨(dú)立的樣本:分別來自于k個(gè)形狀相同的分布:.假設(shè)檢驗(yàn)問題:至少有一不等式嚴(yán)格成立。計(jì)算步驟2.計(jì)算Jonckheere-Terpstra統(tǒng)計(jì)量:3.當(dāng)J取大值的時(shí)候,考慮拒絕零假設(shè),J精確分布可以查零分布表,對于大樣本,可以考慮正態(tài)近似。

1.計(jì)算打結(jié)的情況時(shí),采用變形的公式:例5.3例5.3解Friedman秩方差分析

樣本1樣本2…樣本k區(qū)組1…區(qū)組2………………區(qū)組b…完全隨機(jī)區(qū)組設(shè)計(jì)表

假設(shè)檢驗(yàn)問題:

樣本1樣本2…樣本k區(qū)組1…區(qū)組2………………區(qū)組b…秩和…在同一區(qū)組內(nèi),計(jì)算樣本的秩,并求出:

檢驗(yàn)統(tǒng)計(jì)量利用普通類似方差分析構(gòu)造統(tǒng)計(jì)量:在零假設(shè)成立下,如果偏大,那么就考慮拒絕原價(jià)設(shè)。如果存在打結(jié)的情況,則可采用修正公式計(jì)算。

例5.5Hollander-Wolfe兩處理

比較檢驗(yàn)

當(dāng)用Friedman秩方差分析,檢驗(yàn)出認(rèn)為處理之間表現(xiàn)出差異的時(shí)候,那么可以進(jìn)一步研究處理兩兩之間是否存在差異。

Hollander-Wolfe檢驗(yàn)公式:

其中,在打結(jié)的情況下可使用修正的公式。當(dāng)時(shí)認(rèn)為兩個(gè)處理之間存在差異,其中,是顯著性水平。例5.6隨機(jī)區(qū)組調(diào)整秩和檢驗(yàn)

假設(shè)檢驗(yàn)問題:計(jì)算步驟1.計(jì)算每一區(qū)組的位置估計(jì),中位數(shù)或平均值等,如:

2.計(jì)算,被稱為調(diào)整觀察值。

3.將全部調(diào)整觀測值混合求秩,設(shè)對應(yīng)的混合秩為,者稱為調(diào)整秩。

其中檢驗(yàn)在零假設(shè)成立時(shí),Q

近似服從,當(dāng)Q

偏大的時(shí)候,考慮拒絕原價(jià)設(shè)。出現(xiàn)打結(jié)時(shí),需要用修正的公式。例5.7解答解答(續(xù))Cochran檢驗(yàn)檢驗(yàn)原理以及計(jì)算:當(dāng)完全區(qū)組設(shè)計(jì),并且觀測只是二元定性數(shù)據(jù)時(shí),CochranQ檢驗(yàn)方法進(jìn)行處理。數(shù)據(jù)形式見下表。其中檢驗(yàn)假設(shè)檢驗(yàn)問題:CochranQ檢驗(yàn)統(tǒng)計(jì)量:

Q近似服從分布,當(dāng)Q值偏大的時(shí)候,考慮拒絕零假設(shè)。Durbin不完全區(qū)組分析

原理:可能存在處理非常多,但是每個(gè)區(qū)組中允許的樣本量有限的時(shí)候,每一個(gè)區(qū)組中不可能包含所有的處理,比如重要的均衡不完全區(qū)組BIB設(shè)計(jì)。Durbin檢驗(yàn)便是針對這種問題。表示第j個(gè)處理第i個(gè)區(qū)組中的觀測值,Rij

為在第i個(gè)區(qū)組中第j個(gè)處理的秩,計(jì)算:構(gòu)造統(tǒng)計(jì)量:當(dāng)D值較大的時(shí)候,可以考慮拒絕零假設(shè),認(rèn)為處理之間存在差異。在零假設(shè)成立時(shí),大樣本情況下,D近似服從分布。打結(jié)的時(shí)候,只要長度不大,對結(jié)果影響不太大。例5.9

解答 列聯(lián)表和檢驗(yàn)獨(dú)立性檢驗(yàn)

假設(shè)檢驗(yàn)問題:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論