王靜龍《非參數(shù)統(tǒng)計分析》(18章)教案_第1頁
王靜龍《非參數(shù)統(tǒng)計分析》(18章)教案_第2頁
王靜龍《非參數(shù)統(tǒng)計分析》(18章)教案_第3頁
王靜龍《非參數(shù)統(tǒng)計分析》(18章)教案_第4頁
王靜龍《非參數(shù)統(tǒng)計分析》(18章)教案_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

.引言一般統(tǒng)計分析分為參數(shù)分析與非參數(shù)分析,參數(shù)分析是指,知道總體分布,但其中幾個參數(shù)的值未知,用統(tǒng)計量來估計參數(shù)值,但大部分情況,總體是未知的,這時候就不能用參數(shù)分析,如果強行用可能會出現(xiàn)錯誤的結(jié)果。例如:分析下面的供應商的產(chǎn)品是否合格?合格產(chǎn)品的標準長度為(8.50.1),隨即抽取n=100件零件,數(shù)據(jù)如下:1.18.5038.5088.4988.3478.4948.5008.4988.5008.5028.5018.4918.5048.5028.5038.5018.5058.4928.4978.1508.4968.5018.4898.5068.4978.5058.5018.5008.4998.4908.4938.5018.4978.5018.4988.5038.5058.5108.4998.4898.4968.5008.5038.4978.5048.5038.5068.4978.5078.3468.3108.4898.4998.4928.4978.5068.5028.5058.4898.5038.4928.5018.4998.8048.5058.5048.4998.5068.4998.4938.4948.4908.5058.5118.5028.5058.5038.7828.5028.5098.4998.4988.4938.8978.5048.4938.4947.7808.5098.4998.5038.4948.5118.5018.4978.4938.5018.4958.4618.5048.691x8.4958cm,非常接近中心位置8.5cm,樣本標準差為s

0.1047cm.X~N(,2。ni1xx2 n1iP(8.4X8.6)(8.6ni1xx2 n1i(8.68.49580.1047)(8.48.49580.1047)66%這說明產(chǎn)品有接近三分之一不合格,三分之二合格,所以需要更換供應廠商,而用非參數(shù)分析卻是另外一個結(jié)果。100個零件長度的分布表:(cm)頻率(%)~8.4058.40~8.4608.46~8.4818.48~8.50458.50~8.52458.52~8.6008.60~4合計1000.2cm9%的零件不合格,所以工廠不需要換供應商。2哪一個企業(yè)職工的工資高?1.3兩個企業(yè)職工的工資11112131415161718 19 20 406023456789103050112的職工工資分別服從正態(tài)分布N(a,2N(b,2數(shù)的假設檢驗問題,原假設為H :ab,備擇假設為H :ab0 0則xy~N(ab,(1m

)2)1n1若H0為真,則xyS1wm n1t ~t(mnS1wm n1其中S2w

1mn2

[m

(xx)2i

(yy)2]ii1 i1拒絕域為:tt (20)}t1.32}0.90t1.282故不能拒絕原假設,認為兩企業(yè)的工資水平無差異。也可以用P值檢驗P(t(20)1.282)0.1073故不能拒絕原假設,認為兩企業(yè)的工資水平無差異。0.1.但這個統(tǒng)計結(jié)論與實際數(shù)據(jù)不相符合。主要是因為假設工資服從正態(tài)分布,這個假設是錯誤的,用錯誤的假設結(jié)合參數(shù)分析自然得出的結(jié)論不可靠。這時候有兩種方法處理,一種更換其他分布的假設,二是用非參數(shù)數(shù)據(jù)的方法的分析。非參數(shù)統(tǒng)計如同光譜抗生素,應用范圍十分廣泛。參數(shù)統(tǒng)計與非參數(shù)統(tǒng)計針對不同的情況提出的統(tǒng)計方法,它們各有優(yōu)缺點,互為補充。第二章描述性統(tǒng)計§2.1表格法和圖形法表格法主要有列頻數(shù)分布表和頻率分布表2.1某公司測試新燈絲的壽命,列表如下:1071077368977679945998577381546571808479986365667986687461826598637162116647978797786897674857380687889725892788877103886368888164737590628971747085616561756294718584836392688143116;5~20組,組距

(最大值最小值)1652.2燈絲壽命的頻率分布表燈絲壽命(小時)個數(shù)頻率(%)40--4410.545--4910.550--5421.055--5984.060--642412.065--692814.070--743015.075--793417.080--842311.585--892211.090--94147.095--9984.0100--10431.5105--10910.5110--11400.0115--11910.5總和200100對應的直方圖為:§2.2表格法和圖形法(或者平均大小和離散程度等。1 3 5 3 3 1 3 2 3 2 4 41平均2.833333標準誤差0.34451中位數(shù)3眾數(shù)3標準差1.193416方差1.424242峰度-0.20317偏度-0.00713區(qū)域4最小值1最大值5求和34觀測數(shù)12它的平均數(shù),中位數(shù),眾數(shù)差不多大。但大部分情況不是這樣的,例如:§2.3賠款數(shù)某保險公司賠款樣本數(shù)據(jù)頻率分布表賠款次數(shù)0--4002400--80032800--1200241200--1600191600--2000102000--240062400--280032800--320023200--360013600--40001合計1001224,1000,600,這三者相差較大。左峰的時候:眾數(shù)中位數(shù)平均數(shù),右峰的時候:平均數(shù)中位數(shù)眾數(shù)。平均數(shù)容易受到異常值的影響,故不能很好地代表中心位。2.9%,但減收的農(nóng)戶卻是60%,為了更好地反映中心位,所以很多情況采用%的切尾平均數(shù)。人們熟知的去掉最大值與最小值的平均數(shù)也是切尾平均數(shù)?!?.4經(jīng)濟專業(yè)畢業(yè)生的月收入數(shù)據(jù)畢業(yè)生月收入畢業(yè)生月收入1185071890219508213032050919404188010234051750111920617001218801924,而總體平均數(shù)1940.1905,中位數(shù)表現(xiàn)了穩(wěn)定性。因此我們不僅用平均數(shù)表示中心位置,有時候也用中位數(shù)描述數(shù)據(jù)的中心位置。另外,眾數(shù)也能用來描述數(shù)據(jù)的中心位置,尤其是定性數(shù)據(jù)的中心位置,例如:§2.5有缺陷的小巧克力不合格品問題的頻數(shù)頻率分布表代碼問題頻數(shù)頻率(%)1外層不夠48652.832兩個粘在一起434.673被壓扁29532.074外層太多849.135破裂121.30這種情況下計算平均數(shù)和中位數(shù)沒有多大意義,相反眾數(shù)為1,眾數(shù)值得關(guān)注。一般情況,平均數(shù),中位數(shù),眾數(shù)應該綜合考量,這三個數(shù)目,使得我們可以從不同角度表達數(shù)據(jù)的中心位置,給評估對象一個全面的評價,例如:某企業(yè)5700,30002000元,這說明收200030003000元,平均5700大于中位數(shù),說明有些員工工資特別高。平均數(shù)與中位數(shù)為何可以表示數(shù)據(jù)的中心位置呢?主要是因為:2n (xx)2ii1

minna i1

2(xa)i

(2.1)ni1

xmeminni ai1

xai

(2.2)這說明用不同的距離標準衡量,平均數(shù)與中位數(shù)到各點的距離最近。另外平均數(shù)的物理意義還有重心的意義,在重心位置,系統(tǒng)可以平衡,在433這點,所走的路最短。***********123456789中位數(shù)平均數(shù)§2.2.2表示離散程度的數(shù)值表示離散程度的數(shù)值一般有方差,四分位數(shù),而四分位數(shù)又分上四分位數(shù)與下四分位數(shù)。為表示數(shù)據(jù)的離散程度,我們一般用五個數(shù)概括,即最小值,下四分位數(shù),中位數(shù),上四分位數(shù),最大值,分別記為Q

,Q,Q

,Q,Q.0 1 2 3 412名經(jīng)濟專業(yè)畢業(yè)生月收入數(shù)據(jù)處理結(jié)果如下:(用Minitab)N12Mean1940Median1905TrMean1924StDev170.6SEMean49.3Minimum1700Maximum2340下四分位數(shù)Q11857.5上四分位數(shù)Q32025Minitab(2.9)2.9四分位數(shù)的計算分位數(shù)是將總體的全部數(shù)據(jù)按大小順序排列后,處于各等分位置的變量值.如果將全部數(shù)據(jù)分成相等的兩部分,它就是中位數(shù);如果分成四等分,就是四分位數(shù);八等分就是八分位數(shù)等.四分位數(shù)也稱為四分位點,它是將全部數(shù)據(jù)分成相等的四部分,其中每部分包括25%的數(shù)據(jù),處在各分位點的數(shù)值就是四分位數(shù).四分位數(shù)有三個,第一個四分位數(shù)就是通常所說的四分位數(shù),稱為下四分位數(shù),第二個四分位數(shù)就是中位數(shù),第三個四分位數(shù)稱為上四分位數(shù),分別用Q1、Q2、Q3表示.四分位數(shù)作為分位數(shù)的一種形式,在統(tǒng)計中有著十分重要的作用和意義,現(xiàn)就四分位數(shù)的計算做一詳細闡述.一、資料未分組四分位數(shù)計算第一步:確定四分位數(shù)的位置.Qi所在的位置=i(n+1)/4,其中i=1,2,3.n表示資料項 數(shù) .第二步:根據(jù)第一步四分位數(shù)的位置,計算相應四分位數(shù).例1:某數(shù)學補習小組11人年齡(歲)為:17,19,22,24,25,28,34,35,36,37,38.則三個四分位數(shù)的位置分別為:/4=9.變量中的第三個第六個和第九個人的歲數(shù)分別為下四分位數(shù)中位數(shù)和上四分位數(shù),即 Q1=22(歲)、Q2=28(歲)、Q3=36(歲)數(shù)倍.這樣四分位數(shù)的位置就帶有小數(shù),需要進一步研究.帶有小數(shù)的位置與位置前后標志值有一定的關(guān)系四分位數(shù)是與該小數(shù)相鄰的兩個整數(shù)位置上的標志值的平均數(shù),權(quán)數(shù)的大小取決于兩個整數(shù)位置的遠近,距離越近,權(quán)數(shù)越大,距離越遠,權(quán)數(shù)越小,權(quán)數(shù)之和應等于 1.例2:設有一組經(jīng)過排序的數(shù)據(jù)為12,15,17,19,20,23,25,28,30,33,34,35,36,37,則三個四分位數(shù)的位置分別為:=(14+1)/4=3.75,Q2=2(14+1)/4=7.5,Q33( 14+1 ) /4=11.25.項和第11.25項分別為下四分位數(shù)中位數(shù)和上四分位數(shù),即 Q1=0.25×第三項+0.75×第四項=0.25×17+0.75×19=18.5;Q2=0.5×第七項+0.5×第八項=0.5×25+0.5×28=26.5;Q3=0.75×第十一項+0.25×第十二項=0.75×34+0.25×35=34.25.二、資料已整理分組的組距式數(shù)列四分位數(shù)計算第一步:向上或向下累計次數(shù)(因篇幅限制,以下均采取向上累計次數(shù)方式計算);第二步:根據(jù)累計次數(shù)確定四分位數(shù)的位置:Q1的位置=(∑f+1)/4,Q2的位置=2(∑f+1)/4,Q3的位置=3(∑f+1)/4式中:∑f表示資料的總次數(shù);第三步根據(jù)四分位數(shù)的位置計算各四分位(向上累計次數(shù),按照下限公式計算四分位 數(shù) ) :Qi=Li+fi × ,fi——Qi,di——Qi——Qi所在組以前一組的累積次數(shù),∑f——總次數(shù).例3:某企業(yè)工人日產(chǎn)量的分組資料如下:根 據(jù) 上 述 資 料 確 定 四 分 位 數(shù) 步 驟 如 下 :(1)向上累計方式獲得四分位數(shù)位置:Q1的位置=(∑f+1)/4=(164+1)/4=41.25Q2的位置=2(∑f+1)/4=2(164+1)/4=82.5Q3的位置=3(∑f+1)/4=3(164+1)/4=123.75(2)可知Q1,Q2,Q3分別位于向上累計工人數(shù)的第三組、第四組和第五組,日產(chǎn)量四分位數(shù)具體為:Q1=L1+×d1=70+10=72.49(千克)Q2=L2+×d2=80+10=80.83(千克)Q3=L3+■×d3=90+■×10=90.96(千克)shitouwa43202014-10-23§2.2.3標準誤假設產(chǎn)生數(shù)據(jù)的總體的均值為 方差為2它們的估計分別為樣本平均值x,樣本方差S2和樣本標準差S ,由于平均數(shù)x的標準差為

n,所以它的估計取nnn為S ,S 稱為標準誤。nn

~t(n1)nSnnSn0.95的條件下,得置信區(qū)間的端點Snx tSn

0.975

(n1).S.即得 x

t (n1)n0.975nt (11)2.20100.975Mintab計算得到:VariableMaximumNN*MeanSEMeanStDevMinimumQ1MedianQ3C11201940.049.3170.61700.01857.51905.02025.02340.0算得到所求置信區(qū)間為: 194049.32.209862731940108.5086233Excel計算得到:平均1940標準誤差49.25198中位數(shù)1905眾數(shù)1880標準差170.6139方差29109.09峰度1.874516偏度1.102987區(qū)域640最小值1700最大值2340求和23280觀測數(shù)12置信度(95.0%)108.4029所求置信區(qū)間為: 194049.251980422.209862731940108.4029328兩款軟件計算結(jié)果相差不大?!?.2.4偏度s偏度(Skewness)反應單峰分布的對誠性,總體偏度用 表示s X3 3E[ ]s 3s樣本偏見度用b 表示,國家標準的計算公式為:smsmb 3sm其中mj

i1

xxji ,n

2 2j2,3.Excel中的計算公式為:n mb s (n1)(n2) S3s一般bs

0b

0b0ss我們傾向于認為總體的分布是對稱的。ss§2.2.4峰度k峰度(Kurtosis)反映峰的尖峭程度,總體峰度用 表示,總體的峰度的定義為(國家標準)k 4 E[X4] 4k 4k樣本峰度用b ,國家標準的計算公式為kmk2bm4k2kk2kk由于正態(tài)分布的峰度系數(shù)為3,當平分布。

b3時為尖峰分布,當b

3時為扁符號檢驗是一種較為簡單的非參數(shù)檢驗,中位數(shù)檢驗是符號檢驗的一個重要應用。3.1某市勞動和社會保障部門的資料說明,1998年高級技師的年收入的中位2170050名高級技師組成的樣本,數(shù)據(jù)如下:230722437020327242962225619140256692240426744267442340620439248902481524556184722451422516251122348026552240741806422590原假設與備擇假設為:H0:me21700 H1:me21700選擇統(tǒng)計量S

#{x:xme i i 0

即為大于中位數(shù)me 的0"#ix 的個數(shù), 表示計數(shù),S"#in 1 xme 0S u,u i 0i ii1

0 其他1若Hme21700為真,則S0

250

50150PPX32)

0.0324540.05i32 i2Si2Hme21701在excel中如何使用BINOMDIST函數(shù)返回一元二項式分布的概率值BINOMDIST函數(shù)用于返回一元二項式分布的概率值。函數(shù)語法BINOMDIST(number_s,trials,probability_s,cumulative)number_s:trials:表示獨立實驗的次數(shù)。probability_s:表示一次實驗中成功的概率。cumulativeTRUE,BINOMDIST返number_s次成功的概率;FALSE,返回概率密度函數(shù),即number_s次成功的概率。106次是正面的概率??梢允褂肂INOMDIST函數(shù)來實現(xiàn)。Step01C4單元格,在公式編輯欄中輸入公式:=BINOMDIST(A2,B2.C2,TRUE)Enter68-73所示。Step02C5單元格,在公式編輯欄中輸入公式:=BINOMDIST(A2,B2.C2.FALSE)Enter68-74所示?!?.2符號檢驗在定性數(shù)據(jù)分析中的應用有的時候,觀察值是一些定性數(shù)據(jù),如果定性數(shù)據(jù)僅取兩個值,就可以使用符號檢驗對它進行統(tǒng)計分析。3.22000800人覺得”越來越好”720人感覺一天不如一天,有400人表示沒有變化,還有80人說不知道,根據(jù)調(diào)查結(jié)果,你是否相信,在總體認為我們的生活比過去更好的人,比認為我們的生活比過去差的人多?解:原假設與備擇假設為H :p10 2

H:p11 2選擇統(tǒng)計量S

#S

也可表示為:

1 認為生活變好u,ui i 其他i11

)2由于n很大,所以可以近似認為

npq其中 np760,npq

380 PS800 利用正態(tài)分布的計算結(jié)果

760799PS800PS

799 0.022714571380 380修正后

760799.5

800 0.021366586380 380P值較小,所以我們認為我們的生活環(huán)境變好了。§3.3成對數(shù)據(jù)的比較問題由于同一塊田的生長環(huán)境相同,不同的地生長環(huán)境各不相同,所以將這批數(shù)據(jù)寫成成對的形式。x x x xx

12,

1n. 21

2ndx xi 1i 2i

i

,i1,2,n,1

,2

1i 2i

,i為隨機差。i關(guān)于原點對稱的分布。由于和 都服從關(guān)于原點對稱的分布, (同分布)1i 2i 1i 2i 2i 1i則Pi

cP( 1i 2i

c)P( 2i

c)P( 1i 2i所以i關(guān)于原點對稱。

c)P(i

c)其它分位點的檢驗茆詩松老師教材P4147.6.3以往的資料表明,某種圓鋼的90%103(kg/mm2),為了檢驗這個結(jié)論是否屬實,現(xiàn)在隨機挑選20根圓鋼進行硬度實驗,測得其硬度分別是:14213411998131102154122931378611916114415816581117128113問這批鋼材是否達標?解:原假設與備擇假設為:H :x 103 H:x 1030 0.10 1 0.101 x103u ii 0 其他選取統(tǒng)計量S

n uii1

,若原假設成立,則S

15P值為1520pP(S

15) i

09i0.120i

0.0430.05i01即檢測值落入拒絕域,故拒絕原假設,接受備擇假設H1即產(chǎn)品不達標。

:x

103例7.6.4工廠有兩個化驗室,每天同時從工廠的冷卻水中取樣,測量水中的含氯量(10

6)一次,記錄如下:iii11.0310.0321.851.89-0.0430.740.9-0.1641.821.810.0151.141.2-0.0661.651.7-0.0571.921.94-0.0281.011.11-0.191.121.23-0.11100.90.97-0.07111.41.52-0.12ixix(實驗室A)y(實驗室B)xyi解:設A,B 實驗室的測量誤差分別為:,.并設,.的分布函數(shù)分別為F(x),G(x)。由于xi

,i i

i

.i

xyi i

i i原假設與備擇假設為:H :F(x)G(x)0

H:F(x)G(x).10若H 為真,則在Z的分布關(guān)于原點對稱01 z0 i0 其他選取統(tǒng)計量S

11 uii1即S

zz1

, ,z11

中正數(shù)的個數(shù)。檢驗值S 2,檢驗的P值為:p2min{P(S2),P(S2)}222i0

11i i

0.06540.05在顯著性水平為 0.05檢測值未落入拒絕域,故接受原假設認為兩個化驗室的檢測結(jié)果之間無顯著性差異。7.6.52008(按照升序排列):4632472850525064548469727596948014760150121872021240228365278867200已知20075063元,問2008年索賠的中位數(shù)較上一年是否有所變化?解:這是一個雙側(cè)檢驗問題:原假設與備擇假設為:H :x 50630 0.5

H:x 50631 0.510

x5063i其他選取統(tǒng)計量

n uii1顯著性水平計算得:

0.05n15。k15 Ck153

0.5k0.515k

0.01760.025 Ck15154

0.5k0.515k

0.0592k0

Ck0.5k0.515k15

0.01760.025

k0

Ck0.5k0.515k 0.059215所以雙側(cè)拒絕域為:W{S3或S12}

12,落入拒絕域W .2008年索賠的中位數(shù)較上一年有所變化。P值檢驗

p2P(S

12)0.0352 0.052008年索賠的中位數(shù)較上一年有所變化。7.6.6.1984年一些國家每平方公里可開發(fā)的水資源數(shù)據(jù)如下表所(萬度/年)國家每平方可開發(fā)水資源國家每平方可開發(fā)水資源蘇聯(lián)4.9印度8.5巴西4.1哥倫比亞26.3美國7.5日本34.9加拿大5.4阿根廷6.9扎伊爾28.1印度尼西亞7.9墨西哥4.9瑞士78.0瑞典22.3羅馬利亞10.1意大利16.8西德8.8奧地利58.6英國1.7南斯拉夫24.8法國11.5挪威37.4西班牙13.420萬度/年。請用符號檢驗方法檢驗:這22個國家每平方公里可開發(fā)的水資源的中位數(shù)不高于中國,求檢驗的P值,并寫出結(jié)論。解:原假設與備擇假設為:H :x 200 0.5

H:x 201 0.5u1 x20u ii 0 其他選取統(tǒng)計量S

22uii1ui

,若原假設成立,則S

~b(22,0.5)顯著性水平

0.05n22,查表得:22Ck22

0.5k0.522k

0.02620.05

22Ck22

0.5k0.522k

0.0669,右側(cè)拒絕域為:W{S

S

8WPpP(S

8)0.9331 0.05H0

H。122個國家可開發(fā)的水資源的中位數(shù)不高于中國。例7.6.7.下面是亞洲十個國家1996年的每1000個新生兒中的死亡數(shù)(按從小到大的次序排列)4 6 9 15 23 31 36 65 77 88M19961000個新生兒中死亡數(shù)的中位數(shù),試檢驗:H :M340

HM34P值,并寫完出結(jié)論。1解:原假設與備擇假設為:1H :M340

H:M3411 x34u ii 0 其他選取統(tǒng)計量S

10 uii1

,若原假設成立,則S

顯著性水平2

0.05n10,查表得:3Ck0.5k0.510k10

0.01070.05 Ck10

0.5k0.510k

0.0547,k0 k0左側(cè)拒絕域為:W{S

S

4WPpP(S

4)0.3770 0.05H0

H。11996100034。7.6.8.12mg12支香煙的尼古丁含量(單位:mg)分別為:16.717.714.111.413.410.513.611.612.012.611.713.7問是否該廠所說的尼古丁含量比實際要少?求檢驗的P值,并寫出結(jié)論。由于對于非正態(tài)總體,小樣本場合不能用樣本均值檢驗,所以下面采用中位數(shù)檢驗。解:原假設與備擇假設為:H :x 120 0.5

H:x 121 0.5u1 x12u ii 0 其他選取統(tǒng)計量S

12uuii1

,若原假設成立,則S

顯著性水平

0.05n12,查表得:12 Ck12

0.5k0.512k

0.01930.05

12k9

Ck0.5k0.512k12

0.0730,右側(cè)拒絕域為:W{S又檢測值S 8W

或者檢測的P值為pP(S 8)0.19380.05H0H1。即可認為該廠的尼古丁含量比實際含量要少?!?.1對稱中心為原點的檢驗問題設對稱中心為 ,則原假設與備擇假設分別為:H :00H :00

H:01H:01H :00引入符號檢驗統(tǒng)計量為:n

H:011 x0S

u ii,i1

i 0 其它x,x1

,xn

x Riii

,i1,2,n.引入符號秩和檢驗統(tǒng)計量為:W

uRni ini1表4.1 10個觀察值和它們的符號,絕對值和絕對值的秩-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.57.65.54.32.74.82.11.26.63.38.597536218410觀察值符號絕對值的秩S 3 ,W 53觀察值符號絕對值的秩下面討論符號秩和檢驗的檢驗方法,原假設與備擇假設為:H :00

H:01如果

0PX0)PX)

1,P(X0)P(X)12 2對于任意的正數(shù)a,P(Xa)P(X(a))P(X(a))P(Xa2)P(Xa)PXa)PXa),a0aaa此時WC為檢驗的臨界值為cinf{c*:P(Wc*)}.原假設與備擇假設為:H :0 H:00 1PXaPXaa0此時Wd為檢驗的臨界值為dsup{d*P(Wd*)}.原假設與備擇假設為:H:0H:00 1我們在W較大或者較小的時候拒絕原假設,檢驗的臨界值cd為)}.2dsup{d*:P(Wd*) }.2§4.2符號秩和檢驗統(tǒng)計量W

的性質(zhì)ni性質(zhì)4.1令S iunii1

0對稱時,W

與S 同分布:WdS表4.1 10個觀察值和它們的符號,絕對值和絕對值的秩觀察值觀察值符號絕對值的秩-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.5-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.57.65.54.32.74.82.11.26.63.38.597536218410ni ii1

53210表4.3 10個觀察值和它們的符號,絕對值和絕對值的秩-1.22.12.7-3.34.3-4.8-5.5-6.6-7.6-8.51.22.12.73.34.34.85.56.67.68.597536218410觀察值符號絕對值的秩nS觀察值符號絕對值的秩ni

23510,W

uRni ini1 i14.1W 的概率分布,在總體X 關(guān)于原點0分布時,u,u1 2

,,un

相互獨立,同分布,1 nP(ui

0)P(ui

,i1,2,,n.所以S iu2 i1

是離散的分布,它的取值范圍是0,1,2,n(n1)2,且P(Sd)P(ni1

iud)t(d)2n,d0,1,2,,n(n1)2, 4.1( i n( n其中t(d表示從1,2,n中取若干個,其和恰好為d的取法數(shù),nt(0)t(1)t(2)1。t(3)t(4)2t(5)3t(6)4.n n n n n n n4.20對稱時,W

與S 同分布:所以W

的分布

d)P(ni1

uRd)t(d)2n,d0,1,2,,n(n1)2,i i n

(4.2)P(W

d)P(W

n(n1)2d),d1,2,,n(n1)2.于是 P(W

d)P(W

n(n1)2d),

(4.3)這說明W

的密度是以中心對稱的。4.30對稱時,W

n(n1)44.112比如下表所示:4.4用兩種方式完成一項生產(chǎn)任務的完工時間及其差值工人12差值工人12差值xiyidxyi i ixiyidxyi i i120.318.02.3716.117.2-1.1223.521.71.8818.514.93.6322.022.5-0.5921.920.01.9419.117.02.11024.221.13.1521.021.2-0.21123.422.70.7624.724.8-0.11225.023.71.3表4.5 差值的符號,絕對值及絕對值的秩工人差值符號差的絕對值絕對值的秩工人差值符號差的絕對值絕對值的秩12.32.3107-1.11.1521.81.8783.63.6123-0.50.5391.91.9842.12.19103.13.1115-0.20.22110.70.746-0.10.11121.31.36符號秩和統(tǒng)計量W 1079128114667原假設與備擇假設為H:00

H:01我們在W 較大或者較小的時候拒絕原假設由于2P(W650.05而檢測值W

67既有2P(W672P(W65)0.05故檢測值落入拒絕域所以拒絕原假設H ,接受備擇假設H0 1i入學前成xiyizxi入學前成xiyizxyi i i123456789767170574969652659818570525263833362-5-1405-36-18-7-3假設測驗成績服從正態(tài)分布,問學生的培訓效果是否顯著?不假定總體分布,采用符號檢驗的方法檢驗學生的培訓效果是否顯著?采用符號秩和檢驗方法檢驗學生的培訓效果是否顯著,三種檢驗方法結(jié)論是否相同?解:(1)由于測驗成績符合正態(tài)分布,而

2未知,所以我們采用T檢驗原假設與備擇假設為:H 0 z

H:01 z由于

2未知,所以我們選取統(tǒng)計量zSznT Szn

~t(n1)顯著性水平 0.05,

n9, t (8)1.8595,0.95左側(cè)拒絕域為Wt1.859}.Szn而檢測值TSzn

z 4.3333 1.6378W7.93739另一方面也可以用P-值也可判斷檢測值不在拒絕域。檢驗的P值pP{T1.6378}0.07 0.057.93739故檢測值T1.6378W.故接受H ,拒絕H ,即認為培訓效果不明顯。0 1原假設與備擇假設為:H :z 0 H:z 00 0.5 1 0.5選取符號檢驗統(tǒng)計量:n 1 z0S u u i則

i,i1~b(n,0.5)

i 0 其它這里顯著性水平 0.05,

n9,11Ck0.5k0.59k9

0.01950.05 Ck0.5k0.59k22

0.0898k0 k0所以左側(cè)拒絕域為W{S

S

2W.另一方面也可以用P-值也可判斷檢測值不在拒絕域。檢驗的P值pP{S2}0.0898 0.05.S

2W.故接受H ,拒絕H ,即認為培訓效果不明顯。0 1原假設與備擇假設為:H :00

H:01n 1 z0選取統(tǒng)計量W

uR,其中u i .i ii1

i 0 其他這里顯著性水平 0.05, n9,查表計算得:滿足P(W

C )0.0537,由于W0.05

密度的對稱中心為

n(n1),所以左側(cè)臨界點為

3784

2 2而檢測值W

n uRi ii1

4.5610.5W故接受H ,拒絕H ,即認為培訓效果不明顯.0 1序號123456789101112131415材料序號123456789101112131415材料A材料B6.67.0 8.3 8.2 5.2 9.3 7.9 8.5 7.8 7.5 6.1 8.9 6.1 9.4 9.17.45.48.88.06.89.16.37.57.06.54.47.74.29.49.1問是否可以認為材料A制成的鞋子比材料B耐穿?設di

xyi

(i1,2, ,15來自正態(tài)總體,結(jié)論是什么?采用符號秩和檢驗,結(jié)論是什么?解:(1)由于d 符合正態(tài)分布,而i原假設與備擇假設為:H : 0 H: 00 d 1 d

2未知,所以我們采用T檢驗由于

2未知,所以我們選取統(tǒng)計量zSdnT Sdn

~t(n1)顯著性水平 0.05,

n15, t (14)1.7613,0.95右側(cè)拒絕域為Wt1.761}.Sdn而檢測值TSdn

D 0.5533 2.0959W1.022515另一方面也可以用P-值也可判斷檢測值在拒絕域。檢驗的P值pP{T2.0959}0.02740.05.故檢測值T2.0959W1.022515故拒絕H ,接受H ,即認為材料A制成的鞋后跟比材料B耐穿。0 1(2)原假設與備擇假設為:H :00

H:01n 1 d 0選取統(tǒng)計量W

uR,其中u i .i ii1

i 0 其他這里顯著性水平 0.05, n15,查表計算得:滿足P(W

C )0.0590。0.05右側(cè)拒絕域為W{W90}.而檢測值uRi ii1

RR2

RR6

RR8

R R R R10 11 12 13123.53.5128.56.58.514101593.5W故拒絕H ,接受H ,即認為材料A制成的鞋后跟比材料B耐穿。0 1品嘗者A飲料B飲料品嘗者A飲料B飲料12345678910108687513976522464598問兩種飲料評分是否有顯著性差異?采用符號檢驗法作檢驗;采用符號秩和檢驗法作檢驗.解:(1)解:原假設與備擇假設為:H :d 0 H:d 00 0.5 1 0.51 xy0u i ii 0 其他

n uii1

S即為更喜歡A 飲料的人數(shù),若原假設成立,則S~b(10,0.5)計算得:10

Ck0.5k0.510k10

0.01070.025 Ck1010

0.5k0.510k

0.0547k9 k81Ck0.5k0.510k110

0.01070.025 Ck22

0.5k0.510k

0.0547k0 k0所以雙側(cè)拒絕域為:W{S

5P值為

5 10p2min{P(S

5),P(S

5)}2 i

0.5i0.510i

1.2460 0.05i0即檢測值未落入拒絕域,故接受HH。0 1即認為兩種飲料的評分沒有顯著性差異。(2)原假設與備擇假設為:H :00

H:01n 1 xy0選取統(tǒng)計量W

uR,其中u i i .i ii1

i 0 其他這里顯著性水平 n10,查表計算得:滿足

C )0.02547,則左側(cè)臨界點為0.025n(n1)

4710114782 2雙側(cè)拒絕域為WW

8或W

47}.而檢測值W10uRi ii1

RR1

RRR3 4 58.568.510639WHH,即認為兩種飲料的評分沒有顯著性差異。0 1測試精神壓力和沒有精神壓力的血壓差別,10個志愿者進行了相應的實驗,數(shù)據(jù)如下(單位:毫米汞柱收縮壓):107108122119116118121111114108127119123113125132121131116124無精神壓力時有精神壓力時該數(shù)據(jù)是否表明有精神壓力的情況下的血壓是否有所增加?解:無精神壓力時有精神壓力時原假設與備擇假設為:H :00

H:0 其中為d1

xyi

總體密度函數(shù)的對稱中心,n 1 xy0選取統(tǒng)計量W

uR,其中u i i .i ii1

i 0 其他這里顯著性水平 0.05,n10,查表計算得:滿足P(W

C )0.0545,則左側(cè)臨界點為0.051)

45101145102 2W{W

10}.而檢測值W10uRi ii1

R 4W4故拒絕H ,接受H ,即認為有精神壓力導致血壓增加。0 1§4.3符號秩和檢驗統(tǒng)計量W期望與方差

的漸近正態(tài)性在總體X 的分布關(guān)于原點o對稱時,u,u1 2

,un

相互獨立,每一個ui

的分布都是P(ui

0)P(ui

1,i1,2,n.。而Sn iu2 i1

,則它的期望與方差分別為:E(S)

i1n21ni1

n(n1)4D(S)

n 21 i14i1

n(n1)(2n1).24由于W與S 有相同的分布,所以n(n1)E(W)(2)漸近正態(tài)性

4n(n1)(2n1).244.5如果總體關(guān)于原點對稱,則在樣本容量n趨于無窮大時,W

有漸近正態(tài)性:WE(W)

D(W)Wn(nD(W)Wn(n1)4n(n1)(2n1)24W

~Nn(n1)4,n(n1)(2n1)24.§4.4 平均秩法平均秩的基本定義:即對于相同的樣本取平均秩。每個元素賦予平均秩為:(r1)(r2)(r)

r(r1)2平均時的秩和與平方和為[r(1)2][r(1)2][r(1)2][r(1)2],(4.8)[r(1)2]2[r(1)2]2[r(1)2]2[r(1)2]2,(4.9)非平均的時候秩和與平方和為(r1)(r2)(r)[r(1)2],(4.10)(r1)2(r2)2(r)2r2r(1)(1)(21)6,(4.11)(4.8)與(4.10)結(jié)果一樣。由(4.11)減去(4.9)得到[r(1)2]2(r1)2(r2)2(r)2(3)12,(4.12)于是由(4.11)與(4.12)得:n a(i)12nn(n1),(4.13)2i1n

a2i)222n2g

j

)ji1

n(n1)(2n1)

j

12)j ,(4.14)6 124.6在總體的分布關(guān)于原點o對稱,有結(jié)秩取平均時,n(n1)E(W)

, (4.15)4

n(n1)(2n1)g24

(3j48

)j ,(4.16)在有結(jié)的情況下,如果總體關(guān)于原點對稱,則在樣本容量n趨于無窮大時,W有漸近正態(tài)性: g W~Nn(n1)4,n(n1)(2n1)24 (3)48j j嚴格上以上期望與方差是在有結(jié)的情況下的計算結(jié)果,所以嚴格書寫應該按照以下方式:E(W

,1

,,)g

n(n1),4

(4.15)n(n1)(2n1)

g (3)D(W

,,,

) j j ,(4.16)1 2 g

24 48§4.5對稱中心的檢驗問題有以下幾種情形:原假設與備擇假設為H :0 H :0 H :0

H:1 0H:1 0H:1 04.5:通常認為人在放松條件下入睡的時間比緊張狀態(tài)下的入睡時間要少兩分鐘,現(xiàn)在有十名男性,他們在放松下與緊張狀態(tài)下的入睡時間分別為x與y,i idxi

y,表4.10108個小與-2,只有2個不小于-2,所以我們i2分鐘,這個猜測是否正確?研究對象iiiii研究對象iiiiiiiiii放松條件非放松條件差值差值+2絕對值秩xydxycd2cR11015-5-3372912-3-11331222-10-88104815-7-5595910-111367702267816-6-4488710-3-11391114-3-1131069-3-11310 1 c0符號秩和檢測值為W

uR369, u i原假設與備擇假設為

i ii1

i 0 其他H :2 H:20 1左側(cè)拒絕域為W{W10}.而檢測值W10uRi ii1

369W故拒絕H 接受H 即認為成年男性在放松條件下入睡的時間比緊張狀態(tài)下入0 12分鐘。由于樣本容量n足夠大的時候,W

測。原假設與備擇假設為H :2 H:20 1 g 在H 為真的時,W

~Nn(n1)4,n(n1)(2n1)24

)48即W

0

j j檢測值為:W

10uRi ii1

369pP(W

9)(9.527.5 93.75)0.0315110.05下,檢測值落入拒絕域故拒絕H 接受H 即認為成年男性在放松條件下入睡的時間比緊張狀態(tài)下入0 12分鐘?!?.1Mood中位數(shù)檢驗法2哪一個企業(yè)職工的工資高?1.3兩個企業(yè)職工的工資11112131415161718 19 20 406023456789103050他們的合樣本為3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18.19,2030,40,50,60,其中帶[]21的工資,合樣本的中位數(shù)13.5,將以上數(shù)據(jù)轉(zhuǎn)化為四表格5.1四格表工資工資<13.5千元工資>13.5千元合計1N 311N 912N1122N8N21222N 102合計N11N1211N 3111111N N P 11

11 2212 12

,這說明N11服從超幾何分布MNMknk P(Xk) Nn n

,n}E(X)nMNX和Y的中位數(shù)分別為mex

和mey原假設與備擇假設為H :me me0 x

H:me me1 x y在H 成立的情況下,N 服從超幾何分布h(N ,12,11,22)0 11 11這是一個單側(cè)檢驗問題,拒絕域在左邊.N11

3P值為P(N11

3)P(N11

1)P(N11

2)P(N11

1.71050.0009360.0140340.014987 0.05所以檢測值N 3落入拒絕域,11故拒絕H ,接受H ,即認為企業(yè)1的職工比企業(yè)2的職工的工資要高。0 1§5.2 Wilcoxon秩和檢驗法xx1 2

,,xN

,不妨設總體是連續(xù)的隨機變量,從而可1以以概率為保證樣本單元xx11 2

,,xN

互不相等,則單個的秩N服從均勻分布:iP(Ri

r)1,r1,2,,N,N由以上結(jié)論,我們可以得出5.1對任意的i1,2,N都有E(RiD(Ri

)(N1),2)(N21).12證明:對于任意的i1,2, ,N,,都有E(Ri

)N

rP(Ri

r)

1N rN

(N1),2E(R2)

r2P(Rr)

1

(N1)(2N1).i i N

6 D(R)E(R2)(E(R

))2

(N1)(2N1)N12i i N21.12

6 2 5.2對于任意的1ijN,都有(N1)Cov(R,Ri j

) .12證明:對于任意的1ijN,都有 rrE(RR) rrP(R

r,R r)

12 .i j 12rr

i 1 j 2

rr

N(N1)1 2 2

1 2N(N1)2

N(N1)(2N1)rr r

121 rr r 1

2 6N(N1)(3N2)(N1),12 rr (N1)(3N2)E(RR)

12 .i jrr

N(N1) 121 2所以Cov(R,Ri j

)E(RRi j

)E(Ri

)E(R)j(N1)(3N2)

12 12(N1).12

2 5.22 Wilcoxon 秩和檢驗的求解過程例1.222名職工合在一起,從小到大排序得到下表:[3][4][5][6][7][8][9][10]111213123456789101114151617181920[30]40[50]601213141516171819202122工資秩工資秩帶[]2的工資,不帶[]1工資秩工資秩考慮到人數(shù)多的檢驗效果一樣,所以一般我們選擇人數(shù)少的企業(yè)的秩和作檢驗。12的中位數(shù)分別為mex

和mey原假設與備擇假設為H:me0

mey

H:me1

mey選取統(tǒng)計量W2

,這里W2

2的員工工資的秩和。W 123456781921662這是一個單側(cè)檢驗問題,拒絕域在左邊.查表得:P(W 76)0.0052p值P(W2

66)P(W2

76)0.005 0.05故檢測值在拒絕域,所以拒絕原假設H0,接受備擇假設H1,21要低.§5.3Wilcoxon秩和檢驗統(tǒng)計量的性質(zhì)xx1 2

,,xm

yy1

,,yn

分別來自相互獨立的連續(xù)隨機變量總體X和Yxx1 2

,,xm

,y,y1

,,yn各元素互不相同,樣本容量為mn,原假設H :X和Y同分布.0記y(j1,2,,n)在合樣本中的秩為R(R 1,2,,N)在原假設H 為真j j j 0(RR1 2

,Rn

服從均勻分布:所以P(R1

r,R1

r,R2

r)n

1 ,N(N1)(Nn1)記Y 的樣本y,y1 2

,,yn

的秩和為nW Rny j下面討論Wilcoxon秩和統(tǒng)計量的分布性質(zhì)n(n1),

n(n1)

n(n1)

2,n(n1)

mn它依次取 2 2 2 2由于(RR1

,Rn

服從均勻分布:所以Wy

具有以下性質(zhì)性質(zhì)5.1設原假設H :X和Y同分布成立,W的概率分布和累積概率分別為0 yP(W

d)P(

d)

tm,n

(d)ny i Nni1 nP(W

d)P(

Rd)

tid

m,n

(i)y i Nni1 n dn(n1),n(n1)1,n(n1)2,n(n1)mn,2 2 2 2tm,n(d為從1,2,mn取n數(shù),其和恰好為d的取法數(shù)。從1,2,,2210個數(shù),其和恰好為d的取法121055故t故

1291156故t故

1281011571291257故t故12,10

(57)212791011581281012581291358故t故12,10

126891011591267910125912678111259126781013591267891459故t故12,10

假設從1,2,Nnaa1 2

,,an

n(N1dd的取法數(shù)與和為n(N1d的取法數(shù)一樣多。從而P(W d)P(W n(N1)d)y yP(Wy

d)P(Wy

n(N1)d)故Wy

n(n1) n(n1) n(n1)d , 1, 2 2 2n(N1)概率密度的對稱軸為 2 .從而有

n(N1) n(N1)P(W y

d)P(W2

d)2n(N1) n(N1)P(W y

d)P(W2

d)22

n(N1)5.2H5.15.2知

為真的條件下,W0

概率密度的對稱軸為 2 .E(W

R)nE(R

)n

N1

n(N1)yD(Wy

i1)D(n

iR)i

iD(Ri

2 2Cov(R,R)i ji1 i1 1ijnnD(Ri

)n(n1)Cov(R,R)1 2nN21n(n1)(N1)12 12n(N1)(Nn)nm(N1).12 12H0為真的條件下,當nm時,Wy有漸進正態(tài)性.由以上分析,有以下結(jié)論.性質(zhì)5.4在原假設H 為真的條件下,當n,m時,有0W D(WD(W)ymn(N1)2

Wy

n(N1)2

§5.2.4Wilcoxon秩和檢驗的備擇假設原假設與備擇假設為H :X和Y同分布 H0

:P(XY)121H :X和Y同分布 H0

:P(XY)21H :X和Y同分布 H0 1

:P(XY)2yH1:PXY)2成立的條件下,Wy1

的值較小.H:P(XY)在1

2成立的條件下,Wy1

的值較大.H1PXY)

2成立的條件下,Wy

的值可能較小也可能較大.§5.2.5 Wilcoxon秩和檢驗的平均秩法對于任意的記分函數(shù),我們有定理5.6xx

, ,x

xa(R

,則1 2 N i i對于任意的1ijN,都有E(a(Ri

))aD(a(Ri

))

Ni1

2(a(i)a)Cov(a(Ri

),a(aj

1N(N1)

i1

2(a(i)a)證明:Cov(a(R),a(R))E(a(R)a(R))E(a(R))E(a(R))i j j i j 1N(N1)

ij

a(i)a(j)a22aa N aN a22i jij又

i1

i ii1N(Na)2故

a2ii1Cov(a(Ri

),a(Rj

))E(a(Ri

)a(Rj

))E(a(Ri

))E(a(R))j( 1

1)a2

1

a2(i)N1 N(N1)

i1 1N(N1)

Ni1

2(a(i)a)定理5.7xx1 2

,,xm

y,y1

,,yn

分別來自相互獨立的連續(xù)型隨機變量總體X 和Y .令Nmn,記y(j1,2,,n)在合樣本中的秩為jR(Rj

1,2,,N)設有計分函數(shù)a(r)(r1,2,,N)則在X 和Y 同分布時有E(ni1

a(R))naiD(ni1

a(Ri

nmN(N1)

Ni1

2(a(i)a)D(n a(R))n D(a(R))n(nCov(a(R),a(R))利用 i i 1 2i1 i1

證明。D(n

a(Ri

))

D(a(Ri

))n(n1)Cov(a(R1

),a(R))2i1 i1nN

(a(i)a)2

n(n)N(N1)

(a(i)a)2i1 i1nmN

(a(i)a)2i1針對有結(jié)的情況下,在a(Ri

)Ri

下,由(4.13)(4.14)1a N1Ni1

a(i)

N122N (ai)a)2

a2(i)Na2i1 i1N(N)(2N)g 3)

N126N(N1)(N1)

jg j

j12)j

N 2 12 12ii于是 E(a(R

))a

N12

(5.4)D(a(Ri

))NNi1

(a(i)a)2N2

1

j

)j

(5.5)12 12Nj1Cov(a(Ri

),a(Rj

))

1N(N1)

Ni1

(a(i)a)2jN1g j

)j

(5.6)12

12N(N1)在有結(jié)的情況下,wilcoxon秩和檢驗統(tǒng)計量W 的期望與方差分別為y由以上結(jié)論,有nW a(R)ny ii1

N1 n(N1)E(Wy

)nan 2 2y

nmN(N1)

Ni1

(a(i)a)2nm(N) nm

(3)12 12N(N1)

j jj1W ~N(E(Wy

), D(W))y5.2.5為了比較兩種型號的汽車每加侖汽油的行駛里程,合樣本中的秩見表如下:汽車行駛里程(英里)秩序汽車行駛里程(英里)秩序120.621121.324219.916217.64318.68317.43418.911418.57518.89.5519.713620.218621.123721.022717.32820.519.5818.89.5919.814.5917.851019.814.51016.911119.2121118.061220.519.51220.117第一種型號汽油第二種型號汽油解;第一種型號汽油第二種型號汽油H :X和Y同分布0

H:P(XY)11 21選取統(tǒng)計量W1

12i1

a(R)12 Ri ii1則W~N(E(W1

), D(W1

))N(150,299.61)1檢測值W1

12 Rii1

185.5這是一個雙側(cè)檢驗問題,拒絕域在兩側(cè)P值2P(W1

185.5)0.04 0.05故檢測值落入拒絕域,所以拒絕原假設H ,接受備擇假設H ,0 1即對于每加侖汽油汽車行駛的里程數(shù)不相同,而且認為對于每加侖汽油,第一種汽油行駛的里程數(shù)大。§5.2.5 Wilcoxon秩和處理位置參數(shù)差的檢驗問題原假設與備擇假設為H :a0H :a0H :a0

H :a1H :a1H :a1原假設與備擇假設為H :me0 H :me0 H :me0

me yme yme y

H :me1 H :me1 H :me1

me yme yme y以上檢測均可用Wilcoxon秩和處理.74-77的Mann-WhitneyU統(tǒng)計量檢驗法與Wilcoxon檢驗法類似,因為兩種檢測統(tǒng)計量只相差一個常數(shù),故檢測模式類似,這里就不做詳細介紹.§5.4 兩樣本尺度參數(shù)的秩檢驗法X和Y的分布函數(shù)分別為F(x)和Gy)Gy)Fyb),成立的充分必要條件由bXdY知,對于任意的y都有G(y)P(Yy)P(bXy)P(Xyb)F(yb)必要性的證明.若對任意y都有G(y)F(yb),則由于bX 的分布函數(shù)P(bXx)P(Xxb)F(xb)G(x)P(Yx)所以bXdY.當b1時GG(x)F(x)P(Yc)P(bXc)P(XP(Yc)P(bXc)P(X

c)P(Xc),c0bc)P(Xc),c0bP(Yc)PXcc0P(Yc)PXcc0P(Yc)PXcc0由以上式子知:YX要大.y,y1 2

,,yn

xx1 2

,,xm

傾向于排中間。類似的當0b1時,P(Yc)P(bXc)P(XP(Yc)P(bXc)P(X既有

c)P(Xc),c0bc)P(Xc),c0bP(Yc)P(Xc),c0P(Yc)P(Xc),c0由以上式子知:YX要小.y,y1 2

,,yn

xx1 2

,,xm

傾向于排兩邊?!?.4.2尺度參數(shù)檢驗問題(1)Mood檢驗a(r)

a(r)r

N12,r,,,N2 (2)Ansari-Bradley檢驗

N12N12取計分函數(shù)a(r)為單峰函數(shù),a(r) 2 r

r ,r1,2,3,,Nr1,2,k,即在N2k時,a(r)N1r rk1,k2,,N; r r1,2,k1,即在N2k1時,a(r)N1r rk2,k3,,N;例如N8時1234567812344321ra(r)rara(r)ra(r)123456789123454321記Anri1

a(R)i(3)siegel-Turkey檢驗a(r為單谷函數(shù),被減序列為0,3,4 7,8 11,12 10,9 6.5,2,1例如N9123456789965213478ra(r)記S ra(r)yi1

a(R)i (4)Klotz 取a(r)為單谷函數(shù)a(r)1(rN1)2,r1,2, ,N.記K yi1

a(R)i5.14尺度參數(shù)檢驗問題的解H0被擇假設H何種情況拒絕原假設1b1M A比較小y yX和Y同分布S 比較大,M 比較大y yb1MyA比較大yS比較小,M 比較小y yb1M A比較大或比較小y yS 比較大或比較小,M 比較大或比較小y y尺度檢驗的引例:尺度檢驗.ppt尺度檢驗.ppt第六章多樣本問題§6.1Kruskal-Waillis檢驗6.1某公司的管理人員來自三所大學,年度評分如下:A大學B大學C大學84755872657875808095556272956590697275426.3各組秩的均值的計算AA大學B大學C大學1712395.5141215.515.519.524919.55.51879121R 96.51R13.791R 61.5R 96.51R13.791R 61.52R 10.252R 523R7.433ii原假設與備擇假設分別為H :0 1

,k

H:,1 1

,,k

不全相等總的秩的均值為R組間平方和為

96.561.55210.520n 2SSB n(Ri i

R)i17(13.7910.5)26(10.2510.5)27(7.4310.5)2142.118引入統(tǒng)計量H 12

SSB

12 142.1184.06N(N1) 20211由于(n1

,n,n2

)(7,6,7Kruskal-Waillis檢驗臨界值表中查不到,考慮到當nH~2(k1)2(2),所以用2檢驗PP(

2(2)4.06)0.1313360.05P員的管理水平無顯著性差異?!?.1.2 Kruskal-Wallis檢驗設樣本各不相同。原假設與備擇假設分別為H :0 1

,k

H :,1 1

,,k

不全相等,我們用ANOVA方法處理總均值為總偏差為SST

i

(R R)2ij

i

R2 NR2iji1 i1

N12

N(N21)

22

N2

N 2 12組間平方和SSB與組內(nèi)平方和SSW分別為SSBk n(RR)2i i

n(Ri i

N1)22

(6.1)i1 i12

(R R)2ij ii1 由于

N(N21)SSWSSTSSB SSB12所以只需計算組間差SSB。選取統(tǒng)計量H 12

SSB

12

n(R

N1)2N(N1) N(N1)

i i 2i1 12 N(N1)

R2i

N(N1)2]4

6.2 12N(N1)

ni1 k R2in

( )3(N1),i1,2,k.i1 i§6.1.3 Kruskal-wallis檢驗統(tǒng)計量的漸進分布5.3知E(R

n) i

(N1)

與D(R

n) i

(Nni

)(N1)i 2 i 12(N1) (Nn)(N1)E(Ri)

與D(R2 i

i12niN1 (Nn)(N1)E(Ri所以

)2D(R)2 i

i12niE(SSB)

ki12

nE(Ri i

N1)22k

(Nnnin

)(N)N1

(Nn)ii1

12ni

12 ii1N(N1)(k1).12E(H) 12N(N1)

E(SSB) 12 N(N1)(k1)N(N1) 12時n時

k1.當min{nn1 2

,,nk

,且iN

(0,1).iKruskal-WaillisH漸進服從2(k1。即HL2(k)

(6.3)§6.1.4有相等觀察值時Kruskal-wallis檢驗統(tǒng)計量的修正E(R )iD(R

n(N1)i2n(Nngi g

)(N1)n

(Nn

)

)/(12N(N1))iE(R)i

(N1)2(Nn

12)(N1)

i i i i1gD(R)i

i12n

(Nni

) (3i

i

N(N1))D(Ri

)E(Ri

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論