系統(tǒng)和數(shù)據(jù)分析Wilcoxon秩和檢驗(yàn)_第1頁
系統(tǒng)和數(shù)據(jù)分析Wilcoxon秩和檢驗(yàn)_第2頁
系統(tǒng)和數(shù)據(jù)分析Wilcoxon秩和檢驗(yàn)_第3頁
系統(tǒng)和數(shù)據(jù)分析Wilcoxon秩和檢驗(yàn)_第4頁
系統(tǒng)和數(shù)據(jù)分析Wilcoxon秩和檢驗(yàn)_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第二十八課Wilcoxon秩和檢驗(yàn)一、兩樣本的Wilcoxon秩和檢驗(yàn)兩樣本的Wilcoxon秩和檢驗(yàn)是由Mann, Whitney和Wilcoxon三人共同設(shè)計(jì)的一種檢驗(yàn), 有時(shí)也稱為Wilcoxon秩和檢驗(yàn),用來決定兩個獨(dú)立樣本是否來自相同的或相等的總體。如果 這兩個獨(dú)立樣本來自正態(tài)分布和具有相同方差時(shí),我們可以采用t檢驗(yàn)比較均值。但當(dāng)這兩 個條件都不能確定時(shí),我們常替換t檢驗(yàn)法為Wilcoxon秩和檢驗(yàn)。Wilcoxon秩和檢驗(yàn)是基于樣本數(shù)據(jù)秩和。先將兩樣本看成是單一樣本(混合樣本)然后 由小到大排列觀察值統(tǒng)一編秩。如果原假設(shè)兩個獨(dú)立樣本來自相同的總體為真,那么秩將大 約均勻分布在兩個樣

2、本中,即小的、中等的、大的秩值應(yīng)該大約被均勻分在兩個樣本中。如 果備選假設(shè)兩個獨(dú)立樣本來自不相同的總體為真,那么其中一個樣本將會有更多的小秩值, 這樣就會得到一個較小的秩和;另一個樣本將會有更多的大秩值,因此就會得到一個較大的 秩和。設(shè)兩個獨(dú)立樣本為:第一個的樣本容量為,第二個樣本容量為,在容量為n = n1 + n 2的 混合樣本(第一個和第二個)中,樣本的秩和為,樣本的秩和為,且有:W + W = 1 + 2 + + n =1)(28.1)我們定義:W = W - ni( + D(28.2)n (n +1)W2 = W - (28.3)以樣本為例,若它們在混合樣本中享有最小的個秩,于是巧=

3、ni(ni + 1),也是可能取x 2n (n +1)的最小值;同樣可能取的最小值為-。那么,的最大取值等于混合樣本的總秩和減去的最小值,即尊曳一n2% +1);同樣,的最大取值等于n(n: 1)- n1(n* + 1)。所以,式(28.2)和式(28.3)中的和均為取值在0與(:1)一 %(七+ 1) 2(上+ 1)= n n的變量。2221 2當(dāng)原假設(shè)為真時(shí),所有的和相當(dāng)于從同一總體中抽得的獨(dú)立隨機(jī)樣本,和構(gòu)成可分辨的排列 情況,可看成一排個球隨機(jī)地指定個為球,另個為球,共有。吃種可能,而且它們是等可能 n的?;谶@樣的分析,在原假設(shè)為真的條件下不難求出和的概率分布,顯然它們的分布還是 相

4、同的,這個分布稱為樣本大小為和的Mann-Whitney-Wilcoxon分布。一個具有實(shí)際價(jià)值的方法是,對于每個樣本中的觀察數(shù)大于等于8的大樣本來說,我們 可以采用標(biāo)準(zhǔn)正態(tài)分布來近似檢驗(yàn)。由于的中心點(diǎn)為號,根據(jù)式(28.2),中心點(diǎn)為:(28.4)(28.5)n n n (n +1) n (n + n +1) 口 1 2 1= 12(28.4)(28.5)222的方差從數(shù)學(xué)上可推導(dǎo)出:n n (n + n +1) 2 12 12 2如果樣本中存在結(jié)值,將影響到公式(28.5 )中的方差,按結(jié)值調(diào)整方差的公式為:n n (n + n +1) n n (t 3 -T ) b 2 12jj(28.

5、6)1212(n1 + n2)(n1 + n2 1)其中,為第j個結(jié)值的個數(shù)。結(jié)值的存在將使原方差變小,這是一個顯然正確的事實(shí)。 標(biāo)準(zhǔn)化后為:N (0,1)(28.7)W - n1(n1 + n2+ D N (0,1)(28.7)、n n (n + n +1) n n (T3 T)I 1 2121_2j11212(n + n )(n + n 1)其中,分子加0.5或減0.5是為了對離散變量進(jìn)行連續(xù)性修正,對于W -日大于0減0.5X修正,對于W小于0加0.5修正。例28.1某航空公司的CEO注意到飛離亞特蘭大的飛機(jī)放棄預(yù)訂座位的旅客人數(shù)在增加, 他特別有興趣想知道,是否從亞特蘭大起飛的飛機(jī)比從

6、芝加哥起飛的飛機(jī)有更多的放棄預(yù)訂 座位的旅客。獲得一個從亞特蘭大起飛的9次航班和從芝加哥起飛的8次航班上放棄預(yù)訂座 位的旅客人數(shù)樣本,見表28.1中的第2列和第4列。表28.1放棄預(yù)訂座位的旅客人數(shù)及統(tǒng)一秩值航班次數(shù)亞特蘭大(組)芝加哥(組)放棄人數(shù)統(tǒng)編秩放棄人數(shù)統(tǒng)編秩1115.513721591483103.5103.541812815115.51610620139272416171182215211492517秩和96.556.5如果假定放棄預(yù)訂座位旅客人數(shù)的總體是正態(tài)分布且有相等的方差,我們可以采用兩樣 本比較的t檢驗(yàn)。但航空公司的CEO認(rèn)為這兩個假設(shè)條件不能滿足,因此采用非參數(shù)的 Wi

7、lcoxon秩和檢驗(yàn)。將組與組看成是單一樣本進(jìn)行編秩,見表28.1中的第3列和第5列。最 小值是8,秩值為1,最大值是25,秩值為17,有兩個結(jié)值10和11,兩個10平均分享秩值 3和4為3.5,兩個11平均分享秩值5和6為5.5。如果兩組放棄預(yù)訂座位的旅客人數(shù)是相同 的,那么我們期望的兩組秩和和大約是相同的;如果兩組放棄預(yù)訂座位的旅客人數(shù)是不相同 的,那么我們期望的兩組秩和和也是非常不相同的。注意到七=9, n2 = 8, =96.5, =56.5, H0:兩組放棄預(yù)訂座位旅客人數(shù)的分布是相同的。 標(biāo)準(zhǔn)正態(tài)分布值的計(jì)算結(jié)果為9(9 + 8 +1) 0.5z = ,2= 1.44515 9(8

8、)(9 + 8 +1)9(8)(8 - 2 + 8 - 2)I1212(9 + 8)(9 + 8 -1)如果設(shè)定顯著水平a = 0.05,我們知道標(biāo)準(zhǔn)正態(tài)分布在0.05顯著水平時(shí),上臨界值為 1.645,下臨界值為一1.645,由于1.445 (n +1)/2(28.10)a(R ) = 0當(dāng)R |Z| = 0.1484第二十九課結(jié)果說明:組1和組2的秩和 (Sum of Scores)分別為 96.50 和 56.50。原假設(shè)(組1和組2的總體分布相同)為真時(shí),期望秩值(Expected)分別為(96.50+56.50 )X 9/ (9+8) =81.0 和(96.50+56.50)X8/

9、(9+8) =72.0,標(biāo)準(zhǔn)差(Std Dev)按公式(28.6)計(jì)算為10.3795614。每組平均得分(MeanScore) 分別為 96.50/9=10.7222222 和 56.50/8=7.0625000。Wilcoxon兩樣本秩和統(tǒng)計(jì) 量(較小的秩和)S =56.5000,正態(tài)近似 檢驗(yàn)統(tǒng)計(jì)量Z =1.44515 (連續(xù)性修正因 子為0.5,加在分子上),正態(tài)分布的雙尾 p值之和為0.1484,不能拒絕原假設(shè)。同 時(shí),還給出了近似t檢驗(yàn)和卡方檢驗(yàn)的結(jié) 果:近似t檢驗(yàn)的p=0.1677,近似卡方檢 驗(yàn)統(tǒng)計(jì)量為2.2300,自由度為1,p=0.1354。 結(jié)果都是相同的,不能拒絕原假設(shè)

10、。完全隨機(jī)設(shè)計(jì)Kruskal-Wallis秩和檢驗(yàn)四、完全隨機(jī)設(shè)計(jì)的Kruskal-Wallis秩和檢驗(yàn)方差分析過程關(guān)注三個或更多總體的均值是否相等的問題,數(shù)據(jù)是被假設(shè)成具有正態(tài)分 布和相等的方差,此時(shí)F檢驗(yàn)才能奏效。但有時(shí)采集的數(shù)據(jù)常常不能完全滿足這些條件。在 兩兩樣本比較時(shí),我們不妨嘗試將數(shù)據(jù)轉(zhuǎn)換成秩統(tǒng)計(jì)量,因?yàn)橹冉y(tǒng)計(jì)量的分布與總體分布無 關(guān),可以擺脫總體分布的束縛。在比較兩個以上的總體時(shí),廣泛使用非參數(shù)的Kruskal-Wallis 秩和檢驗(yàn),它是對兩個以上的秩樣本進(jìn)行比較,本質(zhì)上它是兩樣本時(shí)的Wilcoxon秩和檢驗(yàn)方 法在多于兩個樣本時(shí)的推廣。Kruskal-Wallis秩和檢驗(yàn),首

11、先要求從總體中抽取的樣本必須是獨(dú)立的,然后將所有樣本 的值混合在一起看成是單一樣本,再把這個單一的混合樣本中的值從小到大排序,序列值替 換成秩值,最小的值給予秩值1,有結(jié)值時(shí)平分秩值。將數(shù)據(jù)樣本轉(zhuǎn)換成秩樣本后,再對這 個秩樣本進(jìn)行方差分布,但此時(shí)我們構(gòu)造的統(tǒng)計(jì)量KW不是組間平均平方和除以組內(nèi)平均平 方和,而是組間平方和除以全體樣本秩方差。這個KW統(tǒng)計(jì)量是我們判定各組之間是否存在 差異的有力依據(jù)。設(shè)有組樣本,是第組樣本中的觀察數(shù),是所有樣本中的觀察總數(shù),是第組樣本中的秩和, 是第組樣本中的第個觀察值的秩值。需要檢驗(yàn)的原假設(shè)為各組之間不存在差異,或者說各組 的樣本來自的總體具有相同的中心或均值或中

12、位數(shù)。在原假設(shè)為真時(shí),各組樣本的秩平均應(yīng) 該與全體樣本的秩平均件2 + + = 竺比較接近。所以組間平方和為n2組間平方和=ni i=11、 n +1-2 J組間平方和=ni i=11、 n +1-2 JJ恰好是刻畫這種接近程度的一個統(tǒng)計(jì)量,除以全體樣本秩方差,可以消除量綱的影響。樣本 方差的自由度為n-1。所以,全體樣本的秩方差為(29.1)1須另仁n +1 )2全體樣本的秩方差=7乙乙I R -n -1 i=1 j=12 J黨,-Wn -1 = 2 Jn(n +1)2)(29.2)1 ( n(n + 1)(2n +1) n(n +1)2 n-164 Jn(n +1)=12因此,Kruska

13、l-Wallis秩和統(tǒng)計(jì)量KW為:組間平方和KW =全體樣本的秩方差nin + 1V12 亍,nn(n +1) l=112 M -3(n +1)n(n +1) . n如果樣本中存在結(jié)值,需要調(diào)整公式(4.3.3)中的KW統(tǒng)計(jì)量,校正系數(shù)C為:(29.3)(29.4)其中,第j個結(jié)值的個數(shù)。調(diào)整后的KWc統(tǒng)計(jì)量為:(29.5)KWc = KW / C(29.5)如果每組樣本中的觀察數(shù)目至少有5個,那么樣本統(tǒng)計(jì)量KWc非常接近自由度為k -1的 卡方分布。因此,我們將用卡方分布來決定KWc統(tǒng)計(jì)量的檢驗(yàn)。例29.1某制造商雇用了來自三個本地大學(xué)的雇員作為管理人員。最近,公司的人事部門 已經(jīng)收集信息并

14、考核了年度工作成績。從三個大學(xué)來的雇員中隨機(jī)地抽取了三個獨(dú)立樣本, 見表29.1中的第2、4、6列所示。制造商想知道來自這三個不同的大學(xué)的雇員在管理崗位上 的表現(xiàn)是否有所不同。表29.1來自三個不同大學(xué)的雇員得分及統(tǒng)一秩值雇員大學(xué)A統(tǒng)編秩大學(xué)B統(tǒng)編秩大學(xué)C統(tǒng)編秩12536095072701220270123609304609485171518015.5595204069018.569018.5355701278015.57514秩和組A秩和95組B秩和27組C秩和88為了計(jì)算KW統(tǒng)計(jì)量,我們首先必須將來自三個大學(xué)的20名雇員統(tǒng)一按考核成績編排秩 值,見表29.1中的第3、5、7列所示。本例中,

15、丁 7, %= 6, %=7, n = 20,七=95,氣廣27, %廣88, S3,H0:三個總體的考核成績分布是相同的。我們用(29.3)式計(jì)算KW統(tǒng)計(jì)量為:KW1220(21)(95)2KW1220(21)(95)2 * (27 * 性767-3(20 +1) = 8.9163用(29.4)式計(jì)算校正系數(shù)C,從表29.1中我們可以發(fā)現(xiàn),相等成績值和相等的個數(shù)分別為60分3個,70分3個,80分2個,90分2個。所以:(33 - 3 + 33 - 3 + 23 - 2 + 23 - 2)203 - 20C = 1 - ) = 203 - 20調(diào)整后的KW為:cKW = KW /C = 8.

16、9163/0.9925 = 8.9839查表可知道,自由度為左-1 = 2的卡方分布,在a = 0.05顯著水平下,分布的上尾臨界 值為5.99,由于8.985.99,因此拒絕原假設(shè)。所以,秩和最低的B組至少與秩和最高的A 組是不同的。五、freq頻數(shù)過程Freq頻數(shù)過程可以生成單向和n向的頻率表和交叉表。對于雙向表(二維表),該過程計(jì) 算檢驗(yàn)統(tǒng)計(jì)量和關(guān)聯(lián)度。對于n向表,該過程進(jìn)行分層分析,計(jì)算每一層和交叉層的統(tǒng)計(jì)量。 這些頻數(shù)也能夠輸出到SAS數(shù)據(jù)集里。1. freq過程說明proc freq 過程一般由下列語句控制:procfreqdata=數(shù)據(jù)集選項(xiàng); by變量列表;tables交叉表的

17、表達(dá)式; weight 變量; output ; run ;該過程proc freq語句是必需的。其余語句是供選擇的。另外,該過程只能使用一個output語句。proc freq語句的選項(xiàng)order=freq/data/internal/formatted 規(guī)定變量水平的排列次序。freq表示按頻數(shù)下 降的次序,data表示按輸入數(shù)據(jù)集中出現(xiàn)的次序,internal表示按非格式化值的次序(缺省 值),formatted按格式化值的次序。f0rmachar(1,2,7)=,三個字符 規(guī)定用來構(gòu)造列聯(lián)表的輪廓線和分隔線的字符。 缺省值為formachar(1,2,7)= |+,第一個字符用來表示垂

18、直線,第二個字符用來表示水 平線,第三個字符用來表示水平與垂直的交叉線。page要求freq每頁只輸出一張表。否則,按每頁行數(shù)允許的空間輸出幾張表。noprint禁止freq過程產(chǎn)生所有輸出。by語句一個by語句能夠用來得到由by變量定義的分組觀察,并分別進(jìn)行分析。過程要求輸入 的數(shù)據(jù)集己按by變量排序。tables 語句可以包括多個tables語句。如果沒有tables語句,對數(shù)據(jù)集中的每個變量都生成一個單向 頻數(shù)表。如果tables語句沒有選項(xiàng),則計(jì)算tables語句中規(guī)定變量每個水平的頻數(shù)、累計(jì)頻數(shù)、 占總頻數(shù)的百分比及累計(jì)百分比。Tables語句中的交叉表的表達(dá)式,請參見第二章第二節(jié)p

19、roc tabulate過程中的table語句 的用法。Tables語句中的主要選項(xiàng)如下:all求計(jì)算所有選項(xiàng)的檢驗(yàn)和度量,包括chisq、measures和cmh。chisq 求對每層是否齊性或獨(dú)立性進(jìn)行卡方檢驗(yàn),包括pearson卡方、似然比 卡方和Mantel-Haenszel卡方。并計(jì)算依賴于卡方統(tǒng)計(jì)量的關(guān)聯(lián)度,包括phi系數(shù)、列聯(lián)系 數(shù)和Cramer V。對于2X2聯(lián)列表還自動計(jì)算Fisher的精確檢驗(yàn)。cmh 求Cochran-Mantel-Haenszel卡方統(tǒng)計(jì)量,用于2維以上表時(shí),檢驗(yàn)行變量和列變量是否有線性相關(guān)。exact要求對大于2X2表計(jì)算Fisher的精確檢驗(yàn)。Fis

20、her的精確檢驗(yàn)是假設(shè)行與列的邊緣頻數(shù)固定,并且在零假設(shè)為真時(shí),各種可能的表的超幾何概率之和。measures求計(jì)算若干個有關(guān)相關(guān)的統(tǒng)計(jì)量及它們的漸近標(biāo)準(zhǔn)誤差。alpha=p設(shè)定100 (1p) %置信區(qū)間。缺省值為alpha=0.05。scores=rank/table/ridit/modridit定義行/列得分的類型以便用于cmh統(tǒng)計(jì)量和pearson相關(guān)中。在非參數(shù)檢驗(yàn)中,一般常用scores=rank,用于指定非參數(shù)分析的秩得分。cellchi2要求輸出每個單元對總卡方統(tǒng)計(jì)量的貢獻(xiàn)。cumcol要求在單元中輸出累計(jì)列百分?jǐn)?shù)。expected 獨(dú)立性(或齊性)假設(shè)下,要求輸出單元頻數(shù)的期

21、望值。deviation求輸出單元頻數(shù)和期望值的偏差。missprint要求所有頻數(shù)表輸出缺失值的頻數(shù)。missing求把缺失值當(dāng)作非缺失值看待,在計(jì)算百分?jǐn)?shù)及其他統(tǒng)計(jì)量時(shí)包括它們。out=輸出數(shù)據(jù)集建立一個包括變量值和頻數(shù)的輸出數(shù)據(jù)集。sparse求輸出在制表要求中變量水平的所有可能組合的信息。list以表格形式打印二維表。nocum/norow/nocol/nofreq/noprint分別不輸出累計(jì)頻率數(shù)、行百分率、列百分率、單元頻數(shù)、頻數(shù)表。weight 語句通常每個觀察對頻數(shù)計(jì)數(shù)的貢獻(xiàn)都是1。然而當(dāng)使用weight語句時(shí),每個觀察對頻數(shù)計(jì) 數(shù)的貢獻(xiàn)為這個觀察對應(yīng)的權(quán)數(shù)變量的值。outp

22、ut 語句該語句用于創(chuàng)建一個包含由proc freq過程計(jì)算的統(tǒng)計(jì)量的SAS數(shù)據(jù)集。由output語句創(chuàng) 建的數(shù)據(jù)集可以包括在tables語句中要求的任意統(tǒng)計(jì)量。當(dāng)有多個tables語句時(shí),output語句 創(chuàng)建的數(shù)據(jù)集的內(nèi)容相應(yīng)于最后要求的那個表。六、實(shí)例分析例291的SAS程序如下: data study.colleges ; do group=1 to 3; input n; do i=1 to n;input x ;output;end; end; cards;725 70 60 85 95 90 80 660 20 30 15 40 35 750 70 60 80 90 70 75;

23、proc npar1way data=study.colleges wilcoxon; class group; var x;run;程序說明:建立輸入數(shù)據(jù)集colleges,數(shù)據(jù)的輸入和完全隨機(jī)化方差分析的數(shù)據(jù)輸入完 全相同,先輸入本組數(shù)據(jù)的總數(shù),然后輸入組中每個數(shù)據(jù)。分組變量group,共有三組取值 為1、2和3。輸入變量為X,存放每組中的數(shù)據(jù)。過程步調(diào)用nparlway過程,后面用選擇項(xiàng) wilcoxon,當(dāng)樣本數(shù)大于兩個時(shí),自動進(jìn)行多樣本的Kruskal-Wallis秩和檢驗(yàn)。class語句后給 出分組變量名group,var語句后給出要分析的變量X。主要結(jié)果如表29.2所示。表29.2 用nparlway過程進(jìn)行多樣本比較的Kruskal-Wallis秩和檢驗(yàn)輸出結(jié)果N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable XClassified by Variable GROUPSum ofExpecte

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論