非參數(shù)統(tǒng)計(jì)分析PPT_第1頁
非參數(shù)統(tǒng)計(jì)分析PPT_第2頁
非參數(shù)統(tǒng)計(jì)分析PPT_第3頁
非參數(shù)統(tǒng)計(jì)分析PPT_第4頁
非參數(shù)統(tǒng)計(jì)分析PPT_第5頁
已閱讀5頁,還剩84頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、關(guān)于非參數(shù)統(tǒng)計(jì)分析2022/9/141第一張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/142思考的要點(diǎn) 各種檢驗(yàn)方法的思路 各種檢驗(yàn)方法統(tǒng)計(jì)量的構(gòu)造 各種檢驗(yàn)方法的應(yīng)用場(chǎng)合 在SAS與R中如何完成 第二張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/143第一節(jié) 符號(hào)檢驗(yàn)第二節(jié) Cox-Stuart趨勢(shì)檢驗(yàn) 第三節(jié) 游程檢驗(yàn)第四節(jié) Wilcoxon符號(hào)秩檢驗(yàn)第五節(jié) 正態(tài)記分檢驗(yàn)第六節(jié) 與參數(shù)檢驗(yàn)相對(duì)效率比較第三張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/144符號(hào)檢驗(yàn)的統(tǒng)計(jì)量為B=得正號(hào)的個(gè)數(shù)。 符號(hào)檢驗(yàn)。設(shè)隨機(jī)變量X1,Xn是從某個(gè)總體X中抽出的簡(jiǎn)單隨機(jī)樣本。

2、且分布函數(shù)F(X)在X=0是連續(xù)的。假設(shè)檢驗(yàn)問題檢驗(yàn)的統(tǒng)計(jì)量可以取B。 第一節(jié) 符號(hào)檢驗(yàn) 在原假設(shè)為真的條件下,B服從參數(shù)為n和0.5的二項(xiàng)分布b(n,0.5)。由于原假設(shè)為真時(shí),B應(yīng)該不太大,也不太小,如果B太大或太小,應(yīng)該拒絕原假設(shè)。第四張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/145 精確的符號(hào)檢驗(yàn)是指檢驗(yàn)的p值是由精確的概率給出的。 我們利用正號(hào)和負(fù)號(hào)的數(shù)目,來檢驗(yàn)?zāi)臣僭O(shè),這是一種最簡(jiǎn)單的非參數(shù)方法。 【例4】聯(lián)合國(guó)人員在世界上71個(gè)大城市的生活花費(fèi)指數(shù)(上海是44位,數(shù)據(jù)為63.5)按自小至大的次序排列如下。一、精確中位數(shù)的符號(hào)檢驗(yàn)第五張,PPT共八十九頁,創(chuàng)作于202

3、2年6月2022/9/146 有人說64應(yīng)該是這種大城市花費(fèi)指數(shù)的中位數(shù),有人說64頂多是低位數(shù)(下四分位數(shù)),進(jìn)行檢驗(yàn)。數(shù)據(jù)如下: 122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5, 89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9, 77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2, 67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5, 62.7,60.

4、8,58.2,55.5,55.3,55,54.9,52.7,51.8, 49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5, 36.4,32.7,32.7,32.2,29.1,27.8,27.8第六張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/147第七張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/148 通常在正態(tài)總體分布的假設(shè)下,關(guān)于總體均值的假設(shè)檢驗(yàn)和區(qū)間估計(jì)是用與t檢驗(yàn)有關(guān)的方法進(jìn)行的。然而,在本例中,總體分布是未知的。為此,首先看該數(shù)據(jù)的直方圖從圖中很難說這是什么分布。假定用總體中位數(shù)來表示中間位置,這意味著樣

5、本點(diǎn),取大于me的概率應(yīng)該與取小于me的概率相等。所研究的問題,可以看作是只有兩種可能“成功”或“失敗”。 第八張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/149符號(hào)檢驗(yàn)的思路,記成功:X-0大于零,即大于中位數(shù)M,記為“+”;失?。篨-0小于零,即小于中位數(shù)M,記為“-”。令 S+=得正符號(hào)的數(shù)目 S=得負(fù)符號(hào)得數(shù)目可以知道S+或S 均服從二項(xiàng)分布B(65,0.5)。則可以用來作檢驗(yàn)的統(tǒng)計(jì)量。其假設(shè)為:第九張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1410關(guān)于非參數(shù)檢驗(yàn)統(tǒng)計(jì)量需要說明的問題 在非參數(shù)檢驗(yàn)中,可以得到兩個(gè)相互等價(jià)的統(tǒng)計(jì)量,比如在符號(hào)檢驗(yàn)中,得負(fù)號(hào)與得正

6、好的個(gè)數(shù),就是一對(duì)等價(jià)的統(tǒng)計(jì)量,因?yàn)镾+S-=N。那么我們?cè)跈z驗(yàn)時(shí)應(yīng)該用那個(gè)呢?約定選擇統(tǒng)計(jì)量第十張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1411假設(shè)檢驗(yàn)統(tǒng)計(jì)量S-=28是得負(fù)號(hào)的個(gè)數(shù)得正號(hào)的個(gè)數(shù)43。P-值檢驗(yàn)的結(jié)果拒絕零假設(shè)結(jié)論中位數(shù)大于64第十一張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1412該檢驗(yàn)R的代碼 x-c(122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5, 89.4,86.4,86.2,85.7,82.6,81,80.9,

7、79.1,77.9, 77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2, 67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5, 62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8, 49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5, 36.4,32.7,32.7,32.2,29.1,27.8,27.8)y=sum(sign(x-64)=1)pbinom(71-y,71,0.50)第十二張,PPT共八十九頁,創(chuàng)作于2022年6月2

8、022/9/1413二、大樣本的情形 當(dāng)樣本容量足夠大,我們可以利用二項(xiàng)分布的正態(tài)近似來對(duì)該問題進(jìn)行檢驗(yàn)。因?yàn)橛?jì)數(shù)統(tǒng)計(jì)量在原假設(shè)為真時(shí),服從b(n,0.5)。且其均值為0.5n,方差為0.25n。則檢驗(yàn)的統(tǒng)計(jì)量為 第十三張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1414第二節(jié) Cox-Stuart趨勢(shì)檢驗(yàn) 人們經(jīng)常要看某項(xiàng)發(fā)展的趨勢(shì)但是從圖表上很難看出是遞增,遞減,還是大致持平 【例5】我國(guó)自1985年到1996年出口和進(jìn)口的差額(balance)為(以億美元為單位) 149.0 119.7 37.7 77.5 66.0 87.4 80.5 43.5 122.2 54.0 167

9、.0 122.2 從這個(gè)數(shù)字,我們能否說這個(gè)差額總的趨勢(shì)是增長(zhǎng),還是減,還是都不明顯呢?下圖為該數(shù)據(jù)的點(diǎn)圖從圖可以看出,總趨勢(shì)似乎是增長(zhǎng),但1993年有個(gè)低谷;這個(gè)低谷能否說明總趨勢(shì)并不是增長(zhǎng)的呢?我們希望能進(jìn)行檢驗(yàn)第十四張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1415第十五張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1416三種假設(shè): 怎么進(jìn)行這些檢驗(yàn)?zāi)?可以把每一個(gè)觀察值和相隔大約n2的另一個(gè)觀察值配對(duì)比較;因此大約有n2個(gè)對(duì)子然后看增長(zhǎng)的對(duì)子和減少的對(duì)子各有多少來判斷總的趨勢(shì)具體做法為取 和 。這里第十六張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/

10、1417 在這個(gè)例子中n=12,因而c6。這6個(gè)對(duì)子為(x1,x7),(x2,x8),(x3,x9),(x4,x10),(x5,xl1),(x6,x12)。第十七張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1418 用每一對(duì)的兩元素差Di=xi-xi+c的符號(hào)來衡量增減。令S+為正Di=xi-xi+c的數(shù)目,而令S-為負(fù)的Di=xi-xi+c的數(shù)。顯然當(dāng)正號(hào)太多時(shí),即S+很大時(shí)(或S-很小時(shí)),有下降趨勢(shì),反之,則有增長(zhǎng)趨勢(shì)在沒有趨勢(shì)的零假設(shè)下它們應(yīng)服從二項(xiàng)分布b(6,0.5),這里n為對(duì)子的數(shù)目(不包含差為0的對(duì)子)。該檢驗(yàn)在某種意義上是符號(hào)檢驗(yàn)的一個(gè)特例。第十八張,PPT共八十

11、九頁,創(chuàng)作于2022年6月2022/9/1419 類似于符號(hào)檢驗(yàn),對(duì)于上面1,2,3三種檢驗(yàn),分別取檢驗(yàn)統(tǒng)計(jì)量K=S+,K=S-和K=min(S+,S-)。在本例中,這6個(gè)數(shù)據(jù)對(duì)的符號(hào)為 5負(fù)1正, 所以我們不能拒絕原假設(shè)。 假設(shè)統(tǒng)計(jì)量 P值K=min(S+,S-)P(Kk)K=min(S+,S-)P(Kk)K=min(S+,S-)2P(Kk)第十九張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1420 【 例6 】天津機(jī)場(chǎng)從1995年1月到2003年12月的108個(gè)月旅客旅客吞吐量數(shù)據(jù)如下: 54379 45461 55408 59712 60776 57635 63335 712

12、96 70250 76866 75561 66427 61330 58186 67799 76360 86207 75509 83020 89614 75791 80835 72179 61520 66726 60629 68549 73310 80719 67759 70352 82825 70541 74631 68938 53318 62653 58578 63292 69535 73379 62859 72873 87260 67559 76647 70590 58935 58161 64057 63051 58807 63663 57367 70854 79949 66992 801

13、40 62260 55942 58367 56673 61039 74958 85859 67263 87183 97575 79988 88501 68600 58442 68955 56835 67021 81547 85118 70145 95080 106186 86103 88548 70090 65550 69223 85138 89799 99513 98114 68172 97366 116820 95665 109881 87068 75362 88268 85183 87909 79976 27687 50178 100878 131788 116293 120770 10

14、4958 109603討論是否存在顯著的增長(zhǎng)趨勢(shì)。 第二十張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1421第二十一張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1422SPSS無此檢驗(yàn),我們用R完成該檢驗(yàn),代碼如下。x-c(54379,45461,55408,59712,60776,57635,63335,71296,70250,76866,75561,66427,61330,58186,67799,76360,86207,75509,83020,89614,75791,80835,72179,61520,66726,60629,68549,73310,80719,6

15、7759,70352,82825,70541,74631,68938,53318,62653,58578,63292,69535,73379,62859,72873,87260,67559,76647,70590,58935,58161,64057,63051,58807,63663,57367,70854,79949,66992,80140,62260,55942,58367,56673,61039,74958,85859,67263,87183,97575,79988,88501,68600,58442,68955,56835,67021,81547,85118,70145,95080,1

16、06186,86103,88548,70090,65550,69223,85138,89799,99513,98114,68172,97366,116820,95665,109881,87068,75362,88268,85183,87909,79976,27687,50178,100878,131788,116293,120770,104958,109603) d=x1:54-x55:108 y=sum(sign(d)=1) pbinom(y,54,0.5) 直接得到p值=0.0019190.05,拒絕無趨勢(shì)的原假設(shè)原假設(shè)。第二十二張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/14

17、23補(bǔ)充:檢驗(yàn)的p值 在假設(shè)檢驗(yàn)中,常常通過檢驗(yàn)的p值來決策。 p值為拒絕原假設(shè)的最小概率。對(duì)于t檢驗(yàn),如果計(jì)算出的統(tǒng)計(jì)量的值為t0,則左尾檢驗(yàn)的p值為概率p(t t0)右尾檢驗(yàn)的p值為概率p(t t0)雙尾檢驗(yàn)的p值為概率p(|t| t0|)。 但是對(duì)于非參數(shù)檢驗(yàn)來說由于有兩個(gè)等價(jià)的統(tǒng)計(jì)量,如得正號(hào)的個(gè)數(shù)與得負(fù)號(hào)的個(gè)數(shù)之和等于樣本容量n;兩個(gè)總體的秩和等于N(N+1)/2。第二十三張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1424 比如是左側(cè)檢驗(yàn),如果總體真實(shí)的中位數(shù)比假設(shè)的小,則檢驗(yàn)的統(tǒng)計(jì)量w+表現(xiàn)出過小, w-表現(xiàn)出大,檢驗(yàn)的p值為p( w+w小),此時(shí)用的最小的統(tǒng)計(jì)量。對(duì)

18、于右側(cè)檢驗(yàn),如果總體真實(shí)的中位數(shù)比假設(shè)的大,則檢驗(yàn)的統(tǒng)計(jì)量w+表現(xiàn)出過大, w-表現(xiàn)出小。檢驗(yàn)的p值為p( w+w大)。實(shí)際上 p( w+w大) = p( -w+-w大) = pN(N+1)/2-w+ N(N+1)/2 -w大 = pw-w小 可見檢驗(yàn)的統(tǒng)計(jì)量用k=min(w+,w-)是合理的。另外雙側(cè)檢驗(yàn)的p值是單側(cè)的兩倍。第二十四張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1425 游程檢驗(yàn)是樣本的隨機(jī)性檢驗(yàn),其用途很廣。例如當(dāng)我們要考察生產(chǎn)中次品出現(xiàn)是隨機(jī)的,還是成群的,一個(gè)時(shí)間序列是平穩(wěn)的還是非平穩(wěn)的。第三節(jié) 游程檢驗(yàn)第二十五張,PPT共八十九頁,創(chuàng)作于2022年6月202

19、2/9/1426 從生產(chǎn)線上抽取產(chǎn)品檢驗(yàn),是否應(yīng)采用頻繁抽取小樣本的方法。在一個(gè)剛剛建成的制造廠內(nèi),質(zhì)檢員需要設(shè)計(jì)一種抽樣方法,以保證質(zhì)量檢驗(yàn)的可靠性。生產(chǎn)線上抽取的產(chǎn)品可以分成兩類,有瑕疵,無瑕疵。檢驗(yàn)費(fèi)用與受檢產(chǎn)品數(shù)量有關(guān)。一般情況下,有毛病的產(chǎn)品如果是成群出現(xiàn)的,則要頻繁抽取小樣本,進(jìn)行檢驗(yàn)。如果有毛病的產(chǎn)品是隨機(jī)產(chǎn)生的,則每天以間隔較長(zhǎng)地抽取一個(gè)大樣本?,F(xiàn)隨機(jī)抽了28件產(chǎn)品,按生產(chǎn)線抽取的順序排列:0000111111111111110001111111檢驗(yàn)瑕疵的產(chǎn)品是隨機(jī)出現(xiàn)的嗎?有瑕疵的產(chǎn)品是隨機(jī)出現(xiàn) 有瑕疵的產(chǎn)品是成群出現(xiàn)第二十六張,PPT共八十九頁,創(chuàng)作于2022年6月2022

20、/9/1427 隨機(jī)抽取的一個(gè)樣本,其觀察值按某種順序排列,如果研究所關(guān)心的問題是:被有序排列的兩種類型符號(hào)是否隨機(jī)排列,則可以建立雙側(cè)備擇假設(shè)組為 H0: 序列是隨機(jī)的 H1: 序列不是隨機(jī)的(雙側(cè)檢驗(yàn))如果關(guān)心的是序列是否具有某種傾向,則應(yīng)建立單側(cè)備擇,假設(shè)組為 H0: 序列是隨機(jī)的 H1: 序列具有混合的傾向(右側(cè)檢驗(yàn),游程過多) H0: 序列是隨機(jī)的 H1: 序列具有成群的傾向(左側(cè)檢驗(yàn),游程過?。┯纬蹋哼B續(xù)出現(xiàn)的具有相同特征的樣本點(diǎn)為一個(gè)游程。第二十七張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1428 檢驗(yàn)統(tǒng)計(jì)量。在H0為真的情況下,兩種類型符號(hào)出現(xiàn)的可能性相等,其在序

21、列中是交互的。相對(duì)于一定的m和n,序列游程的總數(shù)應(yīng)在一個(gè)范圍內(nèi)。 若游程的總數(shù)過少,表明某一游程的長(zhǎng)度過長(zhǎng),意味著有較多的同一符號(hào)相連,序列存在成群的傾向; 若游程總數(shù)過多,表明游程長(zhǎng)度很短,意味著兩個(gè)符號(hào)頻繁交替,序列具有混合的傾向。選擇的檢驗(yàn)統(tǒng)計(jì)量為R游程的總數(shù)目。 第二十八張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1429可以證明則第二十九張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1430游程R的分布為,奇數(shù)時(shí)關(guān)于此可以做如下的考慮游程R的分布為,偶數(shù)時(shí)第三十張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1431 先在m+n個(gè)抽屜里隨機(jī)選擇m個(gè),抽出

22、的抽屜里放入“1”,沒有的放入“0”,所有可能基本的基本事件數(shù)為:有種。 或先在m+n個(gè)抽屜里隨機(jī)選擇n個(gè),抽出的抽屜里放入“0”,沒有的放入“1”,所有可能基本的基本事件數(shù)為:有種。第三十一張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1432 1、必定有k+1個(gè)由“1”構(gòu)成的游程和k個(gè)由 “0”構(gòu)成的游程; 2、或必定有k+1個(gè)由“0”構(gòu)成的游程和k個(gè)由 “1”構(gòu)成的游程。如果游程數(shù)為奇數(shù)R=2K1,這意味著:第三十二張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1433 這就必須在m1個(gè)位置中插入K個(gè)“隔離元”,使有 “1”有k+1個(gè)游程,可以有 種,同樣可以在n-1

23、個(gè)“0”的n-1個(gè)空位上插入K-1個(gè)“隔離元”,有 種。共有有利基本事件數(shù) 。第三十三張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1434在第二種情形下,有 故:得同理第三十四張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1435備擇假設(shè)P值序列具有混合的傾向右尾概率序列具有聚類的傾向左尾概率序列是非隨機(jī)的較小的左尾概率的兩倍第三十五張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1436 【例7】,在我國(guó)的工業(yè)和商業(yè)企業(yè)隨機(jī)抽出22家進(jìn)行資產(chǎn)負(fù)債率行業(yè)間的差異比較。有如下資料:這兩個(gè)行業(yè)的負(fù)債水平是否相等。 首先,設(shè) “1”為工業(yè),“2”為商業(yè),將兩個(gè)行業(yè)的數(shù)據(jù)

24、排序,得行業(yè)編號(hào)得游程: 1 1 1 1 1 2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 2 2工業(yè)647655825982707561647383商業(yè)7780806593918491848686第三十六張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1437游程檢驗(yàn)的菜單選擇。第三十七張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1438第三十八張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1439 游程檢驗(yàn)的結(jié)果:共有21個(gè)個(gè)案,12個(gè)小于1.4286,9個(gè)大于等于1.4286。游程6個(gè)。檢驗(yàn)的統(tǒng)計(jì)量的值為-2.19,相應(yīng)的漸近p值=0.029,

25、則拒絕原假設(shè)。第三十九張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1440 【例8】公司委托市場(chǎng)調(diào)查公司進(jìn)行隨機(jī)抽樣調(diào)查。為了對(duì)調(diào)查表的真?zhèn)芜M(jìn)行判斷,市場(chǎng)調(diào)查公司按順序抽取了20份問卷。其中消費(fèi)者每年消費(fèi)該公司的產(chǎn)品的花費(fèi)數(shù)據(jù)如下表,分析問卷數(shù)據(jù)是否真實(shí)。用游程檢驗(yàn)。樣本編號(hào)12345678910消費(fèi)額405205245465257234445375291291樣本編號(hào)11121314151617181920消費(fèi)額261210305295125257260197160150第四十張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1441 檢驗(yàn)結(jié)果說明p值=0.808,不能拒絕

26、隨機(jī)數(shù)據(jù)的原假設(shè)。第四十一張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1442第四節(jié) 單樣本的Wilcoxon符號(hào)秩檢驗(yàn) 一、 Wilcoxon符號(hào)秩檢驗(yàn) 前面幾種推斷的方法都只依賴于數(shù)據(jù)的符號(hào),即方向。沒有考慮數(shù)據(jù)的大小,Wilcoxon符號(hào)秩檢驗(yàn)是檢驗(yàn)關(guān)于中位數(shù)對(duì)稱的總體的中位數(shù)是否等于某個(gè)特定值,檢驗(yàn)的假設(shè): 第四十二張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1443 檢驗(yàn)的步驟: 1. 計(jì)算 ,它們代表這些樣本點(diǎn)到 的距離; 2. 把上面的n個(gè)絕對(duì)值排序,并找出它們的n個(gè)秩;如果有相同的樣本點(diǎn),每個(gè)點(diǎn)取平均秩(如1,4,4,5的秩為1,2.5,2.5,4),然

27、后分別將得正號(hào)的秩和得負(fù)號(hào)的秩相加。另指滿足括號(hào)里的條件等于1,不滿足等于零。第四十三張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1444 3. 雙 在零假設(shè)下, 和 應(yīng)差不多因而,當(dāng)其中之一非常小時(shí),應(yīng)懷疑零假設(shè);取檢驗(yàn)統(tǒng)計(jì)量T=min( , ); 第四十四張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1445統(tǒng)計(jì)量的均值和方差如下:第四十五張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1446 5. 根據(jù)得到的T值,查Wilcoxon符號(hào)秩檢驗(yàn)的分布表以得到在零假設(shè)下p值如果n很大要用正態(tài)近似:得到一個(gè)與T有關(guān)的正態(tài)隨機(jī)變量Z的值,再查表得P值或直接用計(jì)算機(jī)

28、得到P值。第四十六張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1447Wilcoxon符號(hào)秩檢驗(yàn)表假設(shè)檢驗(yàn)的統(tǒng)計(jì)量P值 第四十七張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1448 【例9】 歐洲10個(gè)城鎮(zhèn)每人每年平均消費(fèi)酒類相當(dāng)于純酒精數(shù)(單位:升)。 4.12 5.81 7.63 9.74 10.39 11.92 12.32 12.89 13.54 14.45。人們普遍認(rèn)為其中位數(shù)為8。檢驗(yàn)該假設(shè)。 x-c(4.12,5.81,7.63,9.74,10.39,11.92,12.32,12.89,13.54,14.45) wilcox.test(x-8)第四十八張,P

29、PT共八十九頁,創(chuàng)作于2022年6月2022/9/1449 Wilcoxon signed rank testdata: x - 8 V = 46, p-value = 0.06445alternative hypothesis: true location is not equal to 0 第四十九張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1450 【例10】為了了解垃圾郵件對(duì)大型公司決策層工作的影響程度,某個(gè)網(wǎng)站收集了19家大型公司的CEO每天收到的垃圾郵件件數(shù),得到如下數(shù)據(jù): 310,350,370,375,385,400,415,425,440,195, 325,295

30、,250,340,295,365,375,360,385 檢驗(yàn)收到的垃圾郵件的數(shù)量的中間位置是否超過了320封。第五十張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1451x-c(310,350,370,375,385,400,415,425,440,195, 325,295,250,340,295,365,375,360,385) wilcox.test(x-320)data: x - 320 V = 146, p-value = 0.04207alternative hypothesis: true location is not equal to 0 第五十一張,PPT共八十九

31、頁,創(chuàng)作于2022年6月2022/9/1452注 Holdges-Lemmann 估計(jì)量 定義2.1 假設(shè)X1, X2, Xn為簡(jiǎn)單隨機(jī)樣本,計(jì)算任意兩個(gè)樣本點(diǎn)的平均數(shù),從而得到一個(gè)樣本長(zhǎng)度為n(n+1)/2的新的數(shù)據(jù),這組數(shù)據(jù)稱為Walsh平均值,即第五十二張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1453 定理 由定義2.1,Wilcoxon符號(hào)秩統(tǒng)計(jì)量W+可以表示為 即W+是Walsh平均值中符號(hào)為正的個(gè)數(shù)。如果中心是,則定義 即W+()是檢驗(yàn)的統(tǒng)計(jì)量。第五十三張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1454 定義2.2 假定假設(shè)X1, X2, Xn為F(X

32、)的簡(jiǎn)單隨機(jī)樣本,如果F(X)為對(duì)稱,則定義Walsh中位數(shù)如下: 作為的Holdges-Lemmann 估計(jì)量。 第五十四張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1455 從應(yīng)用的角度看,這種中位數(shù)的計(jì)算對(duì)于樣本容量非常小時(shí),更為合理。比如X11季節(jié)調(diào)整中,季節(jié)變動(dòng)和不規(guī)則變動(dòng)相對(duì)數(shù)的平均值,就是計(jì)算的Holdges-Lemmann 中位數(shù)估計(jì)量。 補(bǔ)充: X11季節(jié)調(diào)整。第五十五張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1456 定理 假定假設(shè)X1, X2, Xn為F(X)的簡(jiǎn)單隨機(jī)樣本,如果F(X)為對(duì)稱,則定義Walsh平均,記為 WA(1),WA(),W

33、A(),則 其中第五十六張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1457x-c(4.12,5.81,7.63,9.74,10.39,11.92,12.32,12.89,13.54,14.45)walsh=NULLi-c(1:10)for(i in 1:10)for(j in i:10)walsh=c(walsh,(xi+xj)/2)walsh=sort(walsh)qsignrank(0.025,10)第五十七張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1458 為了了解垃圾郵件對(duì)大型公司決策層工作的影響程度,某個(gè)網(wǎng)站收集了19家大型公司的CEO影響每天收到的垃圾郵

34、件件數(shù),得到如下數(shù)據(jù): 310 350 370 375 385 400 415 425 440 195 325 295 250 340 295 365 375 360 385從平均的意義看,收到的垃圾郵件的數(shù)量的中間位置是否超過了320封。第五十八張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1459data a;input x1-x19;cards; 310 350 370 375 385 400 415 425 440 195 325 295 250 340 295 365 375 360 385 ;%macro PGI;data b;set a;%do i=1 %to 19;%

35、do j=&i %to 19;walsh =(x&i+X&j)/2;if walsh then output;keep walsh;%end;%end;%mend;%PGI;第五十九張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1460proc print data=b;run;proc sort data=b out=b2;by walsh;proc print data=b2;run;data b3;set b2;n+1;l=int(19*20/4-1.96*(19*20*39/24)*0.5)+1;if n=95 then output;if n=96 then output;

36、else delete;proc print data=b3;run;第六十張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1461 Obs walsh n l 1 355.0 95 47 2 357.5 96 47第六十一張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1462第五節(jié) 正態(tài)得分檢驗(yàn) (一)思想 在各種各樣的秩檢驗(yàn)中,檢驗(yàn)的統(tǒng)計(jì)量為秩的函數(shù),而秩本身在沒有結(jié)時(shí)是有限個(gè)自然數(shù)的排列,它的分布是均勻分布。人們自然會(huì)用其他分布的樣本。自然我們會(huì)想到正態(tài)分布。正態(tài)記分檢驗(yàn)的基本思想就是把升冪排列的秩Ri用升冪排列的正態(tài)分位點(diǎn)來替代。我們?cè)赪ilcoxon符號(hào)檢驗(yàn)的基礎(chǔ)上

37、,建立線性符號(hào)秩統(tǒng)計(jì)量。第六十二張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1463 正態(tài)記分檢驗(yàn)的基本思想就是: 把升冪排列的秩用升冪排列的正態(tài)分位點(diǎn)來替代。首先將按升冪排列,記秩為第六十三張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1464例如Wilcoxon統(tǒng)計(jì)量為Wilcoxon記分函數(shù)1n-1n累積概率1/(n+1)(n-1)/(n+1)n/(n+1)正態(tài)記分函數(shù)例如正態(tài)記分檢驗(yàn)統(tǒng)計(jì)量為第六十四張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1465正態(tài)積分檢驗(yàn)的統(tǒng)計(jì)量為:第六十五張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1466 (二)

38、 檢驗(yàn) 檢驗(yàn)的假設(shè)為:第六十六張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1467則檢驗(yàn)的統(tǒng)計(jì)量為 第六十七張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1468 例、下面的數(shù)據(jù)是亞洲10個(gè)國(guó)家的新生兒死亡率() 33 36 31 15 9 6 4 65 77 88 第六十八張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1469 秩 符號(hào)秩 平方33110.090909-1.33518-1.335181.78270136220.181818-0.90846-0.908460.82529531330.272727-0.60459-0.604590.36552315

39、1940.363636-0.34876-0.348760.12163192550.454545-0.11419-0.114190.01303862860.5454550.1141850.1141850.01303843070.6363640.3487560.3487560.121631653180.7272730.6045850.6045850.365523774390.8181820.9084580.9084580.8252958854100.9090911.3351781.3351781.782701合計(jì)6.216376第六十九張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1470第七十張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1471接受原假設(shè)。第七十一張,PPT共八十九頁,創(chuàng)作于2022年6月2022/9/1472 假定表示犯第一類錯(cuò)誤的概率,而表示犯第二類錯(cuò)誤的概率(檢驗(yàn)的勢(shì)為1- )。對(duì)于任意的檢驗(yàn)T,理論上總可以找到樣本容量n,使該檢驗(yàn)滿足固定的和。顯然為了達(dá)到這個(gè)要求,需要樣本容量大的檢驗(yàn)就不如需要樣本容量小的檢驗(yàn)效率高。為了達(dá)到同樣的和,檢驗(yàn)T1需要n1個(gè)樣本點(diǎn),檢驗(yàn)T2需要n2個(gè)樣本點(diǎn).我們用n1/n2來定義T2相對(duì)于T1的效率。當(dāng)然這個(gè)比值越大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論