第8章 非參數檢驗_第1頁
第8章 非參數檢驗_第2頁
第8章 非參數檢驗_第3頁
第8章 非參數檢驗_第4頁
第8章 非參數檢驗_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第八章非參數檢驗第一節(jié)非參數檢驗概述第二節(jié)符號檢驗與符秩檢驗第三節(jié)秩和檢驗與檢驗第四節(jié)等級相關檢驗第五節(jié)

Excel在非參數檢驗中的 應用第一節(jié)非參數檢驗概述一什么是非參數檢驗二非參數檢驗的優(yōu)缺點一、什么是非參數檢驗所謂非參數檢驗,又被稱為自由分布檢驗,它是一種不需要事先對總體分布的形狀加以限制而進行的假設檢驗。應當指出,這里所謂的“非參數”,只是指在檢驗的過程中,未對檢驗統(tǒng)計量服從的分布及參數做出限制,并不意味著在檢驗中“不涉及參數”或“不對參數進行檢驗”。二、非參數檢驗的優(yōu)缺點優(yōu)點:首先,檢驗條件比較寬松,適應性強。非參數檢驗對資料的要求不像參數檢驗那樣嚴格,它適合于處理諸如非正態(tài)的、方差不等的或分布形狀未知的資料。其次,自由分布檢驗的方法比較靈活,用途廣泛。它不但可以應用于處理測量層次較高的定距、定比數據,也適用于處理層次較低的定類、定序數據。對于那些不能進行加、減、乘、除運算的定類數據與定序數據,也可進行檢驗。再次,自由分布檢驗的計算相對簡單。由于自由分布的檢驗方法不用復雜計算,一般使用計數方法就可以了,它的計數過程與結果都比較簡單、直觀與明顯。缺點:它對原始數據中包含的信息利用得不夠充分,檢驗的功效相對較弱。

結論:參數檢驗與非參數檢驗是針對不同情況提出的兩種統(tǒng)計方法,它們各有優(yōu)缺點,可互為補充。第二節(jié)符號檢驗與符秩檢驗一單總體問題的符號檢驗二兩總體問題的符號檢驗三威爾科克森配對符號秩檢驗一、單總體問題的符號檢驗單總體符號檢驗適用于檢驗總體中位數是否在某一指定位置。檢驗時,可根據樣本中正號的數目來決定是否拒絕原假設:假若樣本中正號與負號的數目大體相等,這時沒有理由拒絕原假設,也就是說,總體中中位數等于0的假設有可能是對的;如果出現了太少的正號,認為樣本可能來自中位數小于0的總體;如果出現了太多的正號,認為樣本可能來自中位數大于0的總體。因為近似服從正態(tài)分布,所以通??梢詫⑵錁藴驶癁闃藴收龖B(tài)變量,作為檢驗統(tǒng)計量。即二、兩總體問題的符號檢驗兩總體符號檢驗適用于檢驗配對樣本情形下,兩總體分布在位置特征上是否有差異。所謂配對樣本,是指對每一個觀測單元(個體)作兩次觀測。假設某地區(qū)居民在經濟改革前的經濟狀況記作變量X,改革后的經濟狀況記作變量Y。第i戶居民改革前后的經濟狀況分別為xi,yi。二者之間的變化記作di=yi

xi。請注意,現在我們不關心具體數值,只關心它的符號。如果改革沒有引起居民經濟情況的變化,那么居民經濟情況的前后差異就完全是由于各種隨機因素的影響形成的(假定其它重要的影響因素都已控制不變),于是正差值的個數與負差值的個數會大體相等。把0差值舍去后,對總體(正差值與負差值組成的總體)作獨立重復貝努里試驗,每次試驗出現正號的概率是

=0.5。相反,如果改革引起了居民經濟情況的明顯好轉,則正差值的個數會比負差值的個數多。對正差值與負差值組成的總體作獨立重復貝努里試驗,每次試驗出現正號的概率是

>0.5。檢驗所針對的原假設是:

H0:改革沒有引起居民經濟情況的變化(總體X與Y沒有差別),或等價地:H0:=0.5。建立原假設為真前提下的下列檢驗統(tǒng)計量:三、威爾科克森配對符號秩檢驗以上所介紹的兩總體情形下符號檢驗方法,僅僅用配對觀測之間差別的符號進行檢驗,而不注重差別的大小,因此對資料的利用不夠充分。當配對觀測之間的差別可以從數量上來測定時,威爾科克森(Wilcoxon)配對符號秩檢驗比符號檢驗更有效。具體做法是:首先,將樣本配對觀測之間的差di=yi

xi按其絕對值|di

|大小遞增排列,并從1至n給以秩次。如果出現0差值項,就略去該項,對這樣的項不給秩次,并相應地減少樣本量n;如果出現差值相同的項,則用這些項所在位置的秩次的簡單算術平均數來代替原來的秩次。其次,對每個秩次按照di的正負號賦以正負號。再次,分別對正號秩與負號秩計算秩和,所得之秩和不帶正負號,記作∑秩(+)與∑秩()

。為檢驗兩總體平均水平是否有差異,可建立原假設H0:∑秩(+)與∑秩()

這一假設表明,在差數總體D中,正差和負差不僅個數相同,而且在均值0的兩側對稱分布。也就是表明,總體X與Y沒有差異。兩個秩中較小的一個,通常稱作威爾科克森T統(tǒng)計量,將其作為檢驗統(tǒng)計量。在原假設成立的前提下,威爾科克森T統(tǒng)計量的數學期望和方差分別是:當n≥25時(n是正負號的總數,不包括0差值項數),威爾科克森T統(tǒng)計量近似服從正態(tài)分布。這時,可構造Z統(tǒng)計量若n不夠大,T的臨界值可由附表6來確定。該表所給出的是,對一定的n和,滿足關系式P(T

T)

的值。在單尾檢驗時若T

T

,在雙尾檢驗時若TT/2

,就拒絕原假設。第三節(jié)秩和檢驗與2檢驗二皮爾遜統(tǒng)計量一秩和檢驗三分布擬合檢驗一、秩和檢驗秩和檢驗可用于檢驗兩個獨立樣本是否來自具有相同位置特征的總體。這里要求兩個總體具有相同的分布形狀(不論是何種分布形狀)。設從兩個總體中分別抽取容量為n1和n2的獨立隨機樣本。把樣本容量較小的總體叫做總體1,如果兩樣本容量相等,就任意把其中的一個叫做總體1。即,n1≤n2。設

1和

2分別是總體1和總體2的中位數。將兩個樣本混合起來,共有n=n1+n2個觀察值。把它們按遞增順序排列起來,依次賦以1,2,…,n的秩次。如果混合樣本中有若干個相同的數值,則將它們所在位置的秩簡單算術平均,用所得的均值作為這些數值的秩。用W表示來自總體1的n1個觀察值在混合樣本序中秩次之和。W的最小可能值是1+2+…+n1=

[n1(n1+1)]/2;最大可能值是(n2+1)+(n2+2)+…+(n2+n1)=n1n2+[n1(n1+1)]/2。如果總體1的分布位于總體2的右邊(1>2),W將接近它的最大可能值;如果總體1的分布位于總體2的左邊(1<2),W將接近它的最小可能值;如果二總體分布位置相同(1=2),W將等于中間值,即,(最大可能值+最小可能值)/2。秩和檢驗的原假設是:H0:1=2

。下面建立檢驗統(tǒng)計量。(1)如果n1和n2都超過10

這時,在原假設成立的前提下,W近似服從正態(tài)分布。數學期望和方差分別是 于是,可以將W化成標準正態(tài)變量(2)如果n1和n2都未超過10這時,在原假設成立的前提下,W的分布中的臨界值可由附表7確定。表中列出了樣本量為n1、n2時,P(W≤W1)=0.05、P(W≥W2)=0.05以及P(W≤W1)=0.025、P(W≥W2)=0.025的臨界值W1、W2。當W≤W1和W≥W2時,拒絕原假設(W為樣本值)。二、皮爾遜統(tǒng)計量統(tǒng)計檢驗中有時會遇到這樣一類問題:要檢驗實際頻數與理論頻數是否較為接近。為解決這類檢驗問題,統(tǒng)計學家卡爾·皮爾遜(K.Pearson)提出如下檢驗統(tǒng)計量并證明它近似服從自由度為

=組格數估計參數個數

1的2分布。式中,n是樣本量,理論頻數是由樣本量乘以由理論分布確定的組格概率計算的。求和項數為組格數目。皮爾遜2統(tǒng)計量的直觀意義十分顯然:(n)2是各組格的實際觀測頻數與理論期望頻數的相對平方偏差的總和,若(n)2值充分大,則應認為樣本提供了理論分布與統(tǒng)計分布不同的顯著證據,即假設的總體分布與總體的實際分布不符,從而應否定所假定的理論分布。所以,應當2在分布密度曲線圖的右尾部建立拒絕域。應用皮爾遜2統(tǒng)計量時要注意下列問題:1.當n充分大時,(n)2近似服從2分布,因此,皮爾遜(n)2統(tǒng)計量要在大樣本的情形下應用。2.各組格的理論頻數不應太小。一般,每一組格的理論頻數都不應小于4,否則應將小于4的組并入其他組。但是,具體應用時這一限制可以放寬:(1)若自由度不小于60,則可以不加限制;(2)若自由度不小于6,則個別理論頻數不得小于0.5即可;(3)若自由度等于2,則各理論頻數不應小于2;(4)若自由度等于1,則各理論頻數不應小于4。三、分布擬合檢驗在理論研究和實際應用中,常常根據所作隨機試驗的特點,認定無限總體的分布符合某種概率分布模型,這時,說該無限總體具有已知的分布。但是,有許多時候,無法根據所作隨機試驗認定無限總體符合何種概率分布模型。這時,便需要根據統(tǒng)計數據提供的信息,為總體選配一個合適的概率分布模型。一般作法是:首先,對樣本數據作分組整理,計算各組的頻率,稱所得到的分布列為經驗分布;其次,根據有關理論和實際知識以及經驗分布的特點,猜測無限總體的分布符合某種概率模型,稱所選擇的概率模型為理論分布;然后,用顯著性檢驗的方法,將經驗分布與理論分布作比較,檢驗觀察到的差異能否顯著地表明兩種分布的真實差異存在,如果表明真實差異存在的證據不足,則可以期望所選理論分布能較好地描述所研究的無限總體的分布規(guī)律。

這類顯著性檢驗稱作分布擬合檢驗。分布擬合檢驗 的方法很多,我們只介紹分布擬合的皮爾遜2檢驗。例8-1某鐘表廠對所生產的鐘作質量檢查。從生產過程中簡單隨機不放回地抽取350只作測試,測得每只鐘的24小時走時誤差(快或慢,不計正負號)記錄下來。要求根據這350個數據檢驗該種鐘生產過程所發(fā)生的產品走時誤差是否服從正態(tài)分布。檢驗的顯著水平標準

=0.05。解:為檢驗該種鐘生產過程所發(fā)生的產品走時誤差是否服從正態(tài)分布,原假設和備擇假設是:H0:該種鐘生產過程所發(fā)生的走時誤差服從正態(tài)分布H1:該種鐘生產過程所發(fā)生的走時誤差不服從正態(tài)分布表8-1鐘表走時誤差的經驗分布與理論分布的比較組號走時誤差(秒)實際頻數(只)i

標準化組限概率理論頻數(只)甲(1)(2)(3)(4)(5)(6)1-~1019-~-1.620.052618.4100.0189210~2025

-1.62~-1.260.051217.9202.7972320~3031

-1.26~-0.900.080328.1050.2982430~4037

-0.90~-0.530.114039.9000.2108540~5042

-0.53~-0.170.134447.0400.5400650~6046

-0.17~0.190.142849.9800.3169760~70400.19~0.550.133546.7250.9679870~80360.55~0.910.109838.4300.1537980~90300.91~1.270.079427.7900.17581090~100261.27~1.630.050517.6753.921111100~-181.63~-0.051518.0250.0001合計—n=350—13509.4006不難看出,皮爾遜(n)2統(tǒng)計量式(8.10)完全適用于解決我們這里的問題。式中的組格就是表8-1中所分的各個組(共11個組格),各組格的實際頻數是表8-1的第(2)欄,各組格的理論頻數是表8-1的第(5)欄,樣本量n是350?,F在來計算皮爾遜(n)2統(tǒng)計量的樣本值。由表8-1第(6)欄知統(tǒng)計量近似服從自由度為1121=8(共11個組格,估計了2個參數和

2)的2分布,拒絕域放在2密度曲線的右尾部。對于

=0.05的顯著水平標準,查表知臨界值為 由于 可見檢驗統(tǒng)計量的樣本值落在接受域,因此沒有理由拒絕總體為正態(tài)分布的原假設。第四節(jié)等級相關檢驗一斯皮爾曼等級相關系數二斯皮爾曼等級相關系數的統(tǒng)計檢驗三兩點說明一、斯皮爾曼等級相關系數第七章所討論的兩變量之間相關系數的前提是:兩隨機變量的聯(lián)合分布是二維正態(tài)分布。當隨機變量的分布不能滿足正態(tài)性要求時,或者所要研究的變量不是數量型變量時,通常的相關分析方法不宜使用,而需要利用斯皮爾曼等級相關系數進行考察。設對簡單隨機樣本的n個單位,就變量X、Y進行觀察。這里,要求X、Y的取值分別都是1,2,…,n這樣n個等級;樣本的n個單位分別不重復地屬于X的各個等級,也分別不重復地屬于Y的各個等級,沒有兩個單位取相同等級的情形。記di為第i個樣本單位屬于X的等級與屬于Y的等級的級差。斯皮爾曼等級相關系數rs為數學上可以證明,斯皮爾曼等級相關系數是第七章介紹的樣本相關系數的特例。樣本等級相關系數的取值范圍是-1≤rs≤1。當rs=1時,說明樣本等級資料完全正相關;當rs=-1時,說明樣本等級資料完全負相關;當rs=0時,說明樣本等級資料不相關;當0<rs

<1時,rs越接近1,正相關程度越高;當-1<rs

<0時,rs越接近-1,負相關程度越高。二、斯皮爾曼等級相關系數的

統(tǒng)計檢驗根據斯皮爾曼等級相關系數對X、Y的總體等級相關關系進行檢驗。檢驗的原假設是H0:S=0(或S≤0,或S≥0),備擇假設是H1:S≠0(或S>0,或S<0)?;驹僭OH0:S=0的含義是按兩種統(tǒng)計標志X、Y劃分的兩種等級不相關。

在樣本量n較小時(例如,n≤30),H0:S=0成立前提下,檢驗統(tǒng)計量rs的水平單側臨界值r可由附表8查出,它是滿足下列條件的最小r值:在樣本量n較大時(例如,n>30),H0:S=0成立前提下,rs近似服從正態(tài)分布N(0,1/(n-1))。因此,可以建立下面的檢驗統(tǒng)計量三、兩點說明(一)等級相關檢驗適用于變量值表現為等級的變量。不過,對于變量值表現為數值而不是等級的變量,有時也可以把它劃分為若干等級,用等級相關的方法來研究。 這樣做是出于下面的一些理由:(1)無法假定總體的分布;(2)其中有一個變量是只能用等級來反映的;(3)把測量值劃分為等級更能反映事物的本質(例如,把年齡按生命過程階段劃分比用實際年齡更便于研究生命過程的統(tǒng)計規(guī)律)。把測量值轉換為等級的方法是:首先,按實際觀察值大小排序,并賦予每個觀察值秩次;其次,把測量值的取值范圍劃分為若干等級區(qū)間。(二)斯皮爾曼等級相關系數是以變量沒有相同等級為前提的。但有時,觀察結果出現了相同的等級,這時,須計算這幾個觀察結果所在位置秩次的簡單算術平均數作為它們相應的等級。在這種情形下應用斯皮爾曼等級相關系數計算公式所得之結果顯然只是近似的。若相同等級不是太多,可以近似應用上述公式,否則應加以修正。第五節(jié)EXCEL在非參數檢驗中 的應用一符號檢驗二威爾科克森配對符號秩檢驗三分布擬合的皮爾遜卡方檢驗一、符號檢驗【例8-3】對某總體隨機觀測得到的下列數據: 試檢驗該總體中位數是否為90。(顯著水平0.05)解:提出假設:H0:=90H1:

90

利用Excel求解步驟如下:(一)輸入數據,見圖8-1。A、B列為原始輸入數據,樣本數據存放在A2:A29單元格區(qū)域,圖中未完全顯示出來,D、E列為計算得出的結果。67917181822283235364242424848515253555657586372839197

Excel文件(二)計算樣本觀察值大于中位數的個數(即正號的個數)。在E1中輸入公式如下的公式

=COUNTIF(A2:A29,">90")(三)計算樣本容量n(不含0差數)。在E2中輸入公式

=COUNT(A2:A29)-COUNTIF(A2:A29,"=90")(四)計算檢驗統(tǒng)計量Z。在E3中輸入公式

=(E1-0.5*E2)/SQRT(0.25*E2)(五)計算臨界值Zα/2。在E4中輸入公式

=ABS(NORMSINV(B2/2))(六)結論。由于-4.54<-1.96,檢驗統(tǒng)計量的樣本值落在拒絕域,故否定原假設??傮w中位數不是90。二、威爾科克森配對符號秩檢驗【例8-4】從某專業(yè)學生中簡單隨機抽取20人,先后兩次組織某種測驗。兩次測驗結果如下: 試用威爾科克森配對符號秩檢驗法檢驗,該專業(yè)學生在兩次測驗的時間上,該項成績水平有無改變。(顯著水平0.05)第一次3271353142101764410264第二次685717524781624311870第一次21484557723587507238第二次40303980796477368938Excel文件解:提出假設:

H0:∑秩(+)=

∑秩()即,該專業(yè)學生該項成績水平無差異

H1:∑秩(+)

∑秩()操作步驟如下:(一)輸入數據,并進行初步計算,見圖8-2。

A、B、C列為輸入的原始數據,D、E列為計算所得數據。成績差di的計算方法是:在D2中輸入公式“=C2-B2”,然后將該公式復制到D3:D21單元格區(qū)域即可。|di|的計算,在E2中輸入公式“=ABS(D2)”,然后將公式復制到E3:E21區(qū)域。

(二)計算|di|的秩。

1.按|di|大小進行升序排位(由于第20個學生的成績差為0,所以該同學的|di|不參加排位)。在F2中輸入公式“=RANK(E2,E$2:E$20,1)”,將公式復制到F3:F20區(qū)域。

2.求重復數字的秩次。此處需要考慮重復數字的排位次序。如本例,有兩個同學的|di|為6,其秩次應是3.5。此時,必須計算一個修正數。在G2單元格中輸入公式:=(COUNT(F$2:F$20)+1-RANK(F2,F$2:F$20)-RANK(F2,F$2:F$20,1))/2

并將該公式復制到G3:G20區(qū)域。從計算結果可以看出,如果某個數字是唯一的,則它的修正數為0。

3.求

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論