研九講非參數(shù)假設(shè)檢驗.ppt_第1頁
研九講非參數(shù)假設(shè)檢驗.ppt_第2頁
研九講非參數(shù)假設(shè)檢驗.ppt_第3頁
研九講非參數(shù)假設(shè)檢驗.ppt_第4頁
研九講非參數(shù)假設(shè)檢驗.ppt_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

3.5.2 非參數(shù)假設(shè)檢驗,在實際問題中,有時會遇到不知道總體服從什么分布的情況。這時需要對總體分布進(jìn)行假設(shè)檢驗。,這種假設(shè)檢驗不是對參數(shù)的,稱為非參數(shù)的假設(shè)檢驗。,非參數(shù)的假設(shè)檢驗的方法很多,下面我們只介紹兩種,一、皮爾遜 擬合優(yōu)度檢驗,二、柯爾莫哥洛夫檢驗法,在前面的課程中,我們已經(jīng)了解了假設(shè)檢驗的基本思想,并討論了當(dāng)總體分布為正態(tài)時,關(guān)于其中未知參數(shù)的假設(shè)檢驗問題 .,然而可能遇到這樣的情形,總體服從何種理論分布并不知道,要求我們直接對總體分布提出一個假設(shè) .,一 皮爾遜 擬合優(yōu)度檢驗,例如,從1500到1931年的432年間,每年爆發(fā)戰(zhàn)爭的次數(shù)可以看作一個隨機(jī)變量,椐統(tǒng)計,這432年間共爆發(fā)了299次戰(zhàn)爭,具體數(shù)據(jù)如下:,在概率論中,大家對泊松分布產(chǎn)生的一般條件已有所了解,容易想到,每年爆發(fā)戰(zhàn)爭的次數(shù),可以用一個泊松隨機(jī)變量來近似描述 . 也就是說,我們可以假設(shè)每年爆發(fā)戰(zhàn)爭次數(shù)分布X近似泊松分布.,上面的數(shù)據(jù)能否證實X 具有 泊松分布的假設(shè)是正確的?,現(xiàn)在的問題是:,又如,某鐘表廠對生產(chǎn)的鐘進(jìn)行精確性檢查,抽取100個鐘作試驗,撥準(zhǔn)后隔24小時以后進(jìn)行檢查,將每個鐘的誤差(快或慢)按秒記錄下來.,問該廠生產(chǎn)的鐘的誤差 是否服從正態(tài)分布?,再如,某工廠制造一批骰子,聲稱它是均勻的.,為檢驗骰子是否均勻,要把骰子實地投擲若干次,統(tǒng)計各點(diǎn)出現(xiàn)的頻率與1/6的差距.,也就是說,在投擲中,出現(xiàn)1點(diǎn),2點(diǎn),6點(diǎn)的概率都應(yīng)是1/6.,得到的數(shù)據(jù)能否說明“骰子均勻”的假設(shè)是可信的?,問題是:,K.皮爾遜,這是一項很重要的工作,不少人把它視為近代統(tǒng)計學(xué)的開端.,解決這類問題的工具是英國統(tǒng)計學(xué)家K.皮爾遜在1900年發(fā)表的一篇文章中引進(jìn)的所謂 檢驗法.,檢驗法是在總體X 的分布未知時,根據(jù)來自總體的樣本,檢驗關(guān)于總體分布的假設(shè)的一種檢驗方法.,H0:總體X的分布函數(shù)為F(x) H1:總體X的分布函數(shù)不是F(x),然后根據(jù)樣本的經(jīng)驗分布和所假設(shè)的理論分布之間的吻合程度來決定是否接受原假設(shè).,這種檢驗通常稱作擬合優(yōu)度檢驗,它是一種非參數(shù)假設(shè)檢驗.,擬合優(yōu)度檢驗,我們只介紹理論分布類型完全已知的情況,區(qū)間內(nèi)的樣本點(diǎn)數(shù)不要小于5個),用 表示第i個小區(qū)間 上樣本點(diǎn)的個數(shù). 為頻率,原假設(shè):,fi 稱為實測頻數(shù). ,畫出頻率的直方圖,從直方圖估 出總體X的分布,定出總體X的分布函數(shù),設(shè) 在H0成立的條件下,有,研究 與 的差異程度?;蛘哒f 與 的差,異程度。,標(biāo)志著經(jīng)驗分布與理論分布之間的差異的大小.,皮爾遜引進(jìn)如下統(tǒng)計量表示經(jīng)驗分布 與理論分布之間的差異:,統(tǒng)計量 的分布是什么?,在理論分布 已知的條件下, npi是常量,實測頻數(shù),理論頻數(shù),2.根據(jù)所假設(shè)的理論分布,可以算出總體X的值落入每個Ai的概率 pi , 于是npi就是落入Ai的樣本值的理論頻數(shù),皮爾遜證明了如下定理:,若原假設(shè)中的理論分布F(x)已經(jīng)完全給定,那么當(dāng) 時,統(tǒng)計量,的分布漸近(k-1)個自由度的 分布.,如果理論分布F(x)中有r個未知參數(shù)需用相應(yīng)的估計量來代替,那么當(dāng) 時,統(tǒng)計量 的分布漸近 (k-r-1)個自由度的 分布.,為了便于理解,我們對定理作一點(diǎn)直觀的說明.,是k個近似正態(tài)的變量的平方和.,這些變量之間存在著一個制約關(guān)系:,故統(tǒng)計量 漸近(k-1)個自由度的 分布.,在理論分布F(x)完全給定的情況下,每個pi 都是確定的常數(shù). 由棣莫佛拉普拉斯中心極限定理,當(dāng)n充分大時,實測頻數(shù) fi 漸近正態(tài),,因此,在F(x)尚未完全給定的情況下,每個未知參數(shù)用相應(yīng)的估計量代替,就相當(dāng)于增加一個制約條件,因此,自由度也隨之減少一個.,若有r個未知參數(shù)需用相應(yīng)的估計量來代替,自由度就減少r個.,此時統(tǒng)計量 漸近(k-r-1)個自由度的 分布.,根據(jù)這個定理,對給定的顯著性水平 ,,如果根據(jù)所給的樣本值 X1,X2, ,Xn算得統(tǒng)計量 的實測值落入拒絕域,則拒絕原假設(shè),否則就認(rèn)為差異不顯著而接受原假設(shè).,得拒絕域:,(不需估計參數(shù)),(估計r 個參數(shù)),皮爾遜定理是在n無限增大時推導(dǎo)出來的,因而在使用時要注意 n要足夠大,以及npi 不太小這兩個條件.,根據(jù)計算實踐,要求n不小于50,以及npi 都不小于 5. 否則應(yīng)適當(dāng)合并區(qū)間,使npi滿足這個要求 .,讓我們回到開始的一個例子,檢驗每年爆發(fā)戰(zhàn)爭次數(shù)分布是否服從泊松分布.,將有關(guān)計算結(jié)果列表如下:,,i=0,1,2,3,4,提出假設(shè)H0: X服從參數(shù)為 的泊松分布,根據(jù)觀察結(jié)果,得參數(shù) 的極大似然估計為,因H0所假設(shè)的理論分布中有一個未知參數(shù)(?),故自由度為4-1-1=2.,將n 5 的組予以合并,即將發(fā)生3次及4次戰(zhàn)爭的組歸并為一組.,故認(rèn)為每年發(fā)生戰(zhàn)爭的次數(shù)X服從參數(shù)為0.69的泊松分布.,按 =0.05,自由度為4-1-1=2查 分布表得,=5.991,=2.435.991,,未落入否定域.,奧地利生物學(xué)家孟德爾進(jìn)行了長達(dá)八年之久的豌豆雜交試驗, 并根據(jù)試驗結(jié)果,運(yùn)用他的數(shù)理知識, 發(fā)現(xiàn)了遺傳的基本規(guī)律.,在此,我們以遺傳學(xué)上的一項偉大發(fā)現(xiàn)為例,說明統(tǒng)計方法在研究自然界和人類社會的規(guī)律性時,是起著積極的、主動的作用.,孟德爾,他的一組觀察結(jié)果為:,黃70,綠27,近似為2.59:1,與理論值相近.,根據(jù)他的理論,子二代中, 黃、綠之比 近似 為3:1,,由于隨機(jī)性,觀察結(jié)果與3:1總有些差距,因此有必要去考察某一大小的差異是否已構(gòu)成否定3:1理論的充分根據(jù),這就是如下的檢驗問題.,這里,n=70+27=97, k=2,檢驗孟德爾的3:1理論:,提出假設(shè)H0: p1=3/4, p2=1/4,理論頻數(shù)為: np1=72.75, np2=24.25,實測頻數(shù)為70,27.,自由度為 k-1=1,=0.41583.841,,按 =0.05,自由度為1,查 分布表得,=3.841,未落入否定域.,故認(rèn)為試驗結(jié)果符合孟德爾的3:1理論.,這些試驗及其它一些試驗,都顯 示孟德爾的3: 1理論與實際是符合的. 這本身就是統(tǒng)計方法在科學(xué)中的一項 重要應(yīng)用.,用于客觀地評價理論上的某個結(jié)論是否與觀察結(jié)果相符,以作為該理論是否站得住腳的印證.,3.5.2皮爾遜 擬合優(yōu)度檢驗,(二)理論分布帶參數(shù)的情況,在許多實際問題中,理論分布常常只是類型已知,但其中含有若干個未知參數(shù)。例如,這 時檢驗問題為,分別為當(dāng)H。成立時未知參數(shù),的點(diǎn)估計,記,計算,得到Pearson統(tǒng)計量,RAFisher證明了對滿足一定條件的點(diǎn)估計,上述統(tǒng)計量 的極限分布為,于是H。的否定域為,由于按Fisher的條件去求點(diǎn)估計量,往需要用數(shù)值方法求解。為此,在實際應(yīng)用當(dāng)中,常用,很麻煩,往,的極大似然估計代替,這時統(tǒng)計量,的極限分布不一定是,這時仍取,作為H。的否定域。,現(xiàn)在我們以X為一維為例把Pearson 檢驗的具體做 法歸納如下:,(1)將總體X的值域(-,)劃分為 個互不相交的區(qū)間 的大小和作直方圖時一致,但注意使 每個 或 不能太小,一般不要小于5,(2)在H。成立之下,求出未知參數(shù)的極大似然估計;,(5)查 分布表,找出 或,(vi)若 或 則拒絕H。,否則接受H。,例3.161991年某校工科研究生有60名以數(shù)理統(tǒng)計作為 學(xué)位課,考試成績?nèi)缦?,75 83 93 91 85 84 82 77 76 77 95 94 91 88 86 83 96 81 79 97 78 75 67 69 84 83 81 75 66 85 70 94 84 83 82 80 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55,試問考試成績是否服從正態(tài)分布,解:設(shè)X為考試成績,其分布函數(shù)為F(x),則檢驗問題為,我們知道成績分不及格(60以下),及格(6070),中(7080),良 (8090),優(yōu)(90以上)故我們?nèi)?它們將實軸分成5個互不相交的區(qū)間,從而將樣本分成5組。在H。成立的條件下,參數(shù) 的極大似然估計為,計算,表示 服從正太分布,因為,所以我們把第一、二個區(qū)間合并成一個,這樣共有4個 不相交的區(qū)間,相應(yīng)的樣本分成4組,并列表,查附表4得,故接受H。認(rèn)為考試成績服從正態(tài)分布。,三 方法用于檢驗獨(dú)立性,每個人按其是否吸煙可分成兩類,按其是否患有某種 疾病也可分成兩類。如要研究在某個行業(yè)工作的人中, 吸煙與患肺癌是否有關(guān),則可從這一群人中隨機(jī)抽取若 干個,一一記錄其是否吸煙和是否患肺癌,用所得資料去 進(jìn)行統(tǒng)計分析。,這類問題在應(yīng)用上很常見,理論模型是:設(shè)隨機(jī)向量 (X,Y),X的可能取值是1,2,.,r,Y的可能取值是1,2,.,s. 現(xiàn)在對(X,Y) 進(jìn)行了n次獨(dú)立觀察,發(fā)現(xiàn)“X=i,Y=j”的次 數(shù)為 ,要據(jù)此檢驗,這個假設(shè)。若記F(x,y)為(X,Y)的聯(lián)合分布函數(shù), 為X的分布函數(shù), 為Y的分布函數(shù),則X與Y獨(dú)立, 就是對任意實數(shù)(x,y)有,在這種問題中,常把數(shù)據(jù)排列為如下表,這種表稱為列聯(lián)表(Contingency Table).表中,如果獨(dú)立性成立,則對一切i和j,有,因此檢驗問題變成,如果 已知,則我們可以按Pearson 統(tǒng)計量的建 立方法,令,則由Pearson的結(jié)論知 以 為極限分布。 但這里 并不知道,因此,我們可用它們的極大似然估 計 代替。注意到H。 成立時,因此,這等價于求 的極大似然估計,類似例2.9,注 意到,關(guān)于 的似然函數(shù)為,作方程組。,解得 的極大似然估計為,從而得到統(tǒng)計量,在H。成立的條件下,當(dāng)n時, 的極限分布為,因此,可取,作為H。的拒絕域,當(dāng)n很大時,這檢驗的真實水平接近,對X、Y連續(xù)取值的情況,與(一)中的2類似,可以將其 離散化:設(shè) 為(X,Y)的樣本。具體做法:,(1)將X的觀察值范圍(一,)分成r個互不相交的 區(qū)間,將Y的觀察值范圍(一,)分成s個互不相交 的區(qū)間,這樣就組成了rs個互不相交的小矩形;,(2)求出樣本落入各個小矩形的實測頻數(shù);,(3)當(dāng)H。成立時,建立統(tǒng)計量,當(dāng)n充分大時, 漸近于 分布。 在水平 下,當(dāng) 時,拒絕 H。 否則就接受H。,特別,當(dāng)r=s=2時,得到22列聯(lián)表,也常稱為四格表 (Fourfold Table)是應(yīng)用最廣的一種,這時,極限分布為,例3.2 某研究所推出一種感冒特效新藥,為證明其療效,選擇200名患者為志愿者,將他們均分為兩組,分別不服藥或服藥,觀察三日后痊愈的情況,得出下列數(shù)據(jù),痊愈者,未痊愈者,合 計,未服藥者,服藥者,合 計,52 100 44 100 104 96 200,問新藥是否確有明顯療效?,例3.17見例3.2題中設(shè) =0.25,解:每個對象考察兩個指標(biāo):X一一是否痊愈,Y一一是否 服藥。X取兩個值:痊愈,未痊愈。Y:未服藥,服藥。要 研究這兩指標(biāo)是否獨(dú)立,這是r=s=2的二元列聯(lián)表。這里,代入(325)式得,對于水平 025,查表得,所以接受H。認(rèn)為這種感冒新藥并無明顯療效。,Pearson 檢驗法使用范圍廣,不管總體是一維的還

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論