分類數(shù)據(jù)的檢驗_第1頁
分類數(shù)據(jù)的檢驗_第2頁
分類數(shù)據(jù)的檢驗_第3頁
分類數(shù)據(jù)的檢驗_第4頁
分類數(shù)據(jù)的檢驗_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

分類數(shù)據(jù)的檢驗第一頁,共三十二頁,編輯于2023年,星期五在描述分析基礎(chǔ)上,進行推斷統(tǒng)計分析參數(shù)估計假設(shè)檢驗統(tǒng)計推斷要求知道統(tǒng)計量的抽樣分布什么是統(tǒng)計量什么是抽樣分布屬性數(shù)據(jù)的兩種重要分布:二項分布多項分布第二頁,共三十二頁,編輯于2023年,星期五二項分布屬性數(shù)據(jù)常常來源于每次試驗僅有兩種試驗結(jié)果的n次獨立重復(fù)試驗,如成功與失敗、合格與不合格、男與女、等等假設(shè)代表一次試驗成功的概率,代表n次試驗中成功的次數(shù),這時服從指標(biāo)n以及參數(shù)的二項分布,即第三頁,共三十二頁,編輯于2023年,星期五二項分布二項分布的期望和方差分別為:當(dāng)n=1時,二項分布簡化為:即:0-1分布是二項分布的特殊情況第四頁,共三十二頁,編輯于2023年,星期五二項分布【例】假設(shè)一次考試有10道選擇題,每題有五個選項。一位完全沒有準(zhǔn)備的學(xué)生隨機猜測每道題的答案。試問可能回答正確的題數(shù)及其概率如何?!窘狻拷Y(jié)果見表2.1可以看出,僅當(dāng)π=0.5時,二項分布才是對稱的。對于固定的n,隨著π趨近0或1,二項分布表現(xiàn)越加偏斜。對于固定的π,隨著n增加,二項分布更趨近鐘形。第五頁,共三十二頁,編輯于2023年,星期五二項分布當(dāng)n很大時,二項分布趨近于均值,

的正態(tài)分布(近似分布)。原則上,要使二項分布趨近正態(tài)分布,要求期望和都不小于5。當(dāng)π較大時(如0.5),n相對較小(如≥10)就可以滿足要求;當(dāng)π較小時(如0.1或0.9),則要求n取較大的值(如≥50),即大樣本要求。第六頁,共三十二頁,編輯于2023年,星期五多項分布多項分布是二項分布的推廣,其試驗結(jié)果的類別多于兩種,記為。令c代表結(jié)果的類別數(shù),用表示每種結(jié)果出現(xiàn)的概率,且對于n次獨立試驗,具有次觀測落入第1類,次觀測落入第2類……的概率為:第七頁,共三十二頁,編輯于2023年,星期五多項分布顯然,當(dāng)c=2時多項分布簡化為二項分布。通常不需要使用以上多項分布概率公式,只需掌握基于多項分布律的統(tǒng)計量即可。大部分針對屬性數(shù)據(jù)的方法都假設(shè):單類別的計數(shù)服從二項分布多類別的計數(shù)服從多項分布任何一個確定類別計數(shù)具有均值,標(biāo)準(zhǔn)差。第八頁,共三十二頁,編輯于2023年,星期五其他分布超幾何分布設(shè)N件產(chǎn)品中有M件次品,從中無放回取n件時所含次品數(shù)X是一個隨機變量,其概率為:泊松分布描述指定時間內(nèi),或面積、體積內(nèi)某一事件出現(xiàn)的個數(shù)的分布,其概率為:第九頁,共三十二頁,編輯于2023年,星期五二項分布的統(tǒng)計推斷實際中,二項分布和多項分布的參數(shù)值未知,需要通過樣本數(shù)據(jù)估計總體參數(shù)。在統(tǒng)計學(xué)原理中,可以根據(jù)樣本比例的抽樣分布,用樣本比例估計總體比例的區(qū)間,或用樣本比例的差估計總體比例差。第十頁,共三十二頁,編輯于2023年,星期五二項分布的統(tǒng)計推斷需要強調(diào)的是,以上方法使用的前提是樣本量n要足夠大,或者二項比例接近0.5;否則區(qū)間估計的效果將非常差,特別是在二項比例趨近1或0時;這時,可以采用假設(shè)檢驗(得分檢驗)的方法來進行參數(shù)估計,其效果要優(yōu)于一般直接采用區(qū)間估計的方法。原因在于:計算樣本比例的標(biāo)準(zhǔn)誤時,不需要用樣本比例作為總體比例的點估計。第十一頁,共三十二頁,編輯于2023年,星期五二項分布的統(tǒng)計推斷【例】一項新治療手段在10次試驗中有9次成功,試對總體比例進行區(qū)間估計(α=0.05)。【解1】基于直接區(qū)間估計方法的結(jié)果為:【解2】運用檢驗統(tǒng)計量構(gòu)造區(qū)間:對于給定的p和n,使檢驗統(tǒng)計量值的是下面方程的解.第十二頁,共三十二頁,編輯于2023年,星期五二項分布的統(tǒng)計推斷對二項參數(shù)的假設(shè)檢驗:Wald檢驗(最簡單的方法)是利用 極大似然(ML)估計值代替真實標(biāo)準(zhǔn)誤表達式中的未知參數(shù)而構(gòu)造的統(tǒng)計量近似服從標(biāo)準(zhǔn)正態(tài)分布,近似服從df=1的卡方分布稱為Wald統(tǒng)計量第十三頁,共三十二頁,編輯于2023年,星期五二項分布的統(tǒng)計推斷似然比檢驗利用似然函數(shù)構(gòu)造似然比統(tǒng)計量,其中分子是原假設(shè)成立時似然函數(shù)的極大值,分母是不限定參數(shù)時似然函數(shù)的極大值,形式為:在原假設(shè)成立條件下,該統(tǒng)計量服從df=1的大樣本卡方分布可以利用統(tǒng)計軟件計算似然函數(shù)的極大值第十四頁,共三十二頁,編輯于2023年,星期五幾種方法的比較【例】試對前例進行假設(shè)檢驗,其原假設(shè)與備擇假設(shè)分別為Wald檢驗的統(tǒng)計量:得分檢驗的統(tǒng)計量:似然比檢驗統(tǒng)計量:第十五頁,共三十二頁,編輯于2023年,星期五幾種方法的比較其中,當(dāng)以上統(tǒng)計推斷方法結(jié)果不一致時,說明ML估計量的分布遠離了正態(tài)分布,在這種情況下,使用小樣本方法將更準(zhǔn)確。對小樣本時,直接使用二項分布,而不是使用正態(tài)近似來計算P-值,將更加安全準(zhǔn)確。第十六頁,共三十二頁,編輯于2023年,星期五分類數(shù)據(jù)的檢驗當(dāng)分類超過兩類時,形成多項分布;多項分布屬性數(shù)據(jù)的假設(shè)檢驗一般提法:按照某項指標(biāo)總體被分為r類,分別為:提出原假設(shè):假設(shè)對該總體進行n次觀測,其中Ai類的觀測次數(shù)為ni,以此為基礎(chǔ)對原假設(shè)進行檢驗。第十七頁,共三十二頁,編輯于2023年,星期五分類數(shù)據(jù)的χ2檢驗在原假設(shè)成立時,n次觀測中屬于Ai類的期望頻數(shù)為,則實際頻數(shù)與期望頻數(shù)應(yīng)接近,從而有Pearson卡方統(tǒng)計量:該統(tǒng)計量的值越小,說明原假設(shè)成立;若該值較大,說明實際頻數(shù)與期望頻數(shù)差異較大,故拒絕原假設(shè)。第十八頁,共三十二頁,編輯于2023年,星期五Mendel的豌豆實驗第十九頁,共三十二頁,編輯于2023年,星期五分類數(shù)據(jù)的χ2檢驗對得到的卡方統(tǒng)計量的值,可以直接與相應(yīng)的顯著性水平和自由度下的卡方值比較,若大于則拒絕原假設(shè),若小于則不拒絕原假設(shè);查表得:,故不拒絕原假設(shè)。也可以利用P-值進行判斷:需要注意的是:卡方統(tǒng)計量的使用要求樣本量要大,且期望頻數(shù)不能太小,見附錄3。通常要求樣本量≥50,期望頻數(shù)≥5。第二十頁,共三十二頁,編輯于2023年,星期五分類數(shù)據(jù)的χ2檢驗對于小期望頻數(shù)的問題,有人采用合并類別的方法。但會導(dǎo)致:會丟失信息;隨機性受到影響;不同的類別合并方式會產(chǎn)生不同的結(jié)論對于前面討論的二項分布的檢驗而言,同樣可以采用卡方統(tǒng)計量進行檢驗。只不過只有兩類而已(卡方的df=1)。第二十一頁,共三十二頁,編輯于2023年,星期五分類數(shù)據(jù)的χ2檢驗以上所進行的多項分布數(shù)據(jù)檢驗稱為擬合優(yōu)度檢驗,或一致性檢驗;類似的例子如:為提高市場占用率,兩個主要競爭對手展開了公告戰(zhàn)。已知之前A公司占用率45%,B公司為40%,其他15%。為了解廣告之后是否有變化調(diào)查了200個消費者,有102人購買A公司產(chǎn)品,82人購買B公司產(chǎn)品,16人購買其他公司產(chǎn)品。問前后是否有差異。第二十二頁,共三十二頁,編輯于2023年,星期五分類數(shù)據(jù)的似然比檢驗分類數(shù)據(jù)的似然函數(shù)取決于多項分布的分布律:似然函數(shù)就是觀測數(shù)據(jù)出現(xiàn)的概率,被看作參數(shù)的函數(shù)。似然比統(tǒng)計量確定了在原假設(shè)下和不限定參數(shù)時似然函數(shù)極大值的比值。則多項分布的似然比統(tǒng)計量記為:第二十三頁,共三十二頁,編輯于2023年,星期五分類數(shù)據(jù)的似然比檢驗似然比統(tǒng)計量說明,當(dāng)期望頻數(shù)等于實際頻數(shù)時,G2等于0;越大的G2則提供了拒絕H0越充分的證據(jù)。G2與皮爾遜卡方統(tǒng)計量類似,當(dāng)原假設(shè)成立且期望頻數(shù)很大時,都服從相同的卡方分布。G2漸近卡方分布自由度的確定方法:自由度df=完全參數(shù)空間要估計的參數(shù)個數(shù)-原假設(shè)成立時要估計的參數(shù)個數(shù)第二十四頁,共三十二頁,編輯于2023年,星期五Mendel的豌豆實驗前例同樣可以利用似然比統(tǒng)計量進行檢驗與皮爾遜卡方統(tǒng)計量的值相近。檢驗的判斷準(zhǔn)則同卡方檢驗。第二十五頁,共三十二頁,編輯于2023年,星期五帶參數(shù)的分類數(shù)據(jù)的檢驗前面的分類數(shù)據(jù)檢驗中,假設(shè)總體比例都是已知的,進而通過計算檢驗統(tǒng)計量的值進行判斷原假設(shè)是否成立。而實際中并不完全是這樣的。這就需要在原假設(shè)成立時先對未知的參數(shù)進行估計,然后再進行檢驗。原假設(shè)為:第二十六頁,共三十二頁,編輯于2023年,星期五帶參數(shù)的分類數(shù)據(jù)的檢驗根據(jù)多項分布律構(gòu)造似然函數(shù),從而得到對數(shù)似然方程,可以求得未知參數(shù)的估計值,再來計算皮爾遜卡方統(tǒng)計量和似然比統(tǒng)計量:第二十七頁,共三十二頁,編輯于2023年,星期五帶參數(shù)的分類數(shù)據(jù)的檢驗【例】按性別和是否色盲將隨機調(diào)查1000人進行分類,結(jié)果為:男性正常、女性正常、男性色盲、女性色盲各有442人、514人、38人、6人。根據(jù)遺傳學(xué)理論,男性正常、女性正常、男性色盲、女性色盲的概率分別為:其中,未知,。問調(diào)查與模型相符嗎?第二十八頁,共三十二頁,編輯于2023年,星期五帶參數(shù)的分類數(shù)據(jù)的檢驗可見,上例中參數(shù)是未知的,需要先求p的極大似然估計值。似然函數(shù)為:得到對數(shù)似然方程:于是求得:第二十九頁,共

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論