分類數(shù)據(jù)的檢驗

上傳人：農(nóng)*** IP屬地：廣東上傳時間：2023-05-25 格式：PPT 頁數(shù)：32 大?。?.62MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩27頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

分類數(shù)據(jù)的檢驗第一頁，共三十二頁，編輯于2023年，星期五在描述分析基礎(chǔ)上，進行推斷統(tǒng)計分析參數(shù)估計假設(shè)檢驗統(tǒng)計推斷要求知道統(tǒng)計量的抽樣分布什么是統(tǒng)計量什么是抽樣分布屬性數(shù)據(jù)的兩種重要分布：二項分布多項分布第二頁，共三十二頁，編輯于2023年，星期五二項分布屬性數(shù)據(jù)常常來源于每次試驗僅有兩種試驗結(jié)果的n次獨立重復(fù)試驗，如成功與失敗、合格與不合格、男與女、等等假設(shè)代表一次試驗成功的概率，代表n次試驗中成功的次數(shù)，這時服從指標(biāo)n以及參數(shù)的二項分布，即第三頁，共三十二頁，編輯于2023年，星期五二項分布二項分布的期望和方差分別為：當(dāng)n=1時，二項分布簡化為：即：0-1分布是二項分布的特殊情況第四頁，共三十二頁，編輯于2023年，星期五二項分布【例】假設(shè)一次考試有10道選擇題，每題有五個選項。一位完全沒有準(zhǔn)備的學(xué)生隨機猜測每道題的答案。試問可能回答正確的題數(shù)及其概率如何?！窘狻拷Y(jié)果見表2.1可以看出，僅當(dāng)π=0.5時，二項分布才是對稱的。對于固定的n，隨著π趨近0或1，二項分布表現(xiàn)越加偏斜。對于固定的π，隨著n增加，二項分布更趨近鐘形。第五頁，共三十二頁，編輯于2023年，星期五二項分布當(dāng)n很大時，二項分布趨近于均值,

的正態(tài)分布(近似分布)。原則上，要使二項分布趨近正態(tài)分布，要求期望和都不小于5。當(dāng)π較大時(如0.5)，n相對較小(如≥10)就可以滿足要求；當(dāng)π較小時(如0.1或0.9)，則要求n取較大的值(如≥50)，即大樣本要求。第六頁，共三十二頁，編輯于2023年，星期五多項分布多項分布是二項分布的推廣，其試驗結(jié)果的類別多于兩種，記為。令c代表結(jié)果的類別數(shù)，用表示每種結(jié)果出現(xiàn)的概率，且對于n次獨立試驗，具有次觀測落入第1類，次觀測落入第2類……的概率為：第七頁，共三十二頁，編輯于2023年，星期五多項分布顯然，當(dāng)c=2時多項分布簡化為二項分布。通常不需要使用以上多項分布概率公式，只需掌握基于多項分布律的統(tǒng)計量即可。大部分針對屬性數(shù)據(jù)的方法都假設(shè)：單類別的計數(shù)服從二項分布多類別的計數(shù)服從多項分布任何一個確定類別計數(shù)具有均值，標(biāo)準(zhǔn)差。第八頁，共三十二頁，編輯于2023年，星期五其他分布超幾何分布設(shè)N件產(chǎn)品中有M件次品，從中無放回取n件時所含次品數(shù)X是一個隨機變量，其概率為：泊松分布描述指定時間內(nèi)，或面積、體積內(nèi)某一事件出現(xiàn)的個數(shù)的分布，其概率為：第九頁，共三十二頁，編輯于2023年，星期五二項分布的統(tǒng)計推斷實際中，二項分布和多項分布的參數(shù)值未知，需要通過樣本數(shù)據(jù)估計總體參數(shù)。在統(tǒng)計學(xué)原理中，可以根據(jù)樣本比例的抽樣分布，用樣本比例估計總體比例的區(qū)間，或用樣本比例的差估計總體比例差。第十頁，共三十二頁，編輯于2023年，星期五二項分布的統(tǒng)計推斷需要強調(diào)的是，以上方法使用的前提是樣本量n要足夠大，或者二項比例接近0.5；否則區(qū)間估計的效果將非常差，特別是在二項比例趨近1或0時；這時，可以采用假設(shè)檢驗(得分檢驗)的方法來進行參數(shù)估計，其效果要優(yōu)于一般直接采用區(qū)間估計的方法。原因在于：計算樣本比例的標(biāo)準(zhǔn)誤時，不需要用樣本比例作為總體比例的點估計。第十一頁，共三十二頁，編輯于2023年，星期五二項分布的統(tǒng)計推斷【例】一項新治療手段在10次試驗中有9次成功，試對總體比例進行區(qū)間估計(α=0.05)。【解1】基于直接區(qū)間估計方法的結(jié)果為：【解2】運用檢驗統(tǒng)計量構(gòu)造區(qū)間：對于給定的p和n，使檢驗統(tǒng)計量值的是下面方程的解.第十二頁，共三十二頁，編輯于2023年，星期五二項分布的統(tǒng)計推斷對二項參數(shù)的假設(shè)檢驗：Wald檢驗(最簡單的方法)是利用極大似然(ML)估計值代替真實標(biāo)準(zhǔn)誤表達式中的未知參數(shù)而構(gòu)造的統(tǒng)計量近似服從標(biāo)準(zhǔn)正態(tài)分布，近似服從df=1的卡方分布稱為Wald統(tǒng)計量第十三頁，共三十二頁，編輯于2023年，星期五二項分布的統(tǒng)計推斷似然比檢驗利用似然函數(shù)構(gòu)造似然比統(tǒng)計量，其中分子是原假設(shè)成立時似然函數(shù)的極大值，分母是不限定參數(shù)時似然函數(shù)的極大值，形式為：在原假設(shè)成立條件下，該統(tǒng)計量服從df=1的大樣本卡方分布可以利用統(tǒng)計軟件計算似然函數(shù)的極大值第十四頁，共三十二頁，編輯于2023年，星期五幾種方法的比較【例】試對前例進行假設(shè)檢驗，其原假設(shè)與備擇假設(shè)分別為Wald檢驗的統(tǒng)計量：得分檢驗的統(tǒng)計量：似然比檢驗統(tǒng)計量：第十五頁，共三十二頁，編輯于2023年，星期五幾種方法的比較其中，當(dāng)以上統(tǒng)計推斷方法結(jié)果不一致時，說明ML估計量的分布遠離了正態(tài)分布，在這種情況下，使用小樣本方法將更準(zhǔn)確。對小樣本時，直接使用二項分布，而不是使用正態(tài)近似來計算P-值，將更加安全準(zhǔn)確。第十六頁，共三十二頁，編輯于2023年，星期五分類數(shù)據(jù)的檢驗當(dāng)分類超過兩類時，形成多項分布；多項分布屬性數(shù)據(jù)的假設(shè)檢驗一般提法：按照某項指標(biāo)總體被分為r類，分別為：提出原假設(shè)：假設(shè)對該總體進行n次觀測，其中Ai類的觀測次數(shù)為ni，以此為基礎(chǔ)對原假設(shè)進行檢驗。第十七頁，共三十二頁，編輯于2023年，星期五分類數(shù)據(jù)的χ2檢驗在原假設(shè)成立時，n次觀測中屬于Ai類的期望頻數(shù)為，則實際頻數(shù)與期望頻數(shù)應(yīng)接近，從而有Pearson卡方統(tǒng)計量：該統(tǒng)計量的值越小，說明原假設(shè)成立；若該值較大，說明實際頻數(shù)與期望頻數(shù)差異較大，故拒絕原假設(shè)。第十八頁，共三十二頁，編輯于2023年，星期五Mendel的豌豆實驗第十九頁，共三十二頁，編輯于2023年，星期五分類數(shù)據(jù)的χ2檢驗對得到的卡方統(tǒng)計量的值，可以直接與相應(yīng)的顯著性水平和自由度下的卡方值比較，若大于則拒絕原假設(shè)，若小于則不拒絕原假設(shè)；查表得：，故不拒絕原假設(shè)。也可以利用P-值進行判斷：需要注意的是：卡方統(tǒng)計量的使用要求樣本量要大，且期望頻數(shù)不能太小，見附錄3。通常要求樣本量≥50，期望頻數(shù)≥5。第二十頁，共三十二頁，編輯于2023年，星期五分類數(shù)據(jù)的χ2檢驗對于小期望頻數(shù)的問題，有人采用合并類別的方法。但會導(dǎo)致：會丟失信息；隨機性受到影響；不同的類別合并方式會產(chǎn)生不同的結(jié)論對于前面討論的二項分布的檢驗而言，同樣可以采用卡方統(tǒng)計量進行檢驗。只不過只有兩類而已（卡方的df=1）。第二十一頁，共三十二頁，編輯于2023年，星期五分類數(shù)據(jù)的χ2檢驗以上所進行的多項分布數(shù)據(jù)檢驗稱為擬合優(yōu)度檢驗，或一致性檢驗；類似的例子如：為提高市場占用率，兩個主要競爭對手展開了公告戰(zhàn)。已知之前A公司占用率45%，B公司為40%，其他15%。為了解廣告之后是否有變化調(diào)查了200個消費者，有102人購買A公司產(chǎn)品，82人購買B公司產(chǎn)品，16人購買其他公司產(chǎn)品。問前后是否有差異。第二十二頁，共三十二頁，編輯于2023年，星期五分類數(shù)據(jù)的似然比檢驗分類數(shù)據(jù)的似然函數(shù)取決于多項分布的分布律：似然函數(shù)就是觀測數(shù)據(jù)出現(xiàn)的概率，被看作參數(shù)的函數(shù)。似然比統(tǒng)計量確定了在原假設(shè)下和不限定參數(shù)時似然函數(shù)極大值的比值。則多項分布的似然比統(tǒng)計量記為：第二十三頁，共三十二頁，編輯于2023年，星期五分類數(shù)據(jù)的似然比檢驗似然比統(tǒng)計量說明，當(dāng)期望頻數(shù)等于實際頻數(shù)時，G2等于0；越大的G2則提供了拒絕H0越充分的證據(jù)。G2與皮爾遜卡方統(tǒng)計量類似，當(dāng)原假設(shè)成立且期望頻數(shù)很大時，都服從相同的卡方分布。G2漸近卡方分布自由度的確定方法：自由度df=完全參數(shù)空間要估計的參數(shù)個數(shù)-原假設(shè)成立時要估計的參數(shù)個數(shù)第二十四頁，共三十二頁，編輯于2023年，星期五Mendel的豌豆實驗前例同樣可以利用似然比統(tǒng)計量進行檢驗與皮爾遜卡方統(tǒng)計量的值相近。檢驗的判斷準(zhǔn)則同卡方檢驗。第二十五頁，共三十二頁，編輯于2023年，星期五帶參數(shù)的分類數(shù)據(jù)的檢驗前面的分類數(shù)據(jù)檢驗中，假設(shè)總體比例都是已知的，進而通過計算檢驗統(tǒng)計量的值進行判斷原假設(shè)是否成立。而實際中并不完全是這樣的。這就需要在原假設(shè)成立時先對未知的參數(shù)進行估計，然后再進行檢驗。原假設(shè)為：第二十六頁，共三十二頁，編輯于2023年，星期五帶參數(shù)的分類數(shù)據(jù)的檢驗根據(jù)多項分布律構(gòu)造似然函數(shù)，從而得到對數(shù)似然方程，可以求得未知參數(shù)的估計值，再來計算皮爾遜卡方統(tǒng)計量和似然比統(tǒng)計量：第二十七頁，共三十二頁，編輯于2023年，星期五帶參數(shù)的分類數(shù)據(jù)的檢驗【例】按性別和是否色盲將隨機調(diào)查1000人進行分類，結(jié)果為：男性正常、女性正常、男性色盲、女性色盲各有442人、514人、38人、6人。根據(jù)遺傳學(xué)理論，男性正常、女性正常、男性色盲、女性色盲的概率分別為：其中，未知，。問調(diào)查與模型相符嗎？第二十八頁，共三十二頁，編輯于2023年，星期五帶參數(shù)的分類數(shù)據(jù)的檢驗可見，上例中參數(shù)是未知的，需要先求p的極大似然估計值。似然函數(shù)為：得到對數(shù)似然方程：于是求得：第二十九頁，共

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

分類數(shù)據(jù)的檢驗

文檔簡介

溫馨提示

最新文檔

評論

分類數(shù)據(jù)的檢驗

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔