分類數(shù)據(jù)的檢驗(yàn)_第1頁(yè)
分類數(shù)據(jù)的檢驗(yàn)_第2頁(yè)
分類數(shù)據(jù)的檢驗(yàn)_第3頁(yè)
分類數(shù)據(jù)的檢驗(yàn)_第4頁(yè)
分類數(shù)據(jù)的檢驗(yàn)_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分類數(shù)據(jù)的檢驗(yàn)第一頁(yè),共三十二頁(yè),編輯于2023年,星期五在描述分析基礎(chǔ)上,進(jìn)行推斷統(tǒng)計(jì)分析參數(shù)估計(jì)假設(shè)檢驗(yàn)統(tǒng)計(jì)推斷要求知道統(tǒng)計(jì)量的抽樣分布什么是統(tǒng)計(jì)量什么是抽樣分布屬性數(shù)據(jù)的兩種重要分布:二項(xiàng)分布多項(xiàng)分布第二頁(yè),共三十二頁(yè),編輯于2023年,星期五二項(xiàng)分布屬性數(shù)據(jù)常常來(lái)源于每次試驗(yàn)僅有兩種試驗(yàn)結(jié)果的n次獨(dú)立重復(fù)試驗(yàn),如成功與失敗、合格與不合格、男與女、等等假設(shè)代表一次試驗(yàn)成功的概率,代表n次試驗(yàn)中成功的次數(shù),這時(shí)服從指標(biāo)n以及參數(shù)的二項(xiàng)分布,即第三頁(yè),共三十二頁(yè),編輯于2023年,星期五二項(xiàng)分布二項(xiàng)分布的期望和方差分別為:當(dāng)n=1時(shí),二項(xiàng)分布簡(jiǎn)化為:即:0-1分布是二項(xiàng)分布的特殊情況第四頁(yè),共三十二頁(yè),編輯于2023年,星期五二項(xiàng)分布【例】假設(shè)一次考試有10道選擇題,每題有五個(gè)選項(xiàng)。一位完全沒(méi)有準(zhǔn)備的學(xué)生隨機(jī)猜測(cè)每道題的答案。試問(wèn)可能回答正確的題數(shù)及其概率如何?!窘狻拷Y(jié)果見表2.1可以看出,僅當(dāng)π=0.5時(shí),二項(xiàng)分布才是對(duì)稱的。對(duì)于固定的n,隨著π趨近0或1,二項(xiàng)分布表現(xiàn)越加偏斜。對(duì)于固定的π,隨著n增加,二項(xiàng)分布更趨近鐘形。第五頁(yè),共三十二頁(yè),編輯于2023年,星期五二項(xiàng)分布當(dāng)n很大時(shí),二項(xiàng)分布趨近于均值,

的正態(tài)分布(近似分布)。原則上,要使二項(xiàng)分布趨近正態(tài)分布,要求期望和都不小于5。當(dāng)π較大時(shí)(如0.5),n相對(duì)較小(如≥10)就可以滿足要求;當(dāng)π較小時(shí)(如0.1或0.9),則要求n取較大的值(如≥50),即大樣本要求。第六頁(yè),共三十二頁(yè),編輯于2023年,星期五多項(xiàng)分布多項(xiàng)分布是二項(xiàng)分布的推廣,其試驗(yàn)結(jié)果的類別多于兩種,記為。令c代表結(jié)果的類別數(shù),用表示每種結(jié)果出現(xiàn)的概率,且對(duì)于n次獨(dú)立試驗(yàn),具有次觀測(cè)落入第1類,次觀測(cè)落入第2類……的概率為:第七頁(yè),共三十二頁(yè),編輯于2023年,星期五多項(xiàng)分布顯然,當(dāng)c=2時(shí)多項(xiàng)分布簡(jiǎn)化為二項(xiàng)分布。通常不需要使用以上多項(xiàng)分布概率公式,只需掌握基于多項(xiàng)分布律的統(tǒng)計(jì)量即可。大部分針對(duì)屬性數(shù)據(jù)的方法都假設(shè):?jiǎn)晤悇e的計(jì)數(shù)服從二項(xiàng)分布多類別的計(jì)數(shù)服從多項(xiàng)分布任何一個(gè)確定類別計(jì)數(shù)具有均值,標(biāo)準(zhǔn)差。第八頁(yè),共三十二頁(yè),編輯于2023年,星期五其他分布超幾何分布設(shè)N件產(chǎn)品中有M件次品,從中無(wú)放回取n件時(shí)所含次品數(shù)X是一個(gè)隨機(jī)變量,其概率為:泊松分布描述指定時(shí)間內(nèi),或面積、體積內(nèi)某一事件出現(xiàn)的個(gè)數(shù)的分布,其概率為:第九頁(yè),共三十二頁(yè),編輯于2023年,星期五二項(xiàng)分布的統(tǒng)計(jì)推斷實(shí)際中,二項(xiàng)分布和多項(xiàng)分布的參數(shù)值未知,需要通過(guò)樣本數(shù)據(jù)估計(jì)總體參數(shù)。在統(tǒng)計(jì)學(xué)原理中,可以根據(jù)樣本比例的抽樣分布,用樣本比例估計(jì)總體比例的區(qū)間,或用樣本比例的差估計(jì)總體比例差。第十頁(yè),共三十二頁(yè),編輯于2023年,星期五二項(xiàng)分布的統(tǒng)計(jì)推斷需要強(qiáng)調(diào)的是,以上方法使用的前提是樣本量n要足夠大,或者二項(xiàng)比例接近0.5;否則區(qū)間估計(jì)的效果將非常差,特別是在二項(xiàng)比例趨近1或0時(shí);這時(shí),可以采用假設(shè)檢驗(yàn)(得分檢驗(yàn))的方法來(lái)進(jìn)行參數(shù)估計(jì),其效果要優(yōu)于一般直接采用區(qū)間估計(jì)的方法。原因在于:計(jì)算樣本比例的標(biāo)準(zhǔn)誤時(shí),不需要用樣本比例作為總體比例的點(diǎn)估計(jì)。第十一頁(yè),共三十二頁(yè),編輯于2023年,星期五二項(xiàng)分布的統(tǒng)計(jì)推斷【例】一項(xiàng)新治療手段在10次試驗(yàn)中有9次成功,試對(duì)總體比例進(jìn)行區(qū)間估計(jì)(α=0.05)?!窘?】基于直接區(qū)間估計(jì)方法的結(jié)果為:【解2】運(yùn)用檢驗(yàn)統(tǒng)計(jì)量構(gòu)造區(qū)間:對(duì)于給定的p和n,使檢驗(yàn)統(tǒng)計(jì)量值的是下面方程的解.第十二頁(yè),共三十二頁(yè),編輯于2023年,星期五二項(xiàng)分布的統(tǒng)計(jì)推斷對(duì)二項(xiàng)參數(shù)的假設(shè)檢驗(yàn):Wald檢驗(yàn)(最簡(jiǎn)單的方法)是利用 極大似然(ML)估計(jì)值代替真實(shí)標(biāo)準(zhǔn)誤表達(dá)式中的未知參數(shù)而構(gòu)造的統(tǒng)計(jì)量近似服從標(biāo)準(zhǔn)正態(tài)分布,近似服從df=1的卡方分布稱為Wald統(tǒng)計(jì)量第十三頁(yè),共三十二頁(yè),編輯于2023年,星期五二項(xiàng)分布的統(tǒng)計(jì)推斷似然比檢驗(yàn)利用似然函數(shù)構(gòu)造似然比統(tǒng)計(jì)量,其中分子是原假設(shè)成立時(shí)似然函數(shù)的極大值,分母是不限定參數(shù)時(shí)似然函數(shù)的極大值,形式為:在原假設(shè)成立條件下,該統(tǒng)計(jì)量服從df=1的大樣本卡方分布可以利用統(tǒng)計(jì)軟件計(jì)算似然函數(shù)的極大值第十四頁(yè),共三十二頁(yè),編輯于2023年,星期五幾種方法的比較【例】試對(duì)前例進(jìn)行假設(shè)檢驗(yàn),其原假設(shè)與備擇假設(shè)分別為Wald檢驗(yàn)的統(tǒng)計(jì)量:得分檢驗(yàn)的統(tǒng)計(jì)量:似然比檢驗(yàn)統(tǒng)計(jì)量:第十五頁(yè),共三十二頁(yè),編輯于2023年,星期五幾種方法的比較其中,當(dāng)以上統(tǒng)計(jì)推斷方法結(jié)果不一致時(shí),說(shuō)明ML估計(jì)量的分布遠(yuǎn)離了正態(tài)分布,在這種情況下,使用小樣本方法將更準(zhǔn)確。對(duì)小樣本時(shí),直接使用二項(xiàng)分布,而不是使用正態(tài)近似來(lái)計(jì)算P-值,將更加安全準(zhǔn)確。第十六頁(yè),共三十二頁(yè),編輯于2023年,星期五分類數(shù)據(jù)的檢驗(yàn)當(dāng)分類超過(guò)兩類時(shí),形成多項(xiàng)分布;多項(xiàng)分布屬性數(shù)據(jù)的假設(shè)檢驗(yàn)一般提法:按照某項(xiàng)指標(biāo)總體被分為r類,分別為:提出原假設(shè):假設(shè)對(duì)該總體進(jìn)行n次觀測(cè),其中Ai類的觀測(cè)次數(shù)為ni,以此為基礎(chǔ)對(duì)原假設(shè)進(jìn)行檢驗(yàn)。第十七頁(yè),共三十二頁(yè),編輯于2023年,星期五分類數(shù)據(jù)的χ2檢驗(yàn)在原假設(shè)成立時(shí),n次觀測(cè)中屬于Ai類的期望頻數(shù)為,則實(shí)際頻數(shù)與期望頻數(shù)應(yīng)接近,從而有Pearson卡方統(tǒng)計(jì)量:該統(tǒng)計(jì)量的值越小,說(shuō)明原假設(shè)成立;若該值較大,說(shuō)明實(shí)際頻數(shù)與期望頻數(shù)差異較大,故拒絕原假設(shè)。第十八頁(yè),共三十二頁(yè),編輯于2023年,星期五Mendel的豌豆實(shí)驗(yàn)第十九頁(yè),共三十二頁(yè),編輯于2023年,星期五分類數(shù)據(jù)的χ2檢驗(yàn)對(duì)得到的卡方統(tǒng)計(jì)量的值,可以直接與相應(yīng)的顯著性水平和自由度下的卡方值比較,若大于則拒絕原假設(shè),若小于則不拒絕原假設(shè);查表得:,故不拒絕原假設(shè)。也可以利用P-值進(jìn)行判斷:需要注意的是:卡方統(tǒng)計(jì)量的使用要求樣本量要大,且期望頻數(shù)不能太小,見附錄3。通常要求樣本量≥50,期望頻數(shù)≥5。第二十頁(yè),共三十二頁(yè),編輯于2023年,星期五分類數(shù)據(jù)的χ2檢驗(yàn)對(duì)于小期望頻數(shù)的問(wèn)題,有人采用合并類別的方法。但會(huì)導(dǎo)致:會(huì)丟失信息;隨機(jī)性受到影響;不同的類別合并方式會(huì)產(chǎn)生不同的結(jié)論對(duì)于前面討論的二項(xiàng)分布的檢驗(yàn)而言,同樣可以采用卡方統(tǒng)計(jì)量進(jìn)行檢驗(yàn)。只不過(guò)只有兩類而已(卡方的df=1)。第二十一頁(yè),共三十二頁(yè),編輯于2023年,星期五分類數(shù)據(jù)的χ2檢驗(yàn)以上所進(jìn)行的多項(xiàng)分布數(shù)據(jù)檢驗(yàn)稱為擬合優(yōu)度檢驗(yàn),或一致性檢驗(yàn);類似的例子如:為提高市場(chǎng)占用率,兩個(gè)主要競(jìng)爭(zhēng)對(duì)手展開了公告戰(zhàn)。已知之前A公司占用率45%,B公司為40%,其他15%。為了解廣告之后是否有變化調(diào)查了200個(gè)消費(fèi)者,有102人購(gòu)買A公司產(chǎn)品,82人購(gòu)買B公司產(chǎn)品,16人購(gòu)買其他公司產(chǎn)品。問(wèn)前后是否有差異。第二十二頁(yè),共三十二頁(yè),編輯于2023年,星期五分類數(shù)據(jù)的似然比檢驗(yàn)分類數(shù)據(jù)的似然函數(shù)取決于多項(xiàng)分布的分布律:似然函數(shù)就是觀測(cè)數(shù)據(jù)出現(xiàn)的概率,被看作參數(shù)的函數(shù)。似然比統(tǒng)計(jì)量確定了在原假設(shè)下和不限定參數(shù)時(shí)似然函數(shù)極大值的比值。則多項(xiàng)分布的似然比統(tǒng)計(jì)量記為:第二十三頁(yè),共三十二頁(yè),編輯于2023年,星期五分類數(shù)據(jù)的似然比檢驗(yàn)似然比統(tǒng)計(jì)量說(shuō)明,當(dāng)期望頻數(shù)等于實(shí)際頻數(shù)時(shí),G2等于0;越大的G2則提供了拒絕H0越充分的證據(jù)。G2與皮爾遜卡方統(tǒng)計(jì)量類似,當(dāng)原假設(shè)成立且期望頻數(shù)很大時(shí),都服從相同的卡方分布。G2漸近卡方分布自由度的確定方法:自由度df=完全參數(shù)空間要估計(jì)的參數(shù)個(gè)數(shù)-原假設(shè)成立時(shí)要估計(jì)的參數(shù)個(gè)數(shù)第二十四頁(yè),共三十二頁(yè),編輯于2023年,星期五Mendel的豌豆實(shí)驗(yàn)前例同樣可以利用似然比統(tǒng)計(jì)量進(jìn)行檢驗(yàn)與皮爾遜卡方統(tǒng)計(jì)量的值相近。檢驗(yàn)的判斷準(zhǔn)則同卡方檢驗(yàn)。第二十五頁(yè),共三十二頁(yè),編輯于2023年,星期五帶參數(shù)的分類數(shù)據(jù)的檢驗(yàn)前面的分類數(shù)據(jù)檢驗(yàn)中,假設(shè)總體比例都是已知的,進(jìn)而通過(guò)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值進(jìn)行判斷原假設(shè)是否成立。而實(shí)際中并不完全是這樣的。這就需要在原假設(shè)成立時(shí)先對(duì)未知的參數(shù)進(jìn)行估計(jì),然后再進(jìn)行檢驗(yàn)。原假設(shè)為:第二十六頁(yè),共三十二頁(yè),編輯于2023年,星期五帶參數(shù)的分類數(shù)據(jù)的檢驗(yàn)根據(jù)多項(xiàng)分布律構(gòu)造似然函數(shù),從而得到對(duì)數(shù)似然方程,可以求得未知參數(shù)的估計(jì)值,再來(lái)計(jì)算皮爾遜卡方統(tǒng)計(jì)量和似然比統(tǒng)計(jì)量:第二十七頁(yè),共三十二頁(yè),編輯于2023年,星期五帶參數(shù)的分類數(shù)據(jù)的檢驗(yàn)【例】按性別和是否色盲將隨機(jī)調(diào)查1000人進(jìn)行分類,結(jié)果為:男性正常、女性正常、男性色盲、女性色盲各有442人、514人、38人、6人。根據(jù)遺傳學(xué)理論,男性正常、女性正常、男性色盲、女性色盲的概率分別為:其中,未知,。問(wèn)調(diào)查與模型相符嗎?第二十八頁(yè),共三十二頁(yè),編輯于2023年,星期五帶參數(shù)的分類數(shù)據(jù)的檢驗(yàn)可見,上例中參數(shù)是未知的,需要先求p的極大似然估計(jì)值。似然函數(shù)為:得到對(duì)數(shù)似然方程:于是求得:第二十九頁(yè),共

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論