第7章 分類資料的統(tǒng)計(jì)推斷_第1頁(yè)
第7章 分類資料的統(tǒng)計(jì)推斷_第2頁(yè)
第7章 分類資料的統(tǒng)計(jì)推斷_第3頁(yè)
第7章 分類資料的統(tǒng)計(jì)推斷_第4頁(yè)
第7章 分類資料的統(tǒng)計(jì)推斷_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章分類資料的統(tǒng)計(jì)推斷統(tǒng)計(jì)推斷用樣本信息推論總體特征的過程。包括:參數(shù)估計(jì):

運(yùn)用統(tǒng)計(jì)學(xué)原理,用從樣本計(jì)算出來的統(tǒng)計(jì)指標(biāo)量,對(duì)總體統(tǒng)計(jì)指標(biāo)量進(jìn)行估計(jì)。假設(shè)檢驗(yàn):又稱顯著性檢驗(yàn),是指由樣本間存在的差別對(duì)樣本所代表的總體間是否存在著差別做出判斷。主要內(nèi)容一、率(或構(gòu)成比)的抽樣誤差和標(biāo)準(zhǔn)誤二、總體率(或構(gòu)成比)的估計(jì)三、總體率(或構(gòu)成比)的假設(shè)檢驗(yàn)

1.率(或構(gòu)成比)的Z檢驗(yàn)

2.x2檢驗(yàn)

一、率的抽樣誤差與標(biāo)準(zhǔn)誤

樣本率(p)和總體率(π)的差異稱為率的抽樣誤差(samplingerrorofrate),用率的標(biāo)準(zhǔn)誤(standarderrorofrate)度量。如果總體率π未知,用樣本率p估計(jì)二、總體率的估計(jì)點(diǎn)估計(jì)——樣本率代替總體率區(qū)間估計(jì)——根據(jù)樣本率推算總體率可能所在的范圍

率的置信區(qū)間1、查表法當(dāng)n≤50,尤其是p接近0或1時(shí),可直接查表得到。例:從某地隨機(jī)抽取31名初中生,發(fā)現(xiàn)有9名近視,試求該地初中生近視發(fā)生率的95%置信區(qū)間。

查表得:(14%,48%)例:某地抽查了10名居民的乙肝表面抗原(HBsAg)攜帶情況,陰性者8人,求該縣人群HBsAg陰性率的95%置信區(qū)間。注:附表中只列出x≤n/2的部分,當(dāng)x>n/2時(shí),可以用n-x查表,再以100%減去查得的區(qū)間即可。因8>10/2,故以n-x=2查表,得3%~56%,再用100%分別減去,得出區(qū)間:(44%,97%)2、正態(tài)近似法當(dāng)n足夠大,且np

和n(1-p)均大于5時(shí),p的抽樣分布逼近正態(tài)分布。其可信區(qū)間為:雙側(cè):(p-Zα/2

Sp,p+Zα/2

Sp)(Z0.05/2=1.96)單側(cè):p-Zα

Sp

p+Zα

Sp

(Z0.05=1.645)試估計(jì)p=0.585,Sp=0.048的總體率雙側(cè)95%可信區(qū)間。解:

(p-Zα/2

Sp,p+Zα/2

Sp)=(0.585-1.96×0.048,0.585+1.96×0.048)=(0.491,0.679)即總體率的95%可信區(qū)間為49.1%~67.9%。注意:如果計(jì)算獲得可信區(qū)間下限小于0%,上限大于100%,則將下限直接定為0%,上限直接定為100%。三、樣本率與總體率比較的Z檢驗(yàn)Z檢驗(yàn)的條件:nπ

和n(1-π)均大于5時(shí)四、兩個(gè)獨(dú)立樣本率比較的Z檢驗(yàn)表5-1兩種療法的心血管病病死率比較療法死亡生存

合計(jì)病死率(%)安慰劑26(X1)178204(n1)12.75(p1)鹽酸苯乙雙胍2(X2)6264(n2)3.13(p2)合計(jì)2824026810.45(pc)Z檢驗(yàn)的條件:n1p1

和n1(1-p1)與n2p2

和n2(1-p2)均>5小結(jié)1.樣本率也有抽樣誤差,率的抽樣誤差的大小用σp或Sp來衡量。

2.率的分布服從二項(xiàng)分布。當(dāng)n足夠大,π和1-π均不太小,有nπ>5和n(1-π)>5時(shí),近似正態(tài)分布。

3.總體率的可信區(qū)間是用樣本率估計(jì)總體率的可能范圍。當(dāng)p分布近似正態(tài)分布時(shí),可用正態(tài)近似法估計(jì)率的可信區(qū)間。

4.根據(jù)正態(tài)近似原理,可進(jìn)行樣本率與總體率以及兩樣本率比較的Z檢驗(yàn)。率的Z檢驗(yàn)?zāi)芙鉀Q以下問題嗎?

率的反應(yīng)為生與死、陽(yáng)性與陰性、發(fā)生與不發(fā)生等二分類變量,如果二分類變量為非正反關(guān)系(如治療A、治療B);反應(yīng)為多分類,如何進(jìn)行假設(shè)檢驗(yàn)?率的Z檢驗(yàn)要求:nπ>5且n(1-π)>5,如果條件不滿足,如何進(jìn)行假設(shè)檢驗(yàn)?

五、卡方檢驗(yàn)χ2檢驗(yàn)(Chi-squaretest)是現(xiàn)代統(tǒng)計(jì)學(xué)的創(chuàng)始人之一,英國(guó)人K.Pearson(1857-1936)于1900年提出的一種具有廣泛用途的統(tǒng)計(jì)方法,可用于兩個(gè)或多個(gè)率間的比較,計(jì)數(shù)資料的關(guān)聯(lián)度分析,擬合優(yōu)度檢驗(yàn)等等。(一)卡方檢驗(yàn)的基本思想(1)療法死亡生存

合計(jì)病死率(%)安慰劑26(a)178(b)204(a+b)12.75(p1)鹽酸苯乙雙胍2(c)62(d)64(c+d)3.13(p2)合計(jì)28(a+c.)240(b+d.)268(a+b+c+d=n)10.45(pc)表5-1兩種療法的心血管病病死率的比較2×2表或四格表(fourfoldtable)實(shí)際頻數(shù)A

(actualfrequency)

理論頻數(shù)T(theoreticalfrequency):a的理論頻數(shù)=(a+b)×[(a+c.)/n]=nRnC/n=21.3b的理論頻數(shù)=(a+b)×[(b+d.)/n]=nRnC/n=182.7c的理論頻數(shù)=(c+d)×[(a+c)/n]=nRnC/n=6.7d的理論頻數(shù)=(c+d)×[(b+d.)/n]=nRnC/n=57.3(一)卡方檢驗(yàn)的基本思想(2)

各種情形下,理論與實(shí)際偏離的總和即為卡方值(chi-squarevalue),它服從自由度為ν的卡方分布。3.847.8112.59P=0.05的臨界值χ2分布(chi-squaredistribution)χ2檢驗(yàn)的基本公式

上述基本公式由Pearson提出,因此軟件上常稱這種檢驗(yàn)為Peareson卡方檢驗(yàn)。它不僅適用于四格表資料,也適用于其它的“行×列表”。(二)四格表專用公式(1)

為了不計(jì)算理論頻數(shù)T,

可由基本公式推導(dǎo)出,直接由各格子的實(shí)際頻數(shù)(a、b、c、d)計(jì)算卡方值的公式:(二)四格表專用公式(2)

2(1)~z2

=2.19492=4.82(n>40,所有T

5時(shí))(三)連續(xù)性校正公式(1)

χ2分布是一連續(xù)型分布,而行×列表資料屬離散型分布,對(duì)其進(jìn)行校正稱為連續(xù)性校正(correctionforcontinuity),又稱Yates校正(Yates'correction)。⑴當(dāng)n≥40,而1≤T<5時(shí),用連續(xù)性校正公式⑵當(dāng)n<40或T<1時(shí),用Fisher精確檢驗(yàn)(Fisherexacttest)(三)連續(xù)性校正公式(2)因?yàn)?<T<5,且n>40時(shí),所以應(yīng)用連續(xù)性校正χ2檢驗(yàn)(四)配對(duì)四格表資料的χ2檢驗(yàn)配對(duì)四格表資料的χ2檢驗(yàn)也稱McNemar檢驗(yàn)(McNemar'stest)H0:b,c來自同一個(gè)實(shí)驗(yàn)總體(兩種劑量的毒性無差異);H1:b,c來自不同的實(shí)驗(yàn)總體(兩種劑量的毒性有差別);α=0.05。配對(duì)四格表資料的χ2檢驗(yàn)公式推導(dǎo)(五)行×列(R×C)表資料的χ2檢驗(yàn)行×列表也稱R×C表,包括2×2、R×2、2×C、R×C表等。四格表為其中最簡(jiǎn)單的一種形式,本節(jié)主要討論行數(shù)大于2或列數(shù)大于2的行×列表資料的χ2檢驗(yàn),用于多個(gè)樣本率或構(gòu)成比的比較。它的基本原理和檢驗(yàn)步驟與四格表χ2檢驗(yàn)相似,可用χ2檢驗(yàn)的基本公式進(jìn)行計(jì)算。R×C表的χ2檢驗(yàn)通用公式幾種R×C表的檢驗(yàn)假設(shè)H0R×C表的計(jì)算舉例R×C表χ2檢驗(yàn)的應(yīng)用注意事項(xiàng)1.對(duì)R×C表,若較多格子(1/5)的理論頻數(shù)小于5或有一個(gè)格子的理論頻數(shù)小于1,則易犯第一類錯(cuò)誤。 出現(xiàn)某些格子中理論頻數(shù)過小時(shí)怎么辦?(1)增大樣本含量(最好?。?)刪去該格所在的行或列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論