分類資料的推斷與x2檢驗統(tǒng)計學.ppt_第1頁
分類資料的推斷與x2檢驗統(tǒng)計學.ppt_第2頁
分類資料的推斷與x2檢驗統(tǒng)計學.ppt_第3頁
分類資料的推斷與x2檢驗統(tǒng)計學.ppt_第4頁
分類資料的推斷與x2檢驗統(tǒng)計學.ppt_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、C班理論課:4.5(周一)上午3-4節(jié) 改為:4.2(周五)上午3-5節(jié) 501課室B班理論課:4.5日(周一)上午8-10節(jié) 改為:4.8(周四)上午 3-5節(jié) 201課室,第十章 分類變量資料的統(tǒng)計分析,公共衛(wèi)生學院醫(yī)學統(tǒng)計與流行病學系 林愛華,第二節(jié) 分類變量資料統(tǒng)計推斷,一、率的抽樣分布 二、率的抽樣誤差與標準誤 三、總體率的區(qū)間估計 四、率比較的u檢驗,一、率的抽樣分布,二項分布(binomial distribution): 例:假設注射某種免疫疫苗會有10%的人出現(xiàn)不適反應。問3人接種后各種可能后果的概率是多少,貝努利試驗(Bernoulli trials,n次獨立、重復試驗(每

2、次試驗只出現(xiàn)A和 之一,每次概率都是 和 )。 貝努利試驗中,事件A可能發(fā)生0, 1, 2, , n次,A 恰好發(fā)生k次的概率為,二項分布 (binomial distribution,若隨機變量X只能在: 中取值,各種可能值的概率滿足前式,我們就說X服從參數(shù)n和的二項分布, 記為,已知: =0.3,n =5 ; =0.3,n =10 ; =0.3,n =15 ; =0.5,n =10 。 試根據(jù)式(10-6)求各陽性數(shù)事件的概率并作概率分布圖,圖10-1 率的抽樣分布圖 (二項分布,率的抽樣分布特征,1.為離散型分布; 2.當 =0.5時,呈對稱分布; 3.當n 增大時,逐漸逼近正態(tài)分布。

3、一般認為,當n和n(1-)5時, 可近似看作正態(tài)分布,1. 抽樣誤差的概念: 在抽樣研究中,率和均數(shù)一樣,也存在抽樣誤差,即樣本率和總體率或各樣本率之間存在著差異,這種差異稱為率的抽樣誤差(sampling error of rate,二、率的抽樣誤差與標準誤,2. 率的標準誤,率的抽樣誤差用率的標準誤(standard error of rate)表示。 其計算公式為: 其估計值為,例10-6 為了解某地人群結(jié)核菌素試驗陽性率情況,某醫(yī)療機構在該地人群中隨機檢測了1773人,結(jié)核菌素試驗陽性有682人,陽性率為38.47%,試計算其標準誤,三、總體率的估計,包括點估計和區(qū)間估計。 點估計即用

4、樣本率來估計總體率; 區(qū)間估計是按一定概率來估計總體率所在的范圍,即估計總體率的可信區(qū)間 (estimation of confidence interval of rate)。 根據(jù)n和P的大小,總體率的可信區(qū)間可按下面的兩種方法計算,一)正態(tài)近似法: 當樣本含量n足夠大(例如大于50),樣本率P或1-P均不太小時(如nP和n(1-P)均大于5),樣本率的分布近似正態(tài)分布,可按正態(tài)分布的理論來估計總體率的可信區(qū)間,二)查表法: 當n 較小,如n50,特別是 P接近于0或1時,可查閱有關專著,查出可信區(qū)間,正態(tài)近似法舉例(基于例10-6,可信區(qū)間的計算公式為,95%的可信區(qū)間: 38.47%1

5、.961.16%=36.20%40.74% 99%的可信區(qū)間: 38.47 %2.58 1.16 %=35.48%41.46,四、樣本率比較的u 檢驗,一) 樣本率與總體率的比較: (二)兩個樣本率的比較,應用條件,一) 樣本率與總體率的比較,例10-7 一般情況下,直腸癌圍術期并發(fā)癥發(fā)生率為30%,現(xiàn)某醫(yī)院手術治療了385例直腸癌患者,圍術期出現(xiàn)并發(fā)癥有100例,并發(fā)癥發(fā)生率為26%,問該院直腸癌患者圍術期并發(fā)癥發(fā)生率與一般情況比較有無統(tǒng)計學差異,首先討論應用條件:是否滿足下式。 本例,1. 建立檢驗假設: H0: =0 H1: 0 =0.05 2計算u 值,3. 確定P 值,判斷結(jié)果 本題

6、u=1.7131.96,P0.05,按=0.05的水準不拒絕H0,差異無統(tǒng)計學意義,故尚不能認為該院直腸癌患者圍術期并發(fā)癥發(fā)生率與一般情況不同,二)兩個樣本率的比較,例10-8 為了解某地小學生蛔蟲感染率的城鄉(xiāng)差異,抽樣調(diào)查了該地小學生22792人,其中城鎮(zhèn)小學生8207人,糞檢蛔蟲卵陽性數(shù)為701人,蛔蟲感染率為8.54%,鄉(xiāng)村小學生14585人,糞檢蛔蟲卵陽性數(shù)為2167人,蛔蟲感染率為14.86%,試比較該地小學生蛔蟲感染率城鄉(xiāng)差異有無統(tǒng)計學意義,首先討論應用條件。 1. 建立檢驗假設: H0: 1=2 H1: 12 =0.05,2計算u 值,3. 確定P 值和判斷結(jié)果: 本題u =13

7、.7392.58,P0.01,按=0.05的水準,拒絕H0,差異具有統(tǒng)計學意義,該地城鎮(zhèn)和鄉(xiāng)村小學生蛔蟲感染率不相等,鄉(xiāng)村小學生蛔蟲感染率高于城鎮(zhèn)小學生,一、 2 檢驗的基本思想 二、四格表資料的2 檢驗 三、配對設計分類變量資料 的 2檢驗 四、行列表資料的 2檢驗,第三節(jié) 2 檢驗,方法簡介: 檢驗(chi-square test或稱卡方檢驗)是英國統(tǒng)計學家Pearson在1900年提出的一種用途廣泛的假設檢驗方法。 這里介紹其用于兩個或兩個以上獨立樣本的率(或構成比)的比較以及配對資料比較的方法,一、 檢驗的基本思想,例10-9 某醫(yī)生欲比較用甲、乙兩種藥物治療動脈硬化的療效,甲藥治療7

8、1例,有效52例, 乙藥治療42例,有效39例,結(jié)果見表10-7。問兩種藥物的有效率是否有差別,四個格子的數(shù)據(jù)是表10-7中基本數(shù)據(jù),其余的數(shù)據(jù)都是從這四個數(shù)據(jù)推算得來的,這種資料稱四格表(fourfold table)資料,表10-7 甲、乙兩種藥物治療動脈硬化的療效比較,A為實際頻數(shù)(actual frequency), 即每個格子的實際發(fā)生數(shù),T為理論數(shù)(theoretical frequency),是根據(jù)無效假設推算出來的。 H0:1=2 =p0 = 80.53%(91/113,卡方檢驗的基本公式,A藥治療71人,理論上應該有: 71(91/113)=57.18人有效; B藥治療42人

9、,理論上應該有: 42(91/113)=33.82人有效。 理論頻數(shù)可由下式求得: 例如,2 值反映的是實際頻數(shù)與理論頻數(shù)的吻合程度,在無效假設H0成立的情況下,理論數(shù)和實際數(shù)相差不應該太大,出現(xiàn)較大的2值的概率較小,或說2 值越大,就越有理由推翻無效假設H0,四格表資料 值的自由度,在行合計與列合計固定的情況下,一個格子的數(shù)值確定之后,其它三個格子的數(shù)值也就確定下來。 自由度為1。 通式計算,自由度一定時,其2值的概率分布也就確定。 根據(jù)自由度和檢驗水準,查表10-13 可得2界值,若2值20.05(),則可按=0.05的檢驗水準拒絕H0; 若2值20.05(),則還不能拒絕H0,2界值表,

10、1. 建立檢驗假設,確定檢驗水準: H0 :兩藥有效率相同,即12 H1 :兩藥有效率不同,即1 2 =0.05,二、四格表資料的2 檢驗,一) 2檢驗的基本步驟:例10-9:某醫(yī)生欲比較用甲、乙兩種藥物治療動脈硬化的療效,甲藥治療71例,有效52例, 乙藥治療42例,有效39例,結(jié)果見表10-7。問兩種藥物的有效率是否有差別,3. 確定P值,做出推論: = (行數(shù)-1)(列數(shù)-1)=(2-1)(2-1)=1, 20.025(1)=5.02,20.01(1)=6.63。 本例5.022=6.486.63,所以,0.025P 0.01,按=0.05水準,拒絕H0,接受H1,故認為甲、乙兩藥的療效

11、不同,乙藥療效要好于甲藥,2. 計算檢驗統(tǒng)計量和自由度,二)四格表資料專用公式,三)連續(xù)性校正的公式,2分布是一種連續(xù)性分布,而分類變量資料屬離散性分布,由此得到的 統(tǒng)計量也是不連續(xù)的。為改善2統(tǒng)計量分布的連續(xù)性,英國統(tǒng)計學家Yates F建議將實際頻數(shù)和理論頻數(shù)之差的絕對值減去0.5以作校正,四)卡方檢驗的應用條件,1. T5,且N40時,用不校正公式計算2值。 2. 1T5,且N40時,用連續(xù)性校正2檢驗。 3. T1或N40,用Fisher精確概率法計算P值。(參閱統(tǒng)計學專著,例10-10 某醫(yī)生研究比較A、B兩種藥物對急性細菌性肺炎的療效,有關資料見表10-8,問兩種藥物的療效差別有無

12、統(tǒng)計學意義,H0: 1=2 H1: 12 =0.05 T22=228/64=2.75 5 按=1,查2值表,20.05(1)=3.84,2=4.793.84,P0.05, 按=0.05水準,拒絕H0,接受H1,認為兩藥的療效差別有統(tǒng)計學意義,A藥療效要好于B藥,三、配對設計分類變量資料 的 2檢驗,例10-11 用兩種血清學方法對100例肝癌患者進行檢測,有關檢測結(jié)果見表10-9,問兩種血清學方法檢測結(jié)果有無差別,計算公式:配對卡方檢驗又稱McNemar檢驗,檢驗步驟,1. 檢驗假設: H0:1=2 H1:12 =0.05 2. 計算2值,3. 確定概率P值和判斷結(jié)果 =1,查2界值表,20.

13、05(1)=5.02,220.05(1) , P0.025 ,按=0.05的檢驗水準,拒絕H0,接受H1,可認為兩種方法的陽性檢出率不相同,加之P甲P乙,故認為甲法的陽性檢出率較高,注意事項,由于該檢驗只考慮了不一致的情況(b與c),而未考慮樣本含量n及一致結(jié)果(a與d),因此,當n很大而且兩法一致率較高(即a與d數(shù)值較大),b與c的數(shù)值相對較小時,即使檢驗結(jié)果有統(tǒng)計學意義,但實際意義并不大,四、行列表資料的 2檢驗,例10-12 某研究者欲比較甲、乙、丙3家醫(yī)院住院病人院內(nèi)感染情況,隨機抽查同一時期各醫(yī)院住院病人院內(nèi)感染情況結(jié)果見表10-10,試比較三家醫(yī)院院內(nèi)感染率有無差別,表10-10

14、甲乙丙三家醫(yī)院住院病人院內(nèi)感染率比較,行列表 2檢驗的簡化公式,檢驗步驟,1 檢驗假設: H0 :三家醫(yī)院院內(nèi)感染率相同。 H1 :三家醫(yī)院院內(nèi)感染率不同或不全相同。 =0.05 2 計算2值,3 確定概率P值和判斷結(jié)果: =(3-1)(2-1)=2,查2值表,20.01(2)=9.21, 220.01(2), P0.01, 按=0.05的檢驗水準,拒絕H0,接受H1,故可認為甲、乙、丙三家醫(yī)院院內(nèi)感染率總的來講有差別,例10-13 某研究者欲了解白內(nèi)障發(fā)病是否與ABO血型有關,收集有關資料見表10-11,問白內(nèi)障組與對照組ABO血型分布有無差別,1 檢驗假設: H0 :白內(nèi)障組與對照組ABO血型分布相同。 H1 :白內(nèi)障組與對照組ABO血型分布不同或不全相同。 =0.05 2 計算2值,3 確定概率P值和判斷結(jié)果: =(4-1)(2-1)=3,查2值表,20.05(3) =7.81 , 2 0.05, 不拒絕檢驗假設,尚不能認為白內(nèi)障組與對照組ABO血型分布不同,行列表資料2檢驗的注意事項,1進行行列表資料2檢驗時,要求不能有1/5以上的格子理論數(shù)小于5,或者不能有任意一個格子的理論數(shù)小于1,否則易導致分析的偏性。出現(xiàn)這些情況時可采取以下措施,1)在可能的情況下再增加

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論