版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、分類資料的統(tǒng)計推斷Statistical Inference for Categorical Data檢驗 Fisher精確概率法(Fishers Exact Test) 主要內(nèi)容兩個率的比較配對設(shè)計兩個率的比較RC列聯(lián)表的分析正確應(yīng)用(Chi-square Test)問題的提出Karl Pearson 1857-1936 描述統(tǒng)計學(xué)派的代表人物,現(xiàn)代統(tǒng)計科學(xué)的創(chuàng)立者。始于數(shù)學(xué),繼之哲學(xué)和法律學(xué),進而生物學(xué)和遺傳學(xué),集大成于統(tǒng)計學(xué)。堅決的反對推斷統(tǒng)計學(xué)派 統(tǒng)計分布,Pearson分布曲線 理論分布和實際分布間總存在差異1900年,Karl Pearson提出 檢驗.隨機誤差?本質(zhì)性差異?Why
2、問題的提出四格表資料2檢驗例7.2(page75) 某醫(yī)院腫瘤科3年來共治療乳腺癌患者n=131例,每例均觀察滿5年,其中單純手術(shù)治療組觀察n1=84例,存活x1=57例,存活率p1=67.9,聯(lián)合治療(手術(shù)+術(shù)后化療)組觀察n2=47例,存活x2=39例,存活p2=83.0,問兩組存活率有無差別? two samples.Population AunknownPopulation BunknownSamplesknown?Populationsunknown四格表資料2檢驗處理存活數(shù) 死亡數(shù) 合計存活率(%) 聯(lián)合治療4783.0單純治療8467.9合計963513173.339 857 2
3、7表7-1 兩組存活率的比較四格表(fourfold table)四格表資料 (fourfold table)When the variables are independent, the proportion in both groups is close to the same size as the proportion for the total sample.When group membership makes a difference, the dependent relationship is indicated by one group having a higher pro
4、portion than the proportion for the total sample. 四格表資料2檢驗理論頻數(shù) (theoretical frequence)如果兩個樣本來自同一總體,則兩組存活率相同,則用合計的存活率作為總體存活率的點估計值。在這樣的假設(shè)前提下,可以計算各組理論存活人數(shù)和理論死亡人數(shù)。根據(jù)檢驗假設(shè)H0計算出來的數(shù)稱作理論頻數(shù)(theoretical frequency)T。處理存活數(shù) 死亡數(shù)合計存活率(%)聯(lián)合治療39847單純治療572784合計963513173.373.3 理論頻數(shù)34.44理論頻數(shù)的計算(theoretical frequence)理論頻
5、數(shù)12.56理論頻數(shù)理論頻數(shù)73.3 61.5622.442檢驗的基本思想(1)通過構(gòu)造A與T吻合程度的統(tǒng)計量來反映兩樣本率的差別!3985727實際數(shù)A 理論數(shù)T34.4412.5661.5622.44如果H0假設(shè)成立,則實際頻數(shù)與理論頻數(shù)應(yīng)該比較接近。差值 屬于隨機誤差,用2 統(tǒng)計量表示: H0成立時,實際數(shù)與理論數(shù)的差別不會很大,出現(xiàn)較大2 值概率很小。若P,則拒絕H0;若P,則尚無理由拒絕它。2檢驗的基本思想(2)(1)假設(shè)兩總體率相等H0:兩組總體存活率相同,即1=2;H1:兩組總體存活率不同,即12;0.05。2檢驗的步驟(1)(2)實際數(shù)與理論數(shù)的差值服從2分布2檢驗的步驟(2)
6、自由度為1的2分布界值自由度為1的2分布界值0.00.10.20.30.40.53.840.05Reject H0Do not reject H0(3)查2分布界值表確定P值并作出推論按 = (2-1)(2-1)= 1查附表3,2界值表,得P0.05。按=0.05水準不拒絕H0,差別無統(tǒng)計學(xué)意義。故尚不能認為單純手術(shù)療法與聯(lián)合療法對乳腺癌患者治療效果有差別。 2檢驗的步驟(3)總結(jié)比較兩個樣本率所代表的總體率是否有差別,實質(zhì)是考察現(xiàn)有的樣本頻數(shù)分布是否與假設(shè)下的理論頻數(shù)分布間差異到底是否包含了本質(zhì)上的差異。2 統(tǒng)計量代表了實際數(shù)與理論數(shù)吻合的程度。Reject H0 if0 2Reject H
7、0Do not reject H0 (with k 1 degrees of freedom)2總結(jié)2檢驗相關(guān)問題 2分布0.00.10.20.30.40.52分布與自由度有關(guān)Chi-square distribution請看演示 c2 分布四格表及行列表的自由度 在表中周邊合計數(shù)不變的前提下,基本數(shù)據(jù)可以自由變動的格子數(shù)。3947849635131827572檢驗相關(guān)問題 自由度2檢驗相關(guān)問題四格表專用公式abcd 2=a,b,c,d分別為四格表的四個實際頻數(shù);n=a+b+c+d。2檢驗相關(guān)問題四格表專用公式2分布是連續(xù)性分布;定性資料;實際數(shù)過小,增加了第一類錯誤。校正公式:2檢驗相關(guān)問題
8、2值的校正n 40,T 5,用2檢驗;n40,但1 T 5 ,用校正2。n 40,或T 1,用確切概率法。2檢驗相關(guān)問題應(yīng)用條件某礦石粉廠當(dāng)生產(chǎn)一種礦石粉石時,在數(shù)天內(nèi)即有部分工人患職業(yè)性皮膚炎,在生產(chǎn)季節(jié)開始,隨機抽取15名車間工人穿上新防護服,其余仍穿原用的防護服,生產(chǎn)進行一個月后,檢查兩組工人的皮膚炎患病率,結(jié)果如表 ,問兩組工人的皮膚炎患病率有無差別?2檢驗相關(guān)問題應(yīng)用條件2檢驗相關(guān)問題應(yīng)用條件 H0:兩組工人的皮膚炎患病率無差別,即1=2; H1:兩組工人的皮膚炎患病率有差別,即12; =0.05。 最小的理論頻數(shù)T11=1511/43=3.84, 1T1140,所以宜用2檢驗的校正
9、公式。 查附表 2界值表得0.05 P 0.10,按 =0.05水平不拒絕H0,差別無統(tǒng)計學(xué)意義。尚不能認為穿不同防護服的皮膚炎患病率有差別。2檢驗相關(guān)問題應(yīng)用條件3.840.050.0250.0251.96-1.962檢驗相關(guān)問題與正態(tài)分布的關(guān)系檢驗 Fisher精確概率法 主要內(nèi)容兩個率的比較配對設(shè)計兩個率的比較RC列聯(lián)表的分析正確應(yīng)用Chi-square test配對四格表資料的2檢驗McNemar檢驗(McNemars test)目的 通過對單一樣本數(shù)據(jù)的分析,推斷兩種處理的結(jié)果有無差別。用途 比較兩種檢驗方法、兩種培養(yǎng)方法、兩種提取方法等的差別。 例7.8(page81) 用兩種檢驗
10、方法對某食品作沙門氏菌檢驗,結(jié)果如表7.9,試比較兩種方法的陽性結(jié)果是否有差別。 配對四格表資料的2檢驗兩種檢驗方法陽性率結(jié)果可能的結(jié)果甲乙頻數(shù)1a2b3c4d配對四格表資料的2檢驗兩種檢驗方法結(jié)果比較熒光抗體法 常規(guī)培養(yǎng)法 合計160(a)26(b)1865(c)48(d)53合計16574239配對四格表資料的2檢驗配對四格表資料的實際數(shù)與理論數(shù)26(b) 5(c)15.5 15.5實際數(shù)理論數(shù)=1 連續(xù)性校正當(dāng)20b+c40時,需要校正: 配對四格表資料的2檢驗步驟 H0:兩種檢驗方法陽性率相同 ,總體BC; H1:兩種檢驗方法陽性率不同 ,總體BC。 0.05。計算統(tǒng)計量: , =1。
11、P0.05按0.05水準,拒絕H0 ,接受H1 ,差別有統(tǒng)計學(xué)意義。可以認為兩法檢驗結(jié)果不一樣,熒光抗體法陽性結(jié)果高于常規(guī)培養(yǎng)法。 檢驗 Fisher精確概率法 主要內(nèi)容兩個率的比較配對設(shè)計兩個率的比較RC列聯(lián)表的分析正確應(yīng)用Chi-square test多個率比較的2檢驗多組率或構(gòu)成比比較時,由于行數(shù)或列數(shù)超出了2,我們把這樣的資料稱為行列表資料。 行列表的2檢驗統(tǒng)計量: 地區(qū)檢驗的樣品合計污染率(%)未污染污染甲 6 232979.3乙30144431.8丙 8 31127.3合計44408447.6某省三個地區(qū)花生的黃曲酶毒素B1污染率比較多個率比較的2檢驗理論數(shù)的計算15.213.82
12、3.021.0 5.85.2實際數(shù)A 理論數(shù)T 62329301444 8 311 44(52.4%) 40(47.6%)842值的計算15.213.823.021.0 5.85.2 實際數(shù)A 理論數(shù)T 6233014 8 32值的計算 62329301444 8 311 44 4084自由度為2的2分布界值0.00.10.20.30.40.55.990.053個率比較的2檢驗步驟H0: 1= 2 = 3H1: 1, 2 , 3不等或不全相等0.05。計算統(tǒng)計量: 217.91, v = 2。P0.0001按0.05水準,拒絕H0 ,接受H1 。認為三個地區(qū)花生中黃曲酶毒素B1污染率不等或不全
13、相等。例7.4(page78) 某地調(diào)查了19951998四個年度中小學(xué)女生的貧血狀況,見表7.4,問各年度間學(xué)生貧血率有無差別?多個率比較的2檢驗多個率比較的2檢驗步驟H0:四個年度學(xué)生的貧血檢出率相等,即1=2=3=4;H1:四個年度學(xué)生的貧血檢出率不等或不全相等。0.05。計算統(tǒng)計量:v = 2 =(4-1)(2-1)=3。查附表3,2界值表,得P0.005。按 =0.05水準拒絕H0,接受H1,差異有統(tǒng)計學(xué)意義。故可認為該地四個年份中小學(xué)女生貧血檢出率不相等。多個率比較的2檢驗步驟構(gòu)成比的比較美國、中國、挪威三種不同國籍者的ABO血型分布國籍OABAB合計美國450410100 401
14、000挪威190250 40 20 500中國3002503501001000合計940910490160 250構(gòu)成比的比較美國、中國、挪威三種不同國籍者的ABO血型分布國籍OABAB合計美國450(45.0)410(41.0)100(10.0) 40( 4.0)1000挪威190(38.0)250(50.0) 40( 8.0) 20( 4.0) 500中國300(30.0)250(25.0)350(35.0)100(10.0)1000合計940(37.6)910(36.4)490(19.6)160( 6.4) 2502值的計算450410100 40190250 40 2030025035
15、010037636419664158182 983237636419664實際數(shù)A 理論數(shù)T2值的計算450410100 401000190250 40 20 500300250350100100094091049016025003個構(gòu)成比比較的2檢驗步驟H0: 三種國籍國民的血型構(gòu)成相同;H1: 三種國籍國民的血型構(gòu)成不同或不全相同。0.05。計算統(tǒng)計量: 2332.9668 , v = 6 。P5,用2;n 40,但1 T 5,用校正2。n 40,或T 40;20b+c40用校正2 。b+c20,二項分布直接計算概率。2檢驗的應(yīng)用條件(2)RC表的分析方法選擇條件:理論數(shù)不能小于1;理論數(shù)
16、大于等于1小于5的格子數(shù)不超過總格子數(shù)的1/5。否則用Fisher確切概率;或似然比檢驗(likelihood ratio test)如果以上條件不能滿足,可采用: 增加樣本含量 刪去某行或某列 合理地合并部分行或列 Fisher精確概率法2檢驗的應(yīng)用條件(3)多個率或構(gòu)成比比較的2檢驗,結(jié)論為拒絕H0時,僅表示幾組有差別,并非任2組之間都有差別。若要了解之,可進行多重比較:2表的分割或率的可信區(qū)間法.2檢驗的應(yīng)用條件(4)對于有序的分類變量,采用卡方檢驗方法不能考慮數(shù)據(jù)的有序性質(zhì)。為此,對于單向有序可采用秩和檢驗、Ridit分析,雙向有序可采用趨勢檢驗等。2檢驗的應(yīng)用條件(5)檢驗 Fish
17、er精確概率法 主要內(nèi)容兩個率的比較配對設(shè)計兩個率的比較RC列聯(lián)表的分析正確應(yīng)用Chi-square test四格表的確切概率(page83)(Fishers exact probability in 22 table)大腦左半球與右半球的惡性腫瘤作占比例組別良性惡性合計惡性腫瘤所占比例率(%)左 半 球1331618.75右 半 球761346.15合計20929四格表周邊合計不變xa+b-xa+ba+c-xd-a+xc+da+cb+dnxmin(a,b,c,d)x=0,1,min(a+c,a+b)四格表(周邊合計不變時)所有可能的排列(1)(2)(3)(4)(5) 79 88 971061
18、16130121112103 94|A-T|:4.03453.03452.03451.03450.0345(6)(7)(8)(9)(10)124133142151160 85 76 67 58 49|A-T|:0.96551.96552.96553.96554.9655每一種組合的概率aba+bcdc+da+cb+dn超幾何分布(hypergeometric distribution)四格表所有可能排列的概率(1)(2)(3)(4)(5) 79 88 97106116130121112103 94|A-T|:4.03453.03452.03451.03450.0345Pi0.0011420.0167060.0890980.2286860.311844(6)(7)(8)(9)(10)124133142151160 85 76 67 58 49|A-T|:0.965
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 資產(chǎn)轉(zhuǎn)讓合同格式
- 專業(yè)借款合同樣本:工程
- 2024房屋裝修合同協(xié)議書個人范本
- 標(biāo)準版店鋪租賃合同樣式
- 2024年度網(wǎng)絡(luò)安全服務(wù)合同標(biāo)的定義與執(zhí)行細則
- 水產(chǎn)養(yǎng)殖合同收購范例
- 2024衛(wèi)星遙感數(shù)據(jù)服務(wù)采購合同
- 2024人工智能在醫(yī)療診斷中的應(yīng)用合同
- 2024年廣告發(fā)布與 media buy 合同
- 臨時用工合同范文
- 輪扣式模板支撐架安全專項施工方案
- 酒店裝飾裝修工程驗收表
- 中國行業(yè)分類代碼表
- 社會組織協(xié)會換屆選舉會議主持詞
- 呼吸科(呼吸與危重癥醫(yī)學(xué)科)出科理論試題及答案
- 清新個人工作述職報告PPT模板
- 公路工程通用(專用)合同條款匯編.
- 工程施工現(xiàn)場及常用對話場景英語集錦
- 肺癌的靶向治療法PPT課件.ppt
- 凸透鏡成像規(guī)律動畫演示
- 專賣店空間設(shè)計(課堂PPT)
評論
0/150
提交評論