




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、.,許林勇 博士,醫(yī)學統(tǒng)計學-卡方檢驗,E-MAIL: ,主講內(nèi)容,第一 概述基本思想 第二 22表卡方檢驗 第三 配對四格表卡方檢驗 第四 RC表卡方檢驗 第五 Fisher確切概率檢驗 第六 多個樣本率的多重比較 第七有序分組資料的線性趨勢檢驗,卡方檢驗概述p136,研究目的:率 or 構成比的假設檢驗(大樣本率或 小樣本率) 資料類型:計數(shù)資料 基本思想: 檢驗中的 是希臘字母,稱為卡方檢驗,是一種用途較廣的計數(shù)資料的假設檢驗方法,屬于非參數(shù)檢驗的范疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變量的關聯(lián)性分析。其根本思想就是在于比較理論頻數(shù)和實際頻數(shù)的吻合程度或擬合優(yōu)度問題
2、。,檢驗的應用,檢驗兩個樣本率之間差別的顯著性; 檢驗多個樣本率或構成比之間差別的顯著性; 檢驗兩個雙向無序分類變量是否存在關聯(lián); 配對計數(shù)資料的比較。,一、兩獨立樣本率檢驗(一)兩獨立樣本率資料的四格表形式,例7-1 為研究腫瘤標志物癌胚抗原(CEA)對肺癌的診斷價值,隨機抽取72例確診為肺癌的患者為肺癌組,114例接受健康體檢的非肺癌患者為對照組。用CEA對其進行檢測,結果呈陽性反應者病例組中33例,對照組中10例。問兩組人群的CEA陽性率有無差異?,表7-1 CEA對兩組人群的診斷結果*,* 括號內(nèi)為理論頻數(shù)。,本例資料經(jīng)整理成表7-1形式,即有兩個處理組,每個處理組的例數(shù)由發(fā)生數(shù)和未發(fā)
3、生數(shù)兩部分組成。表內(nèi)有33、39、10、104 四個基本數(shù)據(jù),其余數(shù)據(jù)均由此四個數(shù)據(jù)推算出來的,故稱四格表資料。,(二) 檢驗的基本思想,表7-2 四格表資料的基本形式,基本思想:可通過 檢驗的基本公式來理解。,式中,A為實際頻數(shù)(actual frequency), T為理論頻數(shù)(theoretical frequency)。,理論頻數(shù) 是根據(jù)檢驗設 ,且用合并率 來估計而定的。,理論頻數(shù)由下式求得:,式中,TRC 為第R 行C 列的理論頻數(shù) nR 為相應的行合計 nC 為相應的列合計,檢驗統(tǒng)計量 值反映了實際頻數(shù)與理論頻數(shù)的吻合程度。 若檢驗假設H0:1=2成立,四個格子的實際頻數(shù)A 與理
4、論頻數(shù)T 相差不應該很大,即統(tǒng)計量 不應該很大。如果 值很大,即相對應的P 值很小,若 ,則反過來推斷A與T相差太大,超出了抽樣誤差允許的范圍,從而懷疑H0的正確性,繼而拒絕H0,接受其對立假設H1,即12 。,由公式(7-1)還可以看出: 值的大小還取決于 個數(shù)的多少(嚴格地說是自由度的大?。?。由于各 皆是正值,故自由度愈大, 值也會愈大;所以只有考慮了自由度的影響, 值才能正確地反映實際頻數(shù)A和理論頻數(shù)T 的吻合程度。 檢驗的自由度取決于可以自由取值的格子數(shù)目,而不是樣本含量n。四格表資料只有兩行兩列,=1,即在周邊合計數(shù)固定的情況下,4個基本數(shù)據(jù)當中只有一個可以自由取值。,(1) 建立檢
5、驗假設,確定檢驗水平。 H0:1=2 H1:12 =0.05。,(三) 假設檢驗,(2)求檢驗統(tǒng)計量值,四格表資料檢驗的專用公式,(四)四格表資料檢驗的校正公式,分布是一連續(xù)型分布,而四格表資料屬離散型分布,由此計算得的 統(tǒng)計量的抽樣分布亦呈離散性質(zhì)。為改善 統(tǒng)計量分布的連續(xù)性,則進行連續(xù)性校正。,四格表資料 檢驗公式選擇條件:,,不校正的理論或?qū)S霉剑?,校正公式; ,直接計算概率 (Fisher)。,連續(xù)性校正僅用于 的四格表資料,當 時,一般不作校正。,例7-2 將116例癲癇患者隨機分為兩組,一組70例接受常規(guī)加高壓氧治療(高壓氧組),另一組46例接受常規(guī)治療(常規(guī)組),治療結果見表
6、7-3。問兩種療法的有效率有無差別?,表7-3 兩種療法治療癲癇的效果,本例 ,故用四格表資料 檢驗的校正公式,,查 界值表得 。按 檢驗水準不拒絕 ,尚不能認為組有效率不等。,本資料若不校正時, 結論與之相反。,(四)卡方檢驗的連續(xù)性校正問題,贊成依據(jù)是:這樣做可使卡方統(tǒng)計量抽樣分布的連續(xù)性和平滑性得到改善,可以降低I類錯誤的概率,連續(xù)性校正后的卡方檢驗,其結果更接近于Fisher確切概率法。不過,校正也不是無條件的,它只適合于自由度為1時,樣本含量較小,如n40,或至少有一個格子的理論頻數(shù)太小,如T5的情形。,(四)卡方檢驗的連續(xù)性校正問題,反對依據(jù)是:經(jīng)連續(xù)性校正后,P值有過分保守之嫌。
7、此外,F(xiàn)isher確切概率法建立在四格表雙邊固定的假定下,而實際資料則是單邊固定的四格表,連續(xù)性校正卡方檢驗的P值與Fisher確切概率法的P值沒有可比性。,就應用而言,無論是否經(jīng)過連續(xù)性校正,若兩種檢驗的結果一致,無須在此問題上糾纏。但是,當兩種檢驗結果相互矛盾時,如例7-2,就需要謹慎解釋結果了。 為客觀起見,建議將兩種結論同時報告出來,以便他人判斷。當然,如果兩種結論一致,如均為或,則只報道非連續(xù)性檢驗的結果即可。,第二節(jié)、兩相關樣本率檢驗(McNemar檢驗),配對四格表資料的 檢驗,與計量資料推斷兩總體均數(shù)是否有差別有成組設計和配對設計一樣,計數(shù)資料推斷兩個總體率(構成比)是否有差別
8、也有成組設計和配對設計,即四格表資料和配對四格表資料。,例7-3某抗癌新藥的毒理研究中,將78只大鼠按性別、窩別、體重、年齡等因素配成39對,每個對子的兩只大鼠經(jīng)隨機分配,分別接受甲劑量和乙劑量注射,試驗結果見表7-4。試分析該新藥兩種不同劑量的毒性有無差異。,表7-4 某抗癌新藥兩種劑量的毒理實驗結果,上述配對設計實驗中,就每個對子而言,兩種處理的結果不外乎有四種可能:,兩只大鼠均死亡(甲乙)數(shù)(a); 兩只均生存(甲乙)數(shù)(d); 其中一只死亡(甲乙 )數(shù)(b); 其中一只死亡(甲乙)數(shù) (c)。,其中,a, d 為兩法觀察結果一致的兩種情況, b, c為兩法觀察結果不一致的兩種情況。,檢
9、驗統(tǒng)計量為,注意:,本法一般用于樣本含量不太大的資料。因為它僅考慮了兩法結果不一致的兩種情況(b, c),而未考慮樣本含量n和兩法結果一致的兩種情況(a, d)。所以,當n很大且a與d的數(shù)值很大(即兩法的一致率較高),b與c的數(shù)值相對較小時,即便是檢驗結果有統(tǒng)計學意義,其實際意義往往也不大。,第三節(jié),R C表 檢驗,行列表資料,多個樣本率比較時,有R行2列,稱為R 2表; 兩個樣本的構成比比較時,有2行C列,稱2C表; 多個樣本的構成比比較,以及雙向無序分類資料關聯(lián)性檢驗時,有行列,稱為R C表。,檢驗統(tǒng)計量,一、多個樣本率的比較,例7-4用A、B、C三種不同方法分別處理新生兒臍帶,發(fā)生感染的
10、情況見表7-6,試比較3種不同方法的臍帶感染率有無差異。 表9-6 三種臍帶處理方法的臍帶感染情況,二、兩組構成比的比較,例7-5為研究某種新藥對尿路疼痛的止痛效果,將有尿路疼痛的患者144例隨機分為兩組,每組72例,一組服該新藥(治療組),另一組服安慰劑(對照組)。兩組患者尿路疼痛的原因見表7-7,問兩組患者尿路疼痛原因的分布有無差異?,表7-7 兩組患者尿路疼痛原因的分布,三、多組構成比的比較,例7-6 在某項疼痛測量研究中,給160例手術后疼痛的患者提供四種疼痛測量量表,即直觀模擬量表(VAS),數(shù)字評估量表(NRS),詞語描述量表(VDS),面部表情疼痛量表(FPS),患者首選的量表以
11、及患者的文化程度見表7-8,問患者首選疼痛量表與文化程度是否有關?,表7-8 不同文化程度患者首選疼痛量表的類型,四、 R C表 檢驗的條件,1行列表中的各格T1,并且1T5的格子數(shù)不宜超過1/5格子總數(shù),否則可能產(chǎn)生偏性。處理方法有三種:,增大樣本含量以達到增大理論頻數(shù)的目的,屬首選方法,只是有些研究無法增大樣本含量,如同一批號試劑已用完等。,根據(jù)專業(yè)知識,刪去理論頻數(shù)太小的行或列,或?qū)⒗碚擃l數(shù)太小的行或列與性質(zhì)相近的鄰行或鄰列合并。這樣做會損失信息及損害樣本的隨機性。 注意:不同年齡組可以合并,但不同血型就不能合并。 改用雙向無序RC表的Fisher確切概率法(可用SAS軟件實現(xiàn))。,第四
12、節(jié)、Fisher確切概率檢驗,確切概率檢驗是由Fisher 1934年提出的一種用于兩個獨立樣本率比較的方法,故又稱Fisher確切概率法。有人認為,當樣本量n和理論頻數(shù)T太小時,如n40而且T5,或T1,或n20,應該用確切概率檢驗。這一觀點所基于的理論是,當樣本量太小時,二項分布的正態(tài)逼近性較差,因而不宜用基于正態(tài)分布的檢驗。提出上述條件的另外一種考慮是確切概率法的計算量偏大,但隨著計算工具的大大改進,確切概率法的應用不一定限于上述條件。,例7-4 某醫(yī)師為研究乙肝免疫球蛋白預防胎兒宮內(nèi)感染HBV的效果,將33例HBsAg陽性孕婦隨機分為預防注射組和非預防組,結果見表7-4。問兩組新生兒的
13、HBV總體感染率有無差別?,基本思想,在四格表周邊合計數(shù)固定不變的條件下,計算表內(nèi)4個實際頻數(shù)變動時的各種組合之概率;再按檢驗假設用單側或雙側的累計概率,依據(jù)所取的檢驗水準做出推斷。,1各組合概率的計算 在四格表周邊合計數(shù)不變的條件下,表內(nèi)4個實際頻數(shù),變動的組合數(shù)共有“周邊合計中最小數(shù)+1”個。如例7-4,表內(nèi)4個實際頻數(shù)變動的組合數(shù)共有個,依次為:,1計算現(xiàn)有樣本四格表的和及各組合下四格表的,見表7-5。本例、。 2計算滿足條件的各組合下四格表的概率。 3計算同時滿足和條件的四格表的累計概率。本例 滿足條件,累計概率為,教材批p143,本例,宜用四格表資料的Fisher確切概率法直接計算累
14、計概率。檢驗步驟為: :,即兩組新生兒HBV的總體感染率相等 :,即兩組新生兒HBV的總體感染率不等,第五節(jié) 多個樣本率間的多重比較,當多個樣本率比較的表資料檢驗,推斷結論為拒絕,接受時,只能認為各總體率之間總的來說有差別,但不能說明任兩個總體率之間有差別。要進一步推斷哪兩兩總體間有差別,若直接用四格表資料的檢驗進行多重比較,將會加大犯類錯誤的概率。,1多個實驗組間的兩兩比較,, ,k 為樣本率的個數(shù)。,2、實驗組與同一個對照組的比較,第六節(jié) 雙向無序分類資料的關聯(lián)性檢驗,例 7-8 測得某地5801人的ABO血型和MN血型結果如表,問兩種血型系統(tǒng)之間是否有關聯(lián)?,步驟,1、建立檢驗假設 2、
15、計算檢驗統(tǒng)計量 3、求出P值,作結論 注意:若須進一步分析關系的密切程度時,可計算Pearson列聯(lián)系數(shù),第七節(jié) 有序分組資料的線性趨勢檢驗,例7-11 某研究者欲研究年齡與冠狀動脈粥樣硬化等級之間的關系,將278例尸解資料整理成表7-13,問年齡與冠狀動脈粥樣硬化等級之間是否存在線性變化趨勢?,步驟,1、建立檢驗假設 2、計算檢驗統(tǒng)計量 3、求出P值,作結論 注意:基本思想是: 首先計算表資料的值,然后將總的值分解成線性回歸分量與偏離線性回歸分量。若兩分量均有統(tǒng)計學意義,說明兩個分類變量存在相關關系,但關系不是簡單的直線關系;若線性回歸分量有統(tǒng)計學意義,偏離線性回歸分量無統(tǒng)計學意義時,說明兩
16、個分類變量不僅存在相關關系,而且是線性關系。,Nonzero Correlation 8 63.3895 .0001,Chi-Square 1 71.4325 .0001,data ex7_11; input r c f ; cards; 1 1 70 1 2 22 1 3 4 1 4 2 2 1 27 2 2 24 2 3 9 2 4 3 3 1 16 3 2 23 3 3 13 3 4 7 4 1 9 4 2 20 4 3 15 4 4 14 ; proc freq; weight f; tables r*c /cmh1; run;,注意,雙向有序?qū)傩圆煌谋碣Y料 表資料中兩個分類變量皆為
17、有序的,但屬性不同,如表7-13。對于該類資料,若研究目的為分析不同年齡組患者療效之間有無差別時,可把它視為單向有序表資料,選用秩轉(zhuǎn)換的非參數(shù)檢驗;若研究目的為分析兩個有序分類變量間是否存在相關關系,宜用等級相關分析或Pearson積矩相關分析(見第九章);若研究目的為分析兩個有序分類變量間是否存在線性變化趨勢,宜用本節(jié)所介紹的有序分組資料的線性趨勢檢驗。,summary,1、研究目的:率 or 構成比的假設檢驗(大樣本率或 小樣本率) 2、資料類型:計數(shù)資料 3、基本思想: 根本思想就是在于比較理論頻數(shù)和實際頻數(shù)的吻合程度或擬合優(yōu)度問題。 4、應用條件 檢驗兩個樣本率之間差別的顯著性; 檢驗
18、多個樣本率或構成比之間差別的顯著性; 檢驗兩個雙向無序分類變量是否存在關聯(lián); 配對計數(shù)資料的比較。,5、理論頻數(shù)和fisher確切概率法 6、多個樣本率的多重比較 7、 表資料的分類和相應檢驗目的 可以分為雙向無序、單向有序、雙向有序?qū)傩韵嗤碗p向有序?qū)傩圆煌?類。 A、對于雙向無序資料,若研究目的為多個樣本率(或構成比)的比較,可用行列表資料的檢驗;若研究目的為分析兩個分類變量之間有無關聯(lián)性以及關系的密切程度時,可用行列表資料的檢驗以及Pearson列聯(lián)系數(shù)進行分析。,B、單向有序 表資料 有兩種形式。一種是表資料中的分組變量(如年齡)是有序的,而指標變量(如傳染病的類型)是無序的。其研究目的通常是分析不同年齡組各種傳染病的構成情況,此種單向有序表資料可用行列表資料的檢驗進行分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 郵寄檢驗服務部工作技巧與客戶反饋計劃
- 《貴州美升能源集團有限公司六枝特區(qū)新興煤礦(變更)礦產(chǎn)資源綠色開發(fā)利用方案(三合一)》評審意見
- 膀胱部分切除后護理
- 高中地理 3.1 海水的溫度和鹽度教學實錄2 新人教版選修2
- 2025年三明道路運輸從業(yè)人員從業(yè)資格考試
- 2025年貴州貨運從業(yè)資格證模擬考試保過版
- 《人民幣兌換》(教學設計)-2024-2025學年五年級上冊數(shù)學北師大版
- 部隊違規(guī)使用檢討書
- 社區(qū)七夕節(jié)活動方案
- 四年級數(shù)學(四則混合運算)計算題專項練習與答案
- 《DeepSeek入門寶典》第4冊·個人使用篇
- 2024年中考模擬試卷數(shù)學(新疆卷)
- 2025年蘇州農(nóng)業(yè)職業(yè)技術學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 加油站的流程優(yōu)化
- 關于美國地理知識的講課
- 浙江2024年浙江省有色金屬地質(zhì)勘查院選調(diào)專業(yè)技術人員筆試歷年典型考點(頻考版試卷)附帶答案詳解
- 2024云南紅河州個舊市大紅屯糧食購銷限公司招聘及人員易考易錯模擬試題(共500題)試卷后附參考答案
- 開門見山的作文開頭和結尾摘抄
- 新人教版九年級數(shù)學第一輪總復習教案
- 2024年安徽省養(yǎng)老護理職業(yè)技能競賽考試題庫(含答案)
- 醉酒后急救知識培訓課件
評論
0/150
提交評論