卡方檢驗(yàn)完整版本_第1頁(yè)
卡方檢驗(yàn)完整版本_第2頁(yè)
卡方檢驗(yàn)完整版本_第3頁(yè)
卡方檢驗(yàn)完整版本_第4頁(yè)
卡方檢驗(yàn)完整版本_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PAGEPAGE4第16章無(wú)序分類變量的統(tǒng)計(jì)推斷——卡方檢驗(yàn)通過(guò)前面的介紹可以知道,變量可以被分為連續(xù)性變量(定距、定比)和分類變量,后者又被細(xì)分為有序、無(wú)序變量?jī)煞N。對(duì)于各組所在總體的定量變量(即連續(xù)性變量)的平均水平,可以使用t檢驗(yàn)和方差分析方法進(jìn)行比較,秩和檢驗(yàn)則用于比較各組所在總體為有序分類變量的分布情況是否相同。這里將要介紹的卡方檢驗(yàn)主要用于無(wú)序分類變量的統(tǒng)計(jì)推斷,是在應(yīng)用的程度上可以和t檢驗(yàn)相媲美的另一種常用檢驗(yàn)方法。連續(xù)變量?jī)山Mt檢驗(yàn)多組方差分析分類變量有序秩和檢驗(yàn)無(wú)序卡方檢驗(yàn)16.1卡方檢驗(yàn)概述16.1.1卡方檢驗(yàn)的基本原理1.卡方檢驗(yàn)的基本思想卡方檢驗(yàn)是以χ2分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法,它的無(wú)效假設(shè)為H0是:觀察頻數(shù)與期望頻數(shù)沒(méi)有差異??ǚ綑z驗(yàn)的基本思想是:首先假設(shè)H0成立,基于此前提計(jì)算出χ2值,它表示觀察值與理論值之間的偏離程度。根據(jù)χ2分布及自由度可以確H0假設(shè)成立的情況下獲得當(dāng)前統(tǒng)計(jì)量及更極端情況的概率P。如果P值很小,說(shuō)明觀察值與理論值偏離程度太大,應(yīng)當(dāng)拒絕原假設(shè),表示比較資料之間有顯著差異;否則不能拒絕無(wú)效假設(shè),尚不能認(rèn)為樣本所代表的實(shí)際情況和理論假設(shè)有差別。2.卡方值的計(jì)算與意義見(jiàn)復(fù)印資料柯惠新等人編著《調(diào)查研究中的統(tǒng)計(jì)分析法》卡方統(tǒng)計(jì)量,由于它最初是由英國(guó)統(tǒng)計(jì)學(xué)家KarlPearson在1900年首次提出的,因此也稱之為Pearsonχ2。由卡方的計(jì)算公式可知,當(dāng)觀察頻數(shù)與期望頻數(shù)完全一致時(shí),χ2值為0;觀察頻數(shù)與期望頻數(shù)越接近,兩者之間的差異越小,χ2值越?。环粗?,觀察頻數(shù)與期望頻數(shù)差別越大,兩者之間的差異越大,χ2值越大。換言之,大的χ2值表明觀察頻數(shù)遠(yuǎn)離期望頻數(shù),即表明遠(yuǎn)離假設(shè)。3.卡方檢驗(yàn)的樣本量要求一般認(rèn)為,對(duì)于卡方檢驗(yàn)中的每一個(gè)單元格,要求其最小期望頻數(shù)均大于1,且至少有4/5的單元格期望頻數(shù)大于5,此時(shí)使用卡方分布計(jì)算出的概率值才是準(zhǔn)確的。16.1.2卡方檢驗(yàn)的用途卡方檢驗(yàn)最常間的用途就是考察無(wú)序分類變量各水平在兩組或多組之間的分布是否一致。實(shí)際上,除了這個(gè)用途之外,卡方檢驗(yàn)還有更廣泛的應(yīng)用。具體而言,其用途主要包括以下幾個(gè)方面。(1)檢驗(yàn)?zāi)硞€(gè)連續(xù)變量的分布是否與某種理論分布相一致。如是否符合正態(tài)分布、是否服從均勻分布、是否服從Poisson分布等。(2)檢驗(yàn)?zāi)硞€(gè)分類變量出現(xiàn)的概率是否等于指定概率。如在36選7的彩票抽獎(jiǎng)中,每個(gè)數(shù)字出現(xiàn)的概率是否各為1/36;擲硬幣時(shí),正反兩面出現(xiàn)的概率是否均為0.5。(3)檢驗(yàn)?zāi)硟蓚€(gè)分類變量是否相互獨(dú)立。如吸煙(二分類變量:是、否)是否與呼吸道疾病(二分類變量:是、否)有關(guān);產(chǎn)品原料種類(多分類變量)是否與產(chǎn)品合格(二分類變量)有關(guān)。(4)檢驗(yàn)控制某種或某幾種分類因素的作用以后,另兩個(gè)分類變量是否相互獨(dú)立。如在上例中,控制性別、年齡因素影響以后,吸煙是否和呼吸道疾病有關(guān);控制產(chǎn)品加工工藝的影響后,產(chǎn)品原料類別是否與產(chǎn)品合格有關(guān)。(5)檢驗(yàn)?zāi)硟煞N方法的結(jié)果是否一致。如采用兩種診斷方法對(duì)同一批人進(jìn)行診斷,其診斷結(jié)果是否一致;采用兩種方法對(duì)客戶進(jìn)行價(jià)值類別預(yù)測(cè),預(yù)測(cè)結(jié)果是否一致。16.1.3SPSS中的相應(yīng)功能1.非參數(shù)分布檢驗(yàn)中的卡方檢驗(yàn)準(zhǔn)確地說(shuō),這里提供的就是檢驗(yàn)?zāi)硞€(gè)分類變量各類的出現(xiàn)概率是否等于指定概率的分布檢驗(yàn)。2.交叉表過(guò)程主要用于針對(duì)兩個(gè)/多個(gè)分類變量的交叉表進(jìn)行其關(guān)聯(lián)程度的卡方檢驗(yàn),并可進(jìn)一步計(jì)算出關(guān)聯(lián)程度指標(biāo)等,上面提到的卡方檢驗(yàn)用途中的后三項(xiàng)都可以在該過(guò)程中實(shí)現(xiàn),而人們一般所說(shuō)的卡方檢驗(yàn)也就是指該過(guò)程中的相應(yīng)功能。--單樣本案例:考察抽樣數(shù)據(jù)的性別分布--兩樣本案例:不同收入級(jí)別家庭的轎車擁有率比較--兩分類變量間的關(guān)聯(lián)程度的度量--一致性檢驗(yàn)與配對(duì)卡方檢驗(yàn)--分層卡方檢驗(yàn)16.2單樣本案例:考察抽樣數(shù)據(jù)的性別分布從已知的樣本數(shù)據(jù)出發(fā),來(lái)判斷總體各取值水平出現(xiàn)的概率是否與已知概率相符,即該樣本是否的確來(lái)自已知總體的分布。這就是本節(jié)所說(shuō)的單樣本概率與總體率的比較,也有人稱它為擬合問(wèn)題,在統(tǒng)計(jì)學(xué)中可以利用(單樣本)卡方檢驗(yàn)來(lái)回答此問(wèn)題。在實(shí)踐工作中,有許多單樣本率與總體率進(jìn)行比較的例子。如骰子是否公平,檢驗(yàn)各面出現(xiàn)的概率是否各等于1/6;檢驗(yàn)彩票中獎(jiǎng)號(hào)碼的分布是否均勻分布,以檢驗(yàn)彩票開獎(jiǎng)是否作弊;國(guó)家人口老齡化問(wèn)題是否更嚴(yán)重了;某產(chǎn)品的市場(chǎng)占有份額是否較以前更大;某病的發(fā)病率是否較前降低等。16.2.1案例分析例16.1以卡方檢驗(yàn)考察2007年4月的性別分布是否均衡。“分析”——“非參數(shù)檢驗(yàn)”——“卡方”菜單項(xiàng)卡方檢驗(yàn)S2.性別觀察數(shù)期望數(shù)殘差男165150.015.0女135150.0-15.0總數(shù)300152152/150+(-15)2/150=3S2.性別卡方顯著性P值為0.083,大于0.05,不顯著,不能拒絕原假設(shè)。尚不能認(rèn)為CCSS抽樣數(shù)據(jù)的性別分布有差異。3.000顯著性P值為0.083,大于0.05,不顯著,不能拒絕原假設(shè)。尚不能認(rèn)為CCSS抽樣數(shù)據(jù)的性別分布有差異。df1漸近顯著性.083a.0個(gè)單元(.0%)具有小于5的期望頻率。單元最小期望頻率為150.0。思考:自由度(df)=1是怎么計(jì)算得來(lái)的?16.3兩樣本案例:不同收入級(jí)別家庭的轎車擁有率比較例16.2在CCSS的分析報(bào)告中,所有受訪家庭會(huì)按照家庭年收入被分為低收入家庭和中高收入家庭兩類,現(xiàn)希望考察不同收入級(jí)別的家庭其轎車擁有率是否相同。操作說(shuō)明及結(jié)果解釋“分析”——“描述統(tǒng)計(jì)”——“交叉表”菜單項(xiàng)行:家庭收入兩級(jí)Ts9列:是否擁有家庭轎車O1單元顯示:行百分比統(tǒng)計(jì)量:卡方確定交叉表家庭收入2級(jí)*O1.是否擁有家用轎車交叉制表O1.是否擁有家用轎車合計(jì)有沒(méi)有家庭收入2級(jí)Below48,000計(jì)數(shù)32303335家庭收入2級(jí)中的%9.6%90.4%100.0%Over48,000計(jì)數(shù)225429654家庭收入2級(jí)中的%34.4%65.6%100.0%合計(jì)計(jì)數(shù)257732989家庭收入2級(jí)中的%26.0%74.0%100.0%家庭收入2級(jí)*O1.是否擁有家用轎車交叉制表O1.是否擁有家用轎車合計(jì)有沒(méi)有家庭收入2級(jí)Below48,000計(jì)數(shù)32303335期望的計(jì)數(shù)87.1247.9335.0家庭收入2級(jí)中的%9.6%90.4%100.0%Over48,000計(jì)數(shù)225429654期望的計(jì)數(shù)169.9484.1654.0家庭收入2級(jí)中的%34.4%65.6%100.0%合計(jì)計(jì)數(shù)257732989期望的計(jì)數(shù)257.0732.0989.0家庭收入2級(jí)中的%26.0%74.0%100.0%首先給出的是家庭收入級(jí)別和轎車擁有情況的交叉表,可見(jiàn)低收入家庭中只有10%擁有轎車,而中高收入家庭中有34%擁有轎車,樣本數(shù)據(jù)的差異很明顯,但該差異是否具有統(tǒng)計(jì)學(xué)意義尚需進(jìn)行檢驗(yàn)。卡方檢驗(yàn)值df漸進(jìn)Sig.(雙側(cè))精確Sig.(雙側(cè))精確Sig.(單側(cè))Pearson卡方71.1341.000連續(xù)校正b69.8481.000似然比80.1461.000Fisher的精確檢驗(yàn).000.000線性和線性組合71.0621.000有效案例中的N989a.0單元格(.0%)的期望計(jì)數(shù)少于5。最小期望計(jì)數(shù)為87.05。b.僅對(duì)2x2表計(jì)算上表為卡方檢驗(yàn)結(jié)果表。最下方的腳注內(nèi)容:在該4格表中,沒(méi)有單元格(0%)的期望頻數(shù)小于5,其中期望頻數(shù)最少的那個(gè)單元格的期望頻數(shù)為87.05。該腳注充分說(shuō)明,本樣本的樣本量(及其單元格分布)完全滿足Pearson卡方的要求,因此可以放心地閱讀最常用的Pearson卡方的檢驗(yàn)結(jié)果。對(duì)表中呈現(xiàn)的其他幾種統(tǒng)計(jì)值不做掌握要求。16.4兩分類變量間關(guān)聯(lián)程度的度量卡方檢驗(yàn)可以從定性的角度告訴用戶兩個(gè)變量是否存在關(guān)聯(lián),當(dāng)拒絕H0時(shí),在統(tǒng)計(jì)上有把握認(rèn)為兩個(gè)變量存在關(guān)聯(lián)。但接下來(lái)的問(wèn)題是,如果變量之間存在相關(guān)性,它們之間的關(guān)聯(lián)強(qiáng)度有多大,有沒(méi)有什么指標(biāo)可以客觀表示其大?。?6.4.1相對(duì)危險(xiǎn)度與優(yōu)勢(shì)比在實(shí)際應(yīng)用中,卡方值的大小可以粗略地反映兩變量聯(lián)系的強(qiáng)弱,但是這很難有更貼近實(shí)際的解釋,只從從它的大小上獲得一個(gè)關(guān)聯(lián)強(qiáng)弱的印象。但是如果有一個(gè)指標(biāo)能夠告訴研究者:男性購(gòu)買該產(chǎn)品的可能性是女性的3倍,這就非常容易理解。相對(duì)危險(xiǎn)度(RelativeRisk,RR)和優(yōu)勢(shì)比(OddsRatio,OR,也可翻譯成比數(shù)比)就可以滿足這一要求。它們與其他關(guān)聯(lián)測(cè)量參數(shù)的最大不同之處在于,RR值和OR值關(guān)心的是,行變量某一水平和列變量某一水平相對(duì)于基礎(chǔ)水平的關(guān)聯(lián)程度,即不同水平間的比較,而上述的關(guān)聯(lián)測(cè)量參數(shù)關(guān)心的則是行變量各水平和列變量各水平的關(guān)聯(lián)程度。1.相對(duì)危險(xiǎn)度RR值是一個(gè)概率的比值,是指實(shí)驗(yàn)組人群反應(yīng)陽(yáng)性概率與對(duì)照組人群反應(yīng)陽(yáng)性概率的比值。用公式表示為:RR=Pt/Pc=a/nt/c/nc其中,Pt為實(shí)驗(yàn)組人群反應(yīng)陽(yáng)性概率,Pc為對(duì)照組人群反應(yīng)陽(yáng)性概率,nt為實(shí)驗(yàn)組總?cè)藬?shù),a為實(shí)驗(yàn)組反應(yīng)陽(yáng)性人數(shù),nc為對(duì)照組總?cè)藬?shù),c為對(duì)照組反應(yīng)陽(yáng)性人數(shù)。RR值用于反映實(shí)驗(yàn)因素與反應(yīng)陽(yáng)性的關(guān)聯(lián)程度。取值范圍從0到無(wú)限大。數(shù)值為1時(shí),表明實(shí)驗(yàn)因素與反應(yīng)陽(yáng)性無(wú)關(guān)聯(lián);小于1時(shí),表明實(shí)驗(yàn)因素導(dǎo)致反應(yīng)陽(yáng)性的發(fā)生率降低;大于1時(shí),表明實(shí)驗(yàn)因素導(dǎo)致反應(yīng)陽(yáng)性的發(fā)生率增加。2.優(yōu)勢(shì)比顯然,RR的解釋非常容易理解,但是RR的計(jì)算要求得到的反應(yīng)概率,由于在回顧性研究中,很難求得人群反應(yīng)概率的估計(jì)值,因此也無(wú)法計(jì)算RR值的估計(jì),此時(shí)研究者往往使用OR值代替RR值,來(lái)反映實(shí)驗(yàn)因素與對(duì)照因素的關(guān)聯(lián)強(qiáng)度。OR值是一個(gè)比值的比,是反應(yīng)陽(yáng)性人群中實(shí)驗(yàn)因素有無(wú)的比率與反應(yīng)陰性的人群中實(shí)驗(yàn)因素有無(wú)的比例之比。計(jì)算公式可以表示為:OR=a/b/c/d=ad/bc其中,a為反應(yīng)陽(yáng)性組實(shí)驗(yàn)組人數(shù),b為反應(yīng)陽(yáng)性組對(duì)照組人數(shù),c為反應(yīng)陰性組實(shí)驗(yàn)組人數(shù),d為反應(yīng)陰性組控制組人數(shù),顯然,如果OR大于1,則說(shuō)明該實(shí)驗(yàn)因素更容易導(dǎo)致結(jié)果為陽(yáng)性,或者說(shuō),采用的實(shí)驗(yàn)因素和結(jié)果為陽(yáng)性有關(guān)聯(lián)。16.4.2案例:計(jì)算家庭收入級(jí)別和轎車擁有情況的關(guān)聯(lián)程度16.3節(jié)中已經(jīng)對(duì)家庭收入級(jí)別和轎車擁有情況的4格表做了卡方檢驗(yàn),結(jié)果顯示兩者之間存在聯(lián)系,中高收入家庭的轎車擁有比例更高。此外,我們還可以使用RR和OR等一系列指標(biāo)來(lái)對(duì)其關(guān)聯(lián)程度加以定量描述。利用SPSS軟件直接求得相應(yīng)的數(shù)值。-“分析”——“描述統(tǒng)計(jì)”——“交叉表”菜單項(xiàng)-行:家庭收入兩級(jí)-列:是否擁有家庭轎車-統(tǒng)計(jì)量:選中“風(fēng)險(xiǎn)”-確定家庭收入2級(jí)*O1.是否擁有家用轎車交叉制表O1.是否擁有家用轎車合計(jì)有沒(méi)有家庭收入2級(jí)Below48,000計(jì)數(shù)32303335家庭收入2級(jí)中的%9.6%90.4%100.0%Over48,000計(jì)數(shù)225429654家庭收入2級(jí)中的%34.4%65.6%100.0%合計(jì)計(jì)數(shù)257732989家庭收入2級(jí)中的%26.0%74.0%100.0%(1)優(yōu)勢(shì)比OR是兩個(gè)比數(shù)的比。某個(gè)事件的(1)優(yōu)勢(shì)比OR是兩個(gè)比數(shù)的比。某個(gè)事件的比數(shù)是它發(fā)生的概率除以不發(fā)生的概率。在本例中,低收入家庭擁有轎車的比數(shù)是9.6%/90.4%=0.106,中高收入家庭擁有家庭轎車的比數(shù)是34.4%/65.6%=0.524,則OR值(即優(yōu)勢(shì)比)等于0.106/0.524=0.201,該指標(biāo)的95%CI同樣不包括1,說(shuō)明該數(shù)值的確是不等于1的(有統(tǒng)計(jì)學(xué)差異)。值95%置信區(qū)間下限上限家庭收入2級(jí)(Below48,000/Over48,000)的幾率比.201.135.300用于cohortO1.是否擁有家用轎車=有.278.196.392用于cohortO1.是否擁有家用轎車=沒(méi)有1.3791.2911.472有效案例中的N989(3)相應(yīng)地,兩組家庭不擁有家庭轎車的概率則是兩個(gè)人群不用有轎車的概率之比,其估計(jì)值為90.4%/65.6%=1.379,即低收入家庭不擁有轎車的概率是中高收入家庭的1.379倍(當(dāng)然,從這個(gè)案例背景而言,更應(yīng)關(guān)心的是0.278這個(gè)數(shù)據(jù)),該數(shù)值的95%CI同樣也不包括1。(2)(3)相應(yīng)地,兩組家庭不擁有家庭轎車的概率則是兩個(gè)人群不用有轎車的概率之比,其估計(jì)值為90.4%/65.6%=1.379,即低收入家庭不擁有轎車的概率是中高收入家庭的1.379倍(當(dāng)然,從這個(gè)案例背景而言,更應(yīng)關(guān)心的是0.278這個(gè)數(shù)據(jù)),該數(shù)值的95%CI同樣也不包括1。(2)對(duì)于不同收入的家庭而言,其擁有家庭轎車的相對(duì)危險(xiǎn)度是兩組人群擁有轎車的概率之比,其估計(jì)值是9.6%/34.4%=0.278,即低收入家庭擁有轎車的概率是中高收入家庭的0.278倍,或者倒過(guò)來(lái)講,中高收入家庭擁有轎車的概率是低收入家庭的1/0.278=3.597倍。且其95%CI不包括1,具有統(tǒng)計(jì)學(xué)意義。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論