八、卡方檢驗.ppt_第1頁
八、卡方檢驗.ppt_第2頁
八、卡方檢驗.ppt_第3頁
八、卡方檢驗.ppt_第4頁
八、卡方檢驗.ppt_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、,卡方檢驗,卡方檢驗基礎 擬合問題單個樣本率與總體率的比較 相關問題兩個樣本率或構成比的比較 兩分類變量間關聯(lián)程度的度量 一致性檢驗與配對卡方檢驗 分層卡方檢驗 小結,內容提要,2檢驗是以2分布為基礎的一種假設檢驗方法,主要用于分類變量,根據(jù)樣本數(shù)據(jù)推斷總體的分布與期望分布是否有顯著差異,或推斷兩個分類變量是否相關或相互獨立。其原假設為: H0:觀察頻數(shù)與期望頻數(shù)沒有差別,卡方檢驗基礎,首先假設H0成立,計算出2值,它表示觀察值與理論值之間的偏離程度。根據(jù)2分布,2統(tǒng)計量以及自由度可以確定在H0成立的情況下獲得當前統(tǒng)計量及更極端情況的概率P。如果P很小,說明觀察值和理論值偏離程度太大,應當拒絕

2、原假設,表示比較資料之間有顯著性差異;否則就不能拒絕原假設,尚不能認為樣本所代表的實際情況與理論假設有差別。,卡方檢驗基礎,2檢驗的基本思想,2值的計算:,由英國統(tǒng)計學家Karl Pearson首次提出,故被稱為Pearson 2 。,卡方檢驗基礎,當n比較大時, 2 統(tǒng)計量近似服從k-1個自由度的2分布。在自由度固定時,每個2值與一個概率值(P 值)相對應,此概率值即為在H0成立的前提下,出現(xiàn)這樣一個樣本或偏離假設總體更遠的樣本的概率。如果P 值小于或等于顯著性水準,則拒絕H0,接受H1,即觀察頻數(shù)與期望頻數(shù)不一致。如果P 值大于顯著性水準,則不拒絕H0,認為觀察頻數(shù)與期望頻數(shù)無顯著性差異。

3、P 值越小,說明H0假設正確的可能性越?。籔 值越大,說明H0假設正確的可能性越大。,卡方檢驗基礎卡方分布,卡方檢驗基礎,利用單樣本均值比較的t檢驗,可以檢驗樣本所在總體的均值與已知值是否存在顯著性差異,即樣本均值與已知值的差異,是由于樣本所在總體的均值和已知值確實有差別,還是由于隨機抽樣引起的差異。這是針對連續(xù)性變量而言,如果是分類變量,就不能使用進行均值比較的t檢驗,而應該使用進行率比較的卡方檢驗。,檢驗某個連續(xù)變量的分布是否與某種理論分布一致,如是否符合正態(tài)分布,Possion分布等 檢驗某個分類變量各類的出現(xiàn)概率是否等于指定概率 檢驗兩個分類變量是否相互獨立,如吸煙是否與呼吸道疾病有關

4、 檢驗控制某種或某幾種分類變量因素的作用之后,另兩個分類變量是否獨立,如上例控制年齡、性別之后,吸煙是否與呼吸道疾病有關 檢驗兩種方法的結果是否一致,如兩種診斷方法對同一批人進行診斷,其診斷結果是否一致,卡方檢驗基礎用途,例1 某公司經營多年,形成了一套成熟的企業(yè)文化和管理體系,例如根據(jù)多年的運營經驗,經理層、監(jiān)察員、辦事員三種職務類別的比例大約在15:5:80為宜,這樣運行效率最高。兩年前公司原管理層集體退居二線,新任管理層上任后對公司進行了較大的變動,有員工擔心這是否已經導致了職務類別比例的失調,影響到公司的高效運行。目前三種職務的人數(shù)比為84:27:363,如何用數(shù)據(jù)分析來解決此類問題呢

5、?(數(shù)據(jù)見employee data.sav),擬合問題樣本率與已知總體率的比較,擬合問題樣本率與已知總體率的比較,這是一個樣本構成比與已知總體構成比進行比較的統(tǒng)計學問題,可以用卡方檢驗來解決。,擬合問題樣本率與已知總體率的比較,注意,此處數(shù)值的排列順序和數(shù)據(jù)文件中各類別的排列順序應當相同,因為他們存在一一對應的關系。,擬合問題樣本率與已知總體率的比較,分析結果,給出了樣本中三個職務級別的觀察頻數(shù)、期望頻數(shù)以及殘差。,擬合問題樣本率與已知總體率的比較,分析結果,此為單樣本2檢驗的結果,2值為3.492,P0.174,故可認為觀察頻數(shù)和期望頻數(shù)沒有顯著差別。,注意: 本例使用的數(shù)據(jù)是原始數(shù)據(jù),一

6、個案例代表一個員工的情況。但如果數(shù)據(jù)是頻數(shù)格式,即每一行代表一個水平,另外用一個頻數(shù)變量代表該水平的頻數(shù)。此時在分析時要首先告訴SPSS具體哪一個變量是頻數(shù)變量。如何實現(xiàn)呢?利用數(shù)據(jù)準備中的Weight Cases即可。,擬合問題樣本率與已知總體率的比較,例2 某婦女聯(lián)合會向工會提出質疑,認為該公司在對女性員工的職位安排上存在歧視,因為該公司216名女性雇員中,只有10人為經理,其余206名為辦事員;而258名男性雇員中,74名為經理。但是工會說,男女間職位類別比例的差異,只是一個隨機誤差,并不是真的存在性別歧視。哪種說法才是正確的呢?(數(shù)據(jù)見employee data.sav),相關問題兩個

7、率或構成比的比較,相關問題兩個率或構成比的比較,這是一個比較兩個性別的職位構成比是否相同的統(tǒng)計學問題,要用Descriptive中的Crosstabs實現(xiàn),與單個率的比較不同。,相關問題兩個率或構成比的比較,分別指定行列變量到Row(s)和Columns中。,相關問題兩個率或構成比的比較,相關問題兩個率或構成比的比較,相關問題兩個率或構成比的比較,分析結果,可見,性別和職位不獨立,女性更容易成為辦事員,而男性更容易得到經理和監(jiān)察員的職位。,相關問題兩個率或構成比的比較,需要注意的是,卡方檢驗僅僅告知使用者各類別的構成和分布是否相同,本例中的職務是無序分類變量,監(jiān)察員和辦事員不能比較大小順序,因

8、此可以進行卡方檢驗。如果為有序分類變量的話,則卡方檢驗并不合適,而應用秩和檢驗。,連續(xù)性校正2檢驗: 僅適用于四格表資料,在n40,所有期望頻數(shù)均大于1,只有1/5單元格的期望頻數(shù)大于1小于5時; Fisher精確概率法: 在樣本含量40,最小期望頻數(shù)5時,結論與Pearson 2基本一致;,相關問題兩個率或構成比的比較,幾種卡方檢驗的比較:,兩分類變量間關聯(lián)程度的度量,卡方檢驗可以從定性的角度說明兩個變量是否存在關聯(lián),當拒絕原假設時,在統(tǒng)計上有把握認為兩個變量存在相關。但接下來的問題是,如果兩變量之間存在相關性,它們之間的關聯(lián)程度有多大?針對不同的變量類型,在SPSS中可以計算各種各樣的相關

9、指標,而且Crosstabs過程也對此提供了完整的支持,此處只涉及兩分類變量間關聯(lián)程度的指標,更系統(tǒng)的相關程度指標見相關與回歸一章。,兩分類變量間關聯(lián)程度的度量,相對危險度RR:是一個概率的比值,指試驗組人群反應陽性概率與對照組人群反應陽性概率的比值。數(shù)值為1,表明試驗因素與反應陽性無關聯(lián);小于1時,表明試驗因素導致反應陽性的發(fā)生率降低;大于1時,表明試驗因素導致反應陽性的發(fā)生率增加。 優(yōu)勢比OR:是一個比值的比,是反應陽性人群中試驗因素有無的比例與反應陰性人群中試驗因素有無的比例之比。 當關注的事件發(fā)生概率比較小時(0.1),優(yōu)勢比可作為相對危險度的近似。,兩分類變量間關聯(lián)程度的度量,例3

10、某公司實行數(shù)據(jù)庫營銷,其雜志銷售部每個月向數(shù)據(jù)庫中的人們發(fā)送征訂郵件,但是回應率極低。經研究發(fā)現(xiàn),報紙訂閱(News)和郵件回應Response有相關性,該部門經理想了解報紙訂閱回應者回郵件的概率是非訂閱者的幾倍。數(shù)據(jù)文件見demo.sav。,兩分類變量間關聯(lián)程度的度量,兩分類變量間關聯(lián)程度的度量,分別指定行列變量到Row(s)和Columns中。,選中可得到RR值,兩分類變量間關聯(lián)程度的度量,兩分類變量間關聯(lián)程度的度量,分析結果,這就是兩變量的四格表。,兩分類變量間關聯(lián)程度的度量,分析結果,結果顯示,報紙訂閱者對于郵件的回應概率是非報紙訂閱者的1.668倍,或者說無回應的概率是非報紙訂閱者的

11、0.94倍。而OR值為1.774。,在Pearson 卡方檢驗中,對行變量和列變量的相關性作檢驗,其中行變量和列變量是一個事物的兩個不同屬性。 在實際中,還有一種列聯(lián)表,其行變量和列變量反映的是一個事物的同一屬性的相同水平,只是對該屬性各水平的區(qū)分方法不同。其特征是:行的數(shù)目和列的數(shù)目總是相同的。如果希望檢驗這兩種區(qū)分同一屬性的方法給出的結果是否一致,則不應當使用Pearson 2檢驗,而應該采用Kappa一致性檢驗對兩種方法一致程度進行評價。,一致性檢驗,一般認為, 當Kappa0.75時,表明兩者一致性較好; 0.75Kappa 0.4時,表明一致性一般; Kappa0.4時,表明兩者一致

12、性較差。,一致性檢驗,例4 某實驗室分別用乳膠凝集法和免疫熒光法對58名可疑系統(tǒng)性紅斑狼瘡患者血清中抗核抗體進行測定,結果見下表,問兩種方法的檢測結果有無差別?(數(shù)據(jù)見McNemar.sav),兩種方法的檢測結果,配對卡方檢驗,不能忘記哦!,配對卡方檢驗,在此選入頻數(shù)變量即可進行下一步的分析。,配對卡方檢驗,配對卡方檢驗,配對卡方檢驗,選中可進行配對卡方檢驗,配對卡方檢驗,分析結果,配對卡方檢驗,分析結果,如果在statistics子對話框中勾選上Kappa復選框,則有以下結果:,注意: Kappa檢驗會利用列聯(lián)表的全部信息,而McNemar 檢驗只會利用非主對角線單元格上的信息。因此,對于一

13、致性較好,即絕大多數(shù)數(shù)據(jù)都在主對角線的大樣本列聯(lián)表,McNemar檢驗可能會失去實用價值。,配對卡方檢驗,例5 某零售連鎖店對3家分店的客戶滿意度進行了調查,現(xiàn)希望分析尋求幫助和性別之間有無聯(lián)系。(數(shù)據(jù)見cmh.sav),分層卡方檢驗,分層卡方檢驗,選入分層變量store,分層卡方檢驗,進行分層卡方檢驗,分層卡方檢驗,首先給出的是層間差異的檢驗,結果顯示,不同分店間,gender與contact的聯(lián)系是相同的。,分析結果,分層卡方檢驗,分層卡方檢驗結果,即考慮了分層因素的影響以后,對gender與contact的檢驗結果,共給出CMH2檢驗和MH 2檢驗兩種結果,前者是后者的改進,可見P 值均

14、小于0.05,即可認為性別與求助有關。,分析結果,分層卡方檢驗,結果顯示,ORMH 值為0.636,表明去除了不同分店的混雜效應以后,和女性相比,男性顧客尋求幫助的優(yōu)勢比為0.636,或者說更不容易尋求幫助。,分析結果,1.卡方檢驗是以2 分布為基礎的一種常用假設檢驗方法,常用作計數(shù)資料的顯著性檢驗。 其基本思想是:首先假設觀察頻數(shù)與期望頻數(shù)沒有差別。而統(tǒng)計量2 值表示觀察值與理論值之間的偏離程度。當n 比較大時,2 統(tǒng)計量近似服從k-1個自由度的2 分布。在自由度固定時,每個2 值與一個概率值相對應,此概率即為在H0假設成立的前提下,出現(xiàn)這樣一個樣本或更大差別樣本的概率。如果P 值小于或等于顯著性水準,則應拒絕H0,接受H1。,小 結,2.關聯(lián)程度的測量:卡方檢驗從定性的角度分析是否存在相關,而各種關聯(lián)指標從定量的角度分析相關的程度大小。不同的指標適合不同類型的變量。 RR值是一個概率的比值,是指試驗組人群反應陽性概率與對照組人群反應概率的比值。用于反映試驗因素與反應陽性的關聯(lián)程度。 OR值是比值的比。是反應陽性人群中試驗因素有無的比例與反應陰性人群中試驗因素有無的比例之比。在下列兩個條件均滿足時,可用于估計RR值:所關注的事件發(fā)生概率比較?。?.1),所設計的研究是病例對照研究。,小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論