第九講-卡方檢驗_第1頁
第九講-卡方檢驗_第2頁
第九講-卡方檢驗_第3頁
第九講-卡方檢驗_第4頁
第九講-卡方檢驗_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第九講 卡方檢驗一、一、 21、適用資料計數(shù)數(shù)據(jù) 計數(shù)數(shù)據(jù)的統(tǒng)計分析,測量數(shù)據(jù)的統(tǒng)計 方法并不適用,卡方檢驗是較為常用的一 種方法。擬合優(yōu)度檢驗例 即通過實際調查與觀察所得到的一批 數(shù)據(jù),其次數(shù)分布是否服從理論上所假 定的某一概率分布; 2、卡方檢驗的功能例 某廣播電視臺為了了解廣大兒童對其提供的6種兒童節(jié)目的偏好(態(tài)度),隨機抽取了300名兒童,問他們最喜歡哪一種節(jié)目(每人只能選一種),得到的數(shù)據(jù)如下表: 節(jié)目1節(jié)目2 節(jié)目3節(jié)目4 節(jié)目5 節(jié)目6858055 104030問:問:就調查的300人而言,他們對6個節(jié)目的 偏好(體現(xiàn)在人數(shù))是否存在顯著的差 異? 在對一批觀察數(shù)據(jù)進行雙向多項分

2、類之后,這兩個分類特征是獨立無關的還是具有連帶相關的關系?例 某師范大學為了了解廣大師生對實行“中期選撥”制度的態(tài)度。曾以問卷調查的形式對977名低年級學生、790名高年級學生和764名教師進行隨機調查,調查結果: 主要用于檢驗不同人群母總體在某一個變量上的反應是否有顯著差異。例從四所幼兒園分別隨機抽出6 歲兒童若 干,各自組成一個實驗組,進行識記測 驗。測驗材料是紅、綠、藍三種顏色書 寫的字母,以單位時間內的識記數(shù)量為 指標,結果如下。問四組數(shù)據(jù)是否可以 合并分析。同質性檢驗 分組 紅色字母 綠色字母 藍色字母1 24 17 192 15 12 93 20 20 144 10 25 28 理

3、論基礎是1899年皮爾遜的工作:在分布擬合優(yōu)度檢驗中,實際觀察次數(shù) 與理論次數(shù) 之差的平方除以理論次數(shù)近似服從 分布,即:22222dfKefffeofofe二、 檢驗的基本原理-如果實際觀察次數(shù)與理論次數(shù)的差異越 大,卡方檢驗的結果就越可能拒絕無差 虛無)假設接受備擇假設。-理論次數(shù) 越大( )擬合效果 越 好。 fe5fe注注 K 為類別的數(shù)目; 是實際觀察值; 是理論(期待)次數(shù); 是約束條件數(shù)或利用觀察數(shù)據(jù)時使 用的樣本統(tǒng)計量的數(shù)目;1、卡方檢驗基本公式Kefffeo22fofe:M分類相互排斥,互不包容;觀察值相互獨立;期望次數(shù)的大小應大于或等于5(較好趨 近卡方分布的前提); 2、

4、卡方檢驗的假設自由度小時,必須 ,否則利用卡方 檢驗需要進行較正或用精確的分布 進行 檢驗;自由度大時,可以有少許類別的理論次 數(shù)少于5;應用卡方檢驗時,應注意取樣設計,保 證取樣的代表性,否則依據(jù)卡方檢驗的 結果難以保證結論的科學性; 注5fe 由于檢驗內容僅涉及一個變量多項分類的計數(shù)資料,也稱one-way test)1、配合度檢驗的一般問題 即檢驗實際觀察數(shù)據(jù)的分布與某理 論分布是否有顯著的差別。三、卡方檢驗應用一總體分布的擬合檢 驗(goodness of fit test 配合度檢驗)統(tǒng)計假設 2、檢驗過程ffHe00:即:實際觀察次數(shù)與某分布理論次數(shù)之間無差異; ffHeo:1依統(tǒng)

5、計檢驗公式,計算實得卡方值222dfKefffeoKefffeo222)(df數(shù)理基礎ffHe00:作出統(tǒng)計決斷pfeeN N:總數(shù)Pe:具體類別理論概率例 某項民意測驗,答案有同意、不置可否、 不同意3種。調查了48人,結果同意的24人 ,不置可否的人12人,不同意的12人,問持 這3種意見的人數(shù)是否存在顯著差異? 3、離散型分布的擬合檢驗 對于連續(xù)隨機變量的測量數(shù)據(jù),有時不知道其總體分布,需要根據(jù)樣本的次數(shù)分布的信息判斷其是否服從某種確定的連續(xù)性分布。 檢驗方法 將連續(xù)性的測量數(shù)據(jù)整理成次數(shù)分布表 畫出相應的次數(shù)分布曲線; 選擇恰當?shù)睦碚摲植迹?進行擬合檢驗;4、連續(xù)型分布擬合檢驗(例)例

6、:下表是552名學生的身高次數(shù)分布,問這 些學生的身高分布是否符合正態(tài)分布?169 170 2 15.38 3.03 0.00237 1 166 167 7 12.38 2.44 0.01201 7163 164 22 9.38 1.85 0.04260 24 0.167160 161 57 6.38 1.26 0.10888 60 0.150157 158 110 3.38 0.67 0.18858 104 0.471154 155 124 0.38 0.07 0.23544 130 0.277151 152 112 -2.62 -0.52 0.20615 114 0.035 148 149

7、 80 -5.62 -1.11 0.12746 70 1.429145 146 25 -8.62 -1.70 0.05562 31 1.161142 143 8 -11.62 -2.29 0.01710 9 139 140 4 -14.62 -2.88 0.00396 2身高 組中值 次數(shù) 離均差 Z分數(shù) P 理論次數(shù)fffeeo20.1250.0962.154X07. 5S552N其一、分組數(shù)據(jù)第1組理論次數(shù)的計算 注: =組上限的Z值-組下限的Z值其二、擬合指標卡方值的計算6 .12905. 323905.2pfeeN11SiZypXCe11Si分析5、二項分類的配合度檢驗與比率顯著檢驗設

8、總體比率為 , 且 時p0qp0050pn1 , 000NnpZqppe210000fffqppqppeeoeennnpnpZ結論:Z檢驗與卡方檢驗一致 (樣本比率p的真正分布是二項分布)212222dfefffZeo 男 生 女 生 某班有100名學生,男生的有42人,問男生的比率是否與0.5有顯著差異?比率顯著性檢驗 6.100npZqppefofe 42 58 50 50 6 . 150585042222256. 25050例用卡方檢驗(配合度)當 且 時卡方檢驗公式qp0050pnfffeeo22 當期望次數(shù)小于5時,卡方檢驗需要校正,Yates建議的校正公式為:注:校正后的結果與二項

9、分布的結果一致 2fffeeo2122 的連續(xù)性校正(二項分類數(shù)據(jù)或比率)1、功能(例) 主要通過對兩個或兩個以上因素多項分 類的計數(shù)資料的分析,以研究兩變量或多 個變量之間的關聯(lián)性與依存性。四、獨立性檢驗(四、獨立性檢驗(test of independencetest of independence) 獨立性檢驗一般多采用表格的形式記錄觀察結果的計數(shù)資料,這種表格即列聯(lián)表。RK 型列聯(lián)表(二個因素:一個因素有R個分類,另一有K個分類) 2、一個術語-列聯(lián)表R RK K 型列聯(lián)表一般數(shù)據(jù)結構示意圖型列聯(lián)表一般數(shù)據(jù)結構示意圖因素A因素BA1 A2 . Aj ARB1B2BiBkf11f21fi

10、1fk1f12f22fi2fk2fj1fj2fijfkjfR1fR2fiRfkRf1 .f2 .fj .fR.f. 1f. 2fi.fk.N統(tǒng)計假設 二因素或多因素之間是獨立;(數(shù)據(jù))理論次數(shù)的計算:0HNiefffjij.11KRdf3、獨立性檢驗的一般問題與步驟自由度的確定卡方檢驗fffeeo22(公式1)統(tǒng)計推斷1.22fffiijNj22df實際22df實際拒絕假設接受假設RC的卡方檢驗,允許有的格內的實計數(shù) 為0,最小的理論次數(shù)為0.5;RC 的卡方檢驗中最小的理論次數(shù)小于 0.5 或1(2 C列聯(lián)表),一般采用合并 項目的方法,而不用連續(xù)性校正公式; 注 檢驗公式(各單元格理論次數(shù)

11、5) 自由度2DBCADCBANBCAD221212df因 素 A 分類1 分類2 因 素B分類1 分類2ABCD4、獨立樣本四格表 檢驗(列聯(lián)表特例)注:獨立樣本四格表 檢驗相當于獨立樣本 比率差異的顯著性檢驗。2 隨機抽取90名學生,將學生按性別與學習成績進行分類,結果如下表,問男女大學生在學業(yè)成績上是否有關聯(lián)?或男女學生在成績中等以上的比率是否存在顯著差異?學 業(yè) 水 平中等以上 中等以下 性別 男 女23172822例Fisher精確概率檢驗(略) 檢驗校正公式 2DBCADCBANNBCAD2225、四格表中若有單元格理論次數(shù)5適用范圍 分類變量數(shù)目多于2個 例:討論性別(男、女)、

12、婚姻(未 婚、已婚)及生活滿意狀況(刺 激、規(guī)律、無聊)之間的關系。6、多重列聯(lián)表分析確定控制變量(分層變量) 例性別分別對在控制變量的每一水平下的另兩個 變量形成的列聯(lián)表進行分析; 例 *男性婚姻狀況與生活滿意狀態(tài)關聯(lián)分析 *女性婚姻狀況與生活滿意狀態(tài)關聯(lián)分析多重列聯(lián)表的分析對于控制變量的不同水平所進行的單個列聯(lián) 表分析 、如果 值不顯著,此時可以將各個水 平下的 值相加,以推測列聯(lián)表中兩 個變量總的 值,并進行關聯(lián)性檢定。222、當控制變量各水平不一致時,必須單獨就 個別關聯(lián)表進行分析。例 某通訊公司想了解大學生最喜歡的手機品 牌,隨機抽取了72名大學生,調查性別、 家庭經濟水平以及最喜歡

13、的手機品牌,來 探討這三個變量之間的關系,調查結果如 下表。甲 乙 丙經 濟 水 平低高甲 乙 丙手機品牌性 男別 女13 2 3 4 12 49 3 7 8 5 21、同質性檢驗(test for homogeneity) 幾個不同的因素之間是否有實質差異 判斷幾次重復實驗的結果是否同質 單因素分類數(shù)據(jù)的同質性檢驗 樣例四、同質性檢驗與數(shù)據(jù)的合并、計算各個樣本組的 值和自由度;、累加各樣本組 值,計算其總和及自由 度的總和;、將各個樣本組原始數(shù)據(jù)按相應類合并, 產生一個總的數(shù)據(jù)表,并計算這個總數(shù) 據(jù)表的 值和自由度;222檢驗過程iv、計算各樣本組的累計 值與總測試次數(shù)合 并獲得的 值之差(

14、異質性 值),其 自由度是各樣本組累計自由度與合并后總 數(shù)據(jù)的自由度之差。 異質性 值大于臨界值,樣本組間數(shù)據(jù) 異質; 不顯著,則同質; 22221 24 17 192 15 12 93 20 20 144 10 25 28例 從四所幼兒園分別隨機抽出6 歲兒童若干,各自組成一個實驗組,進行識記測驗。測驗材料是紅、綠、藍三種顏色書寫的字母,以單位時間內的識記數(shù)量為指標,結果: 問四組數(shù)據(jù)是否可以合并分析? 分組 紅色字母 綠色字母 藍色字母例對四所幼兒圓的幼兒顏色命名能力進行 了調查,調查材料是15種顏色的彩色鉛 筆。凡能正確命名8種及8種以上顏色者 為達標,低于8 種顏色則未達標。調查 對象

15、分4歲組、6歲組。四所幼兒園調查 的數(shù)據(jù)見下表。問這四所幼兒園兒童顏 色命名能力調查結果是否同質?顏色命 名與年齡是否有關聯(lián)? 列聯(lián)表形式的同質性檢驗4歲組 49 70 1106歲組 64 39 103 小計 113 109 222 達標 未達標年齡組A幼兒園 B幼兒園C幼兒園D幼兒園達標 未達標達標 未達標 達標 未達標達標 未達標 4歲組 11 18 10 15 15 20 13 17 6歲組 14 9 17 10 16 9 17 11 年齡組顏色命名能力小計合并數(shù)據(jù)表變異原因2自由 P合并 9.705 1 .0522總計 9.809 4 ( 值分析結果)2注2DBCADCBANNBCAD

16、222 201. 012884. 83964704939706449222222270643949 合并檢驗總表中兒童顏色命名能力與年齡是否有密切關聯(lián)時,因自由度為1, 值需進行連續(xù)性校正。 兩格表與四格表數(shù)據(jù)合并方法(例) 簡單合并法 將所有數(shù)據(jù)合并成一個兩格表或四 格表。適用條件: 各分表同一分類特征比率接近; 分表小樣本齊性( 值不顯著) 22、計數(shù)數(shù)據(jù)合并的方法 值相加法男 17 5 22 0.773女 6 5 11 0.545 23 10 33、例(四格表簡單合并法)不同研究者的取樣年齡性別某年齡特征 A 非AnX A特征比率234歲ny56歲男 12 3 15 0.800女 7 5

17、 12 0.583 23 10 33ny1.793 1.3391.501 1.22578歲男 11 3 14 0.786女 11 9 20 0.550 22 12 342.004 1.41640112419 A 非男 女5143643094 2105.2192.5 相加法、各分表 值相加;、df=分表的數(shù)目(各分表自由度之和) 缺點缺點:不太靈敏,分辨力較差,沒有考 慮各分表的方向。例22305.2298.52 值相加值相加法法 、適用條件 樣本容量相差不超過2倍 表中各相應比率的取值在0.2-0.8之間 、檢驗公式(例)KZK分表數(shù)目;各分表 值的開方;21 ,0 NKZ、適用條件 多個四格

18、表中各相應 的 比率不在 0.2-0.5間; 各樣本容量相差較大(超過2倍), 樣本差異方向(即變化趨勢)相同;加權法、顯著性檢驗公式 (例) kiiiiikiiqpwdwZ11k1 ,011NZkiiiiikiiqpwdw分表數(shù)目;ppdiii21pi2pi1第i個四格表的比率nnnnwiiiii1221ni1ni2第i個四格表邊際次數(shù)例 加權法計算及各符號含義樣本組 A 非A A的比率 nidiwipqii 1 男 女5 913 57 70 0.1857 3 23 26 0.115416 80 96 0.1667 0.0703 18.96 0.8333ni1ni2 男 女10 1226 5

19、6 82 0.3171 11 29 40 0.275037 85 122 0.3033 0.0421 26.89 0.6967 男 女13 1515 56 71 0.2113 2 27 29 0.069017 83 100 0.1700 0.1423 20.59 0.8300合并的條件 各分表同一分類特征比率接近; 分表小樣本齊性( 值不顯著) 無關因素控制相同,各分表相應比率變 化相同; 2RC表數(shù)據(jù)合并、適用條件 各分表比率接近且各樣本齊性年齡組 A C 合計 計算結果 男 女15 1912 13 7 32 18 17 23 58合計 30 30 30 2205.23 男 女20 2515

20、 17 9 41 26 23 31 79合計 40 40 40 2205.284. 3(0.3750)(0.4063)(0.2187)(0.3659)(0.4146)(0.2195)合并后結果簡單合并法、例合 并 后 結 果性別 A B C 合計 男 27 30 16 73 女 43 40 54 137合計 70 70 70 210 2205.278. 6、具體操作 先計算各分表中單元格的理論次數(shù), 將各分表理論次數(shù)相加作為總表對應 格理論次數(shù); 然后將各分表的實計數(shù)合并,作為總 表的實計數(shù); 進行卡方檢驗df=(R-1)(K-1)分表理論次數(shù)合并法、例不同年級對學方法的評價不同年級對學方法的

21、評價樣本 評價 教法1 教法2 教法3 合計 計算結果初一年級很好 9(10.5) 6(7.0) 6 (3.5) 21一般 5(6.5) 6(4.3) 2 (2.2) 13不好 16(13.0) 8(8.7) 2 (4.3) 26合計 30 20 10 60初二年級很好 14(15.5)9(10.3) (5.2) 31一般 16(5.5) 4(3.7) 1 (1.8) 11不好 10(9.0) 7(6.0) 1 (3.0) 18合計 30 20 10 60初三年級很好 5(9.7) 8(6.2) 6 (3.1) 19一般 3(3.1) 2(2.0) 1 (1.0) 6不好 20(15.2)8(

22、9.8) 2 (4.9) 30合計 28 18 9 55 2405.232. 5 2405.285. 3 2405.275. 8 49. 92405.2823201412446235教法1 教法2 教法3很好 一般 不好(35.7)(23.5)(11.8)(15.1)(10)(5.0)(37.2)(24.5)(12.2)713074885829 3 .1347.142401.21、內涵 RC列聯(lián)表經檢驗后A、B因素有關聯(lián), 表明: A因素的多項分類中有一項分類在B因 素多項分類中有關聯(lián); 或B因素多項分類中至少有一項分類在 A因素多項分類中有關聯(lián)。 這種關聯(lián)是體現(xiàn)在全體還是局部?對這 個問題的

23、進一步分析即相關源的分析。五、相關源的分析將2 C分解成獨立的22表進行分析a1b1a2b2atbtaCbCnx1nx2ny1ny2nytnyCN2、2C表的離析離析過程、首先將2 C表分解為C-1個四格表, 分解方法分解方法:據(jù)專業(yè)知識作直觀分析, 先將估計關聯(lián)不明顯的 四格表分解出來;不顯著、逐項進行卡方檢驗,若關聯(lián)不顯著則合并a1a2b1b2aa21bb21a3b3aat1bbt1at 1bt 1不顯著分解示意圖T1T2Tt分解的22表 計算公式 2titiyiyityxxtnnnnnbaabNtiittiit1111212221111注 t=1,2,.,C; N為總表中的總次數(shù); 為總

24、表中邊緣次數(shù)-橫行; 為總表中邊緣次數(shù)-縱列; 為總表中各格的實計數(shù);nnxx21,baii,nyi 有一項調查結果如下,問二因素是否有關聯(lián),并進一步分析相關源,即究竟在哪種態(tài)度上有顯著差異?擁護 不置可否 反對男 女12135181725 30 30 30 30 60N=90例解:分析思路整體分析(23) 結果: (關聯(lián)不顯著)(關聯(lián)不顯著)是否在局部存在關聯(lián)?開始離析 99. 57 . 52205.2擁護 不置可否男 女12131817212221075. 03030303060301813121790dfT1結果顯示:在擁護與不置可否上并不存在性別差異不反對 反對男 女12+13518+

25、1725T2T1 212222625. 53030303030306030355152590df結果顯示結果顯示:在反對與不反對上存在性別 明顯的差異211222127 . 5df總總體上不存在關聯(lián)將2C列聯(lián)表分解為非獨立22表進行分析主要應用領域 研究涉及幾個對照組與控制組的比較例評價 原方法(對照組) 新法1 新法2 新法3 新法4好 不好 8 12 21 15 19 22 18 9 15 11 3 .136532.1412401. 0.22fffjioN四格表評價 原方法 新法1好 不好 8 12 22 182 . 121T評價 原方法 新法2好 不好 8 21 22 928.1122T

26、評價 原方法 新法3好 不好 8 15 22 1545. 323T評價 原方法 新法4好 不好 8 19 22 1115. 824T注:因為每一實驗組都要與控制組比較, 故此時各四格表間并不獨立。在保證總檢驗顯著性水平為 時,各分解 四格表顯著性水平的確定:12C問題上例各分解四格表的顯著性水平應是 多少? 565. 700625. 015205. 0122100625.C28.1122T15. 824T有顯著差異有顯著差異因素A因素BA1 A2 . Ai ARB1B2BjBCf11f21fj1fC1f12f22fj2fC2fi 1fi2fjifCifR1fR2fjRfCRf1 .f2 .fi .fR.f. 1f. 2fj.fk.N3、RC表的離析先據(jù)專業(yè)知識或對總表的直觀分析估計差 異不顯著的項目分解出一個2C(或2 R)的列聯(lián)表,進行 檢驗,若不顯著, 則將此表合并成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論