![《統(tǒng)計(jì)學(xué)-基于R》(07)第7章-類別變量分析(R3)_第1頁(yè)](http://file4.renrendoc.com/view14/M06/14/11/wKhkGWb61EWAfZ0kAAFT4iOeEk8386.jpg)
![《統(tǒng)計(jì)學(xué)-基于R》(07)第7章-類別變量分析(R3)_第2頁(yè)](http://file4.renrendoc.com/view14/M06/14/11/wKhkGWb61EWAfZ0kAAFT4iOeEk83862.jpg)
![《統(tǒng)計(jì)學(xué)-基于R》(07)第7章-類別變量分析(R3)_第3頁(yè)](http://file4.renrendoc.com/view14/M06/14/11/wKhkGWb61EWAfZ0kAAFT4iOeEk83863.jpg)
![《統(tǒng)計(jì)學(xué)-基于R》(07)第7章-類別變量分析(R3)_第4頁(yè)](http://file4.renrendoc.com/view14/M06/14/11/wKhkGWb61EWAfZ0kAAFT4iOeEk83864.jpg)
![《統(tǒng)計(jì)學(xué)-基于R》(07)第7章-類別變量分析(R3)_第5頁(yè)](http://file4.renrendoc.com/view14/M06/14/11/wKhkGWb61EWAfZ0kAAFT4iOeEk83865.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)分析
(方法與案例)
作者賈俊平版權(quán)所有違者必究StatisticswithR統(tǒng)計(jì)學(xué)R語(yǔ)言第7章類別變量分析7.1一個(gè)類別變量的擬合優(yōu)度檢驗(yàn)
7.2兩個(gè)類別變量的獨(dú)立性檢驗(yàn)
7.3兩個(gè)類別變量的相關(guān)性度量
testc27.1一個(gè)類別變量的擬合優(yōu)度檢驗(yàn)
7.1.1期望頻數(shù)相等
7.1.2期望頻數(shù)不等
第7章類別變量分析2018-9-25利用Pearson-
2統(tǒng)計(jì)量來(lái)判斷某個(gè)類別變量各類別的觀察頻數(shù)分布與某一理論分布或期望分布是否一致的檢驗(yàn)方法比如,各月份的產(chǎn)品銷售量是否符合均勻分布不同地區(qū)的離婚率是否有顯著差異也稱為一致性檢驗(yàn)(testofhomogeneity)該檢驗(yàn)也可用于判斷各類別的觀察頻數(shù)分布是否符合泊松分布或正態(tài)分布等什么是擬合優(yōu)度檢驗(yàn)?
(goodnessoffittest)7.1.1期望頻數(shù)相等7.1一個(gè)類別變量的擬合優(yōu)度檢驗(yàn)2018-9-25擬合優(yōu)度檢驗(yàn)
(期望頻數(shù)相等)【例7-1】(數(shù)據(jù):example7_1.RData)為研究消費(fèi)者對(duì)不同類型的飲料是否有明顯偏好,一家調(diào)查公司隨機(jī)調(diào)查了2000個(gè)消費(fèi)者對(duì)4種類型飲料的偏好情況,得到不同類型飲料的偏好數(shù)據(jù)如表7-1所示。飲料類型人數(shù)碳酸飲料525礦泉水550果汁470其他455合計(jì)20002018-9-25擬合優(yōu)度檢驗(yàn)
(期望頻數(shù)相等)第1步:提出假設(shè)
H0:觀察頻數(shù)與期望頻數(shù)無(wú)顯著差異(無(wú)明顯偏好)H1
:觀察頻數(shù)與期望頻數(shù)有顯著差異(有明顯偏好)第2步:計(jì)算
2統(tǒng)計(jì)量自由度df=類別個(gè)數(shù)-12018-9-25擬合優(yōu)度檢驗(yàn)
(期望頻數(shù)相等)
2統(tǒng)計(jì)量計(jì)算表由R函數(shù)得P=0.007。拒絕原假設(shè),表明消費(fèi)者對(duì)不同樂(lè)類型飲料的偏好有顯著差異飲料類型碳酸飲料5255001.25礦泉水5505005.00果汁4705001.80其他4555004.05合計(jì)2000200012.102018-9-25擬合優(yōu)度檢驗(yàn)
(例題7—1)#期望頻數(shù)相等時(shí)的擬合優(yōu)度檢驗(yàn)
load("C:/example/ch7/example7_1.RData")example7_1
chisq.test(example7_1$人數(shù))7.1.2期望頻數(shù)不等7.1一個(gè)類別變量的擬合優(yōu)度檢驗(yàn)2018-9-25擬合優(yōu)度檢驗(yàn)
(期望頻數(shù)不等)
受教育程度離婚家庭數(shù)小學(xué)及以下30初中110高中80大學(xué)25研究生15合計(jì)2602018-9-25擬合優(yōu)度檢驗(yàn)
(期望頻數(shù)不等)第1步:提出假設(shè)
H0:不同受教育程度的離婚家庭數(shù)與期望頻數(shù)無(wú)顯著差異
H1
:不同受教育程度的離婚家庭數(shù)與期望頻數(shù)有顯著差異第2步:計(jì)算期望頻數(shù)和
2統(tǒng)計(jì)量自由度df=類別個(gè)數(shù)-12018-9-25擬合優(yōu)度檢驗(yàn)
(期望頻數(shù)不等)期望頻數(shù)計(jì)算表受教育程度觀察頻數(shù)期望比例%期望頻數(shù)=期望比例
樣本量小學(xué)及以下30200.20
260=52.0初中110350.35
260=91.0高中80250.25
260=65.0大學(xué)25120.12
260=31.2研究生1580.08
260=20.8合計(jì)2601003002018-9-25擬合優(yōu)度檢驗(yàn)
(期望頻數(shù)不等)
2統(tǒng)計(jì)量計(jì)算表由于自由度=5-1=4,利用R函數(shù)得P值(右尾概率)為0.0006,由于P>0.05。不拒絕原假設(shè),沒(méi)有證據(jù)表明該城市居民對(duì)房屋價(jià)格滿意度的評(píng)價(jià)與全國(guó)有顯著差異受教育程度小學(xué)及以下3052.09.3077初中11091.03.9670高中8065.03.4615大學(xué)2531.21.2321研究生1520.81.6173合計(jì)26026019.58562018-9-25擬合優(yōu)度檢驗(yàn)
(例題7—2)#期望頻數(shù)不相等時(shí)的擬合優(yōu)度檢驗(yàn)
load("C:/example/ch7/example7_2.RData")example7_2
chisq.test(example7_2$離婚家庭數(shù),p=example7_2$期望比例)7.2兩個(gè)類別變量的獨(dú)立性檢驗(yàn)
7.2.1列聯(lián)表與
2獨(dú)立性檢驗(yàn)
7.2.2應(yīng)用
2檢驗(yàn)應(yīng)注意的問(wèn)題第7章類別變量分析7.2.1列聯(lián)表與
2獨(dú)立性檢驗(yàn)
7.2兩個(gè)類別變量的獨(dú)立性檢驗(yàn)2018-9-25研究?jī)蓚€(gè)類別變量時(shí),每個(gè)變量有多個(gè)類別,通常將兩個(gè)變量多個(gè)類別的頻數(shù)用交叉表的形式表示出來(lái)一個(gè)變量放在行(row)的位置,稱為行變量,其類別數(shù)(行數(shù))用r表示另一個(gè)變量放在列(column)的位置,稱為列變量,其類別數(shù)(列數(shù))用c表示這種由兩個(gè)或兩個(gè)以上類別變量交叉分類的頻數(shù)分布表稱為列聯(lián)表(contingencytable)一個(gè)由r行和c列組成的列聯(lián)表也稱為r
c列聯(lián)表例如,本章開頭的案例中,行變量“逃課情況”有兩個(gè)類別,列變量“性別”也有兩個(gè)類別,這就是一個(gè)2
2列聯(lián)表什么是獨(dú)立性檢驗(yàn)?
(testofindependence)2018-9-25對(duì)列聯(lián)表中的兩個(gè)類別變量進(jìn)行分析,通常是判斷兩個(gè)變量是否獨(dú)立該檢驗(yàn)的原假設(shè)是:兩個(gè)變量獨(dú)立(無(wú)關(guān))如果原假設(shè)被拒絕,則表明兩個(gè)變量不獨(dú)立,或者說(shuō)兩個(gè)變量相關(guān)獨(dú)立性檢驗(yàn)的統(tǒng)計(jì)量為什么是獨(dú)立性檢驗(yàn)?
(testofindependence)自由度df=(r-1)(c-1)2018-9-25
2獨(dú)立性檢驗(yàn)
(例題分析)滿意度地區(qū)東部中部西部合計(jì)滿意12615835319不滿意348265181合計(jì)1602401005002018-9-25
2獨(dú)立性檢驗(yàn)
(例題分析)第1步:提出假設(shè)
H0:滿意度與地區(qū)獨(dú)立
H1
:滿意度與地區(qū)不獨(dú)立第2步:計(jì)算期望頻數(shù)和
2統(tǒng)計(jì)量RT為給定單元格所在行的合計(jì)頻數(shù);CT為給定單元格所在列的合計(jì)頻數(shù);n為樣本量2018-9-25
2獨(dú)立性檢驗(yàn)
(例題分析)第2步:計(jì)算期望頻數(shù)和
2統(tǒng)計(jì)量滿意度地區(qū)東部中部西部合計(jì)滿意126(102.08)158(153.12)35(63.80)319不滿意34(57.92)82(86.88)65(36.20)181合計(jì)1602401005002018-9-25
2獨(dú)立性檢驗(yàn)
(數(shù)據(jù)本身就是列聯(lián)表)#列聯(lián)表獨(dú)立性檢驗(yàn)如果是原始數(shù)據(jù),檢驗(yàn)時(shí)首先把原始數(shù)據(jù)轉(zhuǎn)換成列聯(lián)表數(shù)據(jù),然后進(jìn)行卡方獨(dú)立性檢驗(yàn)如果數(shù)據(jù)本身就是列聯(lián)表,可以在R中以矩陣形式輸入數(shù)據(jù),然后做檢驗(yàn)。代碼為:x<-c(126,158,35,34,82,65)M<-matrix(x,nr=2,nc=3,byrow=TRUE,dimnames=list(c("滿意","不滿意"),c("東部","中部","西部")))chisq.test(M)2018-9-25
2獨(dú)立性檢驗(yàn)
(例題7—3)load("C:/example/ch7/example7_3.RData")
head(example7_3)
count<-table(example7_3);count
chisq.test(count)7.2.2應(yīng)用
2檢驗(yàn)應(yīng)注意的問(wèn)題7.2兩個(gè)類別變量的獨(dú)立性檢驗(yàn)2018-9-25在應(yīng)用
2檢驗(yàn)時(shí),要求樣本量應(yīng)足夠大,特別是每個(gè)單元格的期望頻數(shù)不能太小,否則應(yīng)用應(yīng)檢驗(yàn)可能會(huì)得出錯(cuò)誤的結(jié)論從
2統(tǒng)計(jì)量的公式可以看出,期望頻數(shù)在公式的分母上,如果某個(gè)單元格的期望頻數(shù)過(guò)小,統(tǒng)計(jì)量的值就會(huì)變大,從而導(dǎo)致拒絕原假設(shè)應(yīng)用
2檢驗(yàn)時(shí)對(duì)單元格的期望頻數(shù)有以下要求如果僅有兩個(gè)單元格,單元格的最小期望頻數(shù)不應(yīng)小于5。否則不能進(jìn)行
2檢驗(yàn)單元格在兩個(gè)以上時(shí),期望頻數(shù)小于5的單元格不能超過(guò)總格子數(shù)的20%,否則不能進(jìn)行
2檢驗(yàn)如果出現(xiàn)期望頻數(shù)小于5的單元格超過(guò)20%,可以采取合并類別的辦法來(lái)解決這一問(wèn)題應(yīng)用
2檢驗(yàn)應(yīng)注意的問(wèn)題7.3兩個(gè)類別變量的相關(guān)性度量
7.3.1
系數(shù)和Cramer’sV系數(shù)
7.3.2列聯(lián)系數(shù)第7章類別變量分析7.3.1
系數(shù)和Cramer’sV系數(shù)7.3兩個(gè)類別變量的相關(guān)性測(cè)量2018-9-25主要用于2
2列聯(lián)表的相關(guān)性測(cè)量計(jì)算公式為例7—3的計(jì)算結(jié)果,得到的性別與逃課情況兩個(gè)變量之間的系數(shù)為0.321952。表明二者之間有顯著關(guān)系
系數(shù)
(
coefficient)2018-9-25由Cramer提出,計(jì)算公式為Cramer’sV系數(shù)的取值范圍總是在0~1之間當(dāng)兩個(gè)變量獨(dú)立時(shí),V=0;當(dāng)兩個(gè)變量完全相關(guān)時(shí),V=1如果列聯(lián)表的行數(shù)或列數(shù)中有一個(gè)為2,Cramer’sV系數(shù)就等于
系數(shù)例如,根據(jù)例7—3的計(jì)算結(jié)果,得到的性別與逃課情況兩個(gè)變量之間的Cramer’sV系數(shù)與
系數(shù)一致Cramer’sV系數(shù)
(Cramer’sVcoefficient)7.3.2列聯(lián)系數(shù)7.3兩個(gè)類別變量的相關(guān)性測(cè)量2018-9-25主要用于大于2
2列聯(lián)表的相關(guān)性測(cè)量,用C表示計(jì)算公式為聯(lián)系數(shù)不可能大于1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022-2023學(xué)年山東省泰安市寧陽(yáng)縣四年級(jí)(上)期末數(shù)學(xué)試卷
- 2025年個(gè)體工商戶名稱轉(zhuǎn)讓協(xié)議(三篇)
- 2025年產(chǎn)品銷售協(xié)議格式范文(2篇)
- 2025年五年級(jí)美術(shù)教學(xué)總結(jié)樣本(四篇)
- 2025年中學(xué)九年級(jí)教導(dǎo)處工作總結(jié)范文(二篇)
- 2025年九年級(jí)教師教學(xué)工作總結(jié)范文(二篇)
- 2025年乳膠漆施工合同范文(2篇)
- 2025年個(gè)人押車借款合同常用版(五篇)
- 2025年個(gè)人建材租賃擔(dān)保合同范文(2篇)
- 冷鏈物流服務(wù)合同范本
- 二零二五版電商企業(yè)兼職財(cái)務(wù)顧問(wèn)雇用協(xié)議3篇
- 課題申報(bào)參考:流視角下社區(qū)生活圈的適老化評(píng)價(jià)與空間優(yōu)化研究-以沈陽(yáng)市為例
- 《openEuler操作系統(tǒng)》考試復(fù)習(xí)題庫(kù)(含答案)
- 17J008擋土墻(重力式、衡重式、懸臂式)圖示圖集
- 廣東省深圳市南山區(qū)2024-2025學(xué)年第一學(xué)期期末考試九年級(jí)英語(yǔ)試卷(含答案)
- T-CISA 402-2024 涂鍍產(chǎn)品 切口腐蝕試驗(yàn)方法
- 后勤安全生產(chǎn)
- (人教版)廣東省深圳2024-2025學(xué)年九年級(jí)上學(xué)期12月月考英語(yǔ)試題(含答案)
- 項(xiàng)目重點(diǎn)難點(diǎn)分析及解決措施
- 挑戰(zhàn)杯-申報(bào)書范本
- 北師大版五年級(jí)上冊(cè)數(shù)學(xué)期末測(cè)試卷及答案共5套
評(píng)論
0/150
提交評(píng)論