版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
8.3列聯(lián)表與獨(dú)立性檢驗(yàn)8.3.2獨(dú)立性檢驗(yàn)(1)數(shù)值變量的取值為實(shí)數(shù),其大小和運(yùn)算都有實(shí)際含義。如人的身高、樹的胸徑、樹的高度、短跑100m世界紀(jì)錄和創(chuàng)紀(jì)錄的時(shí)間等。(2)分類變量的取值表示個(gè)體所屬的類別,用以區(qū)別不同的現(xiàn)象或性質(zhì)。如性別變量是分類變量,取男、女兩個(gè)值;考試等級是分類變量,取優(yōu)、良,中等,及格、不及格五個(gè)值,等等。分類變量的取值可以用實(shí)數(shù)表示,這些數(shù)值只作為編號使用,并沒有通常的大小和運(yùn)算意義。例如,用0表示“男”,用1表示“女”,性別變量這個(gè)分類變量的取值就變成0和1,但這里0和1僅作分類用,沒有其他含義.我們主要討論取值于{0,1}的分類變量的關(guān)聯(lián)性問題。1.數(shù)值變量與分類變量復(fù)習(xí)引入2.列聯(lián)表XY合計(jì)Y=0Y=1X=0aba+bX=1cdc+d合計(jì)a+cb+dn=a+b+c+d分類變量X和Y的抽樣數(shù)據(jù)的2?2列聯(lián)表:用途:可以清晰的給出成對分類變量數(shù)據(jù)的交叉分類頻數(shù)。在實(shí)踐中,由于保存原始數(shù)據(jù)的成本較高,人們經(jīng)常按研究問題的需要,將數(shù)據(jù)分類統(tǒng)計(jì),并做成表格加以保存,我們將下表這種形式的數(shù)據(jù)統(tǒng)計(jì)表稱為2×2列聯(lián)表(contingencytable).3.兩個(gè)分類變量之間關(guān)聯(lián)關(guān)系的定性分析的方法:
(2)圖形分析法:與表格相比,圖形更能直觀地反映出兩個(gè)分類變量間是否互相影響,常用等高堆積條形圖展示列聯(lián)表數(shù)據(jù)的頻率特征.將列聯(lián)表中的數(shù)據(jù)用高度相同的兩個(gè)條形圖表示出來,其中兩列的數(shù)據(jù)分別對應(yīng)不同的顏色,這就是等高堆積條形圖.
前面我們通過2×2列聯(lián)表整理成對分類變量的樣本觀測數(shù)據(jù),并根據(jù)隨機(jī)事件頻率的穩(wěn)定性推斷兩個(gè)分類變量之間是否有關(guān)聯(lián).對于隨機(jī)樣本而言,因?yàn)轭l率具有隨機(jī)性,頻率與概率之間存在誤差,所以我們的推斷可能犯錯(cuò)誤,而且在樣本容量較小時(shí),犯錯(cuò)誤的可能性會較大.因此,需要找到一種更為合理的推斷方法,同時(shí)也希望能對出現(xiàn)錯(cuò)誤推斷的概率有一定的控制或估算.XY合計(jì)Y=0Y=1X=0aba+bX=1cdc+d合計(jì)a+cb+dn=a+b+c+dX和Y的抽樣數(shù)據(jù)列聯(lián)表學(xué)習(xí)新知假設(shè)H0表示分類變量X和Y獨(dú)立(通常稱H0為零假設(shè)或原假設(shè))XY合計(jì)Y=0Y=1X=0aba+bX=1cdc+d合計(jì)a+cb+dn=a+b+c+d請同學(xué)們先閱讀教材P128-129,
有問題請?zhí)釂?。?/p>
|ad-bc|越小,說明兩個(gè)分類變量之間的關(guān)系越弱;|ad-bc|越大,說明兩個(gè)分類變量之間的關(guān)系越強(qiáng).X和Y的抽樣數(shù)據(jù)列聯(lián)表為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn),我們構(gòu)造一個(gè)隨機(jī)變量XY合計(jì)Y=0Y=1X=0aba+bX=1cdc+d合計(jì)a+cb+dn=a+b+c+dX和Y的抽樣數(shù)據(jù)列聯(lián)表1.獨(dú)立性檢驗(yàn)公式及定義
2.臨界值的定義
對于任何小概率值α,可以找到相應(yīng)的正實(shí)數(shù)xα,使得P(χ2≥xα)=α成立,我們稱xα為α的臨界值,這個(gè)臨界值可作為判斷χ2大小的標(biāo)準(zhǔn),概率值α越小,臨界值xα越大.10.8287.8796.6353.8412.706xα0.0010.0050.010.050.1α
統(tǒng)計(jì)學(xué)家們根據(jù)統(tǒng)計(jì)數(shù)據(jù)得到了如下的χ2臨界值表:基于小概率值α的檢驗(yàn)規(guī)則:這種利用χ2的取值推斷分類變量X和Y是否獨(dú)立的方法稱為χ2獨(dú)立性檢驗(yàn),讀作“卡方獨(dú)立性檢驗(yàn)”,簡稱獨(dú)立性檢驗(yàn).統(tǒng)計(jì)學(xué)家們根據(jù)統(tǒng)計(jì)數(shù)據(jù)得到了如下的χ2臨界值表:例如,對于一個(gè)小概率值α=0.05,有如下的具體檢驗(yàn)規(guī)則:(1)當(dāng)χ2
x0.05=3.841時(shí),我們推斷H0不成立,即認(rèn)為X與Y不獨(dú)立,該推斷犯錯(cuò)誤的概率不超過0.05;
(2)當(dāng)χ2?x0.05=3.841時(shí),我們沒有充分證據(jù)推斷H0不成立,可以認(rèn)為X與Y獨(dú)立.10.8287.8796.6353.8412.706xα0.0010.0050.010.050.1α
例1
采用簡單隨機(jī)抽樣的方法得到了如下數(shù)據(jù):甲校43名學(xué)生中有10名數(shù)學(xué)成績優(yōu)秀;乙校45名學(xué)生中有7名數(shù)學(xué)成績優(yōu)秀.試分析兩校學(xué)生中數(shù)學(xué)成績優(yōu)秀率之間是否存在差異.解:列2×2列聯(lián)表零假設(shè)為H0:分類變量X與Y相互獨(dú)立,即兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率無差異.根據(jù)上表中的數(shù)據(jù),計(jì)算得到根據(jù)小概率值α=0.1的卡方獨(dú)立性檢驗(yàn),沒有充分證據(jù)推斷H0不成立.因此可以認(rèn)為H0成立,即認(rèn)為兩校的數(shù)學(xué)成績優(yōu)秀率沒有差異.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828思考:例1和例2基于同一組數(shù)據(jù)的分析的兩種分析方法(條件概率法和卡方獨(dú)立性檢驗(yàn)法),但卻得出了不同的結(jié)論,你能說明其中的原因嗎?
事實(shí)上,例1只是根據(jù)一個(gè)樣本的兩個(gè)頻率間存在差異得出兩校學(xué)生數(shù)學(xué)成績優(yōu)秀率有差異的結(jié)論,并沒有考慮由樣本隨機(jī)性可能導(dǎo)致的錯(cuò)誤,所以例1的推斷依據(jù)不太充分.
在例2中,我們用χ2獨(dú)立性檢驗(yàn)對零假設(shè)H0進(jìn)行了檢驗(yàn).通過計(jì)算,發(fā)現(xiàn)χ2≈0.837小于α=0.1所對應(yīng)的臨界值2.706,因此認(rèn)為沒有充分證據(jù)推斷H0不成立,所以接受H0,推斷出兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率沒有顯著差異的結(jié)論。
這個(gè)檢驗(yàn)結(jié)果意味著,抽樣數(shù)據(jù)中兩個(gè)頻率的差異很有可能是由樣本隨機(jī)性導(dǎo)致的.因此,只根據(jù)頻率的差異得出兩校學(xué)生的數(shù)學(xué)成績優(yōu)秀率有差異的結(jié)論是不可靠的.由此可見,相對于簡單比較兩個(gè)頻率的推斷:用χ2獨(dú)立性檢驗(yàn)得到的結(jié)果更理性、更全面,理論依據(jù)也更充分.解決獨(dú)立性檢驗(yàn)問題的基本步驟假設(shè)列表計(jì)算比較結(jié)論提出零假設(shè)認(rèn)真讀題,根據(jù)相關(guān)數(shù)據(jù)列出2×2列聯(lián)表代入公式求出χ2的值將求出χ2的值與臨界值xα進(jìn)行比較由比較結(jié)果得出相應(yīng)結(jié)論例3.某兒童醫(yī)院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨機(jī)抽樣的方法對治療情況進(jìn)行檢查,得到了如下數(shù)據(jù):抽到接受甲種療法的患兒67名,其中未治愈15名,治愈52名;抽到接受乙種療法的患兒69名,其中未治愈6名,治愈63名.試根據(jù)小概率值α=0.005的獨(dú)立性檢驗(yàn),分析乙種療法的效果是否比甲種療法好.
解:
零假設(shè)為H0:療法與療效獨(dú)立,即兩種療法效果沒有差異.療法療效合計(jì)未治愈治愈甲155267乙66369合計(jì)21115136由已知數(shù)據(jù)列出2×2列聯(lián)表,如下:α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828根據(jù)小概率值α=0.005的χ2獨(dú)立性檢驗(yàn),沒有充分證據(jù)推斷H0不成立,因此可以認(rèn)為H0成立,即認(rèn)為兩種療法效果沒有差異.對犯錯(cuò)誤概率的解釋在零假設(shè)H0成立的前提下,隨著小概率值α的逐漸減小,χ2統(tǒng)計(jì)量對應(yīng)的臨界值xα逐漸增大,則事件{χ2≥xα}越來越不容易發(fā)生,零假設(shè)越來越不容易被拒絕;隨著小概率值α的逐漸增大,χ2統(tǒng)計(jì)量對應(yīng)的臨界值xα逐漸減小,則事件{χ2≥xα}越來越容易發(fā)生,零假設(shè)越來越容易被拒絕.例如,對于例3中的數(shù)據(jù),經(jīng)計(jì)算得χ2≈4.881.(1)當(dāng)小概率值α=0.005時(shí),x0.005=7.879,此時(shí)χ2≈4.881<7.879,則沒有充分理由拒絕零假設(shè).因此可以接受H0,即認(rèn)為兩種療法的效果沒有差異.(2)當(dāng)小概率值α=0.05時(shí),x0.05=3.841,此時(shí)χ2≈4.881>3.841,則拒絕零假設(shè),即認(rèn)為兩種療法的效果有差異,該推斷犯錯(cuò)誤的概率不超過0.05.(3)當(dāng)小概率值α=0.1時(shí),x0.05=2.706,此時(shí)χ2≈4.881>2.706,則拒絕零假設(shè),即認(rèn)為兩種療法的效果有差異,該推斷犯錯(cuò)誤的概率不超過0.1.
不影響療法療效合計(jì)未治愈治愈甲155267乙66369合計(jì)21115136療法療效合計(jì)未治愈治愈乙66369甲155267合計(jì)21115136療法療效合計(jì)治愈未治愈甲521567乙63669合計(jì)11521136
例3.
解:零假設(shè)為H0:療法與療效獨(dú)立,即兩種療法效果沒有差異.將所給數(shù)據(jù)進(jìn)行整理,得到兩種療法治療數(shù)據(jù)的列聯(lián)表,療法療效合計(jì)未治愈治愈甲155267乙66369合計(jì)21115136
10.8287.8796.6353.8412.706xα0.0010.0050.010.050.1α
例3.
解:
因此可以推斷乙種療法的效果比甲種療法好。例4:為了調(diào)查吸煙是否對肺癌有影響,某腫瘤研究所采取有放回簡單隨機(jī)抽樣,調(diào)查了9965人,得到如下結(jié)果(單位:人)依據(jù)小概率值α=0.001的獨(dú)立性檢驗(yàn),分析吸煙是否會增加患肺癌的風(fēng)險(xiǎn)。解:零假設(shè)為H0:吸煙和患肺癌之間沒有關(guān)系.根據(jù)列聯(lián)表中的數(shù)據(jù),經(jīng)計(jì)算的χ2=>根據(jù)小概率值α=0.001的獨(dú)立性檢驗(yàn),推斷H0不成立,即認(rèn)為吸煙與患肺癌有關(guān)聯(lián),此推斷犯錯(cuò)誤的概率不大于0.001,即我們有99.9%的把握認(rèn)為“吸煙與患肺癌有關(guān)系”.吸煙肺癌合計(jì)非肺癌患者肺癌患者非吸煙者7775427817吸煙者2099492148合計(jì)987491996510.8287.8796.6353.8412.706xα0.0010.0050.010.050.1α
根據(jù)表中的數(shù)據(jù)計(jì)算不吸煙者中不患肺癌和患肺癌的頻率分別為吸煙者中不患肺癌和患肺癌的評率分別為由
可見,在被調(diào)查者中,吸煙者患肺癌的頻率是不吸煙者患肺癌頻率的4倍以上。于是,根據(jù)頻率穩(wěn)定于概率的原理,我們可以認(rèn)為吸煙者患肺癌的概率明顯大于不吸煙者患肺癌概率,即吸煙更容易引發(fā)肺癌。吸煙肺癌合計(jì)非肺癌患者肺癌患者非吸煙者7775427817吸煙者2099492148合計(jì)9874919965方法總結(jié)
應(yīng)用獨(dú)立性檢驗(yàn)解決實(shí)際問題大致應(yīng)包括以下幾個(gè)主要環(huán)節(jié):注意:上述幾個(gè)環(huán)節(jié)的內(nèi)容可以根據(jù)不同情況進(jìn)行調(diào)整,例如,在有些時(shí)候,分類變量的抽樣數(shù)據(jù)列聯(lián)表是問題中給定的.P(χ2≥x0)0.500.400.250.150.100.050.0250.0100.0050.001x00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828
思考:
獨(dú)立性檢驗(yàn)的思想類似于我們常用的反證法,你能指出二者之間的相同和不同之處嗎?簡單地說,反證法是在某種假設(shè)H0之下,推出一個(gè)矛盾結(jié)論,從而證明H0不成立;而獨(dú)立性檢驗(yàn)是在零假設(shè)H0之下,如果出現(xiàn)一個(gè)與H0相矛盾的小概率事件,就推斷H0不成立,且該推斷
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術(shù)創(chuàng)新與人工智能在智能建造中的應(yīng)用
- 水利施工總組織課程設(shè)計(jì)
- 2024年二手房買賣合同交易過程中的注意事項(xiàng)
- 體育館羅馬柱施工合同
- 會展中心地暖施工合同范本
- 2024承攬汽車運(yùn)輸合同
- 教育培訓(xùn)市場經(jīng)理合同模板
- 旅游觀光車油耗維修管理措施
- 老年人院前急救特別預(yù)案
- 課程設(shè)計(jì)評價(jià)小組評價(jià)
- 《機(jī)械設(shè)計(jì)》課程思政教學(xué)案例(一等獎(jiǎng))
- 2023-2024學(xué)年福建省廈門市七年級上冊期中語文模擬試題(附答案)
- 話劇社管理制度
- 余華讀書分享名著導(dǎo)讀《在細(xì)雨中呼喊》
- 雪人(無字)-兒童故事繪本
- 佳能ex420閃光燈說明書-資料
- 《車路協(xié)同技術(shù)》課件
- 口腔醫(yī)院口腔種植病歷全
- 移動電源生產(chǎn)流程圖
- 天津市基本醫(yī)療保險(xiǎn)意外傷害首診報(bào)告卡
- 陶瓷釉料配方600例
評論
0/150
提交評論