版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
分類變量與列聯(lián)表F佳
2022年06月吸煙的危害
吸煙已成為全球范圍內(nèi)嚴重危害健康、危害人類生存環(huán)境、降低人們的生活質(zhì)量、縮短人類壽命的緊迫問題.為此,聯(lián)合國固定每年5月31日為全球戒煙日.
在現(xiàn)實生活中,人們經(jīng)常需要回答一定范圍內(nèi)的兩種現(xiàn)象或性質(zhì)之間是否存在關聯(lián)性或互相影響的問題.吸煙是否會增加患肺癌的風險?
例如,就讀不同學校是否對學生的成績有影響,不同班級學生用于體育鍛煉的時間是否有差別,吸煙是否會增加患肺癌的風險,等等,本節(jié)將要學習的獨立性檢驗方法為我們提供了解決這類問題的方案.
在現(xiàn)實生活中,人們經(jīng)常需要回答一定范圍內(nèi)的兩種現(xiàn)象或性質(zhì)之間是否存在關聯(lián)性或互相影響的問題.在討論上述問題時,為了表述方便,我們經(jīng)常會使用一種特殊的隨機變量,以區(qū)別不同的現(xiàn)象或性質(zhì),這類隨機變量稱為分類變量.兩種變量分類變量:性別、是否吸煙、是否患肺癌、宗教信仰、國籍等等變量♂對于性別變量,其取值為男和女兩種.♀
這種變量的不同“值”表示個體所屬的不同類別,像這類變量稱為分類變量.兩種變量數(shù)值變量的取值一定是實數(shù),
例如身高、體重、考試成績等,張明的身高是180cm,李立的身高是175cm。數(shù)值變量:體重、身高、溫度、考試成績等等
兩種變量分類變量:性別、是否吸煙、是否患肺癌、宗教信仰、國籍等等變量數(shù)值變量的取值為實數(shù),其大小和運算都有實際含義.分類變量是區(qū)別不同的現(xiàn)象和性質(zhì)的一種特殊的隨機變量.本節(jié)主要討論取值于{0,1}的分類變量的關聯(lián)性.①分類變量的取值也可以用實數(shù)來表示,例如男性,女性可以用1,0表示,學生的班級可以用1,2,3來表示.②這些數(shù)值只作編號使用,并沒有大小和運算意義.③分類變量是相對于數(shù)值變量來說的.但要注意到:問題:為了有針對性地提高學生體育鍛煉的積極性,某中學需要了解性別因素是否對本校學生體育鍛煉的經(jīng)常性有影響,為此對學生是否經(jīng)常鍛煉的情況進行了普查.全校生的普查數(shù)據(jù)如下:523名女生中有331名經(jīng)常鍛煉;601名男生中有473名經(jīng)常鍛煉.你能利用這些數(shù)據(jù),說明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎?解法一:
比較經(jīng)常鍛煉的學生在女生和男生的比率.問題:為了有針對性地提高學生體育鍛煉的積極性,某中學需要了解性別因素是否對本校學生體育鍛煉的經(jīng)常性有影響,為此對學生是否經(jīng)常鍛煉的情況進行了普查.全校生的普查數(shù)據(jù)如下:523名女生中有331名經(jīng)常鍛煉;601名男生中有473名經(jīng)常鍛煉.你能利用這些數(shù)據(jù),說明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎?
男生經(jīng)常鍛煉的比率比女生高出15.4個百分點,所以該校的女生和男生在體育鍛煉的經(jīng)常性方面有差異,而且男生更經(jīng)常鍛煉.解法二:
對于Ω中的每一名學生,分別令性別對體育鍛煉的經(jīng)常性沒有影響:性別對體育鍛煉的經(jīng)常性有影響:合計男生(X=1)女生(X=0)經(jīng)常(Y=1)不經(jīng)常(Y=0)合計鍛煉性別
由
可以作出判斷,在該校的學生中,性別對體育鍛煉的經(jīng)常性有影響,男生更經(jīng)常性的鍛煉.
在上面問題的兩種解答中,使用了學校全部學生的調(diào)查數(shù)據(jù),利用這些數(shù)據(jù)能夠完全確定解答問題所需的比率和條件概率.然而,對于大多數(shù)實際問題,我們無法獲得所關心的全部對象的數(shù)據(jù),因此無法準確計算出有關的比率或條件概率.
在這種情況下,上述古典概型和條件概率的觀點為我們提供了一個解決問題的思路.比較簡單的做法是利用隨機抽樣獲得一定數(shù)量的樣本數(shù)據(jù),再利用隨機事件發(fā)生的頻率穩(wěn)定于概率的原理對問題答案作出推斷.(用樣本估計總體)在實踐中,由于保存原始數(shù)據(jù)的成本較高,人們經(jīng)常按研究問題的需要,將數(shù)據(jù)分類統(tǒng)計,并做成表格加以保存,我們將上表這種形式的數(shù)據(jù)統(tǒng)計表稱為2×2列聯(lián)表.表格直觀呈現(xiàn)了成對分類變量數(shù)據(jù)的交叉分類頻數(shù)。分類變量X和Y的抽樣數(shù)據(jù)的2×2列聯(lián)表:
以上表為例,2×2列聯(lián)包含了X和Y的如下信息:最后一行的前兩個數(shù)分別是事件{Y=0}和{Y=1}中樣本點的個數(shù);
最后一列的前兩個數(shù)分別是事件{X=0}和{X=1}中樣本點的個數(shù);中間的四個格中的數(shù)是表格的核心部分,給出了事件{X=x,Y=y}(x,y=0,1)中樣本點的個數(shù);
右下角格中的數(shù)是樣本空間中樣本點的總數(shù).班級鍛煉合計80分及80分以上80分以下實驗班321850對照班24m50合計5644n練習:某校為了檢驗高中數(shù)學新課程改革的成果,在兩個班進行教學方式的對比試驗,兩個月后進行了一次檢測,試驗班與對照班成績統(tǒng)計如2×2列聯(lián)表所示(單位∶人),則其中m=________________,n=__________________.例1:
為比較甲、乙兩所學校學生的數(shù)學水平,采用簡單隨機抽樣的方法抽取88名學生.通過測驗得到了如下數(shù)據(jù):甲校43名學生中有10名數(shù)學成績優(yōu)秀;乙校45名學生中有7名數(shù)學成績優(yōu)秀.試分析兩校學生中數(shù)學成績優(yōu)秀率之間是否存在差異.解:用Ω表示兩所學校的全體學生構成的集合.考慮以Ω為樣本空間的古典概型.對于Ω中每一名學生,定義分類變量X和Y如下:合計乙校(X=1)甲校(X=0)優(yōu)秀(Y=1)不優(yōu)秀(Y=0)合計數(shù)學成績學校
例1:
為比較甲、乙兩所學校學生的數(shù)學水平,采用簡單隨機抽樣的方法抽取88名學生.通過測驗得到了如下數(shù)據(jù):甲校43名學生中有10名數(shù)學成績優(yōu)秀;乙校45名學生中有7名數(shù)學成績優(yōu)秀.試分析兩校學生中數(shù)學成績優(yōu)秀率之間是否存在差異.因此,甲校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率分別為:乙校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率分別為:可以用等高堆積條形圖直觀地展示上述計算結果:通過比較發(fā)現(xiàn),兩個學校學生抽樣數(shù)據(jù)中數(shù)學成績優(yōu)秀的頻率存在差異,甲校的頻率明顯高于乙校的頻率.依據(jù)頻率穩(wěn)定于概率的原理,我們可以推斷甲校學生數(shù)學成績優(yōu)秀的概率大于乙校學生數(shù)學成績優(yōu)秀的概率.
因此,可以認為兩校學生的數(shù)學成績優(yōu)秀率存在差異,甲校學生的數(shù)學成績優(yōu)秀率比乙校學生的高.
依據(jù)頻率穩(wěn)定于概率的原理,我們可以推斷:P(Y=1|X=0)>P(Y=1|X=1).也就是說,如果從甲校和乙校各隨機選取一名學生,那么甲校學生數(shù)學成績優(yōu)秀的概率大于乙校學生數(shù)學成績優(yōu)秀的概率,因此,可以認為兩校學生的數(shù)學成績優(yōu)秀率存在差異,甲校學生的數(shù)學成績優(yōu)秀率比乙校學生的高.
反思一個現(xiàn)象:
學生提出:“我很有能力,我只是沒有考上一個好的大學,而那些好的企業(yè)卻只去名校招聘,這是不是不公平?”
結合剛才例題的啟發(fā),嘗試從一個企業(yè)的角度去想想,為什么他們“更偏向于去好學校招聘”。
反思2:你認為“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這一結論是否有可能是錯誤的?有可能
“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這個結論是根據(jù)兩個頻率間存在差異推斷出來的.有可能出現(xiàn)這種情況:在隨機抽取的這個樣本中,兩個頻率間確實存在差異,但兩校學生的數(shù)學成績優(yōu)秀率實際上是沒有差別的.對于隨機樣本而言,因為頻率具有隨機性,頻率與概率之間存在誤差,所以我們的推斷可能犯錯誤,而且在樣本容量較小時,犯錯誤的可能性會較大.因此,需要找到一種更為合理的推斷方法,同時也希望能對出現(xiàn)錯誤推斷的概率有一定的控制或估算.后面我們將討論犯這種錯誤的概率大小問題.練習:(多選)下圖是調(diào)查某地區(qū)男女中學生喜歡理科的等高堆積條形圖,陰影部分表示喜歡理科的百分比,從圖中可以看出(
)A.性別與喜歡理科無關B.女生中喜歡理科的比為80%C.男生比女生喜歡理科的可能性大些D.男生不喜歡理科的比為40%課本P127練習4假設在本小節(jié)"問題"中,只是隨機抽取了44名學生,按照性別和體育鍛煉情況整理為如下的列聯(lián)表∶(單位:人)(1)據(jù)此推斷性別因素是否影響學生鍛煉的經(jīng)常性;(2)說明你的推斷結論是否可能犯錯,并解釋原因.性別鍛煉合計不經(jīng)常經(jīng)常女生51520男生61824合計113344練習:某學校對高三學生作一項調(diào)查后發(fā)現(xiàn)∶在平時的模擬考試中,性格內(nèi)向的426名學生中有332名在考前心情緊張,性格外向的594名學生中有213名在考前心情緊張.請作出考前心情緊張與性格情況的列聯(lián)表.練習:在一項有關醫(yī)療保健的社會調(diào)查中,發(fā)現(xiàn)調(diào)查的男性為530人,女性為670人,其中男性中喜歡吃甜食的為117人,女性中喜歡吃甜食的為492人,請作出性別與喜歡吃甜食的列聯(lián)表。
作業(yè):課本P135習題8.35兩個分類變量之間關聯(lián)關系的定性分析的方法:(1)頻率分析法:通過對樣本的每個分類變量的不同類別事件發(fā)生的頻率大小進行比較來分析分類變量之間是否有關聯(lián)關系.
如可以通過列聯(lián)表中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024專業(yè)委托技術研發(fā)服務協(xié)議模板
- 2024混凝土施工人力合作協(xié)議樣本
- 2024勞動協(xié)議范本及管理規(guī)定
- 2024年物權轉讓債務清償協(xié)議模板
- 2024年工業(yè)品銷售協(xié)議樣本
- 2024廣告業(yè)務整體承包協(xié)議
- 2024多樣化公司租賃場地協(xié)議指南
- 社交電商與直播電商的設計創(chuàng)新
- 2024年汽車借款協(xié)議示范文本
- 熱軋帶肋鋼筋質(zhì)量抽查檢驗實施方案
- 2023年阜陽職業(yè)技術學院人才招聘筆試真題
- GB/T 44481-2024建筑消防設施檢測技術規(guī)范
- 第三單元名著導讀《駱駝祥子》整本書閱讀教學設計+2023-2024學年統(tǒng)編版語文七年級下冊
- 部編語文五上《父愛之舟》說課:聚焦場景抓細節(jié)-探究真心品真情
- 勞動一年級上冊(人民版)第十課《我?guī)桶謰寭駬癫恕罚ń虒W設計)
- 撳針操作規(guī)程
- 婦產(chǎn)科妊娠期糖尿病一病一品
- 人大版《精算模型(第3版)》習題解答
- 高血壓病例分析-課件
- 服裝洗水嘜洗滌標志
- 愛心助學協(xié)會章程
評論
0/150
提交評論