




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三章 樣本均數的抽樣誤差與置信區(qū)間 聯(lián)系:數據/變量在離散點或區(qū)間上分布分布特征數應用樣本數據x 頻數分布表頻數分布圖描述指標()參考值范圍隨機變量X ,誤差概率分布表概率分布圖總體參數() ()置信區(qū)間3.1 樣本均數的分布·從同一總體中獨立抽取多份樣本, 他們的均數常大小不一, 這說明樣本均數存在變異。通過電腦實驗來認識樣本均數的變異規(guī)律一、正態(tài)總體樣本均數的分布實驗 從正態(tài)分布總體抽樣的實驗 假定正常男子的紅血球計數服從正態(tài)分布N(2),隨機抽取1000份樣本, 每份含n5個個體。樣本均數依然是一個隨機變量, 且 (1) 各樣本均數未必等于總體均數(,誤差?); (2) 樣本
2、均數之間存在差異(,變異); (3) 樣本均數的分布很有規(guī)律,圍繞著總體均數,中間多、兩邊少, 左右基本對稱(對稱、正態(tài)?); (4) 樣本均數的變異范圍較原變量變異范圍大大縮小(); (5) 隨著樣本量的增大, 樣本均數變異范圍逐漸縮小()。圖 從正態(tài)分布總體抽樣的實驗結果原正態(tài)總體N2);直方圖是樣本均數的分布(Luo: 這里橫坐標為,若改為便是誤差分布圖的形狀不變)n=5 n=10 n=30(a) (b) (c)表3_2實3_1a 表3.1 從2)中隨機抽樣, 樣本量為5, 100份獨立樣本的均數、標準差和總體均數的95%置信區(qū)間(單位:1012 /L)樣本號均數標準差95%置信區(qū)間樣本
3、號均數標準差95%置信區(qū)間1.568851.40062.347052.54873.576353.37324.594954.35245.400555.58666.818656.35047.450257.68698.822558.52329.596459.279410.449660.582311.568361.708312.340162.579313.664863.441914.627464.281815.68866516.309166.719117.422367.436118.408368.587319.587569.489220.534070.335321.285271.430922.4517
4、72.688023.433373.430124.371174.641125.474275*.392726.534976.548727.477877.393028.381878*.205229.628979.996330.646780.624331.672481*.209032.320382.341433.584183.405034.208484.535335.664685.327636.391286.379737.518387.280138.744588.247339.726089*.398240.856790.34734191.294142.678692.427343.517693.3594
5、44.365894.445645.594495.475846.502496.851647.635497.456048.583798.336849*.359599.619750.6094100.4566* 由這份樣本估計的95%置信區(qū)間實際上并未復蓋總體均數圖3_1 表3.2 從2)中隨機抽取1000份獨立樣本, 其均數的頻數分布組段下限(1012 /L)頻數頻率(%)累積頻率(%) 1 5 321172293042182 76 15 3合計1000·理論上可以證明, 從正態(tài)分布N(m, s2)的總體中隨機抽取含量為n的樣本,其樣本均數N(m, s2 /n)。·樣本均數的標準
6、差習慣上又稱為樣本均數的標準誤(standard error),簡稱標準誤。值得注意的是如下的普遍規(guī)律:或 (3.1) ·實際應用中往往總體標準差s未知, 人們只能用樣本標準差S代替s,從而獲得的估計值,則有 (3.2) ·為方便計,可稱為理論標準誤,為樣本標準誤。二、非正態(tài)總體樣本均數的分布實驗 從正偏峰的分布總體抽樣的實驗(1) 隨著樣本量的增大, 樣本均數分布的對稱性逐漸改善, 樣本量為30時, 樣本均數的分布接近正態(tài)分布; (2) 隨著樣本量的增大, 樣本均數的變異范圍逐漸變窄。1234578n=5(b)123456789n=10(c)123456789n=20(d
7、)123456789n=30(e)圖 從正偏峰的分布總體分布抽樣實驗的結果(a)是原分布,正偏峰;其它為不同樣本含量時樣本均數的直方圖123456789(a)實驗 從不對稱鉤形分布的總體抽樣的實驗 圖3.3(a): (1) 樣本均數分布再不象個鉤子, 樣本量很小時就象正態(tài)分布了; (2) 隨著樣本量的增大, 樣本均數的變異范圍也逐漸變窄。·以上兩項實驗的結果具有普遍性。理論上可以證明, 非正態(tài)總體樣本均數的分布并不是正態(tài)分布;但當樣本量較大時(例如,n30), 樣本均數的分布接近正態(tài)分布。圖3_1123456789n=5(b)123456789n=10(c)123456789n=20
8、(d)123456789n=30(e)圖 從不對稱鉤形分布總體抽樣實驗的結果(a)是原分布,呈鉤形;其它為不同樣本含量時樣本均數的直方圖123456789(a)3.2 t分布一、標準正態(tài)離差和標準t離差 ·標準正態(tài)離差便服從標準正態(tài)分布, 記為(3.3) ·若s未知,用樣本標準差S代替s,以代替它們不盡相同,即有變異,因而比多了一種與自由度有關的變異。于1908年用筆名Student研究了它的分布規(guī)律, 稱之t分布, 記為, v=n-1(3.4) ·不妨稱為標準t離差(standard t deviate)。n(讀作nunju:)是t分布的自由度,不同的自由度對應
9、于不同的t分布曲線。二、t分布的圖形與t分布表實驗3.1(續(xù)) 標準正態(tài)離差和標準t離差 對前述實驗3.1所得1000份隨機樣本分別計算標準正態(tài)離差和標準t離差, 并繪制相應的直方圖, 如圖3.4(a)和(b)所示。·本書附表5給出了t分布的雙側尾部面積和對應的t界值。對應于同樣大小的尾部面積a,t界值比正態(tài)分布界值要大。-5-3-10135(a)-5-3-10135(b)圖 從N2)中隨機抽取1000份獨立樣本,n=5(a)樣本均數的標準正態(tài)離差的直方圖;(b)樣本均數的標準t離差的直方圖圖3.5 標準正態(tài)分布和t分布的圖形=時的t分布即標準正態(tài)分布012345-1-2-3-4-5
10、n=3n=1n=¥ (標準正態(tài)分布)3.3 正態(tài)分布總體均數的置信區(qū)間·95%置信區(qū)間:設N(m, s2 ), m和s未知,由t分布面積規(guī)律可知:-tt0.05(3.3) ·經移項化簡,可改寫為(3.4) 置信程度為95%;換言之,這樣估計100次,約有95次正確。·應用公式為(, ),或(3.5) ·(1-a)置信區(qū)間:(, )(3.6) ·可稱為置信區(qū)間的精度,它等于置信區(qū)間寬度的一半,意指置信區(qū)間的兩端點離樣本均數有多遠。表3_1 實驗(續(xù)) 置信區(qū)間與置信水平 對于前述從正態(tài)總體隨機抽取的每一份樣本均可按(3.5)式各計算總體
11、均數的一個95%置信區(qū)間。表的第4列給出了由前100份樣本作出的的95%置信區(qū)間。不難發(fā)現(xiàn), 多數區(qū)間(95個)覆蓋了總體均數4.6602, 但第49, 75, 78, 81和89號這5個樣本算出的區(qū)間卻“撲空”了,即這樣的區(qū)間估計95%正確,5%錯誤。換言之,當我們依據一個樣本均數,對總體均數只作一次區(qū)間估計時,其置信度為95%。例 從某類患者中隨機抽取20例, 其血沉(mm/h)的均數為9.15, 標準差為。假定該類患者的血沉值服從正態(tài)分布, 試估計總體均數的95%置信區(qū)間和99%置信區(qū)間。解 , s=2.13, n=20, =10.15和8.15 =10.51和7.78·置信水
12、平由95%提高到99%, 置信區(qū)間便由窄變寬, 估計的精度下降。若既要提高置信水平, 又要估計的精度好, 就必須縮小s或加大n。s反映客觀存在的個體差異, 通常無法縮小, 但加大樣本量是行之有效的辦法。3.4 兩正態(tài)總體均數之差的置信區(qū)間·設有標準差相等而均數不等的兩個正態(tài)總體N(m1, s2)和N(m2, s2),均未知。·N(m1,s2/n1), N(m2, s2/n2),仍服從正態(tài)分布()N(m1-m2, s2(1/n1 +1/n2 )(3.7)()N(m1-m2, )(3.7) ·的標準正態(tài)離差服從標準正態(tài)分布, 即 N(0, 1)(3.8) N(0, 1
13、)(3.8) Luo: 如果m1=m2,N(0, 1)(假設檢驗)·現(xiàn)s2未知,服從t分布。即的標準t離差 t分布,v=n1+n2(3.9) t分布,v=n1+n2(3.9) 其中, Sc2稱為兩樣本的合并方差:Sc2 =(3.10) Sc2的自由度為S12和S22的自由度之和, (n1 -1)+(n2 -1)= n1+n2-2, 因而, t分布的自由度也是n1n22。·以下公式不講解了:t t(3.11)(3.12)(-)-t,(-)+t)(3.13)( ),( )+)(3.14)例 某地隨機抽取40歲正常男子20名和40歲正常女子15名, 測定紅細胞計數, 男女樣本均數
14、和樣本標準差分別為 =4.66, s1 =和=4.18, s2 =0.45, 試計算40歲正常男女紅細胞計數總體均數之差的95%置信區(qū)間。(單位: 1012 /L)解 例 假定某地健康成年男女的紅細胞計數(1012 /L)分別服從均數不等、標準差相等的二個正態(tài)分布。現(xiàn)有男女各一份隨機樣本, 樣本量n1=300, n2=250, 均數和標準差分別為 =4.66, s1和 =4.18, s2。試估計男女紅細胞計數的總體均數之差的95%置信區(qū)間。解 3.5 二項分布總體概率以及概率之差的置信區(qū)間1. 二項分布總體概率的置信區(qū)間 ·大樣本時,利用P近似地服從正態(tài)分布的性質進行估計。(3.15
15、) 其中,為樣本頻率。 利用(3.6)式, 我們有總體概率p的(1-a)置信區(qū)間為(,)() 2. 二項分布總體概率之差的置信區(qū)間 ·也近似地服從正態(tài)分布, 即(3.17)其中p1和p2為樣本頻率的觀察值。據此, 總體概率之差p1-p2的(1-a)置信區(qū)間為,(3.18)例 某醫(yī)院將病情類似的病人隨機分成兩組。第一組48人, 用A藥治療, 30人痊愈;第二組45人, 用B藥治療, 20人痊愈。試分別計算兩種藥總體治愈概率的95%置信區(qū)間以及兩種藥總體治愈概率之差的95%置信區(qū)間。解 3.6 估計置信區(qū)間所需的樣本量一、正態(tài)總體均數置信區(qū)間的樣本量 ·(3.6)式可見 (, ) ·給定置信水平(1-a)、置信區(qū)間的精度(記為, 念delta)和樣本標準差的粗略估計值(仍記為s), 便可估算所需的樣本量。由解出n, 并以標準正態(tài)分布的za作為ta的近似值, 便有(3.19) 例 由預調查得知正常人群中某生化指標的標準差約為10個單位, 欲使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 古代表示年齡的詞語從小到大排序
- 公益慈善存在的問題及建議
- 公共直飲水點管理制度
- 公共交通服務質量評估制度
- 工作票安規(guī)流程
- 工業(yè)產品外觀設計的基本原則
- 2025年養(yǎng)老保險市場分析:參保人數穩(wěn)步增長 持續(xù)優(yōu)化服務保障
- 廣東省茂名市2024-2025學年高三上學期第一次綜合測試數學試題(解析版)
- 湛江降水井施工方案
- 寧波耐堿磚施工方案
- 山東省淄博市、濱州市2025屆高三一模語文試題及答案解析
- 2025年阜陽職業(yè)技術學院單招職業(yè)技能考試題庫有答案
- 手術十大安全管理目標
- 2025年1月時事政治考試100題及參考答案
- 實施“教聯(lián)體”賦能共同體 打造校家社協(xié)同育人新模式
- 六年級下冊快樂讀書吧外國名著閱讀練習《魯濱遜漂流》《湯姆索亞歷險記》《騎鵝旅行記》答案
- 科技助力野生動植物保護-創(chuàng)新技術與方法探討
- 2025年黑龍江旅游職業(yè)技術學院單招職業(yè)傾向性測試題庫匯編
- 2025年哈爾濱電力職業(yè)技術學院單招職業(yè)技能測試題庫完整版
- 2025年湖南城建職業(yè)技術學院單招職業(yè)技能測試題庫新版
- 國家基本藥物臨床應用指南
評論
0/150
提交評論