抽樣誤差與可信區(qū)間.ppt_第1頁
抽樣誤差與可信區(qū)間.ppt_第2頁
抽樣誤差與可信區(qū)間.ppt_第3頁
抽樣誤差與可信區(qū)間.ppt_第4頁
抽樣誤差與可信區(qū)間.ppt_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、,Medical statistics 醫(yī)學(xué)統(tǒng)計學(xué),抽樣誤差和可信區(qū)間 Sampling Error & Confidence Intervals,Page 2,主要內(nèi)容(Content),抽樣誤差及其規(guī)律性 標(biāo)準(zhǔn)誤 抽樣分布與t分布 可信區(qū)間 總結(jié),Page 3,抽樣誤差的定義,為了估計七歲男童的平均身高(總體均數(shù)),研究者從所有符合要求的七歲男童中每次隨機抽取100人,共計抽取了三次。,Page 4,抽樣誤差的定義,三次抽樣得到了不同的結(jié)果,原因何在?,Page5,抽樣誤差,定義: 由于個體變異的存在,由抽樣引起的樣本統(tǒng)計量與總體參數(shù)間的差別。 原因:個體變異抽樣 表現(xiàn): 不同樣本統(tǒng)計量間

2、的差別 樣本統(tǒng)計量與總體參數(shù)間的差別 抽樣誤差是不可避免的! 抽樣誤差是有規(guī)律的!, ,Page 6,抽樣誤差的重要性,總體 同質(zhì)個體、個體變異,總體參數(shù) 未知,樣本 代表性、抽樣誤差,隨機 抽樣,樣本統(tǒng)計量已知,統(tǒng)計推斷,風(fēng) 險,Page 7,樣本均數(shù)的抽樣分布規(guī)律,中心極限定理 從均數(shù)為,標(biāo)準(zhǔn)差為的正態(tài)總體中隨機抽樣,樣本均數(shù)服從均數(shù)為,標(biāo)準(zhǔn)差為 的正態(tài)分布。 從均數(shù)為,標(biāo)準(zhǔn)差為的任意總體中隨機抽樣,當(dāng)樣本含量足夠大時,樣本均數(shù)近似服從均數(shù)為,標(biāo)準(zhǔn)差為 的正態(tài)分布。,8,Page 9,標(biāo)準(zhǔn)誤的定義,樣本統(tǒng)計量(如均數(shù))也服從一定的分布; 與描述觀測值離散趨勢的指標(biāo)類似,我們使用樣本統(tǒng)計量的

3、標(biāo)準(zhǔn)差來反映抽樣誤差的大小。又稱標(biāo)準(zhǔn)誤(standard error)。,Page 10,標(biāo)準(zhǔn)誤的計算,計算公式為 其中,為總體標(biāo)準(zhǔn)差,n為抽樣的樣本例數(shù) 在研究工作時,由于總體標(biāo)準(zhǔn)差常常未知,可以利用樣本標(biāo)準(zhǔn)差近似估計,Page 11,標(biāo)準(zhǔn)誤的意義,反映了樣本統(tǒng)計量(樣本均數(shù),樣本率)分布的離散程度,體現(xiàn)了抽樣誤差的大小。 標(biāo)準(zhǔn)誤越大,說明樣本統(tǒng)計量(樣本均數(shù),樣本率)的離散程度越大,即用樣本統(tǒng)計量來直接估計總體參數(shù)越不可靠。反之亦然。 標(biāo)準(zhǔn)誤的大小與標(biāo)準(zhǔn)差有關(guān),在例數(shù)n一定時,從標(biāo)準(zhǔn)差大的總體中抽樣,標(biāo)準(zhǔn)誤較大;而當(dāng)總體一定時,樣本例數(shù)越多,標(biāo)準(zhǔn)誤越小。說明我們可以通過增加樣本含量來減少抽

4、樣誤差的大小。,Page12,(1)改進抽樣方法,增加樣本的代表性。 樣本量 n 相等的情況下: 整群抽樣單純隨機抽樣系統(tǒng)抽樣分層抽樣 (2) 增加樣本量n (3)選擇變異程度較小的研究指標(biāo),減少抽樣誤差的方法,Page13,樣本均數(shù)的抽樣誤差之特點,各樣本均數(shù)未必等于總體均數(shù); 樣本均數(shù)間存在差異; 樣本均數(shù)的分布很有規(guī)律; 樣本均數(shù)的變異較之原變量的變異大大縮小,Page 14,t分布的演化,根據(jù)中心極限定理的內(nèi)容,當(dāng)樣本含量足夠大時,對從均數(shù)為,標(biāo)準(zhǔn)差為的任意總體中隨機抽樣所得的樣本均數(shù)進行標(biāo)準(zhǔn)化變換,有,Page 15,t分布的演化,由于總體標(biāo)準(zhǔn)差往往是未知的,此時往往用樣本標(biāo)準(zhǔn)差代替

5、總體標(biāo)準(zhǔn)差, 這里,為自由度,取值為n-1 由W.S. Gosset提出,Page 16,自由度分別為1、5、 時的 t 分布,t分布的圖形,Page 17,t分布的性質(zhì),t分布為一簇單峰分布曲線。 t分布以0為中心,左右對稱。 分布的高峰位置比 u 分布低,尾部高。即相同的尾部面積對應(yīng)的界值,比 u 分布大。例如:P=0.05,u=1.64,而自由度為10的 t分布界值,t = 1.812。 t分布與自由度有關(guān),自由度越小,t分布的峰越低,而兩側(cè)尾部翹得越高;自由度逐漸增大時,t分布逐漸逼近標(biāo)準(zhǔn)正態(tài)分布;當(dāng)自由度為無窮大時,t分布就是標(biāo)準(zhǔn)正態(tài)分布。 每一自由度下的t分布曲線都有其自身分布規(guī)律

6、。t界值表 。,Page 18,t界值表,單側(cè): P(t =t,)= 雙側(cè): P(t =t,)= 即:P(-t,t t,)= 1- 例 查t界值表得t值表達式 t 0.05,10=2.228 (雙側(cè)) t 0.05,10=1.812 (單側(cè)),Page 19,統(tǒng)計推斷,所謂統(tǒng)計推斷(statistical inference),是指如何抽樣,以及如何用樣本性質(zhì)推斷總體特征。 參數(shù)估計(parameter estimation) 假設(shè)檢驗(hypothesis testing),Page 20,參數(shù)估計 點估計(Point Estimation) 區(qū)間估計(Interval Estimation

7、),Page 21,參數(shù)估計之一:點估計,用樣本統(tǒng)計量作為總體參數(shù)的估計 簡單易行 未考慮抽樣誤差 例如: 用樣本均數(shù)作為總體均數(shù)的一個估計,點估計,總體:某市2001年所有7歲男童的身高 樣本:n=120 mean=123.62 s=4.75 點估計:本市7歲男童的平均身高為123.62,標(biāo)準(zhǔn)差為4.75,Page 23,點估計的缺陷,樣本含量n =10,Page 24,區(qū)間估計,可信區(qū)間的定義 總體均數(shù)之可信區(qū)間的求解 均數(shù)之差的可信區(qū)間 可信區(qū)間的要素 正確理解可信區(qū)間的含義,Page 25,區(qū)間估計,【例4.1】 隨機抽取某地25名正常成年男子,測得該樣本的脈搏均數(shù)為73.6次/分,標(biāo)

8、準(zhǔn)差為6.5次/分,估計正常成年男子脈搏總體均數(shù)。,Page 26,區(qū)間估計的實質(zhì),假設(shè)某個總體的均數(shù)為,需要找到兩個量A和B,使得在一個比較高的可信度下(如95%),區(qū)間(A,B)能包含。即 P(AB)=0.95,Page 27,可信區(qū)間的定義,按一定的概率或可信度(1-)用一個區(qū)間來估計總體參數(shù)所在的范圍,該范圍通常稱為參數(shù)的可信區(qū)間或者置信區(qū)間(confidence interval,CI),預(yù)先給定的概率(1-)稱為可信度或者置信度(confidence level),常取95%或99%。 可信區(qū)間(CL, CU )是一開區(qū)間 CL、CU 稱為可信限,例:血紅蛋白濃度,為了解某地 1

9、歲嬰兒的血紅蛋白濃度,從該地區(qū)隨機抽取 25 名 1 歲嬰兒,測得其血紅蛋白,試估計該地區(qū)1歲嬰兒的平均血紅蛋白濃度。 均 數(shù) = 123.7(g/L) 標(biāo)準(zhǔn)差 = 11.9(g/L) 標(biāo)準(zhǔn)誤=11.9/sqrt(25)=2.38,t 值的分布,理論基礎(chǔ):均數(shù)的抽樣分布,v24,區(qū)間估計,Page 31,均數(shù)的(1-)100%可信區(qū)間,1-,均數(shù)的(1-)100%可信區(qū)間構(gòu)建方法,均數(shù)的(1-)100%的可信區(qū)間: 可信限(confidence limit): 可信度:1,例,隨機抽取某地健康男子20人,測得該樣本的收縮壓均數(shù)為118.4mmHg,標(biāo)準(zhǔn)差為10.8mmHg,問該地健康男子收縮壓

10、總體均數(shù)的95%可信區(qū)間是多少?,本例=n-1=19,=0.05(雙側(cè)) 查表 t0.05,19=2.093 計算可信區(qū)間: 該地健康男子收縮壓總體均數(shù)的95%可信區(qū)間為113.3123.5mmHg。,樣本含量較大時,均數(shù)的(1-)100%的可信區(qū)間,此時,均數(shù)的(1-)100%的可信區(qū)間:,當(dāng)n較大時,例如n100,t分布近似標(biāo)準(zhǔn)正態(tài)分布,例,已知某地150名正常成人脈搏均數(shù)為73.53次/分,標(biāo)準(zhǔn)差為11.30次/分,試估計該地正常成人脈搏總體均數(shù)95%可信區(qū)間。 N=150 u0.05=1.96(雙側(cè)) (71.7275.34)次/分,Page 37,均數(shù)的95%可信區(qū)間,樣本含量不是很

11、大時, 樣本含量較大時,樣本標(biāo)準(zhǔn)差逼近總體標(biāo)準(zhǔn)差,可信區(qū)間的兩個要素,可靠性 即可信度(1-)的大小, 一般取90%,95%。 可人為控制。 精確性 是指區(qū)間的大小(或長短) 兼顧可靠性、精確性,影響可信區(qū)間大小的因素,可信度 可信度越大,區(qū)間越寬 個體變異 變異越大,區(qū)間越寬 樣本含量 樣本含量越大,區(qū)間越窄,正確理解可信區(qū)間:,可信度為95%的CI的涵義: 從同一總體中重復(fù)抽取100個樣本含量為n的樣本,按上述方法計算95%的CI,則在這100個可信區(qū)間中,理論上有95個包含了總體均數(shù),有5個不包含總體均數(shù)。 這里的95%,指的是方法本身!而不是某個區(qū)間! 在可信區(qū)間被估計之前,概率是存在

12、的; 在可信區(qū)間被估計之后,就沒有概率了。,95%可信區(qū)間的含義,按這種方法構(gòu)建的可信區(qū)間,理論上平均每100次,有95次可以估計到總體參數(shù)。,隨機現(xiàn)象模擬軟件,下列說法正確嗎?,算得某95%的可信區(qū)間,則: 總體參數(shù)有95%的可能落在該區(qū)間。 有95%的總體參數(shù)在該區(qū)間內(nèi)。 該區(qū)間包含95%的總體參數(shù)。 該區(qū)間有95%的可能包含總體參數(shù)。 該區(qū)間包含總體參數(shù),可信度為95%。, , ,可信區(qū)間與參考值范圍,可信區(qū)間 用95%的可信度估計總體均數(shù), 基于t分布(統(tǒng)計量的抽樣分布)。 參考值范圍 95%的變量值在該范圍內(nèi) 基于正態(tài)分布,表示樣本均數(shù)的標(biāo)準(zhǔn)誤。( ) 即使變量X偏離正態(tài)分布,只要每

13、次抽樣的樣本數(shù)足夠大,樣本均數(shù)也近似服從正態(tài)分布。( ),1、 表示( ) A 總體標(biāo)準(zhǔn)差 B 樣本標(biāo)準(zhǔn)差 C 抽樣分布均數(shù)的理論標(biāo)準(zhǔn)差 D 抽樣分布均數(shù)的估計標(biāo)準(zhǔn)差,2、 表示 ( ) A 總體均數(shù)的離散程度 B 總體標(biāo)準(zhǔn)差的離散程度 C 樣本均數(shù)的離散程度 D 樣本標(biāo)準(zhǔn)差的離散程度,3、從連續(xù)性變量X中反復(fù)隨機抽樣,隨樣本含量n增大, 將趨于( ) A X的原始分布 B 正態(tài)分布 C 均數(shù)的抽樣分布 D 標(biāo)準(zhǔn)正態(tài)分布,4、下面關(guān)于標(biāo)準(zhǔn)誤的四種說法中,哪一種最不正確( ) A 標(biāo)準(zhǔn)誤是樣本統(tǒng)計量的標(biāo)準(zhǔn)差 B 標(biāo)準(zhǔn)誤反映了樣本統(tǒng)計量的變異 C 標(biāo)準(zhǔn)誤反映了總體參數(shù)的變異 D 標(biāo)準(zhǔn)誤反映了抽樣誤

14、差的大小,5、關(guān)于正態(tài)分布的特征,下面說法錯誤的是: A.高峰位置在均數(shù)X=處 B. 為位置參數(shù),越大,則曲線沿橫軸向右移動;越小,曲線沿橫軸向左移動 C. 為形態(tài)參數(shù),表示數(shù)據(jù)的離散程度,若小,則曲線形態(tài)“矮胖”;大,則曲線形態(tài)“瘦高” D.正態(tài)分布以均數(shù)為中心,左右完全對稱,6、增大樣本含量,理論上可使下列哪項變小 A.均數(shù)的抽樣誤差 B.樣本中位數(shù) C.樣本極差 D.樣本標(biāo)準(zhǔn)差,51,7、隨著樣本含量的增加,以下說法正確的是( ) A 標(biāo)準(zhǔn)差逐漸變大 B 標(biāo)準(zhǔn)誤逐漸變大 C 標(biāo)準(zhǔn)差逐漸變小 D 標(biāo)準(zhǔn)誤逐漸變小,52,8、可信度1-越大,則總體均數(shù)可信區(qū)間( ) A 越寬 B 越窄 C 不變 D 還與第二類錯誤有關(guān),53,9、測得1096名飛行員的紅細胞數(shù)(萬mm3),該資料服從正態(tài)分布,其均數(shù)為414.1,標(biāo)準(zhǔn)差為42.8,求得區(qū)間(414.1-1.6442.8,414.1+1.64

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論