抽樣誤差與可信區(qū)間_第1頁
抽樣誤差與可信區(qū)間_第2頁
抽樣誤差與可信區(qū)間_第3頁
抽樣誤差與可信區(qū)間_第4頁
抽樣誤差與可信區(qū)間_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

抽樣誤差與可信區(qū)間第1頁,共56頁,2023年,2月20日,星期五Page2主要內(nèi)容(Content)抽樣誤差及其規(guī)律性標(biāo)準(zhǔn)誤抽樣分布與t分布可信區(qū)間總結(jié)第2頁,共56頁,2023年,2月20日,星期五Page3抽樣誤差的定義為了估計七歲男童的平均身高(總體均數(shù)),研究者從所有符合要求的七歲男童中每次隨機抽取100人,共計抽取了三次。第3頁,共56頁,2023年,2月20日,星期五Page4抽樣誤差的定義三次抽樣得到了不同的結(jié)果,原因何在?不同男童的身高不同第4頁,共56頁,2023年,2月20日,星期五Page5抽樣誤差定義:由于個體變異的存在,由抽樣引起的樣本統(tǒng)計量與總體參數(shù)間的差別。原因:個體變異+抽樣表現(xiàn):不同樣本統(tǒng)計量間的差別樣本統(tǒng)計量與總體參數(shù)間的差別抽樣誤差是不可避免的!抽樣誤差是有規(guī)律的!★★★★★第5頁,共56頁,2023年,2月20日,星期五Page6抽樣誤差的重要性總體同質(zhì)個體、個體變異總體參數(shù)未知樣本代表性、抽樣誤差隨機抽樣樣本統(tǒng)計量已知統(tǒng)計推斷風(fēng)險第6頁,共56頁,2023年,2月20日,星期五Page7樣本均數(shù)的抽樣分布規(guī)律中心極限定理從均數(shù)為μ,標(biāo)準(zhǔn)差為σ的正態(tài)總體中隨機抽樣,樣本均數(shù)服從均數(shù)為μ,標(biāo)準(zhǔn)差為的正態(tài)分布。從均數(shù)為μ,標(biāo)準(zhǔn)差為σ的任意總體中隨機抽樣,當(dāng)樣本含量足夠大時,樣本均數(shù)近似服從均數(shù)為μ,標(biāo)準(zhǔn)差為的正態(tài)分布。

第7頁,共56頁,2023年,2月20日,星期五8

SamplingDistributionofsamplemeans0SamplingDistributionofsamplemeans

SamplingDistributionofsamplemeansPopulationBX

XPopulationC

XPopulationDXPopulationAn=10n=4n=25n=2SamplingDistributionofsamplemeans第8頁,共56頁,2023年,2月20日,星期五Page9標(biāo)準(zhǔn)誤的定義樣本統(tǒng)計量(如均數(shù))也服從一定的分布;與描述觀測值離散趨勢的指標(biāo)類似,我們使用樣本統(tǒng)計量的標(biāo)準(zhǔn)差來反映抽樣誤差的大小。又稱標(biāo)準(zhǔn)誤(standarderror)。第9頁,共56頁,2023年,2月20日,星期五Page10標(biāo)準(zhǔn)誤的計算計算公式為其中,σ為總體標(biāo)準(zhǔn)差,n為抽樣的樣本例數(shù)在研究工作時,由于總體標(biāo)準(zhǔn)差常常未知,可以利用樣本標(biāo)準(zhǔn)差近似估計第10頁,共56頁,2023年,2月20日,星期五Page11標(biāo)準(zhǔn)誤的意義反映了樣本統(tǒng)計量(樣本均數(shù),樣本率)分布的離散程度,體現(xiàn)了抽樣誤差的大小。標(biāo)準(zhǔn)誤越大,說明樣本統(tǒng)計量(樣本均數(shù),樣本率)的離散程度越大,即用樣本統(tǒng)計量來直接估計總體參數(shù)越不可靠。反之亦然。標(biāo)準(zhǔn)誤的大小與標(biāo)準(zhǔn)差有關(guān),在例數(shù)n一定時,從標(biāo)準(zhǔn)差大的總體中抽樣,標(biāo)準(zhǔn)誤較大;而當(dāng)總體一定時,樣本例數(shù)越多,標(biāo)準(zhǔn)誤越小。說明我們可以通過增加樣本含量來減少抽樣誤差的大小。第11頁,共56頁,2023年,2月20日,星期五Page12

(1)改進(jìn)抽樣方法,增加樣本的代表性。樣本量n相等的情況下:整群抽樣>單純隨機抽樣>系統(tǒng)抽樣>分層抽樣(2)增加樣本量n(3)選擇變異程度較小的研究指標(biāo)減少抽樣誤差的方法第12頁,共56頁,2023年,2月20日,星期五Page13樣本均數(shù)的抽樣誤差之特點各樣本均數(shù)未必等于總體均數(shù);樣本均數(shù)間存在差異;樣本均數(shù)的分布很有規(guī)律;樣本均數(shù)的變異較之原變量的變異大大縮小第13頁,共56頁,2023年,2月20日,星期五Page14t分布的演化根據(jù)中心極限定理的內(nèi)容,當(dāng)樣本含量足夠大時,對從均數(shù)為μ,標(biāo)準(zhǔn)差為σ的任意總體中隨機抽樣所得的樣本均數(shù)進(jìn)行標(biāo)準(zhǔn)化變換,有第14頁,共56頁,2023年,2月20日,星期五Page15t分布的演化由于總體標(biāo)準(zhǔn)差往往是未知的,此時往往用樣本標(biāo)準(zhǔn)差代替總體標(biāo)準(zhǔn)差,這里,ν為自由度,取值為n-1由W.S.Gosset提出第15頁,共56頁,2023年,2月20日,星期五Page16

f(t)

=∞(標(biāo)準(zhǔn)正態(tài)曲線)

=5

=10.10.2-4-3-2-1012340.3自由度分別為1、5、∞時的

t分布t分布的圖形第16頁,共56頁,2023年,2月20日,星期五Page17t分布的性質(zhì)t分布為一簇單峰分布曲線。t分布以0為中心,左右對稱。分布的高峰位置比u分布低,尾部高。即相同的尾部面積對應(yīng)的界值,比u分布大。例如:P=0.05,u=1.64,而自由度為10的t分布界值,t=1.812。t分布與自由度有關(guān),自由度越小,t分布的峰越低,而兩側(cè)尾部翹得越高;自由度逐漸增大時,t分布逐漸逼近標(biāo)準(zhǔn)正態(tài)分布;當(dāng)自由度為無窮大時,t分布就是標(biāo)準(zhǔn)正態(tài)分布。每一自由度下的t分布曲線都有其自身分布規(guī)律。t界值表。第17頁,共56頁,2023年,2月20日,星期五Page18t界值表單側(cè):

P(t<=-tα,ν)=α或

P(t>=tα,ν)=α雙側(cè):

P(t<=-tα,ν)+P(t>=tα,ν)=α

即:P(-tα,ν<t<tα,ν)=1-α[例]查t界值表得t值表達(dá)式

t0.05,10=2.228(雙側(cè))

t0.05,10=1.812(單側(cè))-tt0第18頁,共56頁,2023年,2月20日,星期五Page19統(tǒng)計推斷所謂統(tǒng)計推斷(statisticalinference),是指如何抽樣,以及如何用樣本性質(zhì)推斷總體特征。參數(shù)估計(parameterestimation)假設(shè)檢驗(hypothesistesting)第19頁,共56頁,2023年,2月20日,星期五Page20參數(shù)估計點估計(PointEstimation)區(qū)間估計(IntervalEstimation)第20頁,共56頁,2023年,2月20日,星期五Page21參數(shù)估計之一:點估計用樣本統(tǒng)計量作為總體參數(shù)的估計簡單易行未考慮抽樣誤差

例如:用樣本均數(shù)作為總體均數(shù)的一個估計第21頁,共56頁,2023年,2月20日,星期五點估計總體:某市2001年所有7歲男童的身高樣本:n=120mean=123.62s=4.75點估計:本市7歲男童的平均身高為123.62,標(biāo)準(zhǔn)差為4.75第22頁,共56頁,2023年,2月20日,星期五Page23點估計的缺陷μ=?cmσ=?cmx1,x2,x3,x4……

N

=143.3747S=5.2347x1,x2,x3…x10

=144.0681S=4.7245x1,x2,x3…x10

=142.7203S=9.2473x1,x2,x3…x10樣本含量n=10第23頁,共56頁,2023年,2月20日,星期五Page24區(qū)間估計可信區(qū)間的定義總體均數(shù)之可信區(qū)間的求解均數(shù)之差的可信區(qū)間可信區(qū)間的要素正確理解可信區(qū)間的含義第24頁,共56頁,2023年,2月20日,星期五Page25區(qū)間估計【例4.1】隨機抽取某地25名正常成年男子,測得該樣本的脈搏均數(shù)為73.6次/分,標(biāo)準(zhǔn)差為6.5次/分,估計正常成年男子脈搏總體均數(shù)。第25頁,共56頁,2023年,2月20日,星期五Page26區(qū)間估計的實質(zhì)假設(shè)某個總體的均數(shù)為μ,需要找到兩個量A和B,使得在一個比較高的可信度下(如95%),區(qū)間(A,B)能包含μ。即P(A<μ<B)=0.95第26頁,共56頁,2023年,2月20日,星期五Page27可信區(qū)間的定義按一定的概率或可信度(1-α)用一個區(qū)間來估計總體參數(shù)所在的范圍,該范圍通常稱為參數(shù)的可信區(qū)間或者置信區(qū)間(confidenceinterval,CI),預(yù)先給定的概率(1-α)稱為可信度或者置信度(confidencelevel),常取95%或99%。

可信區(qū)間(CL,CU)是一開區(qū)間

CL、CU稱為可信限第27頁,共56頁,2023年,2月20日,星期五例:血紅蛋白濃度為了解某地1歲嬰兒的血紅蛋白濃度,從該地區(qū)隨機抽取25名1歲嬰兒,測得其血紅蛋白,試估計該地區(qū)1歲嬰兒的平均血紅蛋白濃度。均數(shù)=123.7(g/L)

標(biāo)準(zhǔn)差=11.9(g/L)

標(biāo)準(zhǔn)誤=11.9/sqrt(25)=2.38第28頁,共56頁,2023年,2月20日,星期五t

值的分布理論基礎(chǔ):均數(shù)的抽樣分布-2.06402.064v=24第29頁,共56頁,2023年,2月20日,星期五區(qū)間估計第30頁,共56頁,2023年,2月20日,星期五Page31均數(shù)的(1-α)100%可信區(qū)間-t/2,v0t/2,v

1-/2/2第31頁,共56頁,2023年,2月20日,星期五均數(shù)的(1-)100%可信區(qū)間構(gòu)建方法均數(shù)的(1-)100%的可信區(qū)間:可信限(confidencelimit):可信度:1-α第32頁,共56頁,2023年,2月20日,星期五例隨機抽取某地健康男子20人,測得該樣本的收縮壓均數(shù)為118.4mmHg,標(biāo)準(zhǔn)差為10.8mmHg,問該地健康男子收縮壓總體均數(shù)的95%可信區(qū)間是多少?第33頁,共56頁,2023年,2月20日,星期五本例ν=n-1=19,α=0.05(雙側(cè))查表t0.05,19=2.093計算可信區(qū)間:該地健康男子收縮壓總體均數(shù)的95%可信區(qū)間為113.3~123.5mmHg。第34頁,共56頁,2023年,2月20日,星期五樣本含量較大時,均數(shù)的(1-)100%的

可信區(qū)間此時,均數(shù)的(1-)100%的可信區(qū)間:當(dāng)n較大時,例如n>100,t分布近似標(biāo)準(zhǔn)正態(tài)分布第35頁,共56頁,2023年,2月20日,星期五例已知某地150名正常成人脈搏均數(shù)為73.53次/分,標(biāo)準(zhǔn)差為11.30次/分,試估計該地正常成人脈搏總體均數(shù)95%可信區(qū)間。N=150u0.05=1.96(雙側(cè))(71.72~75.34)次/分第36頁,共56頁,2023年,2月20日,星期五Page37均數(shù)的95%可信區(qū)間樣本含量不是很大時,樣本含量較大時,樣本標(biāo)準(zhǔn)差逼近總體標(biāo)準(zhǔn)差第37頁,共56頁,2023年,2月20日,星期五

可信區(qū)間的兩個要素可靠性即可信度(1-)的大小,

一般取90%,95%??扇藶榭刂?。精確性是指區(qū)間的大小(或長短)兼顧可靠性、精確性第38頁,共56頁,2023年,2月20日,星期五

影響可信區(qū)間大小的因素可信度可信度越大,區(qū)間越寬個體變異變異越大,區(qū)間越寬樣本含量樣本含量越大,區(qū)間越窄第39頁,共56頁,2023年,2月20日,星期五正確理解可信區(qū)間:可信度為95%的CI的涵義:從同一總體中重復(fù)抽取100個樣本含量為n的樣本,按上述方法計算95%的CI,則在這100個可信區(qū)間中,理論上有95個包含了總體均數(shù),有5個不包含總體均數(shù)。這里的95%,指的是方法本身!而不是某個區(qū)間!在可信區(qū)間被估計之前,概率是存在的;在可信區(qū)間被估計之后,就沒有概率了。第40頁,共56頁,2023年,2月20日,星期五95%可信區(qū)間的含義-2-1012

按這種方法構(gòu)建的可信區(qū)間,理論上平均每100次,有95次可以估計到總體參數(shù)。隨機現(xiàn)象模擬軟件第41頁,共56頁,2023年,2月20日,星期五下列說法正確嗎?算得某95%的可信區(qū)間,則:

總體參數(shù)有95%的可能落在該區(qū)間。有95%的總體參數(shù)在該區(qū)間內(nèi)。該區(qū)間包含95%的總體參數(shù)。該區(qū)間有95%的可能包含總體參數(shù)。該區(qū)間包含總體參數(shù),可信度為95%。第42頁,共56頁,2023年,2月20日,星期五可信區(qū)間與參考值范圍可信區(qū)間用95%的可信度估計總體均數(shù),基于t分布(統(tǒng)計量的抽樣分布)。參考值范圍

95%的變量值在該范圍內(nèi)基于正態(tài)分布

第43頁,共56頁,2023年,2月20日,星期五

表示樣本均數(shù)的標(biāo)準(zhǔn)誤。()即使變量X偏離正態(tài)分布,只要每次抽樣的樣本數(shù)足夠大,樣本均數(shù)也近似服從正態(tài)分布。()第44頁,共56頁,2023年,2月20日,星期五1、

表示()A總體標(biāo)準(zhǔn)差B樣本標(biāo)準(zhǔn)差C抽樣分布均數(shù)的理論標(biāo)準(zhǔn)差D抽樣分布均數(shù)的估計標(biāo)準(zhǔn)差第45頁,共56頁,2023年,2月20日,星期五2、

表示()A總體均數(shù)的離散程度B總體標(biāo)準(zhǔn)差的離散程度C樣本均數(shù)的離散程度D樣本標(biāo)準(zhǔn)差的離散程度第46頁,共56頁,2023年,2月20日,星期五3、從連續(xù)性變量X中反復(fù)隨機抽樣,隨樣本含量n增大,將趨于()

AX的原始分布B正態(tài)分布

C均數(shù)的抽樣分布D標(biāo)準(zhǔn)正態(tài)分布第47頁,共56頁,2023年,2月20日,星期五4、下面關(guān)于標(biāo)準(zhǔn)誤的四種說法中,哪一種最不正確()A標(biāo)準(zhǔn)誤是樣本統(tǒng)計量的標(biāo)準(zhǔn)差B標(biāo)準(zhǔn)誤反映了樣本統(tǒng)計量的變異C標(biāo)準(zhǔn)誤反映了總體參數(shù)的變異D標(biāo)準(zhǔn)誤反映了抽樣誤差的大小第48頁,共56頁,2023年,2月20日,星期五5、關(guān)于正態(tài)分布的特征,下面說法錯誤的是:A.高峰位置在均數(shù)X=μ處B.μ為位置參數(shù),μ越大,則曲線沿橫軸向右移動;μ越小,曲線沿橫軸向左移動C.σ為形態(tài)參數(shù),表示數(shù)據(jù)的離散程度,若σ小,則曲線形態(tài)“矮胖”;σ大,則曲線形態(tài)“瘦高”D.正態(tài)分布以均數(shù)為中心,左右完全對稱第49頁,共56頁,2023年,2月20日,星期五6、增大樣本含量,理論上可使下列哪項變小A.均數(shù)的抽樣誤差

B.樣本中位數(shù)

C.樣本極差

D.樣本標(biāo)準(zhǔn)差第50頁,共56頁,2023年,2月20日,星期五517

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論