第五章參數(shù)估計(jì)基礎(chǔ)_第1頁(yè)
第五章參數(shù)估計(jì)基礎(chǔ)_第2頁(yè)
第五章參數(shù)估計(jì)基礎(chǔ)_第3頁(yè)
第五章參數(shù)估計(jì)基礎(chǔ)_第4頁(yè)
第五章參數(shù)估計(jì)基礎(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章參數(shù)估計(jì)基礎(chǔ)第一頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差

抽樣研究的目的是用樣本信息推斷總體特征,即用樣本資料計(jì)算的統(tǒng)計(jì)指標(biāo)推斷總體參數(shù)常用的統(tǒng)計(jì)推斷方法有參數(shù)估計(jì)(總體均數(shù)和總體概率的估計(jì))和假設(shè)檢驗(yàn)第二頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差

樣本均數(shù)的抽樣分布與抽樣誤差

假定某年某地所有13歲女學(xué)生身高服從總體均數(shù)=155.4cm,總體標(biāo)準(zhǔn)差=5.3cm的正態(tài)分布N(,2)。在這樣一個(gè)有限的總體中作隨機(jī)抽樣,共抽100次。每次均抽取30例(ni=30)組成一份樣本,可以算出每一份樣本的平均身高.最終計(jì)算得到153.6,153.1,154.9,····157.7等100個(gè)樣本均數(shù),列于表5-1第2欄。現(xiàn)將這100個(gè)樣本均數(shù)看成新的隨機(jī)變量繪制頻數(shù)分布表,如表5-2所示第三頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差樣本均數(shù)的抽樣分布具有以下特點(diǎn):1.各樣本均數(shù)未必等于總體均數(shù);2.樣本均數(shù)之間存在差異;3.樣本均數(shù)的分布很有規(guī)律,圍繞著總體均數(shù)(155.4cm),中間多、兩邊少,左右基本對(duì)稱,也服從正態(tài)分布。4.樣本均數(shù)的變異較之原變量的變異大大縮小第四頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差

抽樣誤差:抽樣造成的這種樣本均數(shù)與樣本均數(shù)之間、樣本均數(shù)與總體均數(shù)之間的差異。標(biāo)準(zhǔn)誤:用于表示均數(shù)抽樣誤差大小的指標(biāo),也叫樣本均數(shù)的標(biāo)準(zhǔn)差,它反映了樣本均數(shù)之間的離散程度。第五頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差

第六頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差

表5-2從正態(tài)總體N(155.4,5.32)抽樣得到中的100個(gè)樣本均數(shù)的頻數(shù)分布(ni=30)組段下限值(cm)頻數(shù)頻率%152.6~153.2~153.8~154.4~155.0~155.6~156.2~156.8~157.4~158.0~144222521173211.04.04.022.025.021.017.03.02.01.0合計(jì)100100.0第七頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差標(biāo)準(zhǔn)誤的計(jì)算公式(5-1),(5-2):樣本均數(shù)標(biāo)準(zhǔn)誤的大小與標(biāo)準(zhǔn)差成正比,則與樣本含量n的平方根成反比,即在同一總體中隨機(jī)抽樣,樣本含量n越大,抽樣誤差越小。所以在實(shí)際應(yīng)用中可通過增加樣本含量n來(lái)減小樣本均數(shù)的標(biāo)準(zhǔn)誤,從而降低抽樣誤差。第八頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差非正態(tài)總體樣本均數(shù)的抽樣實(shí)驗(yàn)(實(shí)驗(yàn)5-2)。圖5-1(a)是一個(gè)正偏峰的分布,用電腦從中隨機(jī)抽取樣本含量分別為5,10,30和50的樣本各1000次,計(jì)算樣本均數(shù)并繪制4個(gè)直方圖第九頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差圖5-1(b)~(e)顯示,樣本均數(shù)的總體均數(shù)也為仍等于原來(lái)的總體均數(shù),樣本均數(shù)的標(biāo)準(zhǔn)誤為仍滿足(5-1)式;當(dāng)樣本量n較小時(shí),樣本均數(shù)的分布當(dāng)然并非正態(tài)分布,樣本量足夠大時(shí)(例如,n

50),樣本均數(shù)的分布近似于正態(tài)分布。第十頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差第十一頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差第十二頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差第十三頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差第十四頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差第十五頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差例5-12000年某研究者隨機(jī)調(diào)查某地健康成年男子27人,得到血紅蛋白量的均數(shù)為125g/L,標(biāo)準(zhǔn)差為15g/L。試估計(jì)該樣本均數(shù)的抽樣誤差。

===2.89g/L

第十六頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差樣本頻率的抽樣分布與抽樣誤差

實(shí)驗(yàn)4.2:在一口袋內(nèi)裝有形狀、重量完全相同的黑球和白球,已知黑球比例為20%(總體概率π=20%),從口袋中每摸一次看清顏色后放回去,攪勻后再摸,重復(fù)摸球35次(n=35),計(jì)算摸到黑球的百分比(樣本頻率p

i)。重復(fù)這樣的實(shí)驗(yàn)100次,每次得到100個(gè)黑球的比例分別為14.4%,19.8%,20.2%,22.5%,······等,將其頻數(shù)分布列于表5-3。第十七頁(yè),共五十頁(yè),編輯于2023年,星期四

表5-3總體概率為20%時(shí)的隨機(jī)抽樣結(jié)果(ni=35)黑球比例%樣本頻數(shù)%5.0~33.08.0~77.011.0~55.014.0~88.017.0~1616.020.0~2222.022.0~1515.025.0~77.028.0~77.031.0~55.034.0~33.040.0~22.0合計(jì)100100.0第十八頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差頻率的抽樣誤差:這種樣本率樣本頻率與樣本率樣本頻率之間、樣本率樣本頻率與總體率總體概率之間的差異。頻率的標(biāo)準(zhǔn)誤:表示頻率的抽樣誤差的指標(biāo)第十九頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差樣本頻率的總體均數(shù)參數(shù)為π,

率的標(biāo)準(zhǔn)誤計(jì)算公式(5-3):公式(5-4)第二十頁(yè),共五十頁(yè),編輯于2023年,星期四抽樣分布與抽樣誤差例5-2某市隨機(jī)調(diào)查了50歲以上的中老年婦女776人,其中患有骨質(zhì)疏松癥者322人,患病率為41.5%,試估計(jì)該樣本頻率的抽樣誤差。p=41.5%=0.415,n=776=第二十一頁(yè),共五十頁(yè),編輯于2023年,星期四

t分布t分布的概念從正態(tài)分布N(,2)抽得樣本的均數(shù)也服從正態(tài)分布,記為N(,)。對(duì)正態(tài)變量作變換實(shí)際工作中,當(dāng)未知時(shí),常用來(lái)代替對(duì)正態(tài)變量采用的不是z變換,而是t變換第二十二頁(yè),共五十頁(yè),編輯于2023年,星期四t分布英國(guó)統(tǒng)計(jì)學(xué)家W.S.Gosset于1908年以“Student”筆名發(fā)表論文,證明它服從自由度=n

1的t分布,即

~t分布,

=n

1(5-7)

又稱Studentt分布(Student’st-distribution)。實(shí)際上,t分布十分有用,它是總體均數(shù)的區(qū)間估計(jì)和假設(shè)檢驗(yàn)的理論基礎(chǔ)。第二十三頁(yè),共五十頁(yè),編輯于2023年,星期四t分布t分布的圖形和t分布表從前述實(shí)驗(yàn)4.1的13歲女學(xué)生身高這個(gè)正態(tài)總體中分別作樣本量為3和50的隨機(jī)抽樣,各抽取1000份樣本,并分別得到1000個(gè)樣本均數(shù)及其標(biāo)準(zhǔn)誤。對(duì)它們分別作(5-6)式的t轉(zhuǎn)變換,并將t值繪制相應(yīng)的直方圖(見實(shí)驗(yàn)5-4)。如圖5-12(a)、(b)所示??梢钥闯?,這兩個(gè)t值分布圖并不完全一樣,樣本量為3的圖(a)較之樣本量為50的圖(b)顯得矮胖,兩側(cè)尾部稍高。第二十四頁(yè),共五十頁(yè),編輯于2023年,星期四t分布第二十五頁(yè),共五十頁(yè),編輯于2023年,星期四t分布第二十六頁(yè),共五十頁(yè),編輯于2023年,星期四t分布t值的分布與自由度

有關(guān)(實(shí)際是樣本含量n不同)。t分布的圖形不是一條曲線,而是一簇曲線。υ=∞(標(biāo)準(zhǔn)正態(tài)分布)υ=5υ=1012345-1-2-3-4-5f(t)0.10.20.3圖5-3不同自由度下的t分布圖第二十七頁(yè),共五十頁(yè),編輯于2023年,星期四t分布t分布的圖形有如下特征:①單峰分布,以0為中心,左右對(duì)稱,類似于標(biāo)準(zhǔn)正態(tài)分布。②自由度

越小,則越大,t值越分散,曲線的峰部越矮,尾部越高;③隨著自由度

逐漸增大,t分布逐漸逼近標(biāo)準(zhǔn)正態(tài)分布;當(dāng)趨于時(shí),t分布就完全成為標(biāo)準(zhǔn)正態(tài)分布,故標(biāo)準(zhǔn)正態(tài)分布是t分布的特例。第二十八頁(yè),共五十頁(yè),編輯于2023年,星期四t分布統(tǒng)計(jì)學(xué)家將t分布曲線下的尾部面積(即概率P)與橫軸t值間的關(guān)系編制了不同自由度下的t界值表(附表2)。

t界值表:橫標(biāo)目為自由度,縱標(biāo)目為概率P。

t臨界值:表中數(shù)字表示當(dāng)和P確定時(shí),對(duì)應(yīng)的值。

單側(cè)概率(one-tailedprobability):用t,υ表示雙側(cè)概率(two-tailedprobability):用t/2,υ表示第二十九頁(yè),共五十頁(yè),編輯于2023年,星期四t分布例如,當(dāng)=16,單側(cè)概率P=0.05時(shí),由表中查得單側(cè)t0.05,16=1.746;而當(dāng)=16,雙側(cè)概率P=0.05時(shí),由表中查得雙側(cè)t0.05/2,16=2.120。按t分布的規(guī)律,理論上有 單側(cè):P(t

t0.05,16)=0.05和P(t

t0.05,16)=0.05雙側(cè):P(t

t0.05/2,16)+P(t

t0.05/2,16)=0.05第三十頁(yè),共五十頁(yè),編輯于2023年,星期四t分布更一般的表示方法如圖5-4(a)和(b)中陰影部分所示為:?jiǎn)蝹?cè):P(t

t,

)=和P(t

t,

)=雙側(cè):P(t

t/2,

)+P(t

t/2,

)=第三十一頁(yè),共五十頁(yè),編輯于2023年,星期四t分布從t界值表中或表的右上角圖列亦可看出:①在相同自由度時(shí),│t│值越大,概率P越??;②而在相同t值時(shí),雙側(cè)概率P為單側(cè)概率P的兩倍,即t0.10/2,16=t0.05,16=1.746。第三十二頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)參數(shù)估計(jì)的概念參數(shù)估計(jì):指用樣本指標(biāo)(統(tǒng)計(jì)量)估計(jì)總體指標(biāo)(參數(shù))。參數(shù)估計(jì)有點(diǎn)估計(jì)(pointestimation)區(qū)間估計(jì)(intervalestimation)第三十三頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)點(diǎn)估計(jì):用樣本統(tǒng)計(jì)量直接作為總體參數(shù)的點(diǎn)估計(jì)值,即直接用隨機(jī)樣本的樣本均數(shù)作為總體均數(shù)的點(diǎn)估計(jì)值,用樣本頻率p作為總體概率

的點(diǎn)估計(jì)值。用27例健康成年男性血紅蛋白量的樣本均數(shù)作為總體均數(shù)的點(diǎn)估計(jì)值,用776名50歲以上的中老年婦女骨質(zhì)疏松癥的樣本患病率作為總體患病率的點(diǎn)估計(jì)值缺點(diǎn):沒有考慮抽樣誤差,無(wú)法評(píng)價(jià)其可信度估計(jì)值它與真值之間的差距。第三十四頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)區(qū)間估計(jì):結(jié)合樣本統(tǒng)計(jì)量和標(biāo)準(zhǔn)誤可以確定一個(gè)具有較大的可信度置信度(如95%或99%)的包含總體參數(shù)的區(qū)間,該區(qū)間稱為總體參數(shù)的1

可信區(qū)間或置信區(qū)間(confidenceinterval,CI)。置信度:

值一般取0.05或0.01,故1

為0.95或0.99。通常用樣本均數(shù)和均數(shù)的標(biāo)準(zhǔn)誤估計(jì)總體均數(shù)的95%(或99%)置信區(qū)間,或用樣本頻率和率的及其標(biāo)準(zhǔn)誤估計(jì)總體概率的95%(或99%)置信區(qū)間。如果沒有特別說明,一般作雙側(cè)的區(qū)間估計(jì)第三十五頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)置信區(qū)間的計(jì)算總體均數(shù)的置信區(qū)間根據(jù)總體標(biāo)準(zhǔn)差是否已知及樣本含量n的大小,總體均數(shù)置信區(qū)間的計(jì)算有t分布和Z分布(標(biāo)準(zhǔn)正態(tài)分布)兩種方法。1.t分布方法當(dāng)總體標(biāo)準(zhǔn)差未知時(shí),正態(tài)總體N(,2)的樣本均數(shù)的t變換結(jié)果第三十六頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)服從t分布,若“砍去”t分布雙側(cè)尾部面積

=0.05=5%,故有95%的t值滿足不等式:

t0.05/2,<<t0.05/2,

t0.05/2,

<<+t0.05/2,

:(t0.05/2,,+t0.05/2,)第三十七頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)總體均數(shù)

的(1-)可信區(qū)間置信區(qū)間的一般計(jì)算式為t/2,

均數(shù)的單側(cè)置信區(qū)間為

>t/2,

或<+t/2,

第三十八頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)例5-3:已知某地27名健康成年男子的血紅蛋白量均數(shù)=125g/L,標(biāo)準(zhǔn)差S=15g/L。試問該市地健康正常成年男子血紅蛋白血清膽固醇平均含量的95%置信區(qū)間和99%置信區(qū)間各是多少?解:本例n=27,

=27–1=26,查t界值表(附表2),

=0.05時(shí),雙側(cè)t0.05/2,26=2.056,

=0.01時(shí),t0.01/2,26=2.779;按公式(5-9)第三十九頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)95%CL:1252.056=(119.06,130.94)g/L99%CL:1252.779=(116.98,133.02)g/L該市健康成年男子血紅蛋白平均含量:95%置信區(qū)間為(119.06,130.94)g/L,99%置信區(qū)間為(116.98,133.02)g/L。第四十頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)正態(tài)分布近似方法(1)當(dāng)總體標(biāo)準(zhǔn)差已知時(shí)總體均數(shù)的雙側(cè)置信區(qū)間為

z/2

第四十一頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)(2)當(dāng)未知但n足夠大時(shí)(n50),t分布的極限分布是標(biāo)準(zhǔn)正態(tài)分布,可用z/2代替公式(5-9)中的t/2,,則總體均數(shù)的雙側(cè)置信區(qū)間為

z/2

第四十二頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)同理,與(5-8)和(5-9)式相對(duì)應(yīng),單側(cè)置信區(qū)間則為z

z

+z

或+z

第四十三頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)例5-4某市2000年隨機(jī)測(cè)量了90名19歲健康男大學(xué)生的身高,其均數(shù)為172.2cm,標(biāo)準(zhǔn)差為4.5cm,試估計(jì)該市2000年19歲健康男大學(xué)生平均身高的95%置信區(qū)間。1.96=172.21.96=(171.3,173.1)

該市2000年19歲健康男大學(xué)生平均身高的95%置信區(qū)間為(171.3,173.1)cm。第四十四頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)總體概率的置信區(qū)間根據(jù)樣本含量n和樣本頻率p的大小,可以采用查表法和正態(tài)近似法計(jì)算總體概率的置信區(qū)間。查表法當(dāng)樣本含量n較小,比如n50,特別是p很接近0或100%時(shí),可以通過查相應(yīng)統(tǒng)計(jì)用表(附表3),確定總體概率的置信區(qū)間。第四十五頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)例5-6某醫(yī)院對(duì)39名前列腺癌患者實(shí)施開放手術(shù)治療,術(shù)后有合并癥者2人,試估計(jì)該手術(shù)合并癥發(fā)生概率的95%置信區(qū)間查概率的置信區(qū)間表(附表3),在n=39的橫行,X=2的縱列交叉處的數(shù)值為1~17即該手術(shù)合并癥發(fā)生概率的95%置信區(qū)間為1%~17%第四十六頁(yè),共五十頁(yè),編輯于2023年,星期四總體均數(shù)及總體概率的估計(jì)注意:附表3中僅列出X

n/2部分;當(dāng)X>n/2時(shí),應(yīng)以nX值查表,然后從100中減去查得的數(shù)值即為所求的置信區(qū)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論