第04章 抽樣誤差與假設檢驗_第1頁
第04章 抽樣誤差與假設檢驗_第2頁
第04章 抽樣誤差與假設檢驗_第3頁
第04章 抽樣誤差與假設檢驗_第4頁
第04章 抽樣誤差與假設檢驗_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第四章抽樣誤差與假設檢驗

(SamplingErrorandHypothesisTest)

寧波大學醫(yī)學院沈其君問題提出研究方法:對總體進行研究,抽樣研究除對關(guān)乎國計民生和嚴重危害人民健康的需對總體進行研究外,一般用抽樣研究有些領域只能用抽樣研究方法研究的目的是對總體下結(jié)論,而研究信息來自樣本問題提出樣本統(tǒng)計量(樣本均數(shù))與總體參數(shù)(總體均數(shù))有否差異?若有差異,其規(guī)律如何?用什么指標來衡量?怎樣用樣本信息來推斷總體,從而作出結(jié)論。第一節(jié)

均數(shù)的抽樣誤差與標準誤總體

一個摸擬試驗:n=100,重復抽100個樣本。問題:100個樣本均數(shù)和1個總體均數(shù)是否相同?即是否相同抽樣誤差的概念由于抽樣而引起的樣本均數(shù)與總體均數(shù)間差異稱為均數(shù)抽樣誤差其他統(tǒng)計指標在樣本與總體間也存在著抽樣誤差由于抽樣而引起的樣本統(tǒng)計指標與總體參數(shù)間的差異稱為抽樣誤差本質(zhì)是個體存在差異,二、抽樣誤差的分布

理論上可以證明:若從正態(tài)總體中,反復多次隨機抽取樣本含量固定為n的樣本,那么這些樣本均數(shù)也服從正態(tài)分布,即的總體均數(shù)仍為。抽樣分布抽樣分布示意圖

中心極限定理:當樣本含量很大的情況下,無論原始測量變量服從什么分布,的抽樣分布均近似正態(tài)。

抽樣分布抽樣分布示意圖三、標準誤(StandardError)

樣本均數(shù)的標準差稱為標準誤。樣本均數(shù)的變異越小說明估計越精確,因此可以用標準誤表示抽樣誤差的大?。?/p>

實際中總體標準差往往未知,故只能求得樣本均數(shù)標準誤的估計值:

例4.1在某地隨機抽查成年男子140人,計算得紅細胞均數(shù)4.77×1012/L,標準差0.38×1012/L,試計算均數(shù)的標準誤。

標準誤是抽樣分布的重要特征之一,可用于衡量抽樣誤差的大小,更重要的是可以用于參數(shù)的區(qū)間估計和對不同組之間的參數(shù)進行比較。第二節(jié)t分布

——t值與t分布的引入-1.961.960.0250.025X

0N(,2)N(0,1)樣本均數(shù)正態(tài)分布觀察值正態(tài)分布t分布標準正態(tài)分布S代替

t分布特征

不服從標準正態(tài)分布,小樣本時服從自由度ν=n-1的t分布

t分布曲線是以0為中心的對稱分布自由度較小時,曲線峰的高度低于標準正態(tài)曲線,且曲線峰的寬度也較標準正態(tài)分布曲線峰狹,尾部面積大于標準正態(tài)曲線尾部面積,而且自由度越小,t分布的這種特征越明顯(翹尾低狹峰)t分布特征自由度ν越大,t分布越接近于正態(tài)分布;當自由度ν逼近∞時,t分布趨向于標準正態(tài)分布。自由度ν不同,曲線形態(tài)不同,t分布是一簇曲線概率、自由度與t值關(guān)系

——t界值標準正態(tài)分布中u值大小與尾部面積(概率)有關(guān),以(單側(cè))和u/2(雙側(cè))表示;在t分布中,當自由度一定時越小,|t|越大;在一定時,自由度越小,|t|越大,大于u值在t分布中,t值與、的大小有關(guān);在單側(cè)時(尾部面積取單側(cè))t界值表示為t,,雙側(cè)時表示為t/2,,其意義為

概率、自由度與t值關(guān)系

——t界值一定自由度和概率下的t值t,,t/2,可通過查t界值表——附表2獲得;例如

=9,單側(cè)

=0.05,查附表2得單側(cè)t0.05,9=1.833自由度n-135-134,查附表2,得t0.05/2,34=2.032

第三節(jié)總體均數(shù)的估計一、可信區(qū)間的概念(ConfidenceInterval)

區(qū)間估計:指按預先給定的概率,計算出一個區(qū)間,使它能夠包含未知的總體均數(shù)。事先給定的概率稱為可信度,通常取。

參數(shù)估計點估計:不考慮抽樣誤差,如區(qū)間估計:考慮抽樣誤差二、可信區(qū)間的計算

(一)已知一般情況其中為標準正態(tài)分布的雙側(cè)界值。

可信區(qū)間:標準正態(tài)分布(二)未知通常未知,這時可以用其估計量S代替,但

已不再服從標準正態(tài)分布,而是服從著名的t分布。

圖4-2不同自由度的t

分布圖

可信區(qū)間的計算:計算可信區(qū)間的原理與前完全相同,僅僅是兩側(cè)概率的界值有些差別。即可信區(qū)間:需要注意:在小樣本情況下,應用這一公式的條件是原始變量服從正態(tài)分布。在大樣本情況下(如n>100),也可以用替換近似計算。

例4.2某醫(yī)生測得25名動脈粥樣硬化患者血漿纖維蛋白原含量的均數(shù)為3.32g/L,標準差為0.57g/L,試計算該種病人血漿纖維蛋白原含量總體均數(shù)的95%可信區(qū)間。下限:上限:例4.3試計算例4.1中該地成年男子紅細胞總體均數(shù)的95%可信區(qū)間。本例屬于大樣本,可采用正態(tài)近似的方法計算可信區(qū)間。因為,則95%可信區(qū)間為:下限:上限:三、模擬實驗模擬抽樣成年男子紅細胞數(shù)。設定:產(chǎn)生100個隨機樣本,分別計算其95%的可信區(qū)間,結(jié)果用圖示的方法表示。從圖可以看出:絕大多數(shù)可信區(qū)間包含總體參數(shù),只有6個可信區(qū)間沒有包含總體參數(shù)(用星號標記)。

圖4-2模擬抽樣成年男子紅細胞數(shù)100次的95%可信區(qū)間示意圖

******

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論