[醫(yī)學(xué)]衛(wèi)生統(tǒng)計學(xué)知識點匯總_第1頁
[醫(yī)學(xué)]衛(wèi)生統(tǒng)計學(xué)知識點匯總_第2頁
[醫(yī)學(xué)]衛(wèi)生統(tǒng)計學(xué)知識點匯總_第3頁
[醫(yī)學(xué)]衛(wèi)生統(tǒng)計學(xué)知識點匯總_第4頁
[醫(yī)學(xué)]衛(wèi)生統(tǒng)計學(xué)知識點匯總_第5頁
已閱讀5頁,還剩101頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第一講 緒論總體:是研究目的所確定的所有同質(zhì)個體某指標(biāo)實際值的集合;或說, 總體是根據(jù)研究目的確定的所有同質(zhì)觀察對象的全體。樣本:根據(jù)隨機化的原則從總體中抽取有代表性的部分觀察單位,其變量實測值構(gòu)成樣本。樣本含量:樣本所包含個體或個體值的個數(shù)。抽樣(sampling) :從總體中抽取有代表性的一部分樣本的過程,稱為抽樣。抽樣研究:從確定的同質(zhì)總體中隨機抽取部分樣本進行觀察,用樣本信息來推斷總體特征,該研究方法叫抽樣研究。統(tǒng)計推斷:樣本的現(xiàn)象推斷所研究總體的特征。即分析樣本數(shù)據(jù),獲得關(guān)于總體的知識。同質(zhì)(homogeneity):指研究對象在一定范疇的各種可能影響主要觀察指標(biāo)的其它因素處于相同或

2、非常相似的情況,即把具有相同性質(zhì)的觀察單位簡稱為同質(zhì)的(homogeneous),否則稱為異質(zhì)的(heterogeneous) 。變異(variation):同質(zhì)基礎(chǔ)上的各觀察單位間的差異 參數(shù):根據(jù)總體變量值統(tǒng)計計算出來,描述總體特征的統(tǒng)計指標(biāo)。統(tǒng)計量:根據(jù)樣本個體值統(tǒng)計計算出來,描述特征的統(tǒng)計指標(biāo)。變量:變異性表現(xiàn)為取值上的大小就是變量。通常把觀察單位的觀察指標(biāo)稱為變量。如身高、體重等變量值:觀察單位 的觀察值 叫變量值,如身高 118cm,體重26kg 等。誤差:為觀察值(x)與實際值()之差。抽樣誤差(sampling error) :由抽樣造成的樣本統(tǒng)計量和總體參數(shù)的差別、以及樣本統(tǒng)

3、計量之間的差別稱為抽樣誤差。隨機事件(radom event):隨機試驗中可能出現(xiàn)的各種結(jié)果,叫隨機事件。即在一定條件下具有多種可能發(fā)生的結(jié)果,而究竟發(fā)生那一個結(jié)果不能肯定,又稱偶然事件。概率(probability):描述隨機事件發(fā)生的可能性大小的一種度量,常用p 表示。 小概率事件:當(dāng)隨機事件a的概率p(a)a,習(xí)慣上,當(dāng)a=0.05時,就稱a為小概率事件;其統(tǒng)計學(xué)意義是小概率事件在一次隨機試驗中不可能發(fā)生。頻率(frequency):在n次試驗中,若事件a發(fā)生的次數(shù)為m,則:m稱為事件a在n次試驗中的頻數(shù),fn(a)稱為事件a在n次試驗中發(fā)生的頻率。統(tǒng)計描述:用統(tǒng)計指標(biāo)、統(tǒng)計表、統(tǒng)計圖等

4、方法,對樣本資料的數(shù)量特征及其分布規(guī)律進行描述統(tǒng)計推斷:指用樣本信息推斷總體特征,包括參數(shù)估計和假設(shè)檢驗。第二講:數(shù)值變量的統(tǒng)計描述一、頻數(shù)表與頻數(shù)分布圖(一)基本概念:頻數(shù)( frequency ):指在一個抽樣資料中,某變量值出現(xiàn)的次數(shù)。頻數(shù)分布表(frequency distribution table):將各數(shù)值變量的值及其相應(yīng)的頻數(shù)列表,簡稱頻數(shù)表。頻率是表示頻數(shù)出現(xiàn)機率的指標(biāo),可用百分?jǐn)?shù)或小數(shù)表示,頻率為100%或1。頻數(shù)分布圖(frequency distribution figure) :根據(jù)頻數(shù)分布表,以變量值為橫坐標(biāo),頻數(shù)為縱坐標(biāo),繪制的直方圖。(二)連續(xù)型變量頻數(shù)表的編制

5、方法: 求全距(range,簡記r ):是一組資料中最大值(xmax)與最小值(xmin)之差,亦稱極差。2. 定組距:將全距分為若干段,稱為組段。組與組之間的距離,稱為組距;用小寫i 表示。原則:(1)“組段”數(shù)一般為10-15個;(2)“組距”一般為r/10取整;(3)為計算方便根據(jù)組距采取取整數(shù)方法3.寫組段:即將全距分為若干段的過程。原則:(1)第一組段要包括xmin,最末組段包括 xmax ; (2)每組段均用下限值加 “ ”表示,最終組段同時注明上下限。4. 列表劃記:根據(jù)預(yù)定的組段和組距,用劃記的方法整理原始資料。(三)頻數(shù)表的用途:1.揭示頻數(shù)的分布特征:集中趨勢與離散趨勢結(jié)合

6、能全面反映頻數(shù)的分布特征2.揭示頻數(shù)的分布類型 對稱分布 : 集中部位在中部,兩端漸少,左右兩側(cè)的基本對稱,為對稱(正態(tài))分布。 正偏 : 集中部位偏于較小值一側(cè)(左側(cè)),較大值方向漸減少,為正偏態(tài)分布。負(fù)偏 : 集中部位偏于較大值一側(cè)(右側(cè)),較小值方向漸減少,為負(fù)偏態(tài)分布。3.便于發(fā)現(xiàn)某些特大或特小的可疑值。4. 樣本含量足夠大時,以頻率作為概率的估計值。5.作為陳述資料的形式。二、集中趨勢的指標(biāo)集中趨勢:用于描述一組計量資料的集中位置,說明這種變量值大小的平均水平,常用平均數(shù)(average)表示。注意:1.同質(zhì)的事物或現(xiàn)象才能求平均數(shù).應(yīng)根據(jù)資料分布狀態(tài)選用適當(dāng)?shù)木鶖?shù)。 算術(shù)均數(shù) :

7、單峰對稱分布包括 幾何均數(shù) : 對數(shù)正態(tài)分布中位數(shù)、百分位數(shù) : 偏態(tài)分布(一) 算術(shù)平均數(shù)(arithmetic mean) 使用條件:數(shù)據(jù)分布比較均勻呈正態(tài)分布或近似正態(tài)分布。 樣本均數(shù)用符號:x 表示 總體均數(shù)用符號:表示 計算方法有兩種:直接法(小樣本)和加權(quán)法(大樣本)(1)直接法:舉例: 某地10名18歲健康男大學(xué)生身高為(cm): 168.7, 178.4, 170.0, 170.4, 172.1, 167.6, 172.4, 170.7, 177.3, 169.7求平均身高?10x)(171.7cm=7169.4178.168.7+= 適用范圍:小樣本資料,n30 方法:將觀察

8、值x1、x2、x3、xn直接相加,再除以觀察值的個數(shù)n。 公式:(2)加權(quán)法: 適用范圍:大樣本含量的分組資料或頻數(shù)表資料。 方法:計算各組段的組中值 xi與其頻數(shù)f i的乘積和f x,然后除以總頻數(shù)f。 公式:舉例: 用加權(quán)法計算某市8歲男童身高平均數(shù)(表3.1 )計算各組段的組中值xi、fxi和fx第1組段:117.51=2119116+=2+上限下限x 用加權(quán)法計算該組身高值的均值)(050cmnfxx=(二) 幾何均數(shù)(geometric mean, g) 概念:對一組觀察值,先進行對數(shù)變換,按算術(shù)均數(shù)計算方法求其對數(shù)值的均數(shù),該均數(shù)的反對數(shù)值即幾何均數(shù)(g)

9、。 使用條件:用于原始數(shù)據(jù)分布呈偏態(tài)分布,等比資料(倍數(shù)變化)或?qū)?shù)正態(tài)分布資料的平均數(shù)的計算。 表示符號:g 計算方法:直接法和加權(quán)法(1)直接法: 適用范圍:小樣本資料 方法:將n個觀察值(x1,x2,3,xn)直接相乘再開n次方。 公式:用對數(shù)形式表示為:舉例:設(shè)有5份血清樣品,滴度分別為: 1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。g或 glg-1(lg1+lg10+lg100+lg1000+lg10000)/5) lg-1(0+1+2+3+4)/5) lg-12 =100即:平均滴度為1:100;較好地代表了觀察值的平均水平。 (2)加權(quán)法:適

10、用范圍:大樣本含量的分組資料或頻數(shù)表資料。公式:glg-1 (f lgx/f )舉例:有95名麻疹易感兒童,接種麻疹疫苗一個月后,血凝抑制抗體滴度見下表,試求平均滴度(例3.3)。 glg-1 (f lgx/f )lg-1(145.0948/95) 33.68即95名易感兒童接種疫苗一個月后,血凝抑制抗體的 平均滴度為1:33.68。計算幾何均數(shù)(g )注意事項:(1)觀察值不能為0;(2)觀察值不能同時有正有負(fù);(3)同一組資料求得的幾何均數(shù)小于算術(shù)均數(shù)。練習(xí):1.有8份血清的抗體效價分別為:1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640 求

11、平均抗體效價。將各抗體效價的倒數(shù)代入公式:所以血清的抗體平均為1:56.572.有50人的血清抗體效價,分別為:5人1:10, 9人1:20, 20人1:40, 10人1:80, 6人1:160 求平均抗體效價。將各抗體效價的倒數(shù)代入公式:所以該50人的血清抗體效價為1:41.70(三)中位數(shù)(median,m) 概念:把一組變量值從小到大排列,位于中間位置的變量值叫中位數(shù),用m表示。 使用條件:當(dāng)一組資料類型分布不清或明顯 偏態(tài)分布時的平均數(shù)的計算。 表示符號:m 計算方法:直接法和加權(quán)法百分位數(shù)(percentile,p) 概念:為一種位置指標(biāo),表示位于全部觀察值第x%位置處的數(shù)值。一個p

12、x將總體或樣本的全部觀察值分為兩部分,理論上有x%的觀察值比它小,(100-x)%的觀察值比它大,p50分位數(shù)即是中位數(shù)。 表示符號:x 計算方法: 頻數(shù)表計算(1)直接法由原始數(shù)據(jù)計算中位數(shù):當(dāng)n為奇數(shù)時:(2)用頻數(shù)表計算中位數(shù)和百分位數(shù)步驟:按所分組段,由小到大計算累計頻數(shù)和累計頻率代入公式計算中位數(shù)及其它百分位數(shù)中位數(shù)計算公式 百分位數(shù)計算公式(mm)2/-+=lfnfilp注:fm 、 fx為所在組的頻數(shù), i 為該組段的組距, l為其下限 ,fl 為小于l的各組段的累積頻數(shù)。例:求164例沙門菌食物中毒病人潛伏期的中位數(shù)和百分位數(shù)p5、p95潛伏期(h) 頻數(shù)f 累積頻數(shù) 累計頻率

13、(%) 0 21 2115.2412 58 7948.1724 4412375.0036 2314689.0248 1215896.3460 516399.3972 1164100.001. 由表第(4)、 (1)欄可見,m(p50)在24 組段, 所以 l=24、i=12、fx=44、fl=79。2. 把 l=24、i=12、fx=44、fl=79代入公式, 求m。1244m(p50) = 24+ (164/2-79)=24.8(h)3. 同樣方法,可求p5、p95 。p5 = 0+ (1645%-0)=4.7(h)p95 = 48+ (16495%-146)=57.8(h)應(yīng)用:1.中位數(shù)

14、: 常用于描述偏態(tài)分布資料的集中位置,反映位置居中的觀察值的水平,它和均數(shù)、幾何均數(shù)不同,不是由全部觀察值的數(shù)量值綜合計算出來的,只受居中變量值的影響,不受兩端特大值和特小值的影響。因此,當(dāng)分布的一端或兩端無確定數(shù)值或資料的分布不清可以求中位數(shù)。 2.百分位數(shù): a.用于描述數(shù)據(jù)某一百分位的位置,最常用的是p50,即中位數(shù);也可用多個百分位數(shù)的結(jié)合來描述一組資料的分布特征,如用p25和 p75合用時,反映中間50%觀察值的分布情況。b.用于確定參考值范圍: wbc的95%參考值范圍:p2.5 p97.5過高過低均異常 肺活量95%參考值范圍:p5 過低異常 尿鉛95%參考值范圍:p95 過高異

15、常c.用一組px可較全面地描述總體或樣本的分布特征。 三、離散趨勢的指標(biāo)離散趨勢:用于描述一組數(shù)值變量觀察值之間參差不齊的程度,即變異程度。 極差(range, r)四分位數(shù)間距(quartile, q)包括 方差(variance, )標(biāo)準(zhǔn)差(standard deviation,s2)變異系數(shù)(coefficient of variation,cv)(一) 極差(range, 簡稱r)計算:r=最大值最小值= xmax - xmin 意義:反映樣本變量值的全范圍。條件:對變量值的各種分布類型的資料都適用。優(yōu)點:簡單明了,容易理解,使用方便。缺點:僅考慮了極大值和極小值,未考慮其它變量的個體

16、差異。建議:與其他離散指標(biāo)共同使用。極差的缺點:1.r只考慮最大值和最小值之差,不能反映組內(nèi)其它觀察值的變異度。2.樣本例數(shù)越多,抽到極大值和極小值的可能性越大,故樣本例數(shù)懸殊時不易比較極差。3.即使樣本例數(shù)不變,極差的抽樣誤差亦較大,即不夠穩(wěn)定。(二) 四分位數(shù)間距(uartile, 簡稱)計算:=-=p75-p25意義:中間一半觀察值的極差。條件:對變量值的各種分布類型的資料都適用。優(yōu)點:類似值但比其穩(wěn)定。缺點:未考慮全部觀察值的變異度。建議:與其他離散指標(biāo)共同使用。例:有164例沙門氏菌食物中毒病人的潛伏期(小時), 求該潛伏期的四分位數(shù)間距。 p25 l i / f25 ( n25 %

17、 fl ) 12 12/58(16425%21) 16.14(小時)p75 l i / f 75 ( n75 % f l ) 24 12/44(16475%79) 36(小時)q= p 75 - p 25 =36-16.14=19.86 (小時) 即該潛伏期的四分位數(shù)間距為19.86小時。(三) 方差( variance, 簡稱 )計算:總體方差 樣本方差 意義:克服了值的不足,考慮了每個變量值的離散情況并消除了的影響。優(yōu)點:全面地考慮每個變量值的離散情況缺點:其單位是原度量單位的平方。)2-=nxxs1((四)標(biāo)準(zhǔn)差(standard deviation,sd或s)計算:總體標(biāo)準(zhǔn)差: 樣本標(biāo)

18、準(zhǔn)差: 標(biāo)準(zhǔn)差的計算: 直接法: 加權(quán)法:(1)直接法:用于小樣本資料舉例 現(xiàn)有一影像醫(yī)生,測得10名患者的ea值分別為: 0.47, 0.60, 0.86, 0.96, 1.01, 1.13, 1.27, 1.58, 1.72, 2.88試計算其標(biāo)準(zhǔn)差?首先列表,求出x 和x 2(表3.6)將x、x2代入公式:(2)加權(quán)法:用于大樣本資料或頻數(shù)表資料舉例 計算100名8歲男孩身高的標(biāo)準(zhǔn)差從列表可知:fx =13 055.0、fx2 =1 707 127.00 和n =100代入公式:(五 )變異系數(shù):簡稱cv概念:是同一組資料的標(biāo)準(zhǔn)差與均數(shù)之比,又叫變異度或離散系數(shù)。計算:實際含義:標(biāo)準(zhǔn)差相

19、對于同組均數(shù)的百分比。優(yōu)點:cv 消除了度量衡單位,用于比較 1.單位不同的多組資料的變異度。 2.均數(shù)相差懸殊的多組資料的變異度身高體重舉例 :某地7歲男孩身高的均數(shù)為123.10cm,標(biāo)準(zhǔn)差4.71 cm;體重均數(shù)為22.29kg,標(biāo)準(zhǔn)差2.26kg。試比較其身高、體重的變異程度。說明其體重的變異度大于身高的,即身高比體重穩(wěn)定。小 結(jié)為描述數(shù)值變量的分布特征,可將觀察值編制頻數(shù)表,繪制頻數(shù)分布圖。集中趨勢描述的主要指標(biāo)是平均數(shù)。百分位數(shù) . ,傳染病潛伏期可用于醫(yī)學(xué)參考值范圍,適用于任何分布觀察序列在某百分位置的水平,是分布的百分界值3.描述頻數(shù)分布離散程度的指標(biāo)有:極差與四分位數(shù)間距,后

20、者較穩(wěn)定,但均不能綜合反映個觀察值的變異程度。方差和標(biāo)準(zhǔn)差,最常用,對正態(tài)分布尤重要。 變異系數(shù),可用于多組資料間單位不同或均數(shù)相差較大時,變異度的比較。注意: 變異指標(biāo)的大小這與平均指標(biāo)值的大小無關(guān)。平均指標(biāo)和變異指標(biāo)相結(jié)合,能對各種分布的資料作很好的描述。集中趨勢 離散趨勢 應(yīng)用場合算術(shù)均數(shù) 方差、標(biāo)準(zhǔn)差適用于對稱分布,特別是正態(tài)分布幾何均數(shù)正偏態(tài)分布資料或?qū)?shù)正態(tài)分布資料中位數(shù) 極差百分位數(shù) 四分位數(shù)間距 變異系數(shù) 適用于任何分布資料,特別是偏態(tài) 分布、分布不明、分布末端無確定 值適用于均數(shù)相差懸殊或度量衡單位不同的資料第三講 概率分布一、二項分布及其應(yīng)用摸球模型摸摸球模型球模型一個袋子

21、里有5個乒乓球,其中2個黃球、3個白球,我們進行摸球游戲,每次摸1球,放回后再摸。先后摸100次,請問: 摸到0次黃球的概率是多大?解: 每次摸到白球的概率 =0.6 第1次摸到白球的概率=0.6第2次摸到白球的概率=0.6第100次摸到白球的概率=0.6 100次摸到0次黃球的概率=0.60.60.6=0.6100先后摸100次,摸到3次黃球的概率是多大?解:每次摸到黃球的概率 =0.4黃白黃白黃白白白概率=(0.4)3(0.6)97 100次摸到3次黃球的概率 = (0.4)3(0.6)97+ (0.4)3(0.6)97+ (0.4)3(0.6)97+ =c1003 (0.4)3(0.6)

22、97每次摸到白球的概率 =0.6黃黃黃白白白白白黃白黃黃白白白白概率=(0.4)3(0.6)97概率=(0.4)3(0.6)97 先后摸100次,摸到x次黃球的概率是多大?解:100次摸到x次黃球的概率=c100x (0.4)x(0.6)100-x 先后摸n次,摸到x次黃球的概率是多大?n次摸到x次黃球的概率=cnx (0.4)x(0.6)100-x解: 如果摸到黃球的概率不是0.4,而是,先后摸n次,摸到x次黃球的概率是多大?n次摸到x次黃球的概率=cnx ()x(1- )100-x解:小結(jié):摸球模型 二分類:每次摸球都有兩種可能的結(jié)果(黃球或白球) 獨立:每次摸球都是彼此獨立的 重復(fù):每次

23、摸到黃球的概率都是、 摸到白球的概率都是1- 所以,先后摸n次,摸到x次黃球的概率為:n次摸到x次黃球的概率=cnx ()x(1- )100-x二項分布的概念若變量x在n此獨立實驗中,具有:1各觀察單位只能具有相互對立的兩種結(jié)果之一。2已知發(fā)生某一結(jié)果(陽性)的概率為,其對立結(jié)果的概率為1-。3n次試驗在相同條件下進行,且各個觀察單位的觀察結(jié)果相互獨立。則稱變量x服從二項分布,記作:b(x;n,p) 一般地,若隨機變量取值x的概率為:p(x)=cnx ()x(1- )n-x (x 取值0、1、2、n)cnx= x!(n-x)!(n)!其中:則稱此隨機變量附合二項分布則 :p(x)=cnx ()

24、x(1- )n-x 稱為二項分布的概率函數(shù)。 小結(jié):一個二分類的情況、獨立重復(fù)事件n次,若每次出現(xiàn)某事物的概率為,則n次中有x次出現(xiàn)該事物的概率服從二項分布。舉 例:臨床上用針炙治療某型頭痛,有效的概率為60%;現(xiàn)以該法治療患者3例,其中 0 例、1例、2例、3例有效的概率各是多大?解:p(x)=cnx ()x(1- )n-x 有效人數(shù)(x)c3xp x(1-p)n-x出現(xiàn)該結(jié)果概率p(x)010.600.430.064130.610.420.288230.620.410.432310.630.400.216二項分布的概率分布示意圖 n=30,=0.3n=10,=0.3n=20,=0.5n=5

25、,=0.3二項分布圖形的特征:二項分布圖的形態(tài)取決于和n,高峰在= n處。或說:和n是二項分布的兩個參數(shù),n決定x的取值范圍,n和p決定了x的概率分布。 當(dāng)=0.5,圖形是對稱的; 離0.5愈遠,對稱性愈差。 當(dāng)0.5,隨著n的增大,分布趨于對稱。 當(dāng)n時,只要不太靠近0或1特別是n 和n(1-) 都 大于5時,二項分布接近于正態(tài)分布。二項分布的均數(shù)和標(biāo)準(zhǔn)差對于二分類情況,進行n次隨機試驗,每次試驗出現(xiàn)陽性結(jié)果的概率為,出現(xiàn)陽性結(jié)果的次數(shù)為x,則x的總體均數(shù) 、方差2及標(biāo)準(zhǔn)差分別為: 總體均數(shù): =n 總體方差: 2= n (1- ) 總體標(biāo)準(zhǔn)差: = (1- )二項分布的應(yīng)用: 概率估計:例

26、:如果某地鉤蟲感染率是13%,隨機觀察當(dāng)?shù)?50人,其中10人感染鉤蟲的概率有多大?解析:二分類(感染、不感染)獨立(假定互不影響)重復(fù)(=150),每人感染鉤蟲機率均為=0.13故:感染鉤蟲的人數(shù)x附合二項分布b(150,0.13)所以: p(x=10)=c15010 0.13100.87140=0.0055單側(cè)累積概率的計算:單純計算二項分布x恰好取某值的概率沒有太大意義經(jīng)常需要計算的是二項分布的累積概率(1)出現(xiàn)陽性次數(shù)至多為k次的概率為:p(xk)= cnx ()x(1- )n-x kx=0(2)出現(xiàn)陽性次數(shù)至少為k次的概率為:p(xk)= cnx ()x(1- )n-x nx=k舉例

27、:某地鉤蟲感染率是13%,隨機觀察當(dāng)?shù)?50人。(1)其中最多有2人感染的概率有多大?解:p(x2)= c150x 0.13x(0.97)150-x = c1500 0.130 0.97150 +c1501 0.131 0.97149+c1502 0.132 0.97148(2)其中最少有2人感染的概率有多大?解:p(x2)= c150x 0.13x(0.97)150-x = 1 -(c1500 0.130 0.97150 +c1501 0.131 0.97149)(3)其中最少有20人感染的概率有多大?解:p(x20)= c150x 0.13x(0.97)150-x =1-c150x 0.1

28、3x(0.97)150-x 練習(xí): 5人服藥,該藥腸胃反應(yīng)概率為10%;求:k個人、不多于2人、有人有反應(yīng)的概率。二、possion分布及其應(yīng)用poission分布的概念:是描述罕見事件發(fā)生次數(shù)的概率分布。poisson分布可看作是二項分布的特例: 獨立重復(fù)的次數(shù)很大很大 每次出現(xiàn)某事件的概率很小,或未出現(xiàn)某事件的概率1- 很小。poission分布的概念:對二項分布,當(dāng)n,n l 時,可以證明:p(x)=cnx ()x(1- )n-x p(x)=e-lxlx!所以,若隨機變量x的概率函數(shù)為:p(x)=e-lxlx!若則稱此變量服從poission分布,記敘x p(l) 。(l =n為pois

29、sion分布的總體均數(shù),x 為觀察單位內(nèi)某稀有事件的發(fā)生次數(shù), l是poisson分布的總體參數(shù),也是唯一的參數(shù))舉例:某地20年間共出生肢短畸形兒10名,平均每年0.5名,估計該地每年出生此類畸形人數(shù)為0、1、2的概率p(x )。解析: e=2.71828, l=0.5=2.71828-0.50.5 0!0x=0時,p(0)=e-lxlx!=0.607故:所以不同x取值時,概率值如下表示:x012345p(x)0.6070.3030.0760.0130.0020.000poission的概率分布示意圖: poisson分布圖形與有關(guān)。當(dāng)20時,其分布近似正態(tài)分布。=npoission分布圖形

30、的特征:二項分布圖的形態(tài)取決于l , l5時為偏峰, l愈小分布愈偏,隨著l的增大,分布趨向于對稱。 總體均數(shù)=總體方差= l ; 當(dāng)觀察結(jié)果具有可加性,即:若x1服從總體均數(shù)為l1的poission分布, x2服從總體均數(shù)為l2的poission分布, 則t= x1+ x2為服從總體均數(shù)為l1+l2的poission分布。舉例:從同一水源獨立取水樣5次,進行細胞培養(yǎng)。第1樣水樣的菌落數(shù) x1 p(l1)第2樣水樣的菌落數(shù) x2 p(l2)第5樣水樣的菌落數(shù) x5 p(l5)把5份水樣混合,則合計菌落數(shù)也符合poission分布,則:x1+x2 +x3 +x4+ x5 p (l1+ l2 +l

31、3+ l4+ l5)醫(yī)學(xué)研究中常利用其可加性,將小的觀察單位合并,來增大發(fā)生次數(shù)x,以便用后面講到的正態(tài)近似法作出統(tǒng)計推斷。poission分布的應(yīng)用: 概率估計:舉例1:若某地新生兒先生性心臟病的發(fā)病概率是8 ,那么該地120名新生兒中有4人患先天性心臟病的概率是多少?解析:發(fā)病、不發(fā)病 二項分布發(fā)病概率8,概率很小 poission分布n=120,相對較大l =n=1208=0.960.964 4!=2.71828-0.96p(4)=e-lxlx!=0.014單側(cè)累積概率的計算:(1)稀有事件發(fā)生次數(shù)至多為k次的概率為:p(xk)= kx=0e-lxlx!2)稀有事件發(fā)生次數(shù)至少為k次的概

32、率為:p(xk)= nx=ke-lxlx! k -1= 1- x=0e-lxlx!三、正態(tài)分布及其應(yīng)用(一)正態(tài)分布(normal distribution)的概念:又稱高斯分布,(gauss distribution):是描述連續(xù)型隨機變量最重要的分布。正態(tài)分布的密度函數(shù)f(x) ,即正態(tài)曲線的函數(shù)表達式: 當(dāng)給定不同的x 值后,就可以根據(jù)此方程求得相應(yīng)的縱坐標(biāo)高度(頻數(shù)),并可繪制出正態(tài)曲線的圖形,記作xn(,2) : 正態(tài)分布曲線:高峰位于中間,兩側(cè)逐漸下降并完全對稱,曲線兩端永遠不與橫軸相交的“鐘型”曲線。決定正態(tài)曲線圖形的兩個參數(shù): 和 當(dāng)固定不變時,越大,曲線沿橫軸越向右移動;反之

33、, 越小,則曲線沿橫軸越向左移動,所以叫正態(tài)曲線n(, 2)的位置參數(shù), 。當(dāng)固定不變時,越大,曲線越平闊;越小,曲線越尖峭, 叫正態(tài)曲線 n(, 2)的形狀參數(shù)。 為了應(yīng)用方便,常將上述函數(shù)中的 x 作如下變量代換,令: 相對于正態(tài)變量 x,u 沒有度量單位。根據(jù) u 的不同取值,代入上式可繪出標(biāo)準(zhǔn)正態(tài)分布的圖形。正態(tài)分布曲線 標(biāo)準(zhǔn)正態(tài)分布曲線 xn(,2) xn(0,1)這樣就把原來個別的正態(tài)分布轉(zhuǎn)換為一般的標(biāo)準(zhǔn)正態(tài)分布 n(0,1),亦稱為分布(有書中用 z表示) 。(二)正態(tài)分布特征及曲線下面積分布規(guī)律: 正態(tài)分布有五個方面的特征:1. 集中性: 正態(tài)曲線在橫軸上方,且均數(shù)位于曲線的最

34、高處,即當(dāng)x=時, f (x)取最大值。2. 對稱性:正態(tài)分布以均數(shù)為中心,左右對稱,即曲線 f (x)關(guān)于x=對稱。3. 正態(tài)分布有兩個參數(shù),通常用 n (, 2) 表示均數(shù)為,標(biāo)準(zhǔn)差為的正態(tài)分布;用 n(0,1)表示均數(shù)為 0 和標(biāo)準(zhǔn)差為 1 的標(biāo)準(zhǔn)正態(tài)分布。 反映曲線的位置,反映曲線的形狀。4. 正態(tài)曲線在,標(biāo)準(zhǔn)正態(tài)曲線在1處各有一個拐點5. 正態(tài)曲線下的面積分布有一定的規(guī)律性。 由于正態(tài)曲線下累計頻數(shù)的總和等于 100% 或 1,故橫軸上曲線下的面積(概率)就等于 100% 或 1。均數(shù)兩側(cè)的面積或頻數(shù)(概率)各占 50%。正態(tài)分布和標(biāo)準(zhǔn)正態(tài)分布曲線下的面積分布規(guī)律正態(tài)分布 標(biāo)準(zhǔn)正態(tài)分

35、布 面積分布規(guī)律 68.27% 95.00% 99.00%當(dāng)總體均數(shù)和總體標(biāo)準(zhǔn)差未知時,就用樣本均數(shù)和樣本標(biāo)準(zhǔn)差來代替, u 值可用下式計算:此時可用 來代替, 代替 , , 代替 。對于正態(tài)分布或近似正態(tài)分布資料,只要求出均數(shù)和標(biāo)準(zhǔn)差,便可就其頻數(shù)分布作出概略性的估計舉例:已知 120 名 12 歲男孩身高均數(shù)為 143 cm,標(biāo)準(zhǔn)差為 5.8 cm,試估計該地 12 歲男孩身高在 135 cm 以下者有多少人?答:1. 首先按題意計算 u 值:2. 查 u 值表 當(dāng) u = -1.38 時,左側(cè)尾部面積 0.0838,即身高在 135cm 以下者占總?cè)藬?shù)的 8.38%。 3.據(jù)概率計算人數(shù)

36、:身高在 135 cm 以下者有:1208.38% =10人練 習(xí):已知某地正常成年女子的血清總蛋白數(shù)服從正態(tài)分布,調(diào)查了該地110名正常成年女子,得樣本血清總蛋白均數(shù)為72.8g/l,標(biāo)準(zhǔn)差為3.8g/l,試估計該地正常成年女子血清總蛋白介于66.075.0 g/l之間的比例,以及110名正常成年女子中血清總蛋白介于66.075.0 g/l之間的人數(shù)。 . 解析:由于本例是大樣本,可用樣本均數(shù)x和樣本標(biāo)準(zhǔn)差 s 作為總體、 的估計值,即將該地正常成年女子的血清總蛋白數(shù)近似看作服從n(72.8, 3.82)的正態(tài)分布。 1. 將變量作如下標(biāo)準(zhǔn)化變換:2. 查 u 值表得3. 求所定區(qū)間概率:

37、(z2)- (z1)=0.719-0.0367=68.23%即估計血清總蛋白介于66.075.0g/l的比例為68.23%4. 求所定區(qū)間的可能人數(shù): 所以110名正常成年女子中血清總蛋白介于之間的人數(shù)約為 110 68.23% =75人。 (三)、正態(tài)分布在醫(yī)學(xué)中的應(yīng)用(一) 制定醫(yī)學(xué)參考值范圍 參考值范圍(reference range):指所謂“正常人”的解剖、生理、生化等指標(biāo)的波動范圍。制定方法:制定參考值范圍時,首先要確定一批樣本含量足夠大的“正常人”。所謂“正常人”不是指“健康人”,而是 指排除了影響所研究指標(biāo)的疾病和有關(guān)因素的同質(zhì)人群,必須是隨機選擇的大樣本。而后根據(jù)指標(biāo)的實際用

38、途確定單側(cè)或雙側(cè)界值根據(jù)研究目的和使用要求選定適當(dāng)?shù)陌俜纸缰?,常?5%。 .雙側(cè)臨界值:標(biāo)準(zhǔn)正態(tài)分布雙側(cè)尾部面積之和等于時所對應(yīng)的正側(cè)變量值,記作z/2或u/2。單側(cè)臨界值:標(biāo)準(zhǔn)正態(tài)分布單側(cè)尾部面積等于時所對應(yīng)的正側(cè)變量值,記作z或u。 以不同的方法計算參考值范圍:(1)正態(tài)分布法:適用于正態(tài)或近似正態(tài)分布資料常用參考值范圍的制定舉例1:調(diào)查某地120名健康女性血紅蛋白,直方圖顯示其分布近似正態(tài),試估計該地健康女性血紅蛋白的95%參考值范圍。解析:1. 分布近似正態(tài) 正態(tài)分布法求參考值范圍2. 過高過低均為異常 設(shè)定雙側(cè)界值3. 求上、下界值下界:上界 所以,該地健康女性血紅蛋白的95%參考

39、值范圍是(97.41,137.39)g/l。舉例2: 某地調(diào)查120名健康成年男性的第一秒肺通氣量得均數(shù) x =4.2(l), 標(biāo)準(zhǔn)差s =0.7(l),試據(jù)此估計其第一秒肺通氣量的95%參考值范圍。 1. 分布近似正態(tài) 正態(tài)分布法求參考值范圍 2. 僅過低為異常 單側(cè)下限3. 求下界值所以,該地健康成年男子第一秒肺通氣量的95%參考值范圍為不低于3.05(l)。 (2)百分位法:特別適用于偏態(tài)分布資料以及資料中一端或兩端無確切數(shù)值的資料。如95%參考值范圍:雙側(cè)界值單側(cè)下限單側(cè)上限p 2.5和p 97.5p 5 p 95(二)估計頻數(shù)分布舉例:定出生體重低于2500g的嬰兒為低體重兒,若由某

40、項研究得某地嬰兒出生體重均數(shù)為3200g ,標(biāo)準(zhǔn)差為350g,估計當(dāng)年出生低體重兒所占的比例。1. 分布近似正態(tài), x= 3200g ,s=350g。2. 轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布,求u 值 說明標(biāo)準(zhǔn)正態(tài)曲線下 (-,-2)的面積為2.28%,故本題正態(tài)曲線(-,2500g)的比例為2.28% ,即x2500g的為2.28%,故估計當(dāng)年出生低體重兒的比例為2.28%。 (三)進行質(zhì)量控制基本原理:許多臨床檢驗指標(biāo),當(dāng)影響某一指標(biāo)的隨機因素很多,而每個因素所起的作用均不太大時,這個指標(biāo)的隨機波動屬于隨機誤差,則往往服從正態(tài)分布??刂品椒ǎ撼R?作為上下警戒值,以 作為上下控制值。這里的2s和3s可視為

41、1.96s和2.58s的約數(shù)。第四講:抽樣分布及參數(shù)估計一、抽樣研究和抽樣誤差(一)正態(tài)分布樣本均數(shù)的抽樣分布【實驗一】假定某年某地16歲所有女學(xué)生的身高服從總體均數(shù)=155.4cm,總體標(biāo)準(zhǔn)差s2=5.3cm的正態(tài)分布n ( , s2),在這樣的一個總體中進行隨機抽樣: 1.每次均抽取30例組成一個樣本 2.共抽100次 3.計算每個樣本的平均身高得出了一組數(shù)據(jù):153.6,153.1,154.9,157.7 n=100從正態(tài)總體 n (155.4, 5.32) 抽樣得到的100個樣本均數(shù)的分布頻數(shù)表(n=30)組段(cm)頻數(shù)頻率(%)152.6 1 1.0153.2 4 4.0153.8

42、 4 4.0154.4 22 22.0155.0 25 25.0155.6 21 21.0156.2 17 17.0156.8 3 3.0157.4 2 2.0158.0 158.6 1 1.0合 計100100.0正態(tài)分布樣本均數(shù)的分布規(guī)律:1.各樣本均數(shù)未必等于總體均數(shù)。2.樣本均數(shù)之間存在差異。3.樣本均數(shù)的分布總是圍繞著總體均數(shù),近似于正態(tài)分布。4.樣本均數(shù)的變異程度較之原變量的變異程度大大的縮小了。所以若隨機變量x服從xn ( , s2) 的正態(tài)分布,則以之隨機抽樣計算的樣本均數(shù)所構(gòu)成的分布也呈正態(tài)分布。1. 樣本均數(shù)的總體均數(shù)仍等于原來的總體均數(shù)。 2. 樣本均數(shù)的標(biāo)準(zhǔn)差 叫做標(biāo)準(zhǔn)

43、誤 (standard error of mean, sem),記作 ,是描述均數(shù)的抽樣誤 差大小的指標(biāo)。樣本均數(shù)的標(biāo)準(zhǔn)誤的意義:(1)衡量樣本均數(shù)的可靠性:均數(shù)標(biāo)準(zhǔn)誤越小,說明均數(shù)的抽樣誤差越小,樣本均數(shù)代表總體均數(shù)就越可靠。(2)估計總體均數(shù)的可信區(qū)間。(3)用于均數(shù)的假設(shè)檢驗。標(biāo)準(zhǔn)誤的計算:1. 理論標(biāo)準(zhǔn)誤:2. 實際工作中,常用 s 代,計算樣本標(biāo)準(zhǔn)誤。樣本量 n越大 ,樣本均數(shù)的標(biāo)準(zhǔn)誤就越小。所以增加樣本量 n ,可以降低抽樣誤差。標(biāo)準(zhǔn)差 標(biāo)準(zhǔn)誤區(qū)別公式與n 關(guān)系n 增大,標(biāo)準(zhǔn)差趨于穩(wěn)定。n 越大,標(biāo)準(zhǔn)誤越小概念描述的是樣本個體觀察值的變異程度大小。描述的是樣本均數(shù)的變異程度和抽樣誤

44、差大小。意義小說明變量值圍繞均數(shù)的波動小,均數(shù)對一組變量值的代表性好。小表示樣本均數(shù)圍繞總體均數(shù)的波動小,用樣本推斷總體的可靠性越強。用途與均數(shù)結(jié)合,描述觀察值的分布范圍,常用于估計醫(yī)學(xué)參考值范圍、計算變異系數(shù)、標(biāo)準(zhǔn)誤等。均數(shù)結(jié)合,用于估計總體均數(shù)可能出現(xiàn)的范圍,即可信區(qū)間,并用于假設(shè)檢驗。聯(lián)系1.都是描述變異程度的指標(biāo)2.標(biāo)準(zhǔn)誤與標(biāo)準(zhǔn)差成正比, n一定時,標(biāo)準(zhǔn)差越大,標(biāo)準(zhǔn)誤也越大。(二)非正態(tài)分布樣本均數(shù)的抽樣分布【實驗二】:圖6-2是一個正偏態(tài)分布,用電腦從中隨機抽取樣本含量分別為5、10、30、50的樣本各1000次,計算樣本均數(shù),繪制直方圖,并觀察其樣本均數(shù)的分布。n = n = 5

45、5n = 10n = 30n = 50當(dāng)樣本容量足夠大時(n 30) ,樣本均數(shù)的抽樣分布逐漸趨于正態(tài)分布若隨機變量x呈偏態(tài)分布,當(dāng)每次抽取的樣本量 n 足夠大時(例如,當(dāng)n= 50),樣本均數(shù)的分布也近似于正態(tài)分布。1. 樣本均數(shù)的總體均數(shù)仍等于原來的總體均數(shù)。 2. 樣本均數(shù)的標(biāo)準(zhǔn)差 仍叫做標(biāo)準(zhǔn)誤,記作 。二、樣本統(tǒng)計量的分布 規(guī)律-t 分布(一)t 分布的概念: 1-=nn=s-xmx-xmsn【實驗三】:從前述13歲女學(xué)生身高這個正態(tài)總體中分別作樣本量為3或50的隨機抽樣,各取1000份樣本,分別得到1000個樣本的均數(shù)及其標(biāo)準(zhǔn)誤,對它們分別作t 轉(zhuǎn)換,將t 值繪成直方圖: 。n =3

46、時的t分布 n =50時的t分布(二)t 分布的圖形特征圖6-2 不同自由度的t分布的曲線t 分布的圖形特征 : 1. 分布是一簇曲線,它有一個參數(shù)即自由度u 。2. 單峰分布,以0為中心,左右對稱; 3. t 分布曲線較標(biāo)準(zhǔn)正態(tài)曲線要扁平,u越小,t 值的越分散,曲線的峰越矮,尾越高。4. u增大, t 分布逐漸逼近標(biāo)準(zhǔn)正態(tài)分布;若u,則t 分布完全成為標(biāo)準(zhǔn)正態(tài)分布。(三)t 界值表:以自由度u為橫標(biāo)目,概率p為縱標(biāo)目,表中數(shù)字表示當(dāng)u和 p確定時,對應(yīng)的是正側(cè)或雙側(cè)的t 臨界值表,記作t(,u)或t(/2,u) 。單側(cè)概率的t 臨界值,記作t(,u)雙側(cè)概率的t 臨界值,記作t(/2,u)1. 相同u 時,t 值越大,對應(yīng)的尾部概率就越小2. 相同t 值,雙側(cè)尾部概率是單側(cè)尾部概率的2倍。單側(cè)a和雙側(cè)2a的t界值同,即單側(cè)ta,u雙側(cè)t2a,u 三、總體均數(shù)可信區(qū)間的估計(一)基本概念參數(shù)估計:用樣本統(tǒng)計量來估計總體參數(shù)。點值估計( point estimation ):不考慮抽樣誤差,直接用樣本統(tǒng)計量來估計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論