醫(yī)學(xué)統(tǒng)計學(xué) 個體變異與變量分布_第1頁
醫(yī)學(xué)統(tǒng)計學(xué) 個體變異與變量分布_第2頁
醫(yī)學(xué)統(tǒng)計學(xué) 個體變異與變量分布_第3頁
醫(yī)學(xué)統(tǒng)計學(xué) 個體變異與變量分布_第4頁
醫(yī)學(xué)統(tǒng)計學(xué) 個體變異與變量分布_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二章個體變異與變量分布曾平流行病與衛(wèi)生統(tǒng)計學(xué)教研pstat@1一、個體變異二、頻數(shù)分布三、定量資料的統(tǒng)計指標(biāo)四、定性資料與等級資料的統(tǒng)計指標(biāo)22.1個體變異(individualvariation)是同質(zhì)觀察對象間表現(xiàn)出的差異。變異是生物體在一種或多種、已知或未知的不可控因素作用下所產(chǎn)生的綜合反映。就個體而言:變異是隨機(jī)的(random)。就總體而言:個體變異是有規(guī)律的。3個體變異是統(tǒng)計學(xué)應(yīng)用的前提個體變異抽樣誤差統(tǒng)計推斷42.2頻數(shù)分布收集到的原始資料多是雜亂無章的,為了了解數(shù)據(jù)的分布規(guī)律特征,有必要對數(shù)據(jù)進(jìn)行整理,描述數(shù)據(jù)的頻數(shù)分布(frequencydistribution)以及直方圖(histogram)。探索性數(shù)據(jù)分析(exploratorydataanalysis,EDA)52.2.1定量資料的頻數(shù)分布例:某市1997年12歲男童120人的身高(cm)資料142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.96頻數(shù)分布表的制作步驟P7

(1)計算極差(R)

R=Xmax–Xmin=160.9-125.9=35(cm)

(2)確定組數(shù)、組距:組數(shù):8~12組距:i=R/組數(shù)=35/10=3.5≈4(cm)為什么需要分組?7頻數(shù)(frequency)是指資料中相同數(shù)值或同類屬性的觀察單位的個數(shù)。由于定量資料連續(xù)性的特點(diǎn),因此在對定量資料編制頻數(shù)分布表時需要分段匯總,否則頻數(shù)分布表就特別長。在對原始數(shù)據(jù)分段后,計數(shù)不同組段觀察值的個數(shù)就得到數(shù)據(jù)的頻數(shù)分布,將頻數(shù)分布用表格的形式表示就是頻數(shù)分布表,簡稱頻數(shù)表(frequencytable)。8(3)確定組段:含下限,不含上限第一組段下限≤Xmin上限?最后一組上限>Xmax(4)劃記:計算頻數(shù)、頻率

9124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167組段頻數(shù)頻率160~16410.0083合計1201.0000表2.11997年某市120名12歲男童的身高(cm)頻數(shù)分布累計頻率?累計頻數(shù)?10

圖2.1某市120名12歲男童身高的頻數(shù)分布124132140148156164010203040人數(shù)身高(cm)11定性資料的整理:根據(jù)指標(biāo)的自然屬性歸類,計數(shù)頻數(shù);等級資料的整理:根據(jù)指標(biāo)的不同等級歸類,計數(shù)頻數(shù)表2.2507名傣族人血型的頻數(shù)分布O20540.43A11222.09B15029.59血型頻數(shù)頻率(%)AB407.89合計507100.002.2.2定性資料及等級資料的頻數(shù)分布12709對肺癌患者和非肺癌患者吸煙情況

肺癌6472

4119709組別男性女性合計吸煙不吸煙

吸煙不吸煙對照62227

2832709合計126929

69511418此表是Doll和Hill于1948年至1952年間采用回顧性配對調(diào)查方法研究了吸煙與肺癌的關(guān)系得到的資料(此表分類方法是交叉分類)13例:某醫(yī)院探討不同期次矽肺的胸部平片肺門密度變化,資料如下表,問矽肺患者肺門密度的增加與矽肺期次有無關(guān)系?Ⅰ肺門密度級別+++++4318814245Ⅱ19672169Ⅲ6175578合計50301141492合計矽肺期次定性和等級資料的頻數(shù)表?14描述分布類型描述分布的特征便于發(fā)現(xiàn)特大、特小的可疑值便于計算有關(guān)指標(biāo)、統(tǒng)計分析與處理頻數(shù)分布表和頻數(shù)分布圖的用途152.2.3數(shù)據(jù)的分布類型對稱分布:非對稱分布(偏態(tài)分布)對稱分布:頻數(shù)以中間最多,兩側(cè)逐漸減少,基本對稱右偏態(tài)(正偏態(tài)):高峰在左側(cè),尾部拖在右側(cè)左偏態(tài)(負(fù)偏態(tài)):高峰在右側(cè),尾部拖在左側(cè)單峰分布:雙峰或多峰分布:正偏態(tài)(右)負(fù)偏態(tài)(左)分布的對稱峰的多少16

某市120名12歲男童身高的頻數(shù)分布124132140148156164010203040人數(shù)身高(cm)1770

3

5

7

9

11

13

15

17

19

21

10

20

30

40

50

60

0

1

發(fā)汞含量()239人發(fā)汞含量的頻數(shù)分布人數(shù)180

10

20

30

40

50

60

70

80

90

100

100

200

300

0

400

自評分

某城市892名老年人生存質(zhì)量自評分的頻數(shù)分布人數(shù)190

5

10

15

20

25

30

35

40

45

0

10203040

生存時間(月)102名黑色素瘤患者的生存時間頻數(shù)分布人數(shù)200

10

20

30

40

50

60

70

80

0

1000

2000

3000

4000

人數(shù)死亡年齡(歲)某地某年10000例死亡者年齡分布2122

集中位置的描述

離散趨勢的描述2.3定量資料的統(tǒng)計指標(biāo)2324

是描述一組變量值的集中趨勢或平均水平的統(tǒng)計指標(biāo)。是一組變量值的集中水平的代表值。種類:算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)、眾數(shù)、調(diào)和均數(shù)等2.3.1平均數(shù)(集中位置描述)25(一)算術(shù)均數(shù)(arithmeticmean)簡稱均數(shù)(mean)1.適用條件:單峰對稱分布的資料2.計算公式:①直接法加權(quán)系數(shù)例:某門功課的成績:平時占0.2,期中占0.3,期末占0.5。則平均成績?yōu)椋豪昧怂袛?shù)值,但易受極大值影響。26②頻數(shù)表法:各組段的頻數(shù)各組段的組中值??27124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167組段頻數(shù)頻率160~16410.0083合計1201.00001997年某市120名12歲男童的身高(cm)組中值12613013413814214615015415816228例:五人血清抗體滴度:1:10,1:100,1:1000,1:10000,1:100000看一個實(shí)例?291適用條件:各變量值成倍數(shù)或?qū)?shù)正態(tài)分布的資料2公式:3計算(二)幾何均數(shù)(geometricmean)30例、有5份血清的抗體效價分別為1:10,1:20,1:40,1:80,1:160,求平均抗體效價?此5人血清的平均抗體效價為1:40。

31有25份血清的抗體效價分別為抗體效價1:10,1:20,1:40,1:80,1:160,人數(shù)25873所以,這25份血清的平均效價是1:44.7。32使用注意:(1)變量值中不能有0;(2)同一組變量值不能同時存在正、負(fù)值;(3)若變量全為負(fù)值,計算時將負(fù)號除去,算完后再加上。33(三)中位數(shù)(median)及百分位數(shù)(percentile)將一組變量值從小到大排列,居中的那個變量值。1.適用條件:任何分布(偏態(tài)、分布不明、兩端無界限)2.計算公式:小樣本:當(dāng)n為偶數(shù):當(dāng)n為奇數(shù):34例、有10人的發(fā)汞值()1.1,1.8,3.5,4.2,4.8,5.6,5.9,7.1,10.5,16.335(2)頻數(shù)表法:???36甘油三脂頻數(shù)累積頻數(shù)累積頻率(%)0.10~27274.30.40~16919631.10.70~16736357.6

1.00~9445772.51.30~8153885.41.60~4258092.11.90~2860896.52.20~1462298.72.50~462699.42.80~362999.83.10~1630100.0合計630--37(二)百分位數(shù)(percentile)是指在一組數(shù)據(jù)中找到這樣一個值,在一組從小到大排序的數(shù)據(jù)中,全部觀察值的X%小于Px,而其余(100-X)%大于Px。

PxX%(100-X)%38頻數(shù)表法

39甘油三脂頻數(shù)累積頻數(shù)累積頻率(%)0.10~27274.30.40~16919631.10.70~16736357.6

1.00~9445772.51.30~8153885.41.60~4258092.11.90~2860896.52.20~1462298.72.50~462699.42.80~362999.83.10~1630100.0合計630--?40應(yīng)用中位數(shù)和百分位數(shù)時注意事項(xiàng):①所有分布類型的資料均可計算中位數(shù)和百分位數(shù);②例數(shù)較少時,接近兩端的百分位數(shù)不穩(wěn)定,不宜用兩端的百分位數(shù)估計頻數(shù)分布范圍;③中位數(shù)抗極端值的影響,比均數(shù)好,但不及均數(shù)精確;當(dāng)資料可計算均數(shù)或幾何均數(shù)時,不宜計算中位數(shù)。41有甲、乙兩組同性別同年齡兒童體重(公斤):甲組26,28,30,32,34乙組24,27,30,33,36

看一個實(shí)例上述兩組數(shù)據(jù)的特點(diǎn):集中位置相同:均為30kg離散程度不同:各觀察值與均數(shù)的的差值不同2.3.2離散趨勢的描述42全距(range)四分位數(shù)間距(interquartilerangeQ)方差、標(biāo)準(zhǔn)差(varianceandstandarddeviation)變異系數(shù)(coefficientofvariation)43(1)全距(極差)

R=Xmax-Xmin反映資料的分布范圍R大→變異程度大,R小→變異程度小

優(yōu)點(diǎn):簡單明了

缺點(diǎn):不靈敏,只考慮了最大、最小值

抽樣誤差大,不穩(wěn)定44(2)四分位數(shù)間距(Q)即P75與P25之差P25:1/4的觀察值小于它,稱下四分位數(shù)P25~QL。P75:1/4的觀察值大于它,稱上四分位數(shù)P75~QU。Q=QU-QL,其間包含了中間的50%變量值,即中間50%變量值的極差。Q值大→變異程度大,Q小→變異程度小偏態(tài)分布資料集中趨勢…中位數(shù)離散趨勢…四分位數(shù)45(3)方差與標(biāo)準(zhǔn)差離均差總和離均差平方和方差標(biāo)準(zhǔn)差自由度46=(1-4)+(2-4)+(3-4)+(4-

=-3-2-1+0+1+2+3=0對于對稱分布或正態(tài)分布資料其離均差總和恒等于0。4)+(5-4)+(6-4)+(7-4)例:1、2、3、4、5、6、747計算公式:甲組:26,28,30,32,34乙組:24,27,30,33,36標(biāo)準(zhǔn)差表示一組變量值與均數(shù)的平均距離直接、全面、平均地描述一組變量值的離散程度。48標(biāo)準(zhǔn)差是描述變量值變異程度的指標(biāo)。標(biāo)準(zhǔn)差大變異程度大均數(shù)的代表性差標(biāo)準(zhǔn)差小變異程度小均數(shù)的代表性好用途1、表示變異程度的大小2、計算標(biāo)準(zhǔn)誤、變異系數(shù)3、估計正常值范圍標(biāo)準(zhǔn)差的意義49一個實(shí)例例:某地20歲男子100人,身高均數(shù)為166.06cm,標(biāo)準(zhǔn)差為4.95cm;體重均數(shù)為53.7kg,標(biāo)準(zhǔn)差為4.96kg,問:體重和身高,哪個變異大?50

使用條件:

均數(shù)相差較大時,比較各組資料的變異度;度量衡單位不同時,比較各組資料的變異程度。(4)變異系數(shù)51年齡組人數(shù)均數(shù)標(biāo)準(zhǔn)差CV(%)1~2月10056.32.13.75~6月12066.52.23.33~3.5歲30096.13.13.25~5.5歲400107.83.33.1某地6歲以下兒童身高(cm)的變異絕對變異受平均水平的影響相對變異排除了平均水平的影響52

描述離散程度的指標(biāo)

種類應(yīng)用條件計算公式R任何資料R=Xmax-XminQ偏態(tài)分布資料S2(S)正態(tài),單位同均數(shù)相差不大CV單位不同,均數(shù)差大

53小結(jié):定量資料的描述列表描述:頻數(shù)分布表、一覽表……圖形描述:頻數(shù)分布圖、趨勢圖……指標(biāo)描述定量資料 集中位置:算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)、百分位數(shù) 離散程度:極差、四分位數(shù)間距、方差、標(biāo)準(zhǔn)差定性或等級資料 相對數(shù)指標(biāo):率、構(gòu)成比、比54平均數(shù)與變異度的關(guān)系

平均數(shù)表示的集中性與變異度表示的離散性,是從兩個不同的角度闡明計量資料的特征變異度越小,平均數(shù)對各變量值的代表性越好

變異度越大,平均數(shù)對各變量值的代表性越差

55平均數(shù)與變異度的關(guān)系通常,平均數(shù)與變異指標(biāo)一起描述資料的分布特征。用均數(shù)和標(biāo)準(zhǔn)差描述正態(tài)分布資料的特征;用中位數(shù)和四分位數(shù)間距描述偏態(tài)分布資料的特征。

562.4絕對數(shù)的概念與意義調(diào)查研究和實(shí)驗(yàn)研究得到的定性資料或等級資料經(jīng)過整理,清點(diǎn)數(shù)目得到的數(shù)值稱為絕對數(shù)。如某病的發(fā)病人次數(shù)、醫(yī)院收容人數(shù)、治愈人數(shù)等。絕對數(shù)反映一定條件下某種事物的規(guī)?;蛩?是計劃或總結(jié)工作的依據(jù),絕對數(shù)是計算相對數(shù)與平均數(shù)的基礎(chǔ)。絕對數(shù)往往不便于比較。57例:調(diào)查得某年小學(xué)生中流腦發(fā)病:甲地區(qū)63例,乙地區(qū)35例。甲地區(qū)流腦流行比乙地區(qū)嚴(yán)重×√如已知小學(xué)生總?cè)藬?shù):甲地區(qū)50051人,乙地區(qū)14338人,可算出兩個發(fā)病率:

甲地區(qū)流腦發(fā)病率:63/50051×1000‰=1.26‰乙地區(qū)流腦發(fā)病率:35/14338×1000‰=2.44‰

乙地區(qū)流腦流行比甲地區(qū)嚴(yán)重582.4.1相對數(shù)的概念和意義概念:相對數(shù)是兩個有聯(lián)系的指標(biāo)之比。兩個特點(diǎn):表示事物出現(xiàn)的頻度。

把基數(shù)化作相等,便于比較。

常用相對數(shù)率、構(gòu)成比、相對比

59(1)率率(rate)又稱頻率指標(biāo),用以說明某事物或某現(xiàn)象在其可能發(fā)生的范圍內(nèi)實(shí)際發(fā)生的頻率或強(qiáng)度。計算公式為:

60

表2.5某市某年各區(qū)急性傳染病發(fā)生數(shù)及其相對數(shù)市區(qū)年平均急性傳染病各區(qū)與I區(qū)構(gòu)成比發(fā)病率人口數(shù)發(fā)生數(shù)發(fā)病數(shù)之比(%)(1/萬)163672324331.0018.938.21238954030331.2523.577.863

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論