北京協(xié)和醫(yī)學(xué)院統(tǒng)計-定量資料的統(tǒng)計描述_第1頁
北京協(xié)和醫(yī)學(xué)院統(tǒng)計-定量資料的統(tǒng)計描述_第2頁
北京協(xié)和醫(yī)學(xué)院統(tǒng)計-定量資料的統(tǒng)計描述_第3頁
北京協(xié)和醫(yī)學(xué)院統(tǒng)計-定量資料的統(tǒng)計描述_第4頁
北京協(xié)和醫(yī)學(xué)院統(tǒng)計-定量資料的統(tǒng)計描述_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、定量資料的統(tǒng)計描述定量資料的統(tǒng)計描述主要內(nèi)容主要內(nèi)容n頻數(shù)分布n集中趨勢n離散趨勢被平均被平均n中國人公共假期每年已有115天;n中國全國家庭平均住房面積116.4;n北京平均月薪9227元;n中國男性平均身高174.2厘米;n中國人平均生育1.18個孩子;n中國家庭資產(chǎn)平均為121.69萬元,城市家庭平均為247.60萬元,農(nóng)村家庭平均為37.70萬元。變量和研究資料的類型變量和研究資料的類型n數(shù)值變量、定量資料、計量資料n分類變量、定性資料、計數(shù)資料n順序變量、有序分類變量、等級資料定量資料定量資料n定量資料是指每個觀察單位某個變量用測量或其他定量方法觀察結(jié)果,一般有計量單位。n定量資料、

2、數(shù)值資料、計量資料(measurement data,quantitative data,numeric data)n定量資料的各個觀察值之間有量的區(qū)別,沒有性質(zhì)的不同。連續(xù)型資料和離散型資料連續(xù)型資料和離散型資料n連續(xù)型資料(continuous data) n任何兩個連續(xù)型數(shù)據(jù)之間都有無窮多個數(shù)據(jù);n只要測量儀器足夠精確,連續(xù)型數(shù)據(jù)可以精確到小數(shù)點(diǎn)后無限位。n離散型資料(discrete data) n是一種計數(shù)(count data),只能是0和正整數(shù),不會是負(fù)數(shù),也沒有小數(shù)點(diǎn),如心率、血小板數(shù)。n有些離散型數(shù)據(jù)的描述要參照分類資料處理,如齲齒個數(shù)、流產(chǎn)次數(shù)、尿失禁次數(shù)、交通事故死亡人數(shù)

3、。分類資料分類資料n分類資料、也稱為定性資料、計數(shù)資料,是將觀察單位按某種屬性分組計數(shù)的定性觀察結(jié)果。n分類資料的變量值只能代表事物的某些屬性或分類,表現(xiàn)為無不相容的類別或?qū)傩浴?n各觀察單位之間沒有量的區(qū)別,但有質(zhì)的不同。分類資料分類資料n二分類資料n如男或女;陽性或陰性;生存或死亡等。n多分類資料n無序多分類資料n血型:A型、B型、O型和AB型;n肺癌類型:腺癌、鱗癌、未分化癌、類癌等。n有序多分類資料:即等級資料等級資料等級資料n等級資料、等級資料、也稱為有序多分類資料,是介于定量資料和定性資料之間的半定量觀察結(jié)果。n等級資料的各個類別之間存在著大小和程度上的不同,但是不能精確地測量相鄰

4、的兩個變量值之間的差別。n療效:痊愈、有效、無效和惡化;n文化程度:小學(xué)、中學(xué)、大學(xué)和研究生;n抑郁癥的程度:輕度、中度和重度。隨機(jī)變量和研究資料的類型隨機(jī)變量和研究資料的類型頻數(shù)分布表頻數(shù)分布表 n當(dāng)觀察值很多時,直接從原始數(shù)據(jù)很難得出概括的印象,為了解資料的分布特征,可通過資料的整理,編制頻數(shù)分布表,來顯示數(shù)據(jù)分布的范圍、數(shù)據(jù)最集中的區(qū)間和分布的形態(tài)。定量資料的頻數(shù)分布表定量資料的頻數(shù)分布表n編制頻數(shù)表就是把資料的取值范圍分割成若干個互不相交的組段,統(tǒng)計每個組段內(nèi)的觀察值個數(shù)作為對應(yīng)的頻數(shù),由各個組段的范圍及其頻數(shù)構(gòu)成最基本的頻數(shù)分布表。某地兒研所測得該地某地兒研所測得該地150名名12歲

5、健康男童體重歲健康男童體重(kg)原始數(shù)據(jù)如下,試編制頻數(shù)表。原始數(shù)據(jù)如下,試編制頻數(shù)表。n25.2 34.9 34.3 38.1 41.3 27.8 33.8 37.7 28.4 33.5 47.3 34.8 n30.5 36.2 51.0 38.0 43.8 40.9 37.5 36.6 33.4 47.4 36.4 41.4 n36.5 42.5 33.7 29.3 39.6 37.5 39.6 33.2 32.1 29.9 43.7 33.8 n35.1 37.8 32.4 38.5 28.2 36.5 23.4 35.8 34.1 27.6 42.6 23.1 n37.1 44.0

6、35.6 44.5 46.5 35.0 31.8 36.4 36.2 47.9 38.7 20.5 n37.1 29.2 38.2 41.1 36.2 43.5 32.8 36.3 31.8 30.6 38.5 39.6 n28.7 33.7 35.1 42.9 20.1 35.4 26.5 42.0 39.6 38.7 35.4 51.2n31.4 34.1 25.3 29.6 38.2 43.7 33.8 24.5 29.2 45.9 32.5 23.5n36.8 27.2 34.0 34.7 44.4 41.2 35.3 42.6 34.1 30.0 31.4 40.8n27.3 48.

7、6 35.8 29.7 45.6 41.8 33.0 28.3 33.3 35.1 40.6 38.2n37.6 25.5 37.3 37.5 41.5 38.4 44.2 43.2 31.5 40.2 34.5 37.4n37.8 33.4 32.2 33.4 32.4 32.8 36.8 45.7 41.2 40.9 36.5 47.9n35.7 39.3 42.2 35.3 30.1 27.2 找出最大值和最小值,計算極差。找出最大值和最小值,計算極差。n極差(R)也叫全距,它是一組變量值中最大值與最小值之差。n最大值為51.2kg,n最小值為20.1kg,n極差R=51.2-20.1=

8、31.1kg。按極差大小決定組段數(shù)和組距按極差大小決定組段數(shù)和組距n經(jīng)驗(yàn)劃分:組段數(shù)的多少一般根據(jù)觀察單位的多少來確定,過多或過少均不能更好地反映資料的分布特征,以能夠反映頻數(shù)分布的特點(diǎn)為宜,一般分為815組。n本例初步確定為10個組。按極差大小決定組段數(shù)和組距按極差大小決定組段數(shù)和組距 n相鄰組段下限值之差稱為組距,一般分組時取組距相等。n組距極差/組數(shù),常取整數(shù)作組距,以方便資料的整理匯總。n本例組距=31.1/10= 3.113。確定組段的上下限確定組段的上下限n每個組段的起點(diǎn)稱“下限”,終點(diǎn)稱“上限”;n第一組段必須包括最小值,一般取略小于最小值的整數(shù)作為第一組的下限,但是第一組的下限

9、值一般不能等于最小值;n各組段既不重疊,也不能留空隙;n最后一個組段應(yīng)該包括最大值,并且封口。計算各組段的頻數(shù)、頻率計算各組段的頻數(shù)、頻率n本例最小值為20.1,故取20為第一組的下限。n第二組下限即20+3=23,余類推。 n最后一個組段為5053,包括最大值51.2。n列表劃記,統(tǒng)計各組段頻數(shù)。n計算頻率與累計頻率。150名名12歲男童體重(歲男童體重(kg)頻數(shù)分布表)頻數(shù)分布表 組段組段頻數(shù)頻數(shù)f頻率(頻率(%)累計頻數(shù)累計頻數(shù)累計頻率(累計頻率(%)2021.321.32374.796.026106.71912.7291510.03422.7322516.75939.3353523.

10、39462.7382315.311778.0411812.013590.04485.314395.34753.314898.7505321.3150100.0合計合計150100.0頻數(shù)分布圖頻數(shù)分布圖(直方圖)(直方圖)體重(kg)51.548.545.542.539.536.533.530.527.524.521.5Frenquency403020100頻數(shù)分布的類型頻數(shù)分布的類型 n頻數(shù)分布分為對稱分布和偏態(tài)分布兩種。n對稱分布:n集中位置在正中,左右兩側(cè)頻數(shù)分布大體對稱。n偏態(tài)分布:n正、右偏態(tài)(峰)分布:正、右偏態(tài)(峰)分布:集中位置偏于左側(cè),頻數(shù)尾部向右側(cè)延伸。n負(fù)、左偏態(tài)(峰)分

11、布:負(fù)、左偏態(tài)(峰)分布:集中位置偏向右側(cè),頻數(shù)尾部向左側(cè)延伸。鏈球菌感染咽炎患者潛伏期分布圖鏈球菌感染咽炎患者潛伏期分布圖(正偏峰分布)(正偏峰分布)潛伏期(小時)114.0102.090.078.066.054.042.030.018.0病例數(shù)403020100207例某惡性腫瘤患者年齡分布例某惡性腫瘤患者年齡分布(負(fù)偏峰分布)(負(fù)偏峰分布)年 齡 ( 歲 )85.075.065.055.045.035.025.015.05.0病例數(shù)6050403020100分類資料和等級資料的頻數(shù)分布分類資料和等級資料的頻數(shù)分布n編制頻數(shù)分布表的方法是直接計算出每一個觀察值的頻數(shù)和頻率。n分類資料的頻數(shù)

12、分布圖為條圖(或稱柱狀圖,Bar plot)。分類資料和等級資料的頻數(shù)分布分類資料和等級資料的頻數(shù)分布A組B組合計N%N%婚姻狀況未婚2322.11817.341已婚8177.98682.7167孕次02524.02322.14811817.32524.04323634.63129.86731918.31615.435365.898.715頻數(shù)表的用途頻數(shù)表的用途 n揭示定量資料的分布特征;n描述定量資料分布的集中趨勢和離散趨勢。n發(fā)現(xiàn)資料中遠(yuǎn)離群體的某些特大或特小的可疑值。定量資料的統(tǒng)計描述定量資料的統(tǒng)計描述n集中趨勢(平均水平)n離散趨勢(變異程度)集中趨勢集中趨勢 n平均數(shù)用來描述一組變

13、量的集中趨勢,常作為一組資料的代表值,使資料產(chǎn)生簡明概括的印象,又便于組間的比較,也稱為位置度量指標(biāo)。n均數(shù)(mean)n幾何均數(shù)(geometric mean,G)n中位數(shù)(median, M)均數(shù)均數(shù)n均數(shù)是算術(shù)均數(shù)的簡稱,它反映了一組觀察值在數(shù)量上的平均水平??傮w均數(shù)用希臘字母表示,樣本均數(shù)用 表示。n均數(shù)的計算 均數(shù)的計算方法有直接法和加權(quán)法,計算機(jī)運(yùn)算中多采用直接法。x均數(shù)的計算均數(shù)的計算n直接法是將所有性質(zhì)相同的觀察值x1,x2,x3xn,直接相加再除以觀察值的個數(shù)n。例:10名12歲健康男童體重(kg)分別為39.6,33.2,32.1,29.9,43.7,33.8,35.1,3

14、7.8,32.4,38.5,求平均體重。nxnxxxxin21)(kg6 .35105 .382 .336 .3921nxnxxxxin均數(shù)的計算均數(shù)的計算n加權(quán)法n組中值組中值:該組段下限和上限的均值,或該組段下限和下一個組段下限的均值。ffxfxfxfxfxinn2211 組中值組中值組段組段組中值組中值頻數(shù)頻數(shù)f頻率(頻率(%)2021.521.32324.574.72627.5106.72930.51510.03233.52516.73536.53523.33839.52315.34142.51812.04445.585.34748.553.3505351.521.3合計合計15010

15、0.0均數(shù)的計算均數(shù)的計算kgffxfxfxfxfxinn3 .3615054452725 .5125 .2475 .2122211均數(shù)的應(yīng)用均數(shù)的應(yīng)用 n描述呈對稱分布的資料,特別是正態(tài)分布正態(tài)分布或者近似正態(tài)分布或者近似正態(tài)分布的資料的平均水平,此時均數(shù)位于分布的中心,最能反映分布的集中趨勢。幾何均數(shù)(幾何均數(shù)(G)n用于描述等比級數(shù)資料和對數(shù)正態(tài)分布資料等的平均水平。n幾何均數(shù)常適用于右偏態(tài)分布資料。幾何均數(shù)的計算幾何均數(shù)的計算n直接法:是將n個觀察值x1,x2,x3xn的乘積開n次方所得的根。n加權(quán)法:)lg(lg121nxxxxGnn)lg(lg1fxfG幾何均數(shù)應(yīng)用的注意事項(xiàng)幾何均

16、數(shù)應(yīng)用的注意事項(xiàng)n觀察值不能為0。因?yàn)?不能取對數(shù),也不能與任何其它數(shù)呈對數(shù)關(guān)系??梢园阉械淖兞恐稻由弦粋€較小的常數(shù),如加0.001。n觀察值不能同時有正值和負(fù)值。若全是負(fù)值,計算時可把負(fù)號去掉,得出結(jié)果后再加上負(fù)號。中位數(shù)(中位數(shù)(M)n中位數(shù)是將一組觀察值從小到大按順序排列,位次居中的數(shù)值對應(yīng)的觀察值就是中位數(shù)。n全部觀察值中,大于和小于中位數(shù)的觀察值的個數(shù)相等。直接法計算中位數(shù)直接法計算中位數(shù) n將原始觀察值按大小順序排列:nn為奇數(shù)時, nn為偶數(shù)時, n例:n臨床觀察7名某病患者,其潛伏期(天)分別為:2,3,3,5,6,9,16,求其平均潛伏天數(shù)。 M5n臨床觀察8名某病患者,

17、其潛伏期(天)分別為:2,3,3,5,6,9,16,20 求其平均潛伏天數(shù)。 M(5+6)/25.52/)12()2()21(nnnxxMxM百分位數(shù)法計算中位數(shù)百分位數(shù)法計算中位數(shù) n以第50位百分位數(shù)(X50)作為中位數(shù)。n百分位數(shù)(percentile)是指把一組資料的全部觀測值分為兩部分,理論上講,有x%的觀測值比它小,有(100-x)%的觀測值比它大。百分位數(shù)的計算百分位數(shù)的計算n nL:該百分位數(shù)所在組段的下限;nfp:該百分位數(shù)所在組段的頻數(shù);ni: 該百分位數(shù)所在組段的組距;nfL:小于L各組段的累計頻數(shù)。%(%)ppLiXLnpff某醫(yī)師檢測某醫(yī)師檢測120例鏈球菌感染咽炎患

18、者咽痛至發(fā)熱出現(xiàn)的例鏈球菌感染咽炎患者咽痛至發(fā)熱出現(xiàn)的時間(小時)時間(小時) ,試計算中位數(shù)、第,試計算中位數(shù)、第25、75百分位數(shù)。百分位數(shù)。潛伏期 病例數(shù)累計頻數(shù)累計頻率(%)12- 221.724-202218.336-365848.3 48-288671.760-109680.072-810486.784-811293.396-411696.7108-4120100.0 合計120中位數(shù)所中位數(shù)所在組段在組段X25所在組段所在組段X75所在組段所在組段某醫(yī)師檢測某醫(yī)師檢測120例鏈球菌感染咽炎患者咽痛至發(fā)熱出現(xiàn)的例鏈球菌感染咽炎患者咽痛至發(fā)熱出現(xiàn)的時間(小時)時間(小時) ,試計算中

19、位數(shù)、第,試計算中位數(shù)、第25、75百分位數(shù)。百分位數(shù)。2512X36(120 25%22)38.736小時小時48.958)%50120(281248M7512X60(120 75%86)64.810小時四分位數(shù)(四分位數(shù)(quartile)nX25:第一四分位數(shù)(Q1)、下四分位數(shù)(QL);nX50:第二四分位數(shù)(Q2)、中四分位數(shù)(M);nX75:第三四分位數(shù)(Q3)、上四分位數(shù)(QU);中位數(shù)的應(yīng)用中位數(shù)的應(yīng)用n中位數(shù)只受居中變量值波動的影響,不受兩端特小值和特大值的影響。n中位數(shù)常用于描述偏態(tài)分布或末端無確定數(shù)據(jù)時中位數(shù)常用于描述偏態(tài)分布或末端無確定數(shù)據(jù)時資料的平均水平。資料的平均水

20、平。n當(dāng)數(shù)據(jù)呈對稱分布時,中位數(shù)和均數(shù)相近。n當(dāng)數(shù)據(jù)呈右偏態(tài)分布時,均數(shù)大于中位數(shù)。n當(dāng)數(shù)據(jù)呈左偏態(tài)分布時,均數(shù)小于中位數(shù)。百分位數(shù)的應(yīng)用百分位數(shù)的應(yīng)用 n百分位數(shù)用于描述樣本或總體觀察值序列在某百分位置水平,多個百分位數(shù)結(jié)合應(yīng)用時,可更全面地描述總體或樣本的分布特征,可用來確定醫(yī)學(xué)參考值范圍。n由于位于中部的百分位數(shù)比較穩(wěn)定,所以最常用的百分位數(shù)是四分位數(shù),它有較好的代表性。離散程度指標(biāo)離散程度指標(biāo)n三組同性別、同年齡兒童的體重(kg)如下,分析其集中趨勢與離散趨勢。甲組甲組 26 28 30 32 34 Mean=30kg R=8 S=3.16乙組乙組 24 27 30 33 36 Mea

21、n =30kg R=12 S=4.74丙組丙組 26 29 30 31 34 Mean =30kg R=8 S=2.91 哪一組數(shù)值的均數(shù)更具代表性?離散程度指標(biāo)離散程度指標(biāo)n離散趨勢即個體值之間的變異程度,數(shù)據(jù)越分散,變異程度越高。n極差n四分位數(shù)間距n方差n標(biāo)準(zhǔn)差n變異系數(shù)極差極差(range,R)n極差也叫全距,最大值與最小值之差,反映個體差異的范圍。n缺點(diǎn):n由于計算極差時只采用了最大值和最小值,未考慮組內(nèi)其它數(shù)據(jù)的變異程度,因此用極差反映變異度不夠全面,穩(wěn)定性差;n當(dāng)樣本例數(shù)增大時,得到較大或較小觀察值的機(jī)會可能會變大,所以極差也可能更大。 四分位數(shù)間距(四分位數(shù)間距(quartile range ,QR)nQR=Q3-Q1=X75X25n四分位數(shù)間距是居中的半數(shù)觀測值的全距,不受最大值和最小值的影響,比極差穩(wěn)定。n實(shí)際工作中,常與中位數(shù)結(jié)合使用,描述偏偏態(tài)分布資料態(tài)分布資料的分布特征。 n缺點(diǎn):不能全面地反映所有觀察值的變異程度。離散趨勢指標(biāo)離散趨勢指標(biāo)n極差Rn離均差(xi-) 離均差總和(xi)=0 n離均差平方和(xi)2 n 均方(方差)2=(xi)2/N n 標(biāo)準(zhǔn)差2()ixN四分位數(shù)間距QR樣本方差與樣本標(biāo)準(zhǔn)差樣本方差與樣本標(biāo)準(zhǔn)差n實(shí)際工作中,用 代替,得到樣本方差s和樣本標(biāo)準(zhǔn)差s2,樣本方差s2是總體方差2的無偏估計。n

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論