第一講2統(tǒng)計(jì)的整理與描述714_第1頁
第一講2統(tǒng)計(jì)的整理與描述714_第2頁
第一講2統(tǒng)計(jì)的整理與描述714_第3頁
第一講2統(tǒng)計(jì)的整理與描述714_第4頁
第一講2統(tǒng)計(jì)的整理與描述714_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

MedicalStatistics醫(yī)學(xué)統(tǒng)計(jì)學(xué)第二章統(tǒng)計(jì)資料的整理與描述

DataSummaryandDescription

南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院謝璐

luxie@

主要內(nèi)容個(gè)體變異規(guī)律性的體現(xiàn):分布用圖表說話:頻數(shù)圖和頻數(shù)表頻數(shù)圖和頻數(shù)表的信息資料的統(tǒng)計(jì)描述描述集中位置的指標(biāo)描述離散趨勢的指標(biāo)正確應(yīng)用總結(jié)2個(gè)體變異的規(guī)律性個(gè)體變異(individualvariation)是同質(zhì)觀察對象間表現(xiàn)出的差異。變異是生物體在一種或多種、已知或未知的不可控因素作用下所產(chǎn)生的綜合反映。就個(gè)體而言:變異是隨機(jī)的(random)。就總體而言:個(gè)體變異是有規(guī)律的。3例:個(gè)體變異的表現(xiàn)某地所有20歲健康男生的血紅蛋白√某地所有20歲健康男生和女生的血紅蛋白×江蘇和西藏所有20歲健康男生的血紅蛋白×某地所有20歲健康男生和女生的白細(xì)胞計(jì)數(shù)√4個(gè)體變異的規(guī)律性分布就每個(gè)觀察單位而言,其觀察指標(biāo)的變異是不可預(yù)測的,或者說是隨機(jī)的(random)。就總體而言,個(gè)體變異是有規(guī)律的。當(dāng)觀察值(樣本含量)的個(gè)數(shù)達(dá)到足夠多時(shí),其分布將趨于穩(wěn)定,并最終服從于總體分布。變異規(guī)律的體現(xiàn):分布(distribution)5例:亂七八糟的原始數(shù)據(jù)某地100名成年男子紅細(xì)胞計(jì)數(shù)(1012個(gè)/升)資料如下:4.095.335.624.635.184.275.073.603.315.324.884.314.125.334.404.793.925.464.815.044.415.264.665.295.235.583.534.544.684.484.404.764.814.574.973.945.484.275.105.785.123.604.014.755.806.015.505.364.184.334.844.744.604.764.584.344.724.813.844.174.853.294.914.454.434.994.494.355.265.045.384.935.414.523.864.994.244.504.924.135.055.145.055.174.555.425.704.676.184.375.404.154.084.714.124.794.896頻數(shù)分布表和頻數(shù)分布圖原因:由于個(gè)體變異的存在,醫(yī)學(xué)研究中某指標(biāo)在各個(gè)體上的觀察結(jié)果不是恒定不變的,但也不是雜亂無章的,而是有一定規(guī)律的,呈一定的分布(distribution)?,F(xiàn)狀:醫(yī)學(xué)研究得到的原始數(shù)據(jù)(rawdata)往往是龐大的、混亂的。解決:頻數(shù)分布表的基本思想:將原始數(shù)據(jù)按照一定的標(biāo)準(zhǔn)劃分為若干各組,合計(jì)各組的頻數(shù),得到頻數(shù)分布表;在將頻數(shù)表繪制成頻數(shù)分布圖。7頻數(shù)表編制步驟

求極差選定適當(dāng)?shù)慕M段數(shù)后估計(jì)組距列出組段劃記歸組獲得頻數(shù)求頻率,完成頻數(shù)表

8頻數(shù)分布表的編制求極差或全距(Range):R=Xmax-Xmin選定適當(dāng)?shù)慕M段數(shù)后估計(jì)組距(i)組段數(shù)的選取以能反映資料的分布特征為宜一般取8~12組9頻數(shù)分布表的編制列出組段組段的含義:包括組段的下限而不含組段的上限。如:3.2~等價(jià)于[3.2,3.5)第一個(gè)組段應(yīng)包含最小值

最后一個(gè)組段應(yīng)包含最大值10頻數(shù)分布表的編制劃記歸組獲得頻數(shù)常用的劃記方法:“正”;“||||”求頻率,完成頻數(shù)表相應(yīng)的頻數(shù)除以總數(shù)即為頻率各組段的頻率總和為1或者100%11100名成年男子紅細(xì)胞計(jì)數(shù)頻數(shù)表組段(1)頻數(shù)(2)頻率(%)(3)3.2~22.003.5~33.003.8~88.004.1~1616.004.4~1818.004.7~2121.005.0~1414.005.3~1212.005.6~44.005.9~6.222.00合計(jì)100100.0012100名成年男子紅細(xì)胞計(jì)數(shù)頻數(shù)圖100名成年男性的血紅細(xì)胞計(jì)數(shù)的頻數(shù)分布

人數(shù)紅細(xì)胞(1012個(gè)/升)3.2

3.5

3.8

4.1

4.4

4.7

5.0

5.3

5.6

5.9

6.2

0

5

10

15

20

13120名12歲男童身高的頻數(shù)分布圖124132140148156164010203040人數(shù)身高(cm)14239人發(fā)汞含量的頻數(shù)分布70

3

5

7

9

11

13

15

17

19

21

10

20

30

40

50

60

0

1

發(fā)汞含量(mol/kg)人數(shù)15某市892名老年人生存質(zhì)量自評分頻數(shù)分布

0

10

20

30

40

50

60

70

80

90

100

100

200

300

0

400

自評分人數(shù)16

102名黑色素瘤患者的生存時(shí)間頻數(shù)分布

0

5

10

15

20

25

30

35

40

45

0

10203040

生存時(shí)間(月)人數(shù)17某地某年10000例死亡者年齡分布

死亡年齡(歲)人數(shù)0

10

20

30

40

50

60

70

80

0

1000

2000

3000

4000

18分類資料的頻數(shù)分布血型 頻數(shù) 頻率(%)O 205 40.43A 112 22.09B 150 29.59AB 40 7.89合計(jì) 507 100.0019EXCEL制作的頻率圖20頻數(shù)分布所提供的信息頻數(shù)分布圖用以表示數(shù)據(jù)的分布規(guī)律。觀察有無可疑值。考察分布的類型。對稱分布非對稱分布(偏態(tài)分布)左偏態(tài)(負(fù)偏態(tài))右偏態(tài)(正偏態(tài))考察分布的特征集中位置(CentralTendency)離散趨勢(TendencyofDispersion)21289只近視眼Lasik術(shù)后1月裸眼視力0.0000.400.500.600.700.800.901.00071.0022偏態(tài):正偏態(tài)和負(fù)偏態(tài)分布不對稱者稱為偏態(tài)分布。偏態(tài)分布又分為正偏分布和負(fù)偏分布。所謂正偏分布是指分布的長尾在峰的右側(cè),又稱右偏分布;所謂負(fù)偏分布是指分布的長尾在峰的左側(cè),又稱左偏分布。23偏態(tài)分布1:老年人生存質(zhì)量自評分0

10

20

30

40

50

60

70

80

90

100

100

200

300

0

400

自評分人數(shù)24偏態(tài)分布2:黑色素瘤患者的生存時(shí)間0

5

10

15

20

25

30

35

40

45

0

10203040

生存時(shí)間(月)人數(shù)25集中位置和離散趨勢26124132140148156164010203040人數(shù)身高(cm)124132140148156164010203040人數(shù)身高(cm)描述集中位置的指標(biāo)平均數(shù)(Average)算術(shù)均數(shù)(Mean)幾何均數(shù)(GeometricMean)中位數(shù)(Median)百分位數(shù)(Percentile)27描述集中位置的指標(biāo):算術(shù)均數(shù)算術(shù)均數(shù)(arithmeticmean,mean)

總體均數(shù)樣本均數(shù)28均數(shù)的應(yīng)用最適于對稱分布資料,特別是正態(tài)分布資料;對于偏態(tài)資料,均數(shù)不能較好地反映其集中趨勢。我也知道了!張村有個(gè)張千萬,隔壁九個(gè)窮光蛋平均起來算一算,人人都是張百萬這說明了什么?29加權(quán)均數(shù)加權(quán)均數(shù)(weightedmean)

均數(shù)是加權(quán)均數(shù)的一個(gè)特例30描述集中位置的指標(biāo):幾何均數(shù)幾何均數(shù)(geometricmean,G)31幾何均數(shù)例1:10,1:20,1:40,1:80,1:16032幾何均數(shù)的應(yīng)用:1.等比資料,如抗體平均滴度2.對數(shù)正態(tài)分布資料Remember!33使用幾何均數(shù)時(shí)的注意點(diǎn):*觀察值不能有0*觀察值不能同時(shí)有正值和負(fù)值。若全為負(fù)值,在計(jì)算時(shí)先把負(fù)號去掉,得出結(jié)果再加上負(fù)號Becareful!34描述集中位置的指標(biāo):中位數(shù)中位數(shù)(median,M)

將一組數(shù)據(jù)按從小到大的順序排列,位置居中的數(shù)即是中位數(shù)。359例正常人的發(fā)汞值:

1.1,7.110.5

M=4.810例正常人的發(fā)汞值:

1.1,7.110.516.3

M=(4.8+5.6)/2=5.2

中位數(shù)例36中位數(shù)例對于某項(xiàng)風(fēng)險(xiǎn)較高的新手術(shù)術(shù)后的生存時(shí)間進(jìn)行跟蹤,共調(diào)查了7人,6人死亡之前分別生存了5天、6天、10天、16天、25天、29天,還有一人術(shù)后30天隨訪時(shí)仍存活。本資料屬于“開口”資料。本例數(shù)據(jù)已經(jīng)按從小到大的升序排列,n=7,為奇數(shù),其中位數(shù)為16天。37中位數(shù)的應(yīng)用:中位數(shù)常用于描述偏態(tài)資料,開口資料,有不確定值的資料的集中位置;中位數(shù)和均數(shù)在對稱分布上理論上是相同的。38描述集中位置的指標(biāo):百分位數(shù)百分位數(shù)(percentile)

X%

PX(100-X)%50%分位數(shù)就是中位數(shù)25%,75%分位數(shù)稱四分位數(shù)(quartile)39應(yīng)用中位數(shù)和百分位數(shù)時(shí)注意①中位數(shù)和百分位數(shù)的計(jì)算對資料分布沒有特殊要求,所有資料均可計(jì)算中位數(shù)和百分位數(shù)。②中位數(shù)只受位置居中的變量值影響,與兩端的極端值無關(guān),因此在抗極端值的影響方面,中位數(shù)比均數(shù)具有較好的穩(wěn)定性,但不如均數(shù)精確。因此,當(dāng)資料適合計(jì)算均數(shù)或幾何均數(shù)時(shí),不宜用中位數(shù)表示其平均水平。40平均數(shù)應(yīng)用的注意事項(xiàng)同質(zhì)的資料計(jì)算平均數(shù)才有意義。均數(shù)適用于:單峰對稱分布的資料幾何均數(shù)適用于:對數(shù)變換后單峰對稱的資料等比資料、滴度資料、對數(shù)正態(tài)分布資料中位數(shù):理論上可用于任何分布資料,但當(dāng)資料適合計(jì)算均數(shù)或幾何均數(shù)時(shí),不宜用中位數(shù)。偏態(tài)分布、分布不明資料、有不確定值的資料41平均數(shù)應(yīng)用的注意事項(xiàng)計(jì)算幾何均數(shù)時(shí):變量值中不能有0同一組變量值不能同時(shí)存在正、負(fù)值若變量值全為負(fù)值,可先將負(fù)號除去,算出結(jié)果后再冠以負(fù)號

樣本含量較少時(shí)不宜計(jì)算靠近兩端的百分位數(shù)平均數(shù)要與變異指標(biāo)結(jié)合使用42只用平均數(shù)描述資料的弊病Ithasbeensaidthatafellowwithoneleginfrozeniceandtheotherleginboilingwateriscomfortable

ONAVERAGE!43例只用平均數(shù)描述資料的弊病甲組2629303134均數(shù)30kg乙組2427303336均數(shù)30kg丙組2628303234均數(shù)30kg丙乙甲三組兒童體重的離散程度44描述離散趨勢的指標(biāo)變異度極差(Range)四分位數(shù)間距(interquartilerange)方差(Variance)標(biāo)準(zhǔn)差(StandardDeviation)變異系數(shù)(

coefficientofvariation)45描述離散趨勢的指標(biāo):極差

全距(range),極差

R=max-min

優(yōu)點(diǎn):簡單明了缺點(diǎn):①不靈敏②不穩(wěn)定46描述離散趨勢的指標(biāo):四分位數(shù)間距四分位數(shù)間距(inter-quartilerange)

QU-QL=

P75-P25

即中間一半觀察值的極差。 四分位數(shù)(quartile)是兩個(gè)特定的百分位數(shù):第25%分位數(shù)P25,和第75%分位數(shù)P75,分別記為QL和QU。四分位數(shù)間距較全距穩(wěn)定,常與中位數(shù)一起,描述不對稱分布資料的特征。4725%25%25%25%排序數(shù)據(jù):按從小到大順序排列MQLQUinter-quartilerangeQ2Q1Q348描述離散趨勢的指標(biāo):方差方差(variance)

49描述離散趨勢的指標(biāo):標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(standarddeviation,sd)

“離均差平方之和平均后的方根”“均方根”n-1稱為自由度

(degreeoffreedom)

,即“可以自由變異的程度”因?yàn)槿我浑x均差均可以用另外n-1個(gè)離均差表示,所以“只有n-1個(gè)獨(dú)立的離均差”。50標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差大:分布分散、不整齊、波動大;標(biāo)準(zhǔn)差小:分布集中、整齊、波動較小。51三組同性別、同年齡兒童的體重(kg)甲組2629303134乙組2427303336丙組2628303234

極差方差標(biāo)準(zhǔn)差甲組8 8.50 2.92乙組1222.50 4.74丙組810.00 3.1652描述離散趨勢的指標(biāo):變異系數(shù)變異系數(shù)(coefficientofvariation,CV)排除了平均水平的影響,并取消了單位

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論