第08章 -數(shù)值變量資料的統(tǒng)計描述課件_第1頁
第08章 -數(shù)值變量資料的統(tǒng)計描述課件_第2頁
第08章 -數(shù)值變量資料的統(tǒng)計描述課件_第3頁
第08章 -數(shù)值變量資料的統(tǒng)計描述課件_第4頁
第08章 -數(shù)值變量資料的統(tǒng)計描述課件_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第八章數(shù)值變量資料的統(tǒng)計描述王增珍流行病學與衛(wèi)生統(tǒng)計學系2024/11/81第08章-數(shù)值變量資料的統(tǒng)計描述回顧:根據(jù)是否定量劃分,資料被分作不同的類型:數(shù)值資料(measurementdata):

用定量的方法對觀察單位進行測量得到的資料,亦稱作計量資料。分類變量資料(enumerationdata):

用定性的方法得到的資料,亦稱計數(shù)資料。等級資料(rankeddata):

不能精確測量,僅能根據(jù)相對大小分為幾個等級。2024/11/82第08章-數(shù)值變量資料的統(tǒng)計描述第一節(jié)數(shù)值變量資料頻數(shù)分布

數(shù)值變量資料進行統(tǒng)計描述需要根據(jù)資料的分布類型選擇合適的統(tǒng)計指標,因此首先要通過頻數(shù)分布表或分布圖了解資料的分布特征。一、頻數(shù)分布表及其制作

2024/11/83第08章-數(shù)值變量資料的統(tǒng)計描述例8.1某地區(qū)2002年55~58歲健康成人的空腹血糖(mmol/L)測定值如下,試編制頻數(shù)表和觀察頻數(shù)分布情況。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.203.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.055.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.162024/11/84第08章-數(shù)值變量資料的統(tǒng)計描述頻數(shù)表的編制步驟:(1)求極差(range):即最大值與最小值之差,又稱為全距。

R=5.59–3.60=1.99(mol/L)(2)決定組數(shù)、組段和組距:根據(jù)研究目的和樣本含量n確定分組組數(shù)。相鄰兩組段下限值之差稱組距,組距=極差/組數(shù),為方便計,組距為極差的十分之一,再略加調(diào)整。

1.99/10=0.199≈0.2

(mol/L)(3)列出組段:第一組段的下限必須包含最小值,最后一個組段上限必須大于或等于最大值。3.6~3.8~……5.2~5.4~5.6(4)劃記計數(shù):用劃記法將所有數(shù)據(jù)歸納到各組段,得到各組段的頻數(shù)。2024/11/85第08章-數(shù)值變量資料的統(tǒng)計描述表8-1某地區(qū)2002年55~58歲健康成人的空腹血糖(mmol/L)測定值的頻數(shù)分布表血糖(mol/L)組段組中值(xi)頻數(shù)(f)累計頻數(shù)(Σf)頻率(%)累計頻率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97

5.40~5.605.5041323.03100.00合計132100.002024/11/86第08章-數(shù)值變量資料的統(tǒng)計描述血糖(mol/L)人數(shù)圖8-1某地區(qū)2002年55~58歲健康成人的空腹血糖(mmol/L)

測定值的頻數(shù)分布圖二、頻數(shù)分布圖2024/11/87第08章-數(shù)值變量資料的統(tǒng)計描述三、頻數(shù)表和頻數(shù)分布圖用途1.描述頻數(shù)分布的類型(對稱分布、偏態(tài)分布)2.描述頻數(shù)分布的特征3.便于發(fā)現(xiàn)一些特大或特小的可疑值4.便于進一步做統(tǒng)計分析和處理(加權)2024/11/88第08章-數(shù)值變量資料的統(tǒng)計描述(1)對稱分布:若各組段的頻數(shù)以中心位置左右兩側(cè)大體對稱,就認為該資料是對稱分布1.描述頻數(shù)分布的類型(對稱分布、偏態(tài)分布)2024/11/89第08章-數(shù)值變量資料的統(tǒng)計描述(2)偏態(tài)分布:1)右偏態(tài)分布(正偏態(tài)分布):右側(cè)的組段數(shù)多于左側(cè)的組段數(shù),頻數(shù)向右側(cè)拖尾。2)左偏態(tài)分布(負偏態(tài)分布):左側(cè)的組段數(shù)多于右側(cè)的組段數(shù),頻數(shù)向左側(cè)拖尾。2024/11/810第08章-數(shù)值變量資料的統(tǒng)計描述正偏態(tài)(右偏態(tài))負偏態(tài)(左偏態(tài))返回2024/11/811第08章-數(shù)值變量資料的統(tǒng)計描述2.描述頻數(shù)分布的特征圖8-1(P154)數(shù)據(jù)的頻數(shù)分布特征:①數(shù)據(jù)變異(離散)的范圍在3.60~5.60(mol/L

)②數(shù)據(jù)集中(平均)的組段在4.20~5.00(mol/L

)之間,尤以組段的人數(shù)4.60~4.80

(mol/L

)最多。且上下組段的頻數(shù)分布基本對稱。返回2024/11/812第08章-數(shù)值變量資料的統(tǒng)計描述3.便于發(fā)現(xiàn)一些特大或特小的可疑值返回2024/11/813第08章-數(shù)值變量資料的統(tǒng)計描述第二節(jié)集中趨勢指標統(tǒng)計上使用平均數(shù)(average)這一指標體系來描述一組變量值的集中趨勢或平均水平。常用的平均數(shù)有:算術均數(shù)(均數(shù))(mean)幾何均數(shù)(geometricmean)中位數(shù)(median)百分位數(shù)(percentile)

2024/11/814第08章-數(shù)值變量資料的統(tǒng)計描述一、算術均數(shù)算術均數(shù):簡稱均數(shù)(mean)定義:是一組變量值之和除以變量值個數(shù)所得的商。均數(shù)適用于資料呈正態(tài)分布(或近似正態(tài)或?qū)ΨQ分布)資料。總體均數(shù):μ

樣本均數(shù):x2024/11/815第08章-數(shù)值變量資料的統(tǒng)計描述1、計算方法(1)直接計算法公式:例8.2有9名健康成人的空腹膽固醇測定值(mol/L)為:5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93求算術平均數(shù)。x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79)/9=4.83(mol/L)2024/11/816第08章-數(shù)值變量資料的統(tǒng)計描述例8.1某地區(qū)2002年55~58歲健康成人的空腹血糖(mmol/L)測定值如下,試編制頻數(shù)表和觀察頻數(shù)分布情況。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.23.954.094.644.335.214.614.985.244.604.254.785.003.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.055.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.16x=(5.17+5.56+……+5.15+5.16)/132=4.648(mol/L)2024/11/817第08章-數(shù)值變量資料的統(tǒng)計描述(2)加權法(利用頻數(shù)表)公式:k:頻數(shù)表的組段數(shù)

f:頻數(shù)

:組中值,其中i=1,2,……k。2024/11/818第08章-數(shù)值變量資料的統(tǒng)計描述表8-1某地區(qū)2002年55~58歲健康成人的空腹血糖(mmol/L)測定值的頻數(shù)分布表血糖(mol/L)組段頻數(shù)()組中值()

3.60~33.7011.1041.073.80~33.9011.7045.634.00~84.1032.80134.484.20~234.3098.90425.274.40~244.50108.00486.004.60~254.70117.50552.254.80~204.9098.00480.205.00~125.1061.20312.125.20~105.3053.00280.90

5.40~5.6045.5022.00121.00合計132614.202878.92x=614.2/132=4.653(mol/L)2024/11/819第08章-數(shù)值變量資料的統(tǒng)計描述二、幾何均數(shù)(geometricmean)定義:用G表示,是將n個觀察值x的乘積再開n次方的方根(或各觀察值x對數(shù)值均值的反對數(shù))。其適用條件是:①當一組觀察值為非對稱分布且其差距較大時,用均數(shù)表示其平均水平會受少數(shù)特大或特小值影響;②數(shù)值按大小順序排列后,各觀察值呈倍數(shù)關系或近似倍數(shù)關系。

2024/11/820第08章-數(shù)值變量資料的統(tǒng)計描述幾何均數(shù)計算公式:幾何均數(shù):變量對數(shù)值的算術均數(shù)的反對數(shù)。

計算幾何均數(shù)的觀察值應大于零

2024/11/821第08章-數(shù)值變量資料的統(tǒng)計描述例8.3

有7份血清的抗體效價分別為1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗體效價。2024/11/822第08章-數(shù)值變量資料的統(tǒng)計描述(2)加權法(當觀察例數(shù)多時采用)

公式:2024/11/823第08章-數(shù)值變量資料的統(tǒng)計描述例8.4有60人的血清抗體效價,分別為:7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,求平均抗體效價。50人的血清平均抗體效價為1:20.705。2024/11/824第08章-數(shù)值變量資料的統(tǒng)計描述計算幾何均數(shù)應該注意的事項變量值中不能有0或負數(shù),因為0和負數(shù)不能取對數(shù)。不能同時有正有負。若全部是負值,計算時可先把負號去掉,得出結果后,再加上負號。2024/11/825第08章-數(shù)值變量資料的統(tǒng)計描述三、

中位數(shù)與百分位數(shù)(一)中位數(shù)(median)

定義:用符號M表示,中位數(shù)是把一組觀察值,按大小順序排列,位置居中的數(shù)值(n為奇數(shù))或位置居中的兩個數(shù)值的均值(n為偶數(shù))。其適用情況有:①當資料呈明顯的偏態(tài)分布;②資料一端或兩端無確定數(shù)值(如大于或小于某數(shù)值);③資料的分布情況不清楚。

2024/11/826第08章-數(shù)值變量資料的統(tǒng)計描述計算公式:n為奇數(shù)時n為偶數(shù)時2024/11/827第08章-數(shù)值變量資料的統(tǒng)計描述例8.57名正常人的血壓(舒張壓)

測定值(mmHg)為:72,75,76,77,81,82,86,求中位數(shù)。從小到大排列:72,75,76,77,81,82,86若又觀察了一個人的血壓,為87(mmHg),此時M=(77+81)/2=79(mmHg)2024/11/828第08章-數(shù)值變量資料的統(tǒng)計描述頻數(shù)表資料的中位數(shù)(P157公式8.5)下限值L上限值Ui;fm中位數(shù)M2024/11/829第08章-數(shù)值變量資料的統(tǒng)計描述例8.1頻數(shù)表中位數(shù)的計算血糖(mol/L)組段組中值()頻數(shù)(f)累計頻數(shù)(Σf)頻率(%)累計頻率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97

5.40~5.605.5041323.03100.00合計132(Σfi)100.004.60+(0.20/25)*[132/2-61]=4.642024/11/830第08章-數(shù)值變量資料的統(tǒng)計描述

百分位數(shù)示意圖(二)百分位數(shù)(percentile)把一組數(shù)據(jù)從小到大排列,分成100等份,各等份含1%的觀察值,分割界限上的數(shù)值就是百分位數(shù)。中位數(shù)是第50百分位數(shù),用P50表示。2024/11/831第08章-數(shù)值變量資料的統(tǒng)計描述Trunc()取整函數(shù)

設有X個原始數(shù)據(jù)從小到大排列,第X百分位數(shù)的計算公式為:1.直接計算法當為帶有小數(shù)位時:當為整數(shù)時:2024/11/832第08章-數(shù)值變量資料的統(tǒng)計描述例對某醫(yī)院細菌性痢疾治愈者的住院天數(shù)統(tǒng)計,120名患者的住院天數(shù)從小到大排列如下,試求第5百分位數(shù)和第99百分位數(shù)。,為整數(shù):患者編號:住院天數(shù):(1)n=120,2024/11/833第08章-數(shù)值變量資料的統(tǒng)計描述帶有小數(shù)

(2)故取整trunc(118.8)=1182024/11/834第08章-數(shù)值變量資料的統(tǒng)計描述2.頻數(shù)表法

公式:

2024/11/835第08章-數(shù)值變量資料的統(tǒng)計描述當時,公式(8.5)即為中位數(shù)的計算公式:2024/11/836第08章-數(shù)值變量資料的統(tǒng)計描述

例8.1試分別求例8.1頻數(shù)表的第25、第75百分位數(shù)。P25=4.20+0.20x[(132x25%-14)/23]=4.365P75=4.80+0.20x[(132x75%-86)/20]=4.930血糖(mol/L)組段組中值(xi)頻數(shù)(f)累計頻數(shù)(Σf)頻率(%)累計頻率(%)3.60~3.70332.272.273.80~3.90362.274.554.00~4.108146.0610.614.20~4.30233717.4228.034.40~4.50246118.1846.214.60~4.70258618.9465.154.80~4.902010615.1580.305.00~5.10121189.0989.395.20~5.30101287.5896.97

5.40~5.605.5041323.03100.00合計132(Σfi)100.002024/11/837第08章-數(shù)值變量資料的統(tǒng)計描述三種平均數(shù)的特點算術均數(shù):通常被認為是最佳集中趨勢的度量值。如果資料觀察值含有少數(shù)極端數(shù)值(相對的說特大或特小值)或資料呈偏態(tài)分布,算術均數(shù)就變得不穩(wěn)定而失去代表性。

正態(tài)分布幾何均數(shù)一般只適宜于等比級數(shù)資料。對于這類資料,用幾何均數(shù)反映集中趨勢比算術均數(shù)或中位數(shù)更合適。中位數(shù)不受其前后其他數(shù)值(特別是極端值)的影響。但如果數(shù)據(jù)呈明顯不同且差異很大,這時中位數(shù)可能不適宜作為集中趨勢的度量值了。

偏態(tài)分布2024/11/838第08章-數(shù)值變量資料的統(tǒng)計描述反映集中趨勢的指標(平均數(shù)),表示一組觀察值的平均水及集中特性,并可作為總體的一個代表值加以應用。但是它沒有表達其所代表的總體中各個個體之間的差異。統(tǒng)計學中把個體間的差異稱為變異性(variation)。所謂變異性是指在同質(zhì)條件下的觀察單位,其同一標志的數(shù)據(jù)間的差異性。用以描述一組數(shù)值變量資料觀察值之間參差不齊的程度,即離散程度或變異度的指標,稱為離散指標或變異指標。第三節(jié)離散趨勢的描述2024/11/839第08章-數(shù)值變量資料的統(tǒng)計描述盤編號甲乙丙15605205102540510505350050050044604904955440480490合計250025002500均數(shù)500500500例:設甲、乙、丙三人,采每人的耳垂血,然后作紅細胞計數(shù),每人數(shù)5個計數(shù)盤,得結果如下(萬/mm3)甲乙丙2024/11/840第08章-數(shù)值變量資料的統(tǒng)計描述常用統(tǒng)計指標:全距(range)四分位數(shù)間距(quartileinterval)方差和標準差(variance&standarddeviation)變異系數(shù)(CVcoefficientofvariation)2024/11/841第08章-數(shù)值變量資料的統(tǒng)計描述全距,用R表示:即一組變量值最大值與最小值之差,亦稱極差。對于書中例8.1數(shù)據(jù),有簡單,但僅利用了兩端點值,穩(wěn)定性差。一、全距(Range)R=5.59–3.60=1.99(mol/L)R越大,變異度越大;R越小,變異度越小。2024/11/842第08章-數(shù)值變量資料的統(tǒng)計描述二、四分位數(shù)間距(quartilerange)

四分位數(shù)間距,用Q表示,若將一組資料分為四等份,上四分位數(shù)和下四分位數(shù)之差就是Q:

Q=下四分位數(shù):上四分位數(shù):比全距穩(wěn)定;可用于一端或兩端無確切數(shù)值的偏態(tài)資料。未考慮每一個觀察值。2024/11/843第08章-數(shù)值變量資料的統(tǒng)計描述全距和四分位數(shù)間距都未全面考慮觀察值的變異情況,為了克服該缺點,需計算總體中每個觀察值x與總體均數(shù)

的差值(x-

),稱為離均差。由于∑(x-

)=0,不能反映變異的大小,而用離均差平方和∑(x-

)2(sumofdeviationfrommean)反映。同時還要考慮到觀察值個數(shù)N的影響,用其均數(shù),即得到總體的方差,用

2表示。公式為:三、方差與標準差2024/11/844第08章-數(shù)值變量資料的統(tǒng)計描述

1.

方差(variance)是離均差平方和的均數(shù),反映一組數(shù)據(jù)的平均離散水平。由于在實際工作中,往往得到的樣本資料,總體均數(shù)

是未知的,所以只能用樣本均數(shù)作為

的估計值,即用

代替

,用樣本例數(shù)n代替N。但按公式計算的結果通常比實際的

低。所以用n-1來代替n進行校正。得到樣本方差

離均差平方和SS總體方差樣本方差自由度2024/11/845第08章-數(shù)值變量資料的統(tǒng)計描述2.標準差(standarddeviation)方差可以比較全面地反映變量值的變異情況,但其方差的單位是原單位的平方,故引入標準差的概念。標準差:將方差開平方,恢復成原度量單位,得到總體的標準差

和樣本標準差S。2024/11/846第08章-數(shù)值變量資料的統(tǒng)計描述樣本標準差用表示,其度量單位與均數(shù)一致,所以最常用。離均差平方和SS3.總體標準差用σ表示公式:公式:2024/11/847第08章-數(shù)值變量資料的統(tǒng)計描述

標準差的公式還可以寫成:利用頻數(shù)表計算標準差的公式為:2024/11/848第08章-數(shù)值變量資料的統(tǒng)計描述例

對以下數(shù)據(jù):75,76,72,69,66,72,57,68,71,72,用直接法計算標準差。2024/11/849第08章-數(shù)值變量資料的統(tǒng)計描述血糖(mol/L)組段頻數(shù)()組中值()

3.60~33.7011.1041.073.80~33.9011.7045.634.00~84.1032.80134.484.20~234.3098.90425.274.40~244.50108.00486.004.60~254.70117.50552.254.80~204.9098.00480.205.00~125.1061.20312.125.20~105.3053.00280.90

5.40~5.6045.5022.00121.00合計132614.202878.92例8-利用表8-2中的數(shù)據(jù)和頻數(shù)表法計算標準差。2024/11/850第08章-數(shù)值變量資料的統(tǒng)計描述四、變異系數(shù)變異系數(shù)(coefficientofvariation,CV)常用于比較度量單位不同或均數(shù)相差懸殊的兩組(或多組)資料的變異程度。2024/11/851第08章-數(shù)值變量資料的統(tǒng)計描述例:某地7歲男孩身高的均數(shù)為123.10cm,標準差為4.71cm;體重均數(shù)為22.29kg,標準差為2.26kg,比較其變異度?

2024/11/852第08章-數(shù)值變量資料的統(tǒng)計描述小結:正態(tài)分布偏態(tài)分布集中趨勢算術平均數(shù)(幾何平均數(shù))中位數(shù)離散趨勢標準差、變異系數(shù)四分位間距2024/11/853第08章-數(shù)值變量資料的統(tǒng)計描述第四節(jié)正態(tài)分布2024/11/854第08章-數(shù)值變量資料的統(tǒng)計描述一、正態(tài)分布的概念和特征當X服從正態(tài)分布記作X~N(μ,σ2)其中μ為總體均數(shù),σ2為總體方差2024/11/855第08章-數(shù)值變量資料的統(tǒng)計描述二、標準正態(tài)分布用N(0,1)表示,即u值的均數(shù)為0,標準差為1。

標準正態(tài)變換

2024/11/856第08章-數(shù)值變量資料的統(tǒng)計描述正態(tài)分布標準正態(tài)分布2024/11/857第08章-數(shù)值變量資料的統(tǒng)計描述正態(tài)分布的特征⑤正態(tài)分布的面積分布有一定的規(guī)律性,總面積=1,見課本P162表8-5。①正態(tài)曲線(normalcurve)在橫軸上方,且均數(shù)所在處最高;②正態(tài)分布以均數(shù)為中心,左右對稱;③正態(tài)分布有兩個參數(shù),即均數(shù)與標準差(

),標準正態(tài)分布的均數(shù)和標準差分別為0和1;④正態(tài)曲線在

1

,標準正態(tài)分布在

1處各有一個拐點;2024/11/858第08章-數(shù)值變量資料的統(tǒng)計描述2024/11/859第08章-數(shù)值變量資料的統(tǒng)計描述累積面積可通過對概率密度函數(shù)f(X)積分求得(累積)分布函數(shù):2024/11/860第08章-數(shù)值變量資料的統(tǒng)計描述圖2-7正態(tài)曲線面積分布示意圖

2024/11/861第08章-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論