數值變量的統計描述_第1頁
數值變量的統計描述_第2頁
數值變量的統計描述_第3頁
數值變量的統計描述_第4頁
數值變量的統計描述_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數值變量的統計描述第一節(jié)頻數與頻數分布

(frequencydistribution)

頻數分布表,又稱頻數表,是對樣本量較大的資料進行統計描述的常用方法。通過頻數表可以顯示數據分布的范圍與形態(tài)。例1:某地用隨機抽樣方法檢查140名成年男子的紅細胞數5.953.82一、連續(xù)型數值變量的頻數分布頻數表(frequencytable)的編制:求極差(range):R=Max-Min=5.95-3.82=2.13確定組段數、組距和組段1.確定組段數(k):通常10-15個。2.確定組距(i):相鄰兩組段的最小值(下限)之差,一般用等距。i=R/k,一般取整取偶數。3.確定組限:界限分明,每個組段的起點稱下限,終點稱上限。最末一行應同時寫出下限和上限。

4.列表劃記:得到各組段的觀察單位數。紅細胞數(×1012/L)組中值頻數頻率(%)

3.80~3.902

1.44.00~4.106

4.34.20~4.3011

7.94.40~4.502517.94.60~4.703222.94.80~4.902719.35.00~5.101712.15.20~5.3013

9.35.40~5.504

2.95.60~5.702

1.45.80~6.005.901

0.7表2-2某地140名正常男子紅細胞數頻數表直方圖頻數分布表的用途可以替代繁瑣的原始資料,便于進一步分析;便于觀察數據的分布類型;便于發(fā)現資料中某些遠離群體的特大或特小的可疑值;樣本含量較大時,可用各組段的頻率作為概率的估計值。頻數分布的類型對稱分布偏態(tài)分布正偏態(tài):負偏態(tài):二、離散型數值變量的頻數分布例2:1998年某山區(qū)96名孕婦產前檢查次數資料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,……….,4,7。表2-1是96名婦女產前檢查次數分布的頻數表表2-11998年某地96名婦女產前檢查次數分布檢查次數頻數頻率(%)累計人數累計頻率

044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.5

>51212.596100.0

合計96100.0--第二節(jié)集中趨勢指標集中趨勢指標用于描述一組同質計量資料的集中趨勢或反映一組觀察值的平均水平。常用的平均數有算術均數、幾何均數及中位數三種。一、算術均數(mean)算術均數簡稱均數。X表示變量X的樣本均數,(希臘字母)表示總體均數。均數適用于對稱分布資料,正態(tài)或近似正態(tài)分布資料。計算方法直接法:當樣本含量n較小時,可選用此法。設有n個觀察值,分別為X1,X2……,Xn,均數的計算公式為:例1.10名12歲男孩身高(cm)分別為125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5.122.5,140.0。求平均數。加權法:當樣本含量n較大時,一般將觀察值分組,列出頻數表,再用加權法計算均數。其計算公式為:式中f為各組的頻數,x為各組的組中值。1.編制頻數表(1)求全距:R=183.5-162.9=20.6(cm)(2)求組段和組距:20.6÷10=2.06,取整數2.0cm為組距;第一組段的下限為162(3)列出頻數表:表7-1中第3列為組中值X,計算方法是將本組下限和下組下限相加除以2,如第一組X1=(162+164)/2=163cm,余此類推。第4列fX是頻數f和組中值X的乘積。2.根據公式計算110名20歲健康男大學生的身高均數為172.73cm。二、幾何均數

(geometricmean,G)幾何均數用G表示。適用于對數正態(tài)分布資料或等比資料,例如抗體的平均滴度和平均效價。計算方法:直接法:樣本含量n較小時,選用此法。有n個觀察值X1,X2,……Xn,幾何均數的計算公式為:上式計算時需作連乘,還要開n次方,比較麻煩,一般采用對數形式計算。例.6份血清抗體滴度為:1:2,1:4,1:8,1:8,1:16,1:32,求平均數。幾何平均滴度為1:8

102名健康人的鉤端螺旋體血清抗體平均滴度抗體滴度(1)人數f(2)滴度倒數X

(3)

lgX(4)

flgX(5)=(2)(4)

1︰100

7

100

2.000

14.000

1︰200

19

200

2.301

43.719

1︰400

34

400

2.602

88.468

1︰800

29

800

2.903

84.187

1︰1600

13

1600

3.204

41.652合計

102

272.026三、中位數(median,M)將一組觀察值從小到大按順序排列,位次居中的觀察值就稱中位數。用M表示。中位數適用于任何一種分布的計量數據,一般多用于描述偏態(tài)分布或數據一端無界資料的集中趨勢。計算方法直接法:樣本含量n較小時,可根據下式計算:n為奇數時n為偶數時某病患者5人潛伏期分別為2,4,6,7,20,求中位數。本例n=5,為奇數天若上例在第25天又發(fā)現一例患者,患者數增加為6名頻數表法:樣本含量n較大時計算中位數可用頻數表法。將觀察資料歸納成頻數表,計算累計頻數,按下式計算。L為本組(中位數所在組)下限,i為本組組距,f為本組頻數,ΣfL為上一組的累計頻數。本組位置可根據累計頻數的數值來判斷。當某一組的累計頻數首先超過n/2時或累計頻率首先超過50%時,即定為本組。107名正常人尿鉛含量分布尿鉛(mg/l)例數f累計頻數ΣfL累計頻率(%)

0~

14

14

13.1

4~

22

36

33.6

8~

29

65

60.7

12~

18

83

77.6

16~

15

98

91.6

20~

6

104

97.1

24~

1

105

98.1

28~

2

107

100.0附:百分位數(PX)百分位數是一種位置指標,用PX表示。對總體來說,它表示總體中數值小于PX的個體恰有X%;對樣本來說,它表示按照升序排列的數列里小于PX的個體恰占X%百分位數是一個有序數列百等分的分割值。第50百分位數(P50)也就是中位數,中位數是一個特定的百分位數。計算公式:對上例的資料計算P25,P75。求P25,由第4欄可見,第2組的累計頻率超25%,該組即P25所在組。求P75,同理P75在第4組段內第三節(jié)離散趨勢指標兩組計量數據如下,分析其分布特征。甲組:98,99,100,101,102乙組:80,90,100,110,120兩組數據的均數都是100,說明集中趨勢相同。但兩組數據的分布特征不盡相同,5個數據間的參差不齊的程度不一樣。甲組數據的變化范圍較小,而乙組數據的變化范圍較大,即兩組的離散度不同,離散度是一個非常重要的統計指標。一、全距(range,R)亦稱極差,用R表示,是一組觀察值中最大值與最小值之差,反映個體差異的范圍。全距大,說明變異度大;反之,說明變異度小。如上例中甲組全距為4,乙組全距為40,表明乙組變異度大。但全距除了最大值和最小值之外,不能反映組內其它數據的變異度;易受個別數據的影響,穩(wěn)定性較差,抽樣誤差較大,而且還受n大小的影響,平均起來,n越大,全距越大。二、四分位數間距

(quartilerange,Q)四分位數間距是兩個特定的百分位數之差,用Q表示Q=QU-QL=P75-P25適用于任何分布的計量資料,尤其適用于偏態(tài)分布的資料(不宜用標準差表示離散度)四分位數間距比全距穩(wěn)定,但仍然未考慮到每個觀察值的變異。三、方差與標準差為克服全距的缺點,應全面考慮組內每個觀察值的離散情況??煽紤]以總體中每個變量值X與總體平均數之差,稱為離均差X-。由于離均差有正有負,其和為0,這樣仍不能反映變異度的大小。故將離均差平方后再相加,稱離均差平方和為了消除觀察值的總個數N的影響,將離均差平方和除以N,這就是總體方差,用σ2表示。方差的單位是原度量單位(如kg)的平方,把總體方差開平方,這就是總體標準差,度量單位與原始觀察值一致,即方差(variance)標準差(standarddeviation)實際工作中經常得到的是樣本資料,總體均數是未知的,只能用樣本均數X代替。這樣用代替,用樣本含量n代替N,所得的結果比σ偏小。英國統計學家W.S.Gosset提出用n-1代替n,求得樣本標準差更接近總體標準差σ,樣本標準差用S表示,公式為:上式n-1稱為自由度(ν)。樣本標準差計算也可用直接法或加權法。n較小時,選擇直接法,n較大,選擇加權法直接法:由于標準差的計算公式可改寫為:計算兩組數據的標準差甲組:n=5,ΣX=98+99+100+101+102=500ΣX2=982+992+1002+1012+1022=50010乙組:n=5,ΣX=500,ΣX2

=51000甲組:98,99,100,101,102

乙組:80,90,100,110,120加權法例:求表P7-1中110名20歲男大學生身高的標準差。已知Σf=110,ΣfX=19000,需要在該表中增加fx2欄,由第(3)、(4)欄相乘,再將該欄數據相加,將ΣfX2=3283646代入公式四、變異系數

(coefficientofvariation,CV)適用:(1)比較度量單位不同的多組資料的變異度(2)比較均數相差懸殊的多組資料變異度計算公式為:例:某地20歲男子100人,其身高均數為166.06cm,標準差為4.95cm,其體重均數為53.72kg,標準差為4.96kg。請比較何者變異度較大。由于兩者度量單位不同,不能直接比較標

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論