版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)值變量的統(tǒng)計(jì)描述第一節(jié)頻數(shù)與頻數(shù)分布
(frequencydistribution)
頻數(shù)分布表,又稱頻數(shù)表,是對(duì)樣本量較大的資料進(jìn)行統(tǒng)計(jì)描述的常用方法。通過頻數(shù)表可以顯示數(shù)據(jù)分布的范圍與形態(tài)。例1:某地用隨機(jī)抽樣方法檢查140名成年男子的紅細(xì)胞數(shù)5.953.82一、連續(xù)型數(shù)值變量的頻數(shù)分布頻數(shù)表(frequencytable)的編制:求極差(range):R=Max-Min=5.95-3.82=2.13確定組段數(shù)、組距和組段1.確定組段數(shù)(k):通常10-15個(gè)。2.確定組距(i):相鄰兩組段的最小值(下限)之差,一般用等距。i=R/k,一般取整取偶數(shù)。3.確定組限:界限分明,每個(gè)組段的起點(diǎn)稱下限,終點(diǎn)稱上限。最末一行應(yīng)同時(shí)寫出下限和上限。
4.列表劃記:得到各組段的觀察單位數(shù)。紅細(xì)胞數(shù)(×1012/L)組中值頻數(shù)頻率(%)
3.80~3.902
1.44.00~4.106
4.34.20~4.3011
7.94.40~4.502517.94.60~4.703222.94.80~4.902719.35.00~5.101712.15.20~5.3013
9.35.40~5.504
2.95.60~5.702
1.45.80~6.005.901
0.7表2-2某地140名正常男子紅細(xì)胞數(shù)頻數(shù)表直方圖頻數(shù)分布表的用途可以替代繁瑣的原始資料,便于進(jìn)一步分析;便于觀察數(shù)據(jù)的分布類型;便于發(fā)現(xiàn)資料中某些遠(yuǎn)離群體的特大或特小的可疑值;樣本含量較大時(shí),可用各組段的頻率作為概率的估計(jì)值。頻數(shù)分布的類型對(duì)稱分布偏態(tài)分布正偏態(tài):負(fù)偏態(tài):二、離散型數(shù)值變量的頻數(shù)分布例2:1998年某山區(qū)96名孕婦產(chǎn)前檢查次數(shù)資料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,……….,4,7。表2-1是96名婦女產(chǎn)前檢查次數(shù)分布的頻數(shù)表表2-11998年某地96名婦女產(chǎn)前檢查次數(shù)分布檢查次數(shù)頻數(shù)頻率(%)累計(jì)人數(shù)累計(jì)頻率
044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.5
>51212.596100.0
合計(jì)96100.0--第二節(jié)集中趨勢(shì)指標(biāo)集中趨勢(shì)指標(biāo)用于描述一組同質(zhì)計(jì)量資料的集中趨勢(shì)或反映一組觀察值的平均水平。常用的平均數(shù)有算術(shù)均數(shù)、幾何均數(shù)及中位數(shù)三種。一、算術(shù)均數(shù)(mean)算術(shù)均數(shù)簡稱均數(shù)。X表示變量X的樣本均數(shù),(希臘字母)表示總體均數(shù)。均數(shù)適用于對(duì)稱分布資料,正態(tài)或近似正態(tài)分布資料。計(jì)算方法直接法:當(dāng)樣本含量n較小時(shí),可選用此法。設(shè)有n個(gè)觀察值,分別為X1,X2……,Xn,均數(shù)的計(jì)算公式為:例1.10名12歲男孩身高(cm)分別為125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5.122.5,140.0。求平均數(shù)。加權(quán)法:當(dāng)樣本含量n較大時(shí),一般將觀察值分組,列出頻數(shù)表,再用加權(quán)法計(jì)算均數(shù)。其計(jì)算公式為:式中f為各組的頻數(shù),x為各組的組中值。1.編制頻數(shù)表(1)求全距:R=183.5-162.9=20.6(cm)(2)求組段和組距:20.6÷10=2.06,取整數(shù)2.0cm為組距;第一組段的下限為162(3)列出頻數(shù)表:表7-1中第3列為組中值X,計(jì)算方法是將本組下限和下組下限相加除以2,如第一組X1=(162+164)/2=163cm,余此類推。第4列fX是頻數(shù)f和組中值X的乘積。2.根據(jù)公式計(jì)算110名20歲健康男大學(xué)生的身高均數(shù)為172.73cm。二、幾何均數(shù)
(geometricmean,G)幾何均數(shù)用G表示。適用于對(duì)數(shù)正態(tài)分布資料或等比資料,例如抗體的平均滴度和平均效價(jià)。計(jì)算方法:直接法:樣本含量n較小時(shí),選用此法。有n個(gè)觀察值X1,X2,……Xn,幾何均數(shù)的計(jì)算公式為:上式計(jì)算時(shí)需作連乘,還要開n次方,比較麻煩,一般采用對(duì)數(shù)形式計(jì)算。例.6份血清抗體滴度為:1:2,1:4,1:8,1:8,1:16,1:32,求平均數(shù)。幾何平均滴度為1:8
102名健康人的鉤端螺旋體血清抗體平均滴度抗體滴度(1)人數(shù)f(2)滴度倒數(shù)X
(3)
lgX(4)
flgX(5)=(2)(4)
1︰100
7
100
2.000
14.000
1︰200
19
200
2.301
43.719
1︰400
34
400
2.602
88.468
1︰800
29
800
2.903
84.187
1︰1600
13
1600
3.204
41.652合計(jì)
102
272.026三、中位數(shù)(median,M)將一組觀察值從小到大按順序排列,位次居中的觀察值就稱中位數(shù)。用M表示。中位數(shù)適用于任何一種分布的計(jì)量數(shù)據(jù),一般多用于描述偏態(tài)分布或數(shù)據(jù)一端無界資料的集中趨勢(shì)。計(jì)算方法直接法:樣本含量n較小時(shí),可根據(jù)下式計(jì)算:n為奇數(shù)時(shí)n為偶數(shù)時(shí)某病患者5人潛伏期分別為2,4,6,7,20,求中位數(shù)。本例n=5,為奇數(shù)天若上例在第25天又發(fā)現(xiàn)一例患者,患者數(shù)增加為6名頻數(shù)表法:樣本含量n較大時(shí)計(jì)算中位數(shù)可用頻數(shù)表法。將觀察資料歸納成頻數(shù)表,計(jì)算累計(jì)頻數(shù),按下式計(jì)算。L為本組(中位數(shù)所在組)下限,i為本組組距,f為本組頻數(shù),ΣfL為上一組的累計(jì)頻數(shù)。本組位置可根據(jù)累計(jì)頻數(shù)的數(shù)值來判斷。當(dāng)某一組的累計(jì)頻數(shù)首先超過n/2時(shí)或累計(jì)頻率首先超過50%時(shí),即定為本組。107名正常人尿鉛含量分布尿鉛(mg/l)例數(shù)f累計(jì)頻數(shù)ΣfL累計(jì)頻率(%)
0~
14
14
13.1
4~
22
36
33.6
8~
29
65
60.7
12~
18
83
77.6
16~
15
98
91.6
20~
6
104
97.1
24~
1
105
98.1
28~
2
107
100.0附:百分位數(shù)(PX)百分位數(shù)是一種位置指標(biāo),用PX表示。對(duì)總體來說,它表示總體中數(shù)值小于PX的個(gè)體恰有X%;對(duì)樣本來說,它表示按照升序排列的數(shù)列里小于PX的個(gè)體恰占X%百分位數(shù)是一個(gè)有序數(shù)列百等分的分割值。第50百分位數(shù)(P50)也就是中位數(shù),中位數(shù)是一個(gè)特定的百分位數(shù)。計(jì)算公式:對(duì)上例的資料計(jì)算P25,P75。求P25,由第4欄可見,第2組的累計(jì)頻率超25%,該組即P25所在組。求P75,同理P75在第4組段內(nèi)第三節(jié)離散趨勢(shì)指標(biāo)兩組計(jì)量數(shù)據(jù)如下,分析其分布特征。甲組:98,99,100,101,102乙組:80,90,100,110,120兩組數(shù)據(jù)的均數(shù)都是100,說明集中趨勢(shì)相同。但兩組數(shù)據(jù)的分布特征不盡相同,5個(gè)數(shù)據(jù)間的參差不齊的程度不一樣。甲組數(shù)據(jù)的變化范圍較小,而乙組數(shù)據(jù)的變化范圍較大,即兩組的離散度不同,離散度是一個(gè)非常重要的統(tǒng)計(jì)指標(biāo)。一、全距(range,R)亦稱極差,用R表示,是一組觀察值中最大值與最小值之差,反映個(gè)體差異的范圍。全距大,說明變異度大;反之,說明變異度小。如上例中甲組全距為4,乙組全距為40,表明乙組變異度大。但全距除了最大值和最小值之外,不能反映組內(nèi)其它數(shù)據(jù)的變異度;易受個(gè)別數(shù)據(jù)的影響,穩(wěn)定性較差,抽樣誤差較大,而且還受n大小的影響,平均起來,n越大,全距越大。二、四分位數(shù)間距
(quartilerange,Q)四分位數(shù)間距是兩個(gè)特定的百分位數(shù)之差,用Q表示Q=QU-QL=P75-P25適用于任何分布的計(jì)量資料,尤其適用于偏態(tài)分布的資料(不宜用標(biāo)準(zhǔn)差表示離散度)四分位數(shù)間距比全距穩(wěn)定,但仍然未考慮到每個(gè)觀察值的變異。三、方差與標(biāo)準(zhǔn)差為克服全距的缺點(diǎn),應(yīng)全面考慮組內(nèi)每個(gè)觀察值的離散情況??煽紤]以總體中每個(gè)變量值X與總體平均數(shù)之差,稱為離均差X-。由于離均差有正有負(fù),其和為0,這樣仍不能反映變異度的大小。故將離均差平方后再相加,稱離均差平方和為了消除觀察值的總個(gè)數(shù)N的影響,將離均差平方和除以N,這就是總體方差,用σ2表示。方差的單位是原度量單位(如kg)的平方,把總體方差開平方,這就是總體標(biāo)準(zhǔn)差,度量單位與原始觀察值一致,即方差(variance)標(biāo)準(zhǔn)差(standarddeviation)實(shí)際工作中經(jīng)常得到的是樣本資料,總體均數(shù)是未知的,只能用樣本均數(shù)X代替。這樣用代替,用樣本含量n代替N,所得的結(jié)果比σ偏小。英國統(tǒng)計(jì)學(xué)家W.S.Gosset提出用n-1代替n,求得樣本標(biāo)準(zhǔn)差更接近總體標(biāo)準(zhǔn)差σ,樣本標(biāo)準(zhǔn)差用S表示,公式為:上式n-1稱為自由度(ν)。樣本標(biāo)準(zhǔn)差計(jì)算也可用直接法或加權(quán)法。n較小時(shí),選擇直接法,n較大,選擇加權(quán)法直接法:由于標(biāo)準(zhǔn)差的計(jì)算公式可改寫為:計(jì)算兩組數(shù)據(jù)的標(biāo)準(zhǔn)差甲組:n=5,ΣX=98+99+100+101+102=500ΣX2=982+992+1002+1012+1022=50010乙組:n=5,ΣX=500,ΣX2
=51000甲組:98,99,100,101,102
乙組:80,90,100,110,120加權(quán)法例:求表P7-1中110名20歲男大學(xué)生身高的標(biāo)準(zhǔn)差。已知Σf=110,ΣfX=19000,需要在該表中增加fx2欄,由第(3)、(4)欄相乘,再將該欄數(shù)據(jù)相加,將ΣfX2=3283646代入公式四、變異系數(shù)
(coefficientofvariation,CV)適用:(1)比較度量單位不同的多組資料的變異度(2)比較均數(shù)相差懸殊的多組資料變異度計(jì)算公式為:例:某地20歲男子100人,其身高均數(shù)為166.06cm,標(biāo)準(zhǔn)差為4.95cm,其體重均數(shù)為53.72kg,標(biāo)準(zhǔn)差為4.96kg。請(qǐng)比較何者變異度較大。由于兩者度量單位不同,不能直接比較標(biāo)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年廣東省佛山市S6高質(zhì)量發(fā)展聯(lián)盟高二上學(xué)期期中聯(lián)考生物試題(解析版)
- 中國醫(yī)師協(xié)會(huì)工作計(jì)劃
- 2023-2024學(xué)年四川省成都市蓉城名校高二上學(xué)期期末聯(lián)考生物試題(解析版)
- 2023-2024學(xué)年山西省運(yùn)城市高一上學(xué)期期末考試生物試題(解析版)
- 系統(tǒng)集成與軟件架構(gòu)-洞察分析
- 血府逐瘀膠囊與西藥對(duì)比研究-洞察分析
- XX質(zhì)量與安全管理組織架構(gòu)及職責(zé)
- 2025第二學(xué)期數(shù)學(xué)教研組工作計(jì)劃
- 2023年項(xiàng)目管理人員安全培訓(xùn)考試題答案考點(diǎn)提分
- 2024-2025學(xué)年江蘇省蘇州市高一上學(xué)期11月期中考試物理試題(解析版)
- 2025-2025學(xué)年小學(xué)數(shù)學(xué)教研組工作計(jì)劃
- 水族館改造合同
- 湖南省益陽市2022-2023學(xué)年高三上學(xué)期數(shù)學(xué)期末試卷
- 【MOOC】教學(xué)研究的數(shù)據(jù)處理與工具應(yīng)用-愛課程 中國大學(xué)慕課MOOC答案
- 《小學(xué)科學(xué)實(shí)驗(yàn)創(chuàng)新》課件
- 拌合站安全事故案例
- 《紅色家書》讀書分享會(huì)主題班會(huì)課件
- 2025年廣東省春季高考數(shù)學(xué)仿真模擬試卷試題(含答案解析+答題卡)
- 新媒體運(yùn)營工作年終總結(jié)
- 【MOOC】電子技術(shù)-北京科技大學(xué) 中國大學(xué)慕課MOOC答案
- 米酒釀造工藝
評(píng)論
0/150
提交評(píng)論