第二章 數(shù)值變量的描述性統(tǒng)計(jì)教材_第1頁(yè)
第二章 數(shù)值變量的描述性統(tǒng)計(jì)教材_第2頁(yè)
第二章 數(shù)值變量的描述性統(tǒng)計(jì)教材_第3頁(yè)
第二章 數(shù)值變量的描述性統(tǒng)計(jì)教材_第4頁(yè)
第二章 數(shù)值變量的描述性統(tǒng)計(jì)教材_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章數(shù)值變量的描述性統(tǒng)計(jì)

對(duì)于數(shù)值變量資料,一般從集中趨勢(shì)、離散趨勢(shì)兩個(gè)方面進(jìn)行統(tǒng)計(jì)描述。而集中趨勢(shì)和離散趨勢(shì)又各有許多統(tǒng)計(jì)指標(biāo)。研究資料的頻數(shù)分布類型是選擇合適的統(tǒng)計(jì)指標(biāo)進(jìn)行統(tǒng)計(jì)描述的基礎(chǔ)。第一節(jié)頻數(shù)分布一、頻數(shù)分布表對(duì)一個(gè)變量進(jìn)行重復(fù)觀察,其中在某取值下出現(xiàn)的次數(shù)稱作頻數(shù)(frequency),頻數(shù)在總的觀察例數(shù)中所占的比例稱作相對(duì)頻數(shù)(relativefrequency)。若將頻數(shù)累積,得到累積頻數(shù)(cumulativefrequency),再計(jì)算它在總例數(shù)中的比例,即可得到相對(duì)累積頻數(shù)(relativecumulativefrequency)。

頻數(shù)分布表(frequencydistributiontable)常用來(lái)反映各變量取值及其相應(yīng)頻數(shù)之間的關(guān)系。下面以例2-1的數(shù)據(jù)說(shuō)明頻數(shù)分布表的制作步驟和上述幾個(gè)頻數(shù)指標(biāo)的計(jì)算。例2-l測(cè)得130健康成年男子脈搏資料(次/分)如下,試編制頻數(shù)表和觀察頻數(shù)分布情況。75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876制作頻數(shù)表的步驟為:1.計(jì)算極差觀察值中的最大值和最小值之差稱為極差或全距(range),常用R表示。本例中最大值為84(次/分),最小值為57(次/分),極差R=84-57=27(次/分)。2.決定組數(shù)、組段和組距根據(jù)研究目的及觀察例數(shù)確定組段數(shù)。若為計(jì)算用,組數(shù)可適當(dāng)增多,以減少計(jì)算誤差;若為顯示分布特征,則組段數(shù)不宜太多或太少。相鄰兩組段下限值之差稱為組距(classinterval)。一般都用等距,且用“極差/組段數(shù)”之商最接近的整數(shù)值作為組距。本例若分10個(gè)組段,則組距=極差/組段數(shù),即組距為27/10==2.7(次/分),取整數(shù)為3,該樣本可分為10組。第一個(gè)組段的下限應(yīng)略小于最小值,即取56,最末組的上限要略大于最大值,即取85。3.列表劃記組段確定后,將原始數(shù)據(jù)用劃記法或計(jì)算機(jī)計(jì)算頻數(shù),得到各個(gè)組段的頻數(shù),見表2-l。通過(guò)對(duì)頻數(shù)分布表的觀察,可以看出頻數(shù)的分布有兩個(gè)重要的特征:其一為集中趨勢(shì)(centraltendency),脈搏的測(cè)量值雖然高低不等,但向中間集中,脈搏次數(shù)為中等的人數(shù)最多,所占的比例較大;其二為離散趨勢(shì)(tendencyofdispersion)或變異性(variability),即隨著脈搏次數(shù)逐漸變大或變小,人數(shù)越來(lái)越少,所占的比例越來(lái)越小。利用頻數(shù)分布表可以全面地了解所研究事物的分布情況。表2-1130名健康成年男子脈搏(次/分)的頻數(shù)分布表脈搏組段頻數(shù)相對(duì)頻數(shù)(%)累積頻數(shù)累積相對(duì)頻數(shù)(%)(1)(2)(3)=(2)/N(4)=(2)(5)=(4)/N56~21.5421.5459~53.8575.3862~129.231914.6265~1511.543426.1568~2519.235945.3871~2620.008265.3874~1914.6210480.0077~1511.5411991.5480~107.6912999.2383~8510.77130100.00合計(jì)130二、頻數(shù)分布圖如果將表2-l的資料繪制成頻數(shù)分布圖(frequencydistributiondiagram)(圖2-1),可以看出,圖形中間的直條最高(高峰在中央),兩邊對(duì)稱(或基本對(duì)稱)地逐漸減少,統(tǒng)計(jì)學(xué)上稱之為正態(tài)分布或近似正態(tài)分布。若集中的位置偏向左側(cè),則被稱為正偏態(tài)分布(skewedpositivelydistribution),如研究有害化學(xué)物質(zhì)在正常人體內(nèi)的分布,可以觀察到數(shù)值偏小的為多數(shù);若集中的位置偏向右側(cè),為負(fù)偏態(tài)分布(skewednegativelydistribution),如高血壓患者的年齡分布,年齡偏大者為多數(shù)。進(jìn)行統(tǒng)計(jì)描述時(shí),需要根據(jù)數(shù)值的分布形態(tài)選擇適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)。頻數(shù)分布類型對(duì)稱分布(大多為正態(tài)分布)偏態(tài)分布(正偏態(tài)、負(fù)偏態(tài))其他分布第二節(jié)集中趨勢(shì)平均數(shù)(average)是一類用于描述數(shù)值變量資料集中趨勢(shì)的指標(biāo)。這類指標(biāo)不但能給人一個(gè)簡(jiǎn)明概括的印象,而且還便于進(jìn)行事物間的分析比較。統(tǒng)計(jì)上的平均數(shù)一般包括5種,即算術(shù)平均數(shù)、幾何平均數(shù)、中位數(shù)、眾數(shù)以及調(diào)和均數(shù)。在醫(yī)學(xué)研究上較常用的一般為前3種。通常是根據(jù)資料的分布類型選擇某種指標(biāo)反映資料的集中趨勢(shì)。下面分別介紹常用的集中趨勢(shì)指標(biāo)、適用條件和計(jì)算方法。

一、算術(shù)平均數(shù)算術(shù)平均數(shù)(arithmeticmean)一般簡(jiǎn)稱為均數(shù),它是一組已知性質(zhì)相同的數(shù)值之和除以數(shù)值個(gè)數(shù)所得的商??傮w均數(shù)用希臘字母μ(讀作/mju:/)表示,樣本均數(shù)用表示。適用于呈正態(tài)或近似正態(tài)分布的資料。大多數(shù)正常人的生理、生化指標(biāo),如身高、體重、胸圍、血紅蛋白、白細(xì)胞數(shù)等,都適宜用均數(shù)表達(dá)其集中趨勢(shì)。均數(shù)的計(jì)算方法有直接法、加權(quán)法和簡(jiǎn)捷法三種。由于計(jì)算機(jī)的普及,多采用直接法計(jì)算。下面僅介紹前兩種方法。1.直接法當(dāng)觀察例數(shù)不多(如樣本含量n小于30)時(shí),或觀察例數(shù)雖然很多,但有計(jì)算機(jī)及統(tǒng)計(jì)軟件,均可選擇直接法。公式為:式(2-1)中Σ(讀作sigma)為求和的符號(hào),Xi為各觀察值,n為總例數(shù)。例2-2從例2-1數(shù)據(jù)中隨機(jī)抽取一行,計(jì)算均數(shù)。若抽取的數(shù)據(jù)為第6行,數(shù)值為:81706675716377747668657769,均數(shù)為:=(81+70+66+75+71+63+77+74+76+68+65+77+69)/13=932/13=71.69

2.加權(quán)法(weightedmethod)適用于頻數(shù)表資料。當(dāng)觀察例數(shù)很多又缺乏計(jì)算機(jī)及統(tǒng)計(jì)軟件時(shí),若用直接法很容易出錯(cuò),可以用加權(quán)法處理。加權(quán)法計(jì)算均數(shù)的步驟是:首先將數(shù)據(jù)編制成頻數(shù)表,得出每組的頻數(shù)人,求出各組的組中值(classmid-value)Xi

,由每個(gè)組段的下限與相鄰較大組的下限之和除以2得到,然后將組中值Xi和頻數(shù)fi代入式(2-2),得到均數(shù)。公式為將表2-2中fiXi和fi數(shù)據(jù)代人式(2-2),得

用加權(quán)法計(jì)算的均數(shù)71.12(次/分),若用直接法計(jì)算,均數(shù)值為71.32(次/分),兩者非常接近??梢?,加權(quán)法計(jì)算的均數(shù)是近似值。式(2-2)中各組段的頻數(shù)fi(又稱作權(quán)數(shù))與組中值的積,近似地等于該組變量值的和;各組中值與相應(yīng)頻數(shù)乘積的總和,視為全部觀察值的總和;這個(gè)總和除以總頻數(shù)的商,就作為全部觀察值的均數(shù)。各組的頻數(shù)越大,頻數(shù)與組中值乘積越大,對(duì)均數(shù)的影響也越大;頻數(shù)小,影響越小,這就是該法被稱為加權(quán)法的衫礎(chǔ)均數(shù)容易理解,在醫(yī)學(xué)研究中使用頻率很高。若數(shù)據(jù)的分布服從正態(tài)分布,均數(shù)是分布曲線的最高處所對(duì)應(yīng)的橫軸上的數(shù)值。表2-2130名健康成年男子脈搏(次/分)的均數(shù)、標(biāo)準(zhǔn)差計(jì)算表脈搏組段i組中值(Xi)頻數(shù)(fi)fiXifiXi256~572114649859~6053001800062~63127564762865~66159906534068~6925172511902571~7226187213478474~7519142510687577~781511709126080~81108106561083~85841847056合計(jì)1309246662076二、中位數(shù)中位數(shù)(median)用符號(hào)M表示。把一組變量值按大小順序排列,位置居中的那個(gè)數(shù)值(若n為奇數(shù))被稱作中位數(shù)。中位數(shù)是一個(gè)位置指標(biāo),以中位數(shù)為界,將變量值分為左右兩半。資料若呈明顯的偏態(tài)分布(正偏態(tài)或負(fù)偏態(tài)分布),或者資料的分布情況不明,采用中位數(shù)反映一群數(shù)值變量資料在位次上的集中趨勢(shì)或平均水平。例如,某些傳染病或食物中毒的潛伏期、人體的某些測(cè)定指標(biāo)(如發(fā)汞、尿鉛),其平均水平可用中位數(shù)來(lái)表示。中位數(shù)的計(jì)算方法有直接法和頻數(shù)表法兩種。

l.直接計(jì)算法當(dāng)樣本含量不大時(shí)使用。將觀察值按大小順序排列,當(dāng)樣本含量n為奇數(shù)時(shí),位置居中的那個(gè)數(shù)值(X(n+l)/2)就是M;當(dāng)n為偶數(shù)時(shí),位置居中的兩個(gè)數(shù)值的平均數(shù)((Xn/2+X(n/2)+1)/2)就是M。例2-3有9名中學(xué)生甲型肝炎的潛伏期(天):12,13,14,14,15,15,15,17,19,試求中位數(shù)。對(duì)數(shù)值進(jìn)行從小到大排序,位置居中的數(shù)值X(9+1)/2=X5,第5個(gè)數(shù)值(15)為中位數(shù),M=15。若僅有前8名中學(xué)生的潛伏期,正中間有2個(gè)數(shù)據(jù),二者的均數(shù)(X8/2+X(8/2)+l)/2=(X4+X5)/2=(14+15)/2=14.5為中位數(shù),M=14.5。2.頻數(shù)表計(jì)算法當(dāng)觀察例數(shù)較多時(shí)采用。計(jì)算中位數(shù)之前先將觀察值編制成頻數(shù)分布表,按所分組段由小到大計(jì)算累計(jì)頻數(shù)和累計(jì)相對(duì)頻數(shù),找出中位數(shù)所在組(如表2-3中M所在組是累計(jì)相對(duì)頻數(shù)含50%的組段),將該組段的下限(L)。組距(i)、頻數(shù)(fM)和小于L的各組段累計(jì)頻數(shù)(ΣfL)代入式(2-3)即可求出中位數(shù)M。

例2-4測(cè)定了107例正常人的尿鉛含量,見表2-3,試根據(jù)分布計(jì)算集中趨勢(shì)指標(biāo)。從表2-3可以看出,該數(shù)據(jù)服從正偏態(tài)分布。因此選擇中位數(shù)作為反映集中趨勢(shì)的指標(biāo)。在表中求出累積頻數(shù),累積相對(duì)頻數(shù),找出中位數(shù)所在組(即累積相對(duì)頻數(shù)50%所在組,為第3組)。將中位數(shù)所在組的下限(L=8)、組距(i=4)、頻數(shù)(fM=29)、總例數(shù)(n=107)和小于L的各組段累計(jì)頻數(shù)(∑fL=36)代入式(2-3),得

M=10.41(μg/L)

用頻數(shù)表法計(jì)算的中位數(shù)為10.41。表2-3107正常人的尿鉛含量(μg/L)的中位數(shù)計(jì)算表尿鉛含量(組段)頻數(shù)累積頻數(shù)↓

相對(duì)頻數(shù)(%)累積相對(duì)頻數(shù)(%)(j)(fj)Σfjfj/nΣfj/n0~141413.0813.084~(P25所在組)223620.5633.648~(M所在組)296527.1060.7512~(P75所在組)188316.8277.5716~159814.0291.5920~61045.6197.2024~11050.9398.1328~21071.87100.00合計(jì)107100.00對(duì)于偏態(tài)分布的資料,中位數(shù)代表性好,也相對(duì)穩(wěn)定,不受兩端其它數(shù)值的影響,只受居中的一個(gè)或兩個(gè)變量值的影響。對(duì)于分布的末端無(wú)確切數(shù)值的資料,只有計(jì)算中位數(shù)。對(duì)于正態(tài)分布或?qū)ΨQ分布的資料,理論上中位數(shù)等于均數(shù)。但中位數(shù)沒有充分利用觀察到的每個(gè)變量值的信息。三、幾何均數(shù)幾何均數(shù)(geometricmean)用C表示,是將n個(gè)觀察值X的乘積再開n次方所得的根。若對(duì)各觀察值X取對(duì)數(shù),對(duì)數(shù)值均值的反對(duì)數(shù)即為G。其適用對(duì)象是:①當(dāng)一組觀察值不呈正態(tài)分布、且其差距較大時(shí),若用均數(shù)表示其平均水平會(huì)受少數(shù)特大或特小值的影響;②數(shù)值按大小順序排列后,各觀察值呈倍數(shù)關(guān)系或近似倍數(shù)關(guān)系;③對(duì)數(shù)正態(tài)分布資料。如抗體的滴度、藥物的效價(jià)等。其計(jì)算方法有兩種:l.直接計(jì)算法當(dāng)觀察例數(shù)不多(如樣本含量n小于30)時(shí)采用,公式為

例2-5有8份血清的抗體效價(jià)分別為1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640,求平均抗體效價(jià)。將各抗體效價(jià)的倒數(shù)代入式(2-4),得

G=lg-1[(lg5+lg10+lg20+…+lg640)/8]=lg-1(1.752575)=56.57

血清的抗體平均效價(jià)為1:56.57。2.頻數(shù)表法當(dāng)觀察例數(shù)很多時(shí)采用,公式為:

例2-6有50人的血清抗體效價(jià),分別為:5人1:10,9人1:20,20人1:40,10人1:80,6人1:160,求平均抗體效價(jià)。將抗體效價(jià)的倒數(shù)直接代入式(25),得

G=14.7050人的血清平均抗體效價(jià)為1:41.70。因?yàn)闊o(wú)法對(duì)0和負(fù)數(shù)求對(duì)數(shù),因此,計(jì)算幾何均數(shù)的觀察值不能小于或等于0。同一組數(shù)據(jù)若服從正態(tài)分布,均數(shù)與中位數(shù)幾乎相等,但幾何均數(shù)小于均數(shù)。四、眾數(shù)眾數(shù)(mode)是一組觀察值中出現(xiàn)頻率最高的那個(gè)觀察值;若為分組資料,眾數(shù)則是出現(xiàn)頻率最高的那個(gè)組段。例2-7有16例高血壓病人的發(fā)病年齡(歲)為:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,試求眾數(shù)。對(duì)這16例的發(fā)病年齡不分組,那么出現(xiàn)頻數(shù)最多的那個(gè)數(shù)值為58,則眾數(shù)為58。58歲是高血壓的高發(fā)年齡。另外,眾數(shù)也沒有充分利用樣本觀察值的全部信息。例2-8若采用例24中的數(shù)據(jù)(見表2-3),則出現(xiàn)頻率最高(27.10%)的組段為8~12,眾數(shù)組段則為8~12。眾數(shù)作為反映集中趨勢(shì)的指標(biāo),從概念上容易理解,如反映疾病的高發(fā)年齡或年齡段。眾數(shù)的使用也有很好的普遍性,還可用于非連續(xù)性資料。缺點(diǎn)是若數(shù)據(jù)出現(xiàn)若干個(gè)相同的頻率的數(shù)據(jù)或組段,眾數(shù)難以確定。另外,眾數(shù)也沒有充分利用樣本觀察值的全部信息。第三節(jié)離散趨勢(shì)

平均數(shù)僅描述了一組數(shù)據(jù)的集中趨勢(shì),可以作為總體的一個(gè)代表值。由于變異的客觀存在,需要一類指標(biāo)描述資料的離散趨勢(shì)。兩者結(jié)合使用才能對(duì)數(shù)據(jù)進(jìn)行全面的統(tǒng)計(jì)學(xué)描述。兩組數(shù)據(jù):甲組:98,99,100,101,102乙組:80,90,100,110,120兩組數(shù)據(jù)的均數(shù)相同,但兩組數(shù)據(jù)的離散(變異)度不同,顯然甲組數(shù)據(jù)較乙組更集中。甲:乙:準(zhǔn)確性相等,穩(wěn)定性不同一、全距全距(range)又稱為極差,是一組觀察值中最大值與最小值之差,用R表示。全距作為反映離散趨勢(shì)的指標(biāo)便于理解和計(jì)算,故被廣泛應(yīng)用。但全距有這樣幾個(gè)弱點(diǎn):①一組觀察數(shù)據(jù)中從小到大排列后,全距僅利用兩端的數(shù)值,未利用全部觀察值的信息。增加或減少極端值時(shí),全距也會(huì)相應(yīng)地發(fā)生改變,故其穩(wěn)定性差。若增加或減少中間水平的觀察值時(shí),全距不會(huì)發(fā)生改變,不能靈敏地反映數(shù)值的變動(dòng)。②若觀察的樣本含量越大,數(shù)值波動(dòng)的范圍越大,全距就越大,故樣本含量相差懸殊時(shí),不能通過(guò)比較全距來(lái)比較離散趨勢(shì)。③若一組觀察值的一端或兩端有不確切的數(shù)值(如大于或小于某數(shù)值),全距難以計(jì)算。鑒于全距的以上弱點(diǎn),通常將全距和反映離散趨勢(shì)的其它指標(biāo)結(jié)合使用。二、百分位數(shù)百分位數(shù)(percentile)是把一組數(shù)據(jù)從小到大排列,分割成100等份,每等份含1%的觀察值,分割界限上的值就是百分位數(shù),用符號(hào)Px表示。又將數(shù)據(jù)分成兩部分,有(100-x)%的數(shù)值大于Px,有x%的數(shù)值小于Px。中位數(shù)是第50百分位數(shù),用P50表示。第5、第25、第75、第95百分位數(shù)分別記為P5、P25、P75、P95。這些百分位數(shù)也可以作為反映離散趨勢(shì)的指標(biāo)使用,如P5與P95之間的距離或P25與P75之間的距離。百分位數(shù)的計(jì)算通常采用頻數(shù)表法,其公式為:公式中符號(hào)的意義同中位數(shù)。例2-9利用表2-3中的數(shù)據(jù),計(jì)算P25與P75。找出第25和第75百分位數(shù)所在組分別為第二組和第四組。P25所在組的L=4,i=4,fx=22,∑fL=14,代入式(2-6)得:

P25=6.32(μg/L)P75所在組的L=12,i=4,fx=18,∑fL=65,代入公式(2-6)得:

P75=15.39(μg/L)三、四分位數(shù)間距四分位數(shù)間距(quartileinterval)用Q表示,是上四分位數(shù)QU(P75)和下四分位數(shù)QL(P25)之差。其值越大,說(shuō)明變異程度越大。常用于描述偏態(tài)分布資料的離散程度。該指標(biāo)比全距稍穩(wěn)定,但仍未考慮每個(gè)觀察值。

Q=QU-QL=P75-P25(2-7)

例2-10利用表2-3的資料計(jì)算四分位數(shù)間距Q。

在例2-9中已經(jīng)計(jì)算出P75與P25,故Q=15.39-6.32=9.07(μg/L)。四、方差若要克服極差和四分位數(shù)間距不能反映每個(gè)觀察值之間的離散情況的缺點(diǎn),就必須全面考慮到每一個(gè)觀察值。先就總體而言,離散情況能否用總體中每個(gè)觀察值Xi與總體均數(shù)μ之差的總和(稱為離均差總和)反映資料的離散程度呢?可以明顯地看出若計(jì)算離均差平方和

結(jié)果則不為0,但又受觀察例數(shù)多少的影響,為了消除這一影響,可取離均差平方和的均數(shù),簡(jiǎn)稱方差(variance)或均方(meanofsquares)??傮w方差用σ2表示,樣本方差用S2表示,公式分別為

方差的大小反映一組資料的離散趨勢(shì)大小。但由于其意義相當(dāng)于離均差平方和的均值,度量單位也是單位的平方,故難以解釋,在科技報(bào)道中很少使用。五、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(standarddeviation)是方差的平方根。由于每一個(gè)離均差都經(jīng)過(guò)平方,使原來(lái)觀察值的度量單位(如cm,mmHg等)也都變?yōu)槠椒絾挝涣?,?dǎo)致計(jì)算結(jié)果難以解釋。為了還原成為原來(lái)的度量單位,將方差開平方,得到標(biāo)準(zhǔn)差??傮w標(biāo)準(zhǔn)差用。,樣本標(biāo)準(zhǔn)差用S或SD表示,即

在此需要說(shuō)明:式(2-11)中等式最右邊的式子是經(jīng)過(guò)推導(dǎo)出來(lái)的,以使運(yùn)算方便;式(2-12)用于分組資料加權(quán)法計(jì)算標(biāo)準(zhǔn)差,其中Xi為各組的組中值。式(2-11)中的n-l和式(2-12)中的∑fi-1為自由度(degreeoffreedom)。由于用樣本資料計(jì)算的標(biāo)準(zhǔn)差常常小于總體標(biāo)準(zhǔn)差,英國(guó)統(tǒng)計(jì)學(xué)家W.S.Gosset提出用樣本例數(shù)減去1(n-l或∑fi-1)代替n,使得樣本標(biāo)準(zhǔn)差成為總體標(biāo)準(zhǔn)差的無(wú)偏估計(jì)值。例2-11從例2-1上抽出的10個(gè)數(shù)據(jù):75,76,72,69,66,72,57,68,71,72,試用直接法計(jì)算標(biāo)準(zhǔn)差。n=10,代入式(2-11),得:S=5.41(次/分)例2-l2利用表2-2中的數(shù)據(jù)和頻數(shù)表法計(jì)算標(biāo)準(zhǔn)差。從表2-2計(jì)算得出:代入式(2-12)得:S=5.89(次/分)標(biāo)準(zhǔn)差的意義和用途有四:其一是說(shuō)明資料的離散趨勢(shì)(或變異程度),標(biāo)準(zhǔn)差的值越大,說(shuō)明變異程度越大。由于標(biāo)準(zhǔn)差與原始數(shù)據(jù)的單位一致,在科技論文報(bào)告中,均數(shù)與標(biāo)準(zhǔn)差經(jīng)常被同時(shí)用來(lái)描述資料的集中和離散趨勢(shì)。標(biāo)準(zhǔn)差愈小,說(shuō)明觀察值的離散程度愈小,均數(shù)的代表性也就愈好。若比較的樣本單位相同,均數(shù)接近,標(biāo)準(zhǔn)差小的,說(shuō)明離散趨勢(shì)?。黄涠怯糜谟?jì)算變異系數(shù);其三是用于計(jì)算標(biāo)準(zhǔn)誤(見第四章);其四是結(jié)合均值與正態(tài)分布的現(xiàn)律估計(jì)參考值的范圍(見第五節(jié))。六、變異系數(shù)變異系數(shù)(coefficientOfvariation)用CV表示。CV實(shí)際上是標(biāo)準(zhǔn)差的另一種表示方式,即將標(biāo)準(zhǔn)差轉(zhuǎn)化為均數(shù)的倍數(shù),以百分?jǐn)?shù)的形式表示。CV常常用于比較度量單位不同或均數(shù)相差懸殊的兩組(或多組)資料的變異程度。公式為

例如,對(duì)例2-l資料用加權(quán)法計(jì)算出脈搏=71.12(次/分),S=5.89(次/分),則其變異系數(shù)為:脈搏CV=8.28%

另測(cè)得該人群的紅細(xì)胞數(shù)的=4.7075(102/L),S=0.5662(102/L),其變異系數(shù)為:紅細(xì)胞CV=12.03%

可見該人群的紅細(xì)胞數(shù)的變異程度稍大于脈搏的變異程度。第四節(jié)正態(tài)分布一、正態(tài)分布和標(biāo)準(zhǔn)正態(tài)分布的概念正態(tài)分布(normaldistribution)是一種重要的連續(xù)型分布。我們從第一節(jié)圖2-l中可見頻數(shù)分布以均數(shù)為中心,左右兩側(cè)基本對(duì)稱,靠近均數(shù)兩側(cè)頻數(shù)較多,離均數(shù)愈遠(yuǎn),頻數(shù)愈少,形成一個(gè)中間多、兩側(cè)逐漸減少、基本對(duì)稱的分布。當(dāng)將樣本含量擴(kuò)大,將組段分細(xì),圖中直條將變窄,就會(huì)表現(xiàn)出中間高、兩側(cè)逐漸降低,并完全對(duì)稱的特點(diǎn)(如圖2-2(a)、(b)所示),將頻數(shù)分布圖各直條頂端的中點(diǎn)連線,就接近于一條光滑的曲線(如圖2-2(c)所示),這條曲線被稱作正態(tài)分布曲線,用N(μ,σ)表示,其位置與均數(shù)有關(guān),形狀與標(biāo)準(zhǔn)差有關(guān)。標(biāo)準(zhǔn)差大,離散程度大,正態(tài)分布曲線則“胖”,反之,則“瘦”。醫(yī)學(xué)研究中許多正常人生理、生化指標(biāo)的分布呈正態(tài)或近似正態(tài)分布。許多非正態(tài)分布的資料,當(dāng)觀察例數(shù)足夠多時(shí),其均數(shù)也呈正態(tài)分布。正態(tài)分布是數(shù)理統(tǒng)計(jì)中最基礎(chǔ)的一種分布,很多統(tǒng)計(jì)推斷都是在正態(tài)分布條件下進(jìn)行的。其概率密度函數(shù)(probabilitydensityfunction),為:式(2-14)中f(X)稱密度函數(shù),是與X對(duì)應(yīng)的正態(tài)曲線的縱坐標(biāo)高度,μ與σ分別為總體均數(shù)和標(biāo)準(zhǔn)差,π為圓周率(π=3.14159),e為自然對(duì)數(shù)的底,即2.71828。因此,已知μ、σ和變量值X,就能按式(2-14)繪出正態(tài)曲線的圖形,如圖2-3a所示。為了應(yīng)用方便,對(duì)于任何一個(gè)均數(shù)和標(biāo)準(zhǔn)差分別為μ與σ的正態(tài)分布,都可以通過(guò)變量的標(biāo)準(zhǔn)正態(tài)變換(),使之成為標(biāo)準(zhǔn)正態(tài)分布(standardizednormaldistribution),用N(0,1)表示,即均數(shù)為0,標(biāo)準(zhǔn)差為1。也就是將圖2-3a的坐標(biāo)原點(diǎn)移到0的位置,并使新坐標(biāo)的橫軸尺度以σ為單位。N(0,l)的概率密度函數(shù)為:式中為標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù),即縱坐標(biāo)高度,根據(jù)u的不同取值,就可按式(2-15)繪出標(biāo)準(zhǔn)正態(tài)分布的圖形,如圖2-3b。二、正態(tài)分布的特征和曲線下面積分布規(guī)律正態(tài)分布有五個(gè)方面的特征:①正態(tài)曲線(normalcurve)在橫軸上方,且均數(shù)μ所在處曲線最高;②正態(tài)分布以均數(shù)為中心,左右對(duì)稱;③正態(tài)分布有兩個(gè)參數(shù),即均數(shù)與標(biāo)準(zhǔn)差(μ與σ),均數(shù)μ為位置參數(shù),決定正態(tài)分布曲線所在的位置,標(biāo)準(zhǔn)差σ為形狀參數(shù),決定正態(tài)分布曲線的“胖”和“瘦”,

σ大,曲線為“矮胖型”,反之,為“高瘦型”,標(biāo)準(zhǔn)正態(tài)分布的均數(shù)和標(biāo)準(zhǔn)差分別為0和1;④正態(tài)曲線在±1σ,標(biāo)準(zhǔn)正態(tài)分布在±l處各有一個(gè)拐點(diǎn)(見圖2-4);⑤正態(tài)分布的面積分布有一定的規(guī)律性。正態(tài)分布和標(biāo)準(zhǔn)正態(tài)分布的面積可借助高等數(shù)學(xué)中微積分的方法分別對(duì)式(2-14),(2-15)求積分而求得,從-∞到X或u的面積F(X)或Ф(u)見圖2-3。統(tǒng)計(jì)學(xué)家已經(jīng)根據(jù)式(2-15)求出了標(biāo)準(zhǔn)正態(tài)分布從一∞到Ф(-u)的面積(見附表2-l)。實(shí)際工作中經(jīng)常要用的面積分布規(guī)律見表2-4及圖2-4。三、對(duì)數(shù)正態(tài)分布有時(shí)也將一些非正態(tài)分布資料轉(zhuǎn)化為正態(tài)分布資料來(lái)處理。若資料呈明顯的正偏態(tài)分布,可將各觀察值直接取自然對(duì)數(shù)(lnX)或取以10為底的對(duì)數(shù)(lgX);若資料呈負(fù)偏態(tài)分布,需要通過(guò)嘗試找出一個(gè)合適的常數(shù)K(可用一個(gè)略大于最大值的數(shù)值),用常數(shù)K減去各觀察值,然后取對(duì)數(shù)(lg(K-X)或ln(K-X),若對(duì)數(shù)值經(jīng)觀察或假檢驗(yàn)呈正態(tài)分布,該分布被稱作對(duì)數(shù)正態(tài)分布(logarithmicnormaldistribution)。對(duì)數(shù)正態(tài)分布曲線下橫軸上的面積規(guī)律同正態(tài)分布,該規(guī)律可用于醫(yī)學(xué)參考值的估計(jì)。第五節(jié)醫(yī)學(xué)參考值的估計(jì)醫(yī)學(xué)參考值是指正常人的各種生理、生化數(shù)據(jù),組織或排泄物中各種成分的含量。同是一批正常人,由于個(gè)體差異的客觀存在,“某一生理或生化指標(biāo)的測(cè)定結(jié)果有大有小,即使是同一個(gè)體,其生理、生化測(cè)定數(shù)據(jù)也會(huì)隨著機(jī)體內(nèi)外環(huán)境的變化而相應(yīng)地波動(dòng)。因此,需要估計(jì)正常人測(cè)定值的波動(dòng)范圍,該范圍稱為參考值范圍(referenceranges),參考值范圍在診斷方面可用于劃分正常與異常。隨著新設(shè)備。儀器、試劑、測(cè)試方法的不斷推出及對(duì)不同時(shí)代正常人某些變量測(cè)定值的比較,都需要進(jìn)行醫(yī)學(xué)參考值的研究。一、制定參考值的基本步驟1.從正常人總體中抽樣所謂正常人,不是一點(diǎn)小病都沒有的人,而是指排除了影響被研究指標(biāo)的疾病或因素的人。例如,研究某市成人血鉛的參考值范圍,是以留住該市一年以上。無(wú)明顯肝腎疾病、無(wú)鉛作業(yè)或接觸史的成人作為被研究的正常人總體。按隨機(jī)化方法進(jìn)行抽樣研究。抽取樣本含量要足夠大,因參考值范圍是根據(jù)樣本數(shù)據(jù)估計(jì)的,樣本分布愈接近總體分布,所得結(jié)果愈可靠。因此,樣本含量不能過(guò)少,一般認(rèn)為,估計(jì)每個(gè)人群組參考值范圍(如男性或女性紅細(xì)胞參考值范圍)的樣本含量一般應(yīng)在100例以上。如果被研究指標(biāo)的影響因素較多,數(shù)據(jù)變異大,樣本含量應(yīng)該相對(duì)多些,以能取得一個(gè)分布較為穩(wěn)定的樣本為原則。2.控制測(cè)量誤差測(cè)量的方法、儀器、試劑、精密度、操作熟練程度都要統(tǒng)一,以便將測(cè)量誤差控制在一定的范圍內(nèi)。3.判定是否需要分組確定參考值范圍原則上,組與組之間差別明顯,且差別有實(shí)際意義則應(yīng)分開,否則應(yīng)當(dāng)合并確定??疾旖M間差別

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論