版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、第二章 數(shù)值變量的描述性統(tǒng)計山東大學公共衛(wèi)生學院劉云霞1主要內(nèi)容2.1 頻數(shù)分布2.2 集中趨勢2.3 離散趨勢2.4 正態(tài)分布及其應用22.1 頻數(shù)分布頻數(shù)分布表的概念頻數(shù)分布表的編制方法頻數(shù)分布的特征頻數(shù)分布的類型頻數(shù)分布表的用途3 例2.1某地2004年抽樣調(diào)查 100名男大學生的身高(cm)1074一、頻數(shù)分布表的概念當樣本含量 n 較大時,為了解樣本中觀察值的分布規(guī)律和便于指標計算,可編制頻數(shù)分布表,簡稱頻數(shù)表(frequency table)。頻數(shù):對某一隨機現(xiàn)象進行重復觀察,或測量大量個體的某項特征,其中某個或某一組變量值出現(xiàn)的次數(shù)。頻數(shù)表:將各變量值與其相應的頻數(shù)列成表格形式即
2、為頻數(shù)表。5全距(或極差,range)是最大值與最小值之差,用 R 表示。例2.1中,最大值為183.5cm,最小值為162.9cm, 故R =183.5-162.9=20.6(cm)。1. 求全距數(shù)值變量資料頻數(shù)表的編制7組段數(shù):根據(jù)樣本含量的多少確定,一般設813個組段。組距:各組段的起點和終點分別稱為下限和上限,相鄰兩組段的下限之差(或每一組段的上、下限之差)稱為組距。一般取等距分組,常用全距的1/10取整做組距。某組段(下限+上限)/2為組中值。劃分組段:各組段應是連續(xù)的,不能有交叉或重疊。第一組段應包括最小值;最末組段應包括最大值,并同時寫出其下限與上限。例2.1中,全距的1/10為
3、 20.6/10 = 2.06,組距取整為2.0cm ;最小值為162.9cm,故第一組段的下限為162cm,第二組段的下限為164cm,依次類推,最末組段為182cm184cm,包含最大值183.5cm 。 2. 確定組段和組距數(shù)值變量資料頻數(shù)表的編制82010三、頻數(shù)分布的特征頻數(shù)分布的兩個重要特征: 1. 集中趨勢(central tendency):身高向中央部分集中,以中等身高居多(172cm組段),此為集中趨勢。反映集中位置或平均水平。 2. 離散程度(tendency of dispersion):由中等身高到較矮或較高的頻數(shù)分布逐漸減少,反映了身高的離散程度。對于數(shù)值變量資料,
4、應用集中趨勢和離散程度二者結(jié)合起來分析其分布規(guī)律。 11圖 某地100名18 歲男大學生身高的頻數(shù)分布集中趨勢離散程度4512圖2-1 某地100名18歲男大學生身高的頻數(shù)分布14五、頻數(shù)表的用途頻數(shù)表可以揭示資料分布類型和分布特征,以便選取適當?shù)慕y(tǒng)計方法;便于進一步計算指標和進行統(tǒng)計分析;便于發(fā)現(xiàn)資料中的某些特大或特小的可疑值。當樣本含量特別大時,可以頻率估計概率。作為資料的陳述形式。在文獻報告中,用頻數(shù)表既可直觀地反映被研究事物的分布特征,又便于作進一步的分析研究。15一、均數(shù)均數(shù)(mean)是算術(shù)均數(shù)(arithmetic mean)的簡稱。定義:指所有觀察值的代數(shù)和除以觀察值的個數(shù)。符
5、號:樣本均數(shù)用 表示,總體均數(shù)用 (miu)表示。 應用: 用于反映一組同質(zhì)觀察值的平均水平,應用 甚廣。 適用于正態(tài)或近似正態(tài)分布的數(shù)值變量資料。計算方法:直接法 加權(quán)法17直接法:用于樣本含量 n 較小時,公式為: 式中,希臘字母 (sigma)表示求和; 為各觀察值;n為樣本含量,即觀察值的個數(shù)。例2.2 某地隨機抽取10名18歲健康男大學生身高(cm)分別為168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7,求平均身高。 集中趨勢的描述指標-均數(shù)-直接法(cm)18加權(quán)法:用于頻數(shù)表資料或樣本中相同觀察值較多時,其公式
6、為:例2.3 計算例2.1表2-1 資料100名男大學生的平均身高。 集中趨勢的描述指標-均數(shù)-加權(quán)法該100名18歲健康男大學生身高的均數(shù)為172.70cm。19幾何均數(shù)(geometric mean)定義:指一組觀察值的乘積,再被觀察值個數(shù)開方。符號:用 表示應用:適用于 數(shù)據(jù)經(jīng)過對數(shù)變換后呈正態(tài)分布的(對數(shù)正態(tài)分布)資料;觀察值之間呈倍數(shù)或近似倍數(shù)變化(等比關系)的資料。如醫(yī)學實踐中的抗體滴度、平均效價等。計算方法:直接法 頻數(shù)表法二、幾何均數(shù)20例2.4 有6份血清的抗體效價為1:10,1:20,1:40,1:80,1:80,1:160, 求其平均效價。 集中趨勢的描述指標-幾何均數(shù)-
7、直接法該6份血清的平均抗體效價為1:45。 或樣本含量 n 較小時21計算公式:例2.5 某地區(qū)50名麻疹易感兒童接種麻疹疫苗1個月后,測其血凝抑制抗體滴度,如表2-2中(1)、(2)欄,求平均抗體滴度。集中趨勢的描述指標-幾何均數(shù)-頻數(shù)表法頻數(shù)表資料或樣本中相同觀察值較多時22注意:計算幾何均數(shù)時觀察值中不能有0;一組觀察值中不能同時有正值和負值。集中趨勢的描述指標-幾何均數(shù)-加權(quán)法即其血凝抗體滴度的平均滴度為1:57。24中位數(shù)(median)是一種位置指標。定義:將一組觀察值按由小到大的順序排列后位次居中的數(shù)值就是中位數(shù),小于和大于中位數(shù)的觀察值個數(shù)相等。符號:用 M 表示。應用:用于描
8、述任何分布,特別是偏態(tài)分布資料以及頻數(shù)分布的一端或兩端無確切數(shù)據(jù)資料的中心位置。計算方法:直接法 頻數(shù)表法三、中位數(shù)50%50%M25計算步驟:按所分組段由小到大計算累計頻數(shù)和累計頻率;確定中位數(shù)所在組段,即累計頻率包含50的組段;求中位數(shù)。 式中, 分別為中位數(shù)所在組段的下限、組距和頻數(shù); 為小于L的各組段的累計頻數(shù)。 例2.7 某疾病控制中心記錄了199名沙門氏菌屬食物中毒患者發(fā)病的潛伏期(表2-3),計算平均發(fā)病潛伏期。集中趨勢的描述指標-中位數(shù)-頻數(shù)表法適用于n 較大時27集中趨勢的描述指標-中位數(shù)-頻數(shù)表法28例:分別取甲、乙、丙三人每人的耳垂血,然后紅細胞計數(shù),每人數(shù)5個計數(shù)盤,得
9、結(jié)果如下(萬/mm3)2.3 離散趨勢甲乙丙29全距(range,簡記為 R)亦稱極差。定義:指一組同質(zhì)觀察值中最大值與最小值之差。全距反映了個體差異的范圍:全距大,說明變異度大;反之,全距小,說明變異度小。應用:簡單明了。常用于說明傳染病、食物中毒等的最短及最長潛伏期。公式:R = xmax- xmin不足:僅考慮了最大值與最小值之差 ,不能反映組內(nèi)其它觀察值的變異度;樣本含量越大,抽到較大或較小觀察值的可能性越大,故全距可能越大。因此,樣本含量相差懸殊時不宜用全距比較。 一、全距30二、百分位數(shù)百分位數(shù)(percentile)用 表示,0 x 100,是描述一組數(shù)據(jù)某百分位的位置指標。 將
10、全部觀察值分為兩部分,理論上有x的觀察值比它小,有(100-x)的觀察值比它大。最常用的百分位數(shù)是 ,即中位數(shù)。應用:常與中位數(shù)結(jié)合應用,可以描述一組資料在某百分位置上的水平,也可以描述資料的分布特征。 M - P5 = P95 M 時,分布近似對稱 M -P5 P95 M 時,分布呈負偏態(tài)P5P95M31百分位數(shù)(percentile)應用:也可用多個百分位數(shù)的結(jié)合來描述一組觀察值的分布特征,如 和 合用時,反映中間50%觀察值的分布情況; 百分位數(shù)可用于確定非正態(tài)分布資料的醫(yī)學參考值范圍。注意:應用百分位數(shù),樣本含量要足夠大,否則不宜取靠近兩端的百分位數(shù)。計算公式: 分別為 所在組段的下限
11、、組距和頻數(shù); 為小于L的各組段的累計頻數(shù)。 32百分位數(shù)33定義:四分位數(shù)間距(quartile interval,Q ) 為上四分位數(shù)與下四分位數(shù)之差(或 與 之差)。計算公式:應用:用于描述偏態(tài)分布以及分布的一端或兩端無確切數(shù)值資料或分布類型未知資料的離散程度。三、四分位數(shù)間距QLQMQU25%25%25%25%34四分位數(shù)間距包括了一組觀察值的一半,故可把四分位數(shù)間距看成是中間50%觀察值的極差。意義:Q 越大,變異度越大;反之,Q 越小,變異度越小。特點:由于四分位數(shù)間距不受兩端個別極大值或極小值的影響,因而它較全距穩(wěn)定,但仍未考慮全部觀察值的變異度 。 離散程度的描述指標-四分位數(shù)
12、間距35極差和四分位數(shù)間距都只考慮了個別觀察值的大小差異,沒有全面反映每個觀察值的變異程度。就總體而言,即應考慮總體中每個觀察值 與總體均數(shù) 的差值( ),即離均差。因離均差之和 ,不能反映變異度的大小,故用離均差平方和 (sum of squares of deviations from mean)反映之。離均差平方和的大小除與變異度有關外,還與變量值的個數(shù)N 有關。為了消除這一影響,取離均差平方和的均數(shù),稱方差(variance)或均方(mean of squares)。四、方差36計算公式: 總體方差 樣本方差n-1為自由度(degree of freedom),一般用 (niu)表示。
13、因方差的度量單位是原度量單位的平方,故計算結(jié)果難以解釋。 離散程度的描述指標-方差樣本方差用自由度n-1去除!37計算公式: 總體標準差 樣本標準差五、標準差樣本標準差用自由度n-1去除!38樣本標準差離均差平方和 常用 或 表示。 直接法: 加權(quán)法: 求表2-1中100名18歲男大學生身高的標準差。 39意義:標準差大,表示觀察值的變異度大; 反之,標準差小,表示觀察值的變異度小。應用:適用于描述對稱分布資料尤其是正態(tài)分布資 料的離散程度。 結(jié)合均數(shù),描述正態(tài)分布資料的頻數(shù)分布規(guī) 律,用于估計醫(yī)學參考值范圍; 結(jié)合均數(shù),計算變異系數(shù); 結(jié)合樣本含量,計算標準誤,估計抽樣誤 差,用于統(tǒng)計推斷。
14、標準差40例題甲:n=5 x=2500 x2=1260400乙:n=5 x=2500 x2=1251000丙:n=5 x=2500 x2=1250250(萬/mm3)(萬/mm3)(萬/mm3)41變異系數(shù)(coefficient of variation, CV ),是標準差與均數(shù)的比值,用百分數(shù)表示,沒有單位。計算公式:應用:常用于比較度量單位不同或均數(shù)相差懸殊的兩組(或多組)資料的變異度。六、變異系數(shù)42例2.9 某地調(diào)查100名18歲男大學生,身高(cm) 為172.70, 為4.01;體重(kg) 為55.02, 為4.06,試比較兩者變異度。 由此可見,該地18歲男大學生體重的變異
15、度大于身高的變異度。變異系數(shù)例題身高:體重:43例 某地調(diào)查100名7歲男童的身高(cm) 為119.95, 為4.72;100名18歲男大學生的身高(cm) 為172.70, 為4.01。試比較兩者變異度。 由此可見,該地7歲男童身高的變異程度較18歲男大學生大。變異系數(shù)例題7歲男童:18歲男大學生:44生物現(xiàn)象中有許多變量服從正態(tài)分布,如健康人群的大部分反映身體形態(tài)、生理功能、機體代謝及免疫狀況的解剖學、生理、生化、免疫學指標,一般都基本服從正態(tài)分布。例2.1中,由100名18歲男大學生的身高資料所繪制的直方圖可看出,高峰位于中部,左右兩側(cè)大致對稱。設想,如果觀察例數(shù)逐漸增多,組段不斷分細
16、,直方圖頂端中點的連線就會逐漸形成一條高峰位于中央(均數(shù)所在處),兩側(cè)逐漸降低且左右對稱,不與橫軸相交的光滑曲線。該頻數(shù)曲線(或頻率曲線)被稱作正態(tài)分布曲線。4 正態(tài)分布及其應用1245圖2-1 頻數(shù)分布逐漸接近正態(tài)分布示意圖46正態(tài)分布(normal distribution),也叫高斯分布(Gaussian distribution),是最常見、最重要的一種連續(xù)型分布。定義:設 x 為一隨機變量,若其概率密度函數(shù)可以表示為: 稱 x 服從均數(shù)為 、方差為 的正態(tài)分布,記為 。一、正態(tài)分布的概念及特征47 根據(jù)正態(tài)分布的概率密度函數(shù) 當 和 已知時,以 為橫軸, 為縱軸,可繪出正態(tài)分布圖形
17、正態(tài)曲線(normal curve)。 1. 正態(tài)分布的圖形Xf(X)m48正態(tài)曲線在橫軸上方均數(shù)處最高。正態(tài)分布以均數(shù)為中心,左右對稱。正態(tài)分布有2個參數(shù)-均數(shù)和標準差。均數(shù)決定了曲線的位置,稱為位置參數(shù);標準差決定了曲線的形狀,稱為變異度參數(shù)。正態(tài)分布在 處各有一個拐點。 正態(tài)曲線下面積的分布有一定規(guī)律。2. 正態(tài)分布的特征Xf(X)m49正態(tài)分布的特征(1) 正態(tài)曲線為單峰曲線,在橫軸上方均數(shù)處最高,曲線兩端均以橫軸為漸近線。(2) 正態(tài)分布以均數(shù)為中心,左右對稱。50(3) 正態(tài)分布有2個參數(shù),即均數(shù) 和標準差。 是位置參數(shù),當 固定不變時, 越大,曲線沿橫軸越向右移動;反之, 越小,
18、則曲線沿橫軸越向左移動。 是形狀參數(shù)(亦稱變異度參數(shù)),當 固定不變時, 越大,曲線越平闊; 越小,曲線越尖峭。通常用N( ,2)表示均數(shù)為 ,標準差為 的正態(tài)分布。 不變, 發(fā)生變化 不變, 發(fā)生變化正態(tài)分布的特征51(4) 正態(tài)分布在 處各有一個拐點。 +凸凹凹(5) 正態(tài)曲線下的面積分布有一定規(guī)律。(見下文)正態(tài)分布的特征52標準正態(tài)分布 (standard normal distribution): 均數(shù) ,標準差 的正態(tài)分布 稱為標準正態(tài)分布。概率密度函數(shù)為: 3. 標準正態(tài)分布53 若 x N ( ,2),對 x 進行如下變換: 則可證明,u服從標準正態(tài)分布,即 u N (0 ,1
19、)。標準正態(tài)變換標準正態(tài)離差標準正態(tài)變量x N ( ,2)u N (0 ,1)標準正態(tài)變換標準正態(tài)分布與一般正態(tài)分布的關系:54標準正態(tài)曲線只有一條,因此其性質(zhì)、規(guī)律都是固定的,而普通正態(tài)分布 又可通過 u 變換轉(zhuǎn)化為標準正態(tài)分布 ,從而為研究帶來極大的方便。但在實際應用中,常以樣本為研究對象, 和 未知,此時當 n 足夠大時,可以樣本均數(shù) 和樣本標準差 代替 和 ,則標準正態(tài)變換為 。標準正態(tài)分布55正態(tài)曲線下面積的分布有一定規(guī)律。利用曲線下某一區(qū)間的面積占總面積的百分比,可以估計該區(qū)間的例數(shù)占總例數(shù)的百分比(頻數(shù)分布)或估計觀察值落在該區(qū)間的概率。 正態(tài)曲線下某一區(qū)間的面積可通過對概率密度
20、函數(shù)積分求得。二、正態(tài)曲線下面積的分布規(guī)律561. 正態(tài)曲線下面積的計算圖1中陰影部分反映了(-,x)的面積,計算方法如下:圖2中陰影部分(代表任意區(qū)間)的面積,理論上可以如下計算:xab正態(tài)分布的分布函數(shù)572. 標準正態(tài)曲線下的面積計算對于標準正態(tài)分布,其分布函數(shù)記為 即標準正態(tài)曲線下(-, u)的面積,其大小隨u的變化而變化。為了應用方便,統(tǒng)計學家按 編制了標準正態(tài)分布曲線下的面積分布表(簡稱 u 值表) ,可以根據(jù)u值查表得到區(qū)間(-, u)的面積。58u-x1x2(u)u59603. 一般正態(tài)分布曲線下的面積對于一般的正態(tài)分布 N( , 2),其曲線下(-, x)區(qū)間的面積除與x有關
21、外,還與 和 有關。即不同的正態(tài)曲線,由于其位置和形狀不同,同一區(qū)間內(nèi)的面積是不同的。但可利用標準正態(tài)變換 ,將N( , 2)轉(zhuǎn)化為標準正態(tài)分布,再根據(jù)標準正態(tài)曲線下的面積分布表推算。611. 求 u 值當 、 和 已知時,按 求得 值,再查 值表,求得所求區(qū)間的面積占總面積的比例;當 、 未知且樣本含量n足夠大時,可用樣本均數(shù) 和標準差 分別代替 和 求得 u 的估計值。2. 查 u 值表根據(jù)所求的 u 值查表。查u界值表的步驟:62曲線下橫軸上方的總面積為100 或1;附表僅列出了標準正態(tài)曲線下-到u的面積;標準正態(tài)曲線下對稱于0的區(qū)間其面積相等,如 和 的面積相等, 即 。應用u界值表時
22、應注意:(u)u63例2.10由例2.1資料得:100名18歲男大學生身高的均數(shù) cm,標準差 cm。試估計該地18歲男大學生身高在168cm以下者占該地18歲男大學生總數(shù)的百分數(shù)。本例, 未知但n較大,用 和 分別代替 和 ,按 求得 值 。 查附表1標準正態(tài)曲線下的面積得0.1210,即該地18歲男大學生身高在168cm以下者,約占總數(shù)的12.10%。 64實例: mmol/L, mmol/L, 。 試估計該地正常女子血清甘油三脂在1.10 mmol/L以上者占正常女子血清甘油三脂總?cè)藬?shù)的百分比。本例, 未知但n較大,用 和 分別代替 和 ,按 求得 值,將x=1.10 mmol/L代入公
23、式, 。查u界值表得1-(-0.14)0.5557,即該地正常女子血清甘油三脂在1.10mmol/L以上者占總?cè)藬?shù)的55.57%。 65實例圖示55.57664. 常用正態(tài)曲線下面積及其對應的分位數(shù)x = + u67-+-1.645+1.645-1.96+1.96 -2.58+2.5815.866%15.866%68.27%5%5%90%2.5%2.5%95%99%0.5%0.5%68三、正態(tài)分布的應用許多醫(yī)學現(xiàn)象服從正態(tài)分布或近似正態(tài)分布,如同性別、同年齡兒童的身高;同性別健康成年人的紅細胞數(shù)、血紅蛋白含量、膽固醇、心率等生理生化指標;醫(yī)學實驗中的隨機誤差等,一般都呈現(xiàn)正態(tài)或近似正態(tài)分布,故
24、可按正態(tài)分布規(guī)律處理。有些醫(yī)學資料雖然本身呈偏態(tài)分布,但經(jīng)數(shù)據(jù)變換后可成為正態(tài)或近似正態(tài)分布,如疾病的潛伏期、醫(yī)院病人的住院天數(shù)等,在施加對數(shù)變換后,轉(zhuǎn)化成正態(tài)分布或近似正態(tài)分布,也可以按正態(tài)分布規(guī)律處理。691. 制定醫(yī)學參考值范圍 醫(yī)學參考值范圍(reference ranges),亦稱醫(yī)學正常值范圍,是指所謂“正常人”的解剖、生理、生化等指標的波動范圍。所謂“正常人”不是指“健康人”,而是指排除了影響所研究指標的疾病和有關因素的同質(zhì)人群。70醫(yī)學正常值范圍的用途作為診斷標準,劃分正常與異常的界限;根據(jù)傳染病傳染期的長短確定該病患者的隔離期限,或根據(jù)潛伏期長短確定接觸者的留驗期限;制訂衛(wèi)生標準及有害物質(zhì)的容許濃度,作為保護健康的安全界限;制訂不同性別、年齡兒童的某項生長發(fā)育指標的等級標準;在質(zhì)量控制中制訂各種控制限。71制定醫(yī)學參考值范圍的步驟及要求 1. 選取研究對象,要求樣本含量足夠大,保證研究對象的同質(zhì)性;2. 根據(jù)研究目的和使用要求選定適當?shù)陌俜纸缰?,?0,90,95和99,常用95;3. 根據(jù)指標的實際用途確定單側(cè)或雙側(cè)界值,如白細胞計數(shù)過高或過低皆屬不正常,須確定雙側(cè)界值;又如肝功能檢查中轉(zhuǎn)氨酶過高屬不正常須確定單側(cè)上界,肺活量過低屬不正常須確定單側(cè)下界;4. 根據(jù)資料的分布特點,選用恰當?shù)慕缰涤嬎惴椒ā?2單側(cè)或
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年上海市安全員C2證(專職安全員-土建類)考試試題題庫
- 市場需求與品牌傳播效果評估考核試卷
- 專業(yè)技術(shù)培訓的學習方法考核試卷
- 企業(yè)教育培訓的技能與技能培育導向考核試卷
- 南京信息工程大學《遙感數(shù)字圖像處理Ⅰ》2022-2023學年第一學期期末試卷
- 南京信息工程大學《微機原理》2022-2023學年期末試卷
- 投資組合風險管理理論與應用考核試卷
- 制鞋業(yè)的生產(chǎn)工藝和技術(shù)考核試卷
- 制鞋業(yè)市場推廣新模式考核試卷
- 《山東中健時代健身有限公司經(jīng)營策略研究》
- 美國實時總統(tǒng)大選報告
- 外貿(mào)業(yè)務與國際市場培訓課件
- 信創(chuàng)醫(yī)療工作總結(jié)
- 教師教育教學質(zhì)量提升方案
- 滅火器的規(guī)格與使用培訓
- 2024《中央企業(yè)安全生產(chǎn)治本攻堅三年行動方案(2024-2026年)》
- 紀錄片《園林》解說詞
- 《民間文學導論》課件
- 《輸血查對制度》課件
- 拳擊賽策劃方案
- 分離性障礙教學演示課件
評論
0/150
提交評論