醫(yī)學(xué)統(tǒng)計(jì)學(xué)—數(shù)值變量資料的統(tǒng)計(jì)描述正態(tài)分布及其應(yīng)用_第1頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)—數(shù)值變量資料的統(tǒng)計(jì)描述正態(tài)分布及其應(yīng)用_第2頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)—數(shù)值變量資料的統(tǒng)計(jì)描述正態(tài)分布及其應(yīng)用_第3頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)—數(shù)值變量資料的統(tǒng)計(jì)描述正態(tài)分布及其應(yīng)用_第4頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué)—數(shù)值變量資料的統(tǒng)計(jì)描述正態(tài)分布及其應(yīng)用_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)值變量資料的統(tǒng)計(jì)描述數(shù)值變量資料的統(tǒng)計(jì)描述正態(tài)分布及其應(yīng)用正態(tài)分布及其應(yīng)用2主要內(nèi)容主要內(nèi)容2.1 頻數(shù)分布頻數(shù)分布2.2 集中趨勢集中趨勢2.3 離散趨勢離散趨勢2.4 正態(tài)分布及其應(yīng)用正態(tài)分布及其應(yīng)用32.1 頻數(shù)分布頻數(shù)分布頻數(shù)分布表的概念頻數(shù)分布表的編制方法頻數(shù)分布的特征頻數(shù)分布的類型頻數(shù)分布表的用途4 例例2.1某地某地2004年抽樣調(diào)查年抽樣調(diào)查 100名男大學(xué)生的身高名男大學(xué)生的身高(cm)5一、頻數(shù)分布表的概念一、頻數(shù)分布表的概念當(dāng)樣本含量 n 較大時(shí),為了解樣本中觀察值的分布規(guī)律和便于指標(biāo)計(jì)算,可編制頻數(shù)分布表,簡稱頻數(shù)表(頻數(shù)表(frequency table)。頻數(shù):頻

2、數(shù):對某一隨機(jī)現(xiàn)象進(jìn)行重復(fù)觀察,或測量大量個(gè)體的某項(xiàng)特征,其中某個(gè)或某一組變量值出現(xiàn)的次數(shù)。頻數(shù)表:頻數(shù)表:將各變量值與其相應(yīng)的頻數(shù)列成表格形式即為頻數(shù)表。6二、頻數(shù)表的編制二、頻數(shù)表的編制p編制頻數(shù)表時(shí)不可能把所有的變量值及其相應(yīng)頻數(shù)都列出來,特別是當(dāng)樣本例數(shù) n 較大時(shí),此時(shí)需要根據(jù)變量的取值范圍劃分為若干個(gè)組段,再匯總各組段的頻數(shù)。p具體步驟如下:以例2.1資料為例。7全距(或極差,range)是最大值與最小值之差,用 R 表示。例2.1中,最大值為183.5cm,最小值為162.9cm, 故R =183.5-162.9=20.6(cm)。1. 求全距求全距數(shù)值變量資料頻數(shù)表的編制數(shù)值變

3、量資料頻數(shù)表的編制8組段數(shù):組段數(shù):根據(jù)樣本含量的多少確定,一般設(shè)813個(gè)組段。組距:組距:各組段的起點(diǎn)和終點(diǎn)分別稱為下限和上限,相鄰兩組段的下限之差(或每一組段的上、下限之差)稱為組距組距。一般取等距分組,常用全距的1/10取整做組距。某組段(下限+上限)/2為組中值。劃分組段:劃分組段:各組段應(yīng)是連續(xù)的,不能有交叉或重疊。第一組段應(yīng)包括最小值;最末組段應(yīng)包括最大值,并同時(shí)寫出其下限與上限。例2.1中,全距的1/10為 20.6/10 = 2.06,組距取整為2.0cm ;最小值為162.9cm,故第一組段的下限為162cm,第二組段的下限為164cm,依次類推,最末組段為182cm184c

4、m,包含最大值183.5cm 。 2. 確定組段和組距確定組段和組距數(shù)值變量資料頻數(shù)表的編制數(shù)值變量資料頻數(shù)表的編制93. 列出頻數(shù)表列出頻數(shù)表采用計(jì)算機(jī)或劃記法將原始數(shù)據(jù)匯總,得出各組段的觀察例數(shù),即頻數(shù),把各組段(或各觀察值)及其相應(yīng)的頻數(shù)列表即為頻數(shù)表 。注意:注意:最末組段應(yīng)寫出上、下限,其余組段只包最末組段應(yīng)寫出上、下限,其余組段只包含下限,不包含上限。含下限,不包含上限。 數(shù)值變量資料頻數(shù)表的編制數(shù)值變量資料頻數(shù)表的編制102011三、頻數(shù)分布的特征三、頻數(shù)分布的特征頻數(shù)分布的兩個(gè)重要特征: 1. 集中趨勢集中趨勢(central tendency):身高向中央部分集中,以中等身高

5、居多(172cm組段),此為集中趨勢。反映集中位置或平均水平。 2. 離散程度離散程度(tendency of dispersion):由中等身高到較矮或較高的頻數(shù)分布逐漸減少,反映了身高的離散程度。對于數(shù)值變量資料,應(yīng)用集中趨勢集中趨勢和離散程度離散程度二者結(jié)合起來分析其分布規(guī)律。 12圖圖 某地某地100名名18 歲男大學(xué)生身高的頻數(shù)分布?xì)q男大學(xué)生身高的頻數(shù)分布集中趨勢集中趨勢離散程度離散程度13四、頻數(shù)分布的類型四、頻數(shù)分布的類型對稱分布:對稱分布:指頻數(shù)分布的集中位置在中間,左右兩側(cè)大致對稱。偏態(tài)分布:偏態(tài)分布:指頻數(shù)分布不對稱,集中位置偏向一側(cè):集中位置偏向數(shù)值小的一側(cè),稱為正偏態(tài)分

6、布正偏態(tài)分布; 集中位置偏向數(shù)值大的一側(cè),稱為負(fù)偏態(tài)分布負(fù)偏態(tài)分布。 如有害化學(xué)物質(zhì)在正常人體內(nèi)的分布為正偏態(tài)分布;冠心病、大多數(shù)惡性腫瘤等慢性病患者的年齡分布為負(fù)偏態(tài)分布。不同的分布類型應(yīng)選用不同的統(tǒng)計(jì)分析方法。不同的分布類型應(yīng)選用不同的統(tǒng)計(jì)分析方法。 14圖圖2-1 某地某地100名名18歲男大學(xué)生身高的頻數(shù)分布?xì)q男大學(xué)生身高的頻數(shù)分布15五、頻數(shù)表的用途五、頻數(shù)表的用途頻數(shù)表可以揭示資料分布類型和分布特征,以便選取適當(dāng)?shù)慕y(tǒng)計(jì)方法;便于進(jìn)一步計(jì)算指標(biāo)和進(jìn)行統(tǒng)計(jì)分析;便于發(fā)現(xiàn)資料中的某些特大或特小的可疑值。當(dāng)樣本含量特別大時(shí),可以頻率估計(jì)概率。作為資料的陳述形式。在文獻(xiàn)報(bào)告中,用頻數(shù)表既可直

7、觀地反映被研究事物的分布特征,又便于作進(jìn)一步的分析研究。162.2 集中趨勢集中趨勢平均數(shù)平均數(shù)是一類用于描述數(shù)值變量資料集中趨勢的指標(biāo),反映一組同質(zhì)觀察值的平均水平或中心位置。統(tǒng)計(jì)上的平均數(shù)包括均數(shù)、幾何均數(shù)、中位數(shù)、眾數(shù)、調(diào)和均數(shù)等。17一、均數(shù)一、均數(shù)均數(shù)(mean)是算術(shù)均數(shù)(arithmetic mean)的簡稱。定義:定義:指所有觀察值的代數(shù)和除以觀察值的個(gè)數(shù)。符號:符號:樣本均數(shù)用 表示,總體均數(shù)用 (miu)表示。 應(yīng)用:應(yīng)用: 用于反映一組同質(zhì)觀察值的平均水平,應(yīng)用 甚廣。 適用于正態(tài)或近似正態(tài)分布的數(shù)值變量資料。計(jì)算方法:計(jì)算方法:直接法 加權(quán)法 X 18p直接法:用于樣本

8、含量 n 較小時(shí),公式為: 式中,希臘字母 (sigma)表示求和; 為各觀察值;n為樣本含量,即觀察值的個(gè)數(shù)。p例例2.2 某地隨機(jī)抽取某地隨機(jī)抽取10名名18歲健康男大學(xué)生身高歲健康男大學(xué)生身高(cm)分分別為別為168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7,求平均身高,求平均身高。 集中趨勢的描述指標(biāo)集中趨勢的描述指標(biāo)-均數(shù)均數(shù)-直接法直接法nXXXnXXn 21nXXX,2119p加權(quán)法:用于頻數(shù)表資料或樣本中相同觀察值較多時(shí),其公式為:p例例2.3 計(jì)算計(jì)算例例2.1表表2-1 資料資料100名男大學(xué)生的平均身

9、高。名男大學(xué)生的平均身高。 集中趨勢的描述指標(biāo)集中趨勢的描述指標(biāo)-均數(shù)均數(shù)-加權(quán)法加權(quán)法ffXfffXfXfXfXkkk 21221120幾何均數(shù)(geometric mean)定義:定義:指一組觀察值的乘積,再被觀察值個(gè)數(shù)開方。符號:符號:用 表示應(yīng)用:應(yīng)用:適用于 數(shù)據(jù)經(jīng)過對數(shù)變換后呈正態(tài)分布的(對數(shù)正態(tài)分布)資料;觀察值之間呈倍數(shù)或近似倍數(shù)變化(等比關(guān)系)的資料。如醫(yī)學(xué)實(shí)踐中的抗體滴度、平均效價(jià)等。計(jì)算方法:計(jì)算方法:直接法 頻數(shù)表法 G二、幾何均數(shù)二、幾何均數(shù)21例例2.4 有有6份血清的抗體效價(jià)為份血清的抗體效價(jià)為1:10,1:20,1:40,1:80,1:80,1:160, 求其平

10、均效價(jià)。求其平均效價(jià)。 集中趨勢的描述指標(biāo)集中趨勢的描述指標(biāo)-幾何均數(shù)幾何均數(shù)-直接法直接法nnXXXG21)lg(lg)lglglg(lgnXnXXXGn 1211或樣本含量樣本含量 n 較小時(shí)較小時(shí)22p計(jì)算公式:計(jì)算公式:p例例2.5 某地區(qū)某地區(qū)50名麻疹易感兒童接種麻疹疫苗名麻疹易感兒童接種麻疹疫苗1個(gè)個(gè)月后,測其血凝抑制抗體滴度,如表月后,測其血凝抑制抗體滴度,如表2-2中中(1)、(2)欄,求平均抗體滴度。欄,求平均抗體滴度。集中趨勢的描述指標(biāo)集中趨勢的描述指標(biāo)-幾何均數(shù)幾何均數(shù)-頻數(shù)表法頻數(shù)表法)lg(lg)lglglg(lgfXffffXfXfXfGkkk 12122111頻

11、數(shù)表資料或樣本中相同觀察值較多時(shí)頻數(shù)表資料或樣本中相同觀察值較多時(shí)23集中趨勢的描述指標(biāo)集中趨勢的描述指標(biāo)-幾何均數(shù)幾何均數(shù)-加權(quán)法加權(quán)法24注意:注意:計(jì)算幾何均數(shù)時(shí)觀察值中不能有0;一組觀察值中不能同時(shí)有正值和負(fù)值。集中趨勢的描述指標(biāo)集中趨勢的描述指標(biāo)-幾何均數(shù)幾何均數(shù)-加權(quán)法加權(quán)法57)758006. 1 (lg)509003.87(lg)lg(lg111fXfG即其血凝抗體滴度的平均滴度為1:57。25中位數(shù)(median)是一種位置指標(biāo)。定義:將一組觀察值按由小到大的順序排列后位次居中的數(shù)值就是中位數(shù),小于和大于中位數(shù)的觀察值個(gè)數(shù)相等。符號:用 M 表示。應(yīng)用:用于描述任何分布,特別

12、是偏態(tài)分布資料以及頻數(shù)分布的一端或兩端無確切數(shù)據(jù)資料的中心位置。計(jì)算方法:直接法 頻數(shù)表法三、中位數(shù)三、中位數(shù)26p直接法:用于樣本含量 n 較小的資料。 n為奇數(shù)時(shí), n為偶數(shù)時(shí),p例例2.6 某病患者某病患者9名,其發(fā)病的潛伏期名,其發(fā)病的潛伏期(d)分別為:分別為: 2, 3, 3, 3, 4, 5, 6, 9, 16,求發(fā)病潛伏期的中位數(shù)。,求發(fā)病潛伏期的中位數(shù)。 本例n=9,為奇數(shù),故 (d)。 集中趨勢的描述指標(biāo)集中趨勢的描述指標(biāo)-中位數(shù)中位數(shù)-直接法直接法21 / )( nXM2122/ )(/nnXXM452) 1(XXMn27計(jì)算步驟計(jì)算步驟:按所分組段由小到大計(jì)算累計(jì)頻數(shù)和

13、累計(jì)頻率;確定中位數(shù)所在組段,即累計(jì)頻率包含50的組段;求中位數(shù)。 式中, 分別為中位數(shù)所在組段的下限、組距和頻數(shù); 為小于L的各組段的累計(jì)頻數(shù)。 例例2.7 某疾病控制中心記錄了某疾病控制中心記錄了199名沙門氏菌屬食物中名沙門氏菌屬食物中毒患者發(fā)病的潛伏期毒患者發(fā)病的潛伏期(表表2-3),計(jì)算平均發(fā)病潛伏期。,計(jì)算平均發(fā)病潛伏期。集中趨勢的描述指標(biāo)集中趨勢的描述指標(biāo)-中位數(shù)中位數(shù)-頻數(shù)表法頻數(shù)表法)%(LMfnfiLM 50MfiL ,Lf適用于適用于n 較大時(shí)較大時(shí)28集中趨勢的描述指標(biāo)集中趨勢的描述指標(biāo)-中位數(shù)中位數(shù)-頻數(shù)表法頻數(shù)表法29p例:分別取甲、乙、丙三人每人的耳垂血,然后紅細(xì)

14、胞例:分別取甲、乙、丙三人每人的耳垂血,然后紅細(xì)胞計(jì)數(shù),每人數(shù)計(jì)數(shù),每人數(shù)5個(gè)計(jì)數(shù)盤,得結(jié)果如下(萬個(gè)計(jì)數(shù)盤,得結(jié)果如下(萬/mm3)420440460480500520540560580離散趨勢離散趨勢甲甲乙乙丙丙30全距(range,簡記為 R)亦稱極差。定義:定義:指一組同質(zhì)觀察值中最大值與最小值之差。全距反映了個(gè)體差異的范圍:全距大,說明變異度大;反之,全距小,說明變異度小。應(yīng)用:應(yīng)用:簡單明了。常用于說明傳染病、食物中毒等的最短及最長潛伏期。公式:公式:R = xmax- - xmin不足不足:僅考慮了最大值與最小值之差 ,不能反映組內(nèi)其它觀察值的變異度;樣本含量越大,抽到較大或較小

15、觀察值的可能性越大,故全距可能越大。因此,樣本含量相差懸殊時(shí)不宜用全距比較。 一、全距一、全距31二、百分位數(shù)二、百分位數(shù)p百分位數(shù)(percentile)用 表示,0 x 100,是描述一組數(shù)據(jù)某百分位的位置指標(biāo)。 將全部觀察值分為兩部分,理論上有x的觀察值比它小,有(100-x)的觀察值比它大。p最常用的百分位數(shù)是 ,即中位數(shù)。p應(yīng)用:應(yīng)用:常與中位數(shù)結(jié)合應(yīng)用,可以描述一組資料在某百分位置上的水平,也可以描述資料的分布特征。 M - P5 = P95 M 時(shí),分布近似對稱 M -P5 P95 M 時(shí),分布呈負(fù)偏態(tài)xP50PxP32百分位數(shù)百分位數(shù)(percentile)p應(yīng)用:應(yīng)用:也可用

16、多個(gè)百分位數(shù)的結(jié)合來描述一組觀察值的分布特征,如 和 合用時(shí),反映中間50%觀察值的分布情況; 百分位數(shù)可用于確定非正態(tài)分布資料的醫(yī)學(xué)參考值范圍。p注意:注意:應(yīng)用百分位數(shù),樣本含量要足夠大,否則不宜取靠近兩端的百分位數(shù)。p計(jì)算公式:計(jì)算公式: 分別為 所在組段的下限、組距和頻數(shù); 為小于L的各組段的累計(jì)頻數(shù)。 25P75P)%(LxxxfxnfiLP xxfiL , ,xPLf3338.33)101%70199(49/1224)%(70 LxxfxnfiLP 75.23)30%50199(71/1212)%50(50 LMfnfiLMP 百分位數(shù)百分位數(shù)47.57)178%95199(14/

17、1248)%(95 LxxfxnfiLP 98.3)0%5199(30/120)%(5 LxxfxnfiLP 34定義:定義:四分位數(shù)間距(quartile interval,Q ) 為上四分位數(shù)與下四分位數(shù)之差(或 與 之差)。計(jì)算公式:計(jì)算公式:應(yīng)用:應(yīng)用:用于描述偏態(tài)分布以及分布的一端或兩端無確切數(shù)值資料或分布類型未知資料的離散程度。三、四分位數(shù)間距三、四分位數(shù)間距2575PPQQQLU75P25P35四分位數(shù)間距包括了一組觀察值的一半,故可把四分位數(shù)間距看成是中間50%觀察值的極差。意義:意義:Q 越大,變異度越大;反之,Q 越小,變異度越小。特點(diǎn):特點(diǎn):由于四分位數(shù)間距不受兩端個(gè)別極

18、大值或極小值的影響,因而它較全距穩(wěn)定,但仍未考慮全部觀察值的變異度 。 離散程度的描述指標(biāo)離散程度的描述指標(biāo)-四分位數(shù)間距四分位數(shù)間距36p極差和四分位數(shù)間距都只考慮了個(gè)別觀察值的大小差異,沒有全面反映每個(gè)觀察值的變異程度。p就總體而言,即應(yīng)考慮總體中每個(gè)觀察值 與總體均數(shù) 的差值( ),即離均差。p因離均差之和 ,不能反映變異度的大小,故用離均差平方和 (sum of squares of deviations from mean)反映之。離均差平方和的大小除與變異度有關(guān)外,還與變量值的個(gè)數(shù)N 有關(guān)。為了消除這一影響,取離均差平方和的均數(shù),稱方差(variance)或均方(mean of s

19、quares)。四、方差四、方差XX0)(X2)( X37p計(jì)算公式:計(jì)算公式: 總體方差 樣本方差pn-1為自由度(degree of freedom),一般用 (niu)表示。p因方差的度量單位是原度量單位的平方,故計(jì)算結(jié)果難以解釋。 離散程度的描述指標(biāo)離散程度的描述指標(biāo)-方差方差NX22)( 122nXXs)( 38p計(jì)算公式:計(jì)算公式: 總體標(biāo)準(zhǔn)差 樣本標(biāo)準(zhǔn)差五、標(biāo)準(zhǔn)差五、標(biāo)準(zhǔn)差NX2)( 12nXXs)( 39樣本標(biāo)準(zhǔn)差樣本標(biāo)準(zhǔn)差p離均差平方和 常用 或 表示。 直接法: 加權(quán)法: 2)(XX SSXXlnXXXXlSSXX/)()(2221/)(22nnXXs1/)(22fffXf

20、Xs01. 499100/1727029841241/)(222fffXfXs求表2-1中100名18歲男大學(xué)生身高的標(biāo)準(zhǔn)差。 100f17270fX29841242fX40意義:意義:標(biāo)準(zhǔn)差大,表示觀察值的變異度大; 反之,標(biāo)準(zhǔn)差小,表示觀察值的變異度小。應(yīng)用:應(yīng)用:適用于描述對稱分布資料尤其是正態(tài)分布資 料的離散程度。 結(jié)合均數(shù),描述正態(tài)分布資料的頻數(shù)分布規(guī) 律,用于估計(jì)醫(yī)學(xué)參考值范圍; 結(jié)合均數(shù),計(jì)算變異系數(shù); 結(jié)合樣本含量,計(jì)算標(biāo)準(zhǔn)誤,估計(jì)抽樣誤 差,用于統(tǒng)計(jì)推斷。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差41例題例題p甲:甲:n=5 x=2500 x2=1260400p乙:乙:n=5 x=2500 x2=1251000p丙:丙:n=5 x=2500 x2=125025099.50155/250012604001/)(222nnXXs甲甲81.15155/250012510001/)(222nnXXs乙乙91. 7155/250012502501/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論