醫(yī)學統(tǒng)計學-第二章數值變量資料的統(tǒng)計描述_第1頁
醫(yī)學統(tǒng)計學-第二章數值變量資料的統(tǒng)計描述_第2頁
醫(yī)學統(tǒng)計學-第二章數值變量資料的統(tǒng)計描述_第3頁
醫(yī)學統(tǒng)計學-第二章數值變量資料的統(tǒng)計描述_第4頁
醫(yī)學統(tǒng)計學-第二章數值變量資料的統(tǒng)計描述_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、2022/9/221第二章 數值變量資料的統(tǒng)計描述 醫(yī)學統(tǒng)計學人民衛(wèi)生出版社學習要求 掌握:常用的集中趨勢指標和離散趨勢指標以及各指標的適用條件;正態(tài)曲線下面積的分布規(guī)律;醫(yī)學參考值范圍的制定。 熟悉:數值變量資料頻數表的編制方法和用途。 了解:正態(tài)分布的概念及特征;質量控制的意義。 第一節(jié) 頻數分布表 頻數是指變量值出現的次數或個數。頻數分布就是變量在其取值范圍內各組段的分布情況。頻數分布可以用頻數分布表、頻數分布圖來表示。編制頻數分布表是統(tǒng)計分析資料的第一步。下面以例2.1,2013年某小學120名8歲健康男孩身高(cm)測量資料為例講解如何編者頻數分布表和頻數分布圖。例2.1 2013年

2、某小學120名8歲男孩身高(cm)測量資料124.5126.2128.1130.6132.6125.4126.5128.4124.5129.5124.7127.8128.3131.7125.8126.8129.5125.6127.6129.8125.4120.3122.3118.2116.7121.6116.8121.6115.1122.0121.6118.7121.8124.5121.7122.7116.3124.0119.0124.5121.7124.9130.0123.5128.2119.7126.1131.3123.7114.7122.3122.8128.6122.0132.4122.

3、0123.5116.2126.1119.1126.5118.4121.0119.1116.8131.1120.4115.2118.0122.3114.2116.9126.4114.3127.2118.3127.8123.0117.3123.2119.8122.1120.4124.8122.3114.4120.5115.0122.7116.8125.6121.1124.8122.7119.5128.2124.1127.3120.0122.7118.2127.1122.5116.3125.1124.5112.3121.3127.0113.4118.9127.6125.2121.5122.4129.

4、1122.6134.5118.2132.9最小值最大值一、頻數表的編制計算極差:即最大值和最小值之差,本例: R=134.5-112.3=22.2(cm) 確定組段和組距 :分組的目的是反映數據分布的特征,組數通常根據觀察例數的多少而定,一般以815個組數為宜。各組段的起點稱為“下限”,終點稱為“上限”。每個組段都是半開半閉區(qū)間,即只包括下限,不包括上限。為計算方便,組距i= R/10,再適當取整。 本例組距i=R/10=2.22(cm),取整數為=2cm。 各組段不能重疊,每個組段都是半開半閉區(qū)間,第一組段應包括所有觀察值中的最小值,其下限一般取包括最小值的、較為整齊的數值。最后一個組段必須

5、包括最大值,其余各個組段首尾相連 繪制頻數表 統(tǒng)計出各組段內的數據個數,繪制頻數表. 見表2-1。用劃記或分卡法將各觀察單位歸如各組段,然后清點各組段內觀察值個數即得各組段頻數。表2-1、120名8歲健康男孩身高(cm)資料頻數分布組段頻數f頻率(%)累計頻數累計頻率(%)112 2 1.7 2 1.7114 7 5.8 9 7.5116 9 7.5 18 15.01181411.7 32 26.71201512.5 47 39.21222117.5 68 56.71241815.0 86 71.71261512.5101 84.212810 8.3111 92.5130 5 4.2116 9

6、6.7132 3 2.5119 99.2134136 1 0.8120100.0最小組段包含最小值最大組段包含最大值相鄰組段不能有重復數字二、頻數分布圖為了能更直觀地了解頻數分布情況,通常在編制頻數分布表的基礎上,繪制頻數分布圖??梢愿又庇^形象地表達頻數分布的信息,并可與頻數分布表互為補充。 常見的頻數分布圖為直方圖(histogram),是一種用垂直條段代表頻數分布的圖形,以身高組段為X軸,標度是各組的組距;以頻數為Y軸,標度是各組頻數大小。見圖2-1。三、頻數分布表和頻數分布圖的主要用途1揭示頻數分布的特征集中趨勢 離散趨勢 2揭示頻數分布的類型對稱分布:正態(tài)分布Symmetric No

7、rmal distribution偏態(tài)分布Skewed distribution正偏態(tài)分布Positively skewed負偏態(tài)分布Negatively skewed資料分布正態(tài)分布:中間高、兩邊低、左右對稱負偏態(tài)分布:長尾向左延伸正偏態(tài)分布:長尾向右延伸三、頻數分布表和頻數分布圖的主要用途3便于發(fā)現某些特大或特小的可疑值:在頻數分布表的兩端,連續(xù)出現幾個組段的頻數為0后,又出現一些特大或特小值,讓人懷疑這些數據的準確性,對于這些數據需要進一步的檢查和核對。 4便于進一步計算統(tǒng)計指標和做統(tǒng)計分析。5大樣本資料的陳述形式:描述一個大樣本資料時,如將所有原始數據都羅列出來,往往顯得過于冗長繁瑣,

8、令人毫無印象,也看不出數據的分布特征與類型。但是如果改用頻數分布表描述,能讓人快速判斷出數據的分布特征和類型,令人印象深刻。 2.2 集中趨勢指標 集中趨勢指標,主要用于描述一組同質數值變量的平均水平或集中趨勢,亦稱平均數。常用的主要有:算術均數幾何均數中位數一、算術均數 簡稱均數,總體均數用表示,樣本均數用 表示。用于描述正態(tài)分布資料或近似正態(tài)分布資料。直接法 常用于小樣本資料。公式為: 加權法 用于頻數表資料。公式為 二、幾何均數 用于描述等比關系資料或對數正態(tài)分布資料,用G表示。直接法 用于小樣本數據。公式為: 加權法 用于樣本中有較多相同變量值或頻數表資料。 有5個人的血清抗體效價為1

9、:10,1:100, 1:1000,1:10000,1:100000。求平均血清抗體效價。5個人的平均血清抗體效價為1:1000抗體效價1:101:201:401:801:160合計人數59201065050人的血清平均抗體效價為1:41.70,即1:42計算幾何均數對變量值的要求不能同時有正值和負值不能有0若全為負值,應先按正值計算,得出結果后再加負號。三、中位數及百分位數 中位數,用M表示,指將一組變量值按從小到大的順序排列,位次居中的變量值。 用于描述偏態(tài)分布資料或分布狀態(tài)不明的資料、變量值中有個別過小或過大值、分布一端或兩端無確定數據的資料平均水平。直接法 先將變量值按從小到大的順序排

10、列。當n為奇數時,位置居中的變量值即為中位數。 當n為偶數時,位置居中的兩個變量值的均數即為中位數。 中位數n為偶數n為奇數有7個人的血壓(收縮壓)測定值(mmHg)為:120、123、125、127、128、130、132, 求中位數。 某病患者8人的潛伏期(天)分別為5,6,8,9,11,11,13,16。求中位數。 8人的平均潛伏期為10天,即M10(天)中位數7人血壓的中位數為M=127(mmHg)頻數表法 先將變量值按從小到大的順序列出頻數表,并分別計算累計頻數和累計頻率,然后找出中位數所在組段,代入下列公式求中位數。式中L為中位數所在組段下限,i為該組段組距, 為該組段的頻數, 為

11、小于L的各組段累計頻數。上限值Ui; fm中位數Md下限值L百分位數是一種位置指標,以 表示。理論上有x比 小,有(100 x)比 大。百分位數計算公式如下: 表2-1 120名8歲健康男孩身高(cm)資料頻數分布組段頻數f頻率(%)累計頻數累計頻率(%)112 2 1.7 2 1.7114 7 5.8 9 7.5116 9 7.5 18 15.01181411.7 32 26.71201512.5 47 39.21241815.0 86 71.71261512.5101 84.212810 8.3111 92.5130 5 4.2116 96.7132 3 2.5119 99.2134136

12、 1 0.8120100.01222117.5 68 56.7 122 21 17.5 68 56.7中位數的特點特定的百分位數(P50),在全部觀察值中有一半比它大,有一半比它小,應用最廣。不是由全部觀察值計算出來的,因此不受特大值、特小值的影響,適用于描述偏態(tài)資料的集中位置。只受居中觀察值波動的影響,因而不敏感。用中位數代替均數、幾何均數會減低靈敏度。均數、幾何均數和中位數的相異點平均數意義應用場合均數平均數量水平應用甚廣,最適合對稱分布,特別是正態(tài)分布幾何均數平均增減倍數1、等比資料;2、對數正態(tài)分布資料中位數位次居中觀察值水平1、偏態(tài)資料;2、分布不明資料;3、分布一端或兩端出現不確定

13、值2.3 離散趨勢指標請比較以下3組數據的離散趨勢:現有三組健康女大學生口腔體溫測得值()如下1組 36.8 36.9 37.0 37.1 37.2 2組 36.5 36.9 37.0 37.1 37.53組 36.5 36.7 37.0 37.3 37.5三組均數均為37.0。一、極差極差也稱全距,以R表示,是一組變量值中最大值和最小值的差。其優(yōu)點是簡單明了。但缺點是僅考慮了資料的最大值和最小值,不能反映組內其他數據的變異程度。上述資料 R1=37.2-36.8=0.4 R2=37.5-36.5=1.0 R3=37.5-36.5=1.0 即第一組的離散趨勢最小,第2、3組離散趨勢相同。顯然這

14、樣的判斷過于簡單,不能反映資料內部數據的變異度情況。二、四分位數間距 ,稱為下四分位數,有四分之一變量值比第25百分位數小。 ,稱為上四分位數,有四分之一變量值比第75百分位數大。四分位數間距Q即為 與 之差。即Q= 適用于偏態(tài)分布資料,比全距穩(wěn)定,但仍未考慮每個變量值的變異程度。表2-1 120名8歲健康男孩身高(cm)資料頻數分布組段頻數f頻率(%)累計頻數累計頻率(%)112 2 1.7 2 1.7114 7 5.8 9 7.5116 9 7.5 18 15.01181411.7 32 26.71201512.5 47 39.21241815.0 86 71.71261512.5101

15、84.212810 8.3111 92.5130 5 4.2116 96.7132 3 2.5119 99.2134136 1 0.8120100.01222117.5 68 56.71222117.5 68 56.7離均差之和離均差 有正有負,正負相抵使得總體上 用 反映離散趨勢,數學上處理比較困難離均差平方和 來反映變異三、方差 自由度n1限制條件的個數,用表示。(n1):當 選定時,n個變量值中能自由變動的變量值的個數。方差優(yōu)點方差越大,資料的離散程度越大(全面考慮了每個觀察值)。不受觀察值個數的影響。方差缺點一些資料不適用于以平方表示。單位為原始單位的平方單位,不能跟均數結合起來用來反

16、映資料的分布特點。四、標準差 標準差是方差的平方根,標準差的單位和變量單位一致。與方差一樣,標準差只取正值??傮w標準差記為,樣本標準差用s表示。標準差的計算方法直接法加權法表3-2 加權法計算標準差組段組中值頻數f fx X2 fX2112113 22261276925538114115 78051322592575116117 91053136891232011181191416661416119825412012115181514641219615122123212583151293177091241251822501562528125012612715190516129241935128

17、12910129016641166410130131 56551716185805132133 33991768953067134136135 11351822518225合計120147821823584 將數值代入計算式標準差的應用描述事物的變異程度:適用于對稱分布資料 衡量均數的代表性:資料的均數相近,度量單位相同的條件下,標準差大,表示觀察值離均數較遠,均數代表性差,表明事物內部數據的變異度大;反之,標準差小,則反映均數的代表性較好,事物內部數據的變異度小 結合樣本均數描述頻數分布特征:描述正態(tài)分布資料的分布特征和估計醫(yī)學參考值范圍計算變異系數和標準誤標準差優(yōu)點根據全部數值計算;適用于

18、代數法處理; 受抽樣變動的影響甚小。 五、變異系數 變異系數表示數據分布的相對離散程度,用于比較均數相差懸殊的兩組或多組資料的離散程度,或比較度量衡單位不同的兩組或多組資料的變異程度。用CV表示。2.4 正態(tài)分布一、正態(tài)分布的概念和特征 正態(tài)分布的密度函數f(X)為:式中為總體均數,為總體標準差,為圓周率,e為自然對數的底,、e皆為常量,僅X為變量。以X為橫軸,f(X)為縱軸,當、已知時,即可按上式繪出正態(tài)分布曲線的圖形。(二) 正態(tài)分布的特征 集中性:正態(tài)曲線在橫軸上方均數處最高。 對稱性:正態(tài)分布以均數為中心,左右對稱。 正態(tài)分布有兩個參數,即均數與標準差。是位置參數;是形狀參數,決定曲線

19、的高矮胖瘦。通常用N(, 2)表示均數為、方差為2的正態(tài)分布,用N(0,1)表示均數為0,方差為1的標準正態(tài)分布。 正態(tài)分布曲線下的面積有一定規(guī)律。 正態(tài)分布圖形特點:鐘型中間高兩頭低左右對稱最高處對應于X軸的值就是均數曲線下面積為1標準差決定曲線的形狀Xf(X)m 二、標準正態(tài)分布標準正態(tài)分布:指均數為0,標準差為1的正態(tài)分布。常稱z分布或u分布。標準正態(tài)分布與正態(tài)分布的轉換公式: 即若x服從正態(tài)分布N(,2),則z就服從均數為0,標準差為1的正態(tài)分布。標準正態(tài)分布z(z)三、正態(tài)曲線下面積的分布規(guī)律正態(tài)曲線下面積的意義:正態(tài)曲線下一定區(qū)間內的面積代表變量值落在該區(qū)間的概率。整個曲線下的面積

20、為1,代表總概率為1。曲線下面積的求法:定積分法和標準正態(tài)分布法 一個服從正態(tài)分布的指標,只要求得其均數與標準差,就能全面掌握該指標頻數的分布規(guī)律。正態(tài)分布曲線下的面積 1.64范圍內的面積為90% 1.96范圍內的面積為95% 2.58范圍內的面積占99%1. 標準正態(tài)分布: 求曲線下(z1,z2)范圍內的面積。z0:查表,分別求從-到z2與 從-到z1的面積; 兩者之差為所求面積。z2z1(2) z0:利用正態(tài)分布的對稱性求曲線 下從-到z范圍的面積。 例:從-到z=1.76范圍內的面積。1.761.76 查表, - 到u=-1.76的面積 為0.0392 可知從z=1.76到+范圍內的面

21、 積也是0.0392 因曲線下總面積為1,故從-到z=1.76范圍內的面積為: 1-0.0392= 0.9608 2. 非標準正態(tài)分布:求曲線下任意(x1,x2)范圍內的面積。先作標準正態(tài)變換; 再查標準正態(tài)分布表求得面積。 例:已知110名7歲男童身高 ?,F欲估計該地身高界于116.5cm到119.0cm范圍內7歲男童比 例及110名7歲男童中身高界于此值范 圍內的人數。 (1) 標準正態(tài)分布變換: (2) 查表得: (3) 求D: 估計該地身高界于116.5119.0cm范圍內的7歲男童比例為13.92%; 估計110名7歲男童中有15名男童的身高界于116.5119.0cm范圍內。正態(tài)分

22、布的應用正態(tài)分布的判斷和檢驗:經驗法和正態(tài)性檢驗描述正態(tài)分布資料的頻數(頻率)分布范圍醫(yī)學參考值范圍的制定(后)用于異常值的剔除用于質量控制:為了控制實驗中的誤差,實驗室的質量控制中,常以 作為上、下警戒限;以 作為上、下控制限。 (2s和3s是1.96s與2.58s的近似值)正態(tài)分布理論的其他應用正態(tài)分布的應用例:從某地隨機抽取100名一年級男大學生,測得平均身高為166.2cm,標準差為5.3cm,現欲估計該地身高界于低于160cm,身高高于180cm,以及身高在165cm175cm范圍內的一年級男大學生的比例和人數。查標準正態(tài)分布表得:(z1) (0.02)0.4920(z2) (1.66)0.04851(z2)+ (z1)0.4595醫(yī)學參考值范圍的制定 正常值范圍(或醫(yī)學參考值范圍):醫(yī)學上常把絕大多數正常人的某指標值的波動范圍稱為該指標的正常值范圍(或醫(yī)學參考值范圍) 。 注意:正常人并非指沒有任何疾病的人,而指同質前提下排除了足以影響所測指標的因素的人。正常值范圍的確定步驟選定正常人群,并抽取一定的樣本含量(一般大樣本)。測定方法應統(tǒng)一、準確。決定是否分組制定醫(yī)學參考值范圍根據專業(yè)知識確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論