《衛(wèi)生統(tǒng)計學》網上教案_第1頁
《衛(wèi)生統(tǒng)計學》網上教案_第2頁
《衛(wèi)生統(tǒng)計學》網上教案_第3頁
《衛(wèi)生統(tǒng)計學》網上教案_第4頁
《衛(wèi)生統(tǒng)計學》網上教案_第5頁
已閱讀5頁,還剩137頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《衛(wèi)生統(tǒng)計學》網上教案..................................................................2

第一章緒論.....................................................................2

第一節(jié)衛(wèi)生統(tǒng)計學的定義和內容.................................................3

第二節(jié)統(tǒng)計工作的步驟.........................................................4

第三節(jié)統(tǒng)計學中的幾個基本概念.................................................5

第四節(jié)學習衛(wèi)生統(tǒng)計學應注意的問題.............................................8

第二章定量資料的統(tǒng)計描述.........................................................8

第一節(jié)數值變量資料的頻數表...................................................8

第二節(jié)集中趨勢的統(tǒng)計描述指標................................................10

第三節(jié)離散程度的統(tǒng)計描述指標................................................12

第三章正態(tài)分布及其應用...........................................................14

第一節(jié)正態(tài)分布的概念和特征..................................................14

第二節(jié)正態(tài)分布的應用........................................................16

第四章總體均數的估計和假設檢驗..................................................18

第一節(jié)抽樣研究與抽樣誤差....................................................18

第二節(jié)匕分布.................................................................21

第三節(jié)總體均數的估計........................................................23

第四節(jié)假設檢驗的基本步驟....................................................24

第五節(jié)樣本與總體比較的假設檢驗..............................................26

第六節(jié)配對設計(paireddesign)資料的假設檢驗................................27

第七節(jié)兩樣本比較的假設檢驗..................................................28

第八節(jié)第一類錯誤與第二類錯誤................................................29

第五章方差分析...................................................................30

第一節(jié)方差分析的基本思想.....................................................31

第二節(jié)完全隨機設計的單因素方差分析(one-wayANOVA)..................................................34

第三節(jié)隨機區(qū)組設計的兩因素方差分析(two-wayANOVA)...............................................36

第四節(jié)多個樣本均數間的多重比較...............................................39

第五節(jié)多個樣本的方差齊性檢驗.................................................43

第六節(jié)變量變換................................................................44

第六章定性資料的統(tǒng)計描述........................................................45

第七章二項分布與Poisson分布及其應用............................................48

第一節(jié)二項分布的概念與特征..................................................48

第二節(jié)二項分布的應用........................................................51

第三節(jié)Poisson分布的概念與特征...............................................52

第四節(jié)Poisson分布的應用......................................................55

第八章三檢驗..................................................................58

第一節(jié)四格表資料的才檢驗....................................................58

第二節(jié)配對四格表資料的%2檢驗................................................60

第三節(jié)四格表資料的Fisher確切概率法.........................................62

第四節(jié)行x列表資料的公檢驗..................................................64

第五節(jié)多個樣本率比較的%2分割法..............................................65

第六節(jié)頻數分布擬合優(yōu)度的%2檢驗..............................................69

第九章秩和檢驗...................................................................70

第一節(jié)配對設計和單樣本資料的符號秩和檢驗...................................71

第二節(jié)完全隨機化設計兩獨立樣本的秩和檢驗..................................73

第三節(jié)完全隨機化設計多組獨立樣本的秩和檢驗................................74

第四節(jié)隨機化區(qū)組設計資料的秩和檢驗..........................................75

第五節(jié)多個樣本間的多重比較...................................................77

第六節(jié)小結..................................................................80

第十章直線回歸與相關............................................................81

第一節(jié)直線回歸...............................................................81

第二節(jié)直線相關分析..........................................................90

第三節(jié)等級相關..............................................................94

第四節(jié)曲線擬合..............................................................96

第十二章統(tǒng)計表和統(tǒng)計圖..........................................................99

第十三章實驗設計................................................................105

第一節(jié)實驗設計的特點及分類.................................................106

第二節(jié)實驗設計的基本要素...................................................106

第三節(jié)實驗設計的基本原則...................................................109

第四節(jié)常用的實驗設計方法...................................................123

第十四章調查設計...............................................................131

第一節(jié)調查研究的特點.......................................................131

第二節(jié)調查設計的基本原則與內容.............................................132

第三節(jié)常用的抽樣方法.......................................................134

第四節(jié)調查的質量控制.......................................................134

第十五章醫(yī)學人口統(tǒng)計學與疾病統(tǒng)計常用指標.......................................135

第一節(jié)醫(yī)學人口統(tǒng)計常用指標.................................................135

第二節(jié)疾病統(tǒng)計常用指標......................................................140

《衛(wèi)生統(tǒng)計學》網上教案

第一章緒論

學時分配:2學時

掌握內容:

1、衛(wèi)生統(tǒng)計學的定義

2、統(tǒng)計工作的步驟

3、統(tǒng)計學中的幾個基本概念

4、學習衛(wèi)生統(tǒng)計學應注意的問題

了解內容:衛(wèi)生統(tǒng)計學的內容

第一節(jié)衛(wèi)生統(tǒng)計學的定義和內容

1、衛(wèi)生統(tǒng)計學的定義

統(tǒng)計學(statistics)是研究數據的收集、整理和分析的一門科學,幫助人們分析所

占有的信息,達到去偽存真、去粗取精、正確認識世界的一種重要手段。

衛(wèi)生統(tǒng)計學(healthstatistics)是應用數統(tǒng)計學的原理與方法研究居民健康狀況以及

衛(wèi)生服務領域中數據的收集、整理和分析的一門科學。

Webster國際大辭典(第三版)對統(tǒng)計學的定義是“asciencedealingwiththecollection,

analysis,interpretationandpresentationofnumericaldata"。LastJM主編的一本流行病學

辭典對統(tǒng)計學的定義是"thescienceandartofdealingwithvariationindatathrough

collection,classificationandanalysisinsuchawayastoobtainreliableresults^^。由此看出:

統(tǒng)計學是處理資料中變異性的科學和藝術,是在收集、歸類、分析和解釋大量數據的過

程中獲取可靠結果的一門學科。這里強調了“過程”,但在實際工作中,許多人往往是忽

略了設計、收集和歸類(整理),到了分析數據時才想到統(tǒng)計學,此時難免發(fā)生“悔之晚

矣”的憾事。作為統(tǒng)計學的應用者應充分認識到這一點。

2、衛(wèi)生統(tǒng)計學的內容:

1)健康統(tǒng)計:醫(yī)學人口統(tǒng)計、疾病統(tǒng)計和生長發(fā)育統(tǒng)計等;

2)衛(wèi)生服務統(tǒng)計:包括衛(wèi)生資源利用、醫(yī)療衛(wèi)生服務的需求、醫(yī)療保健體制改革

等方面的統(tǒng)計學問題。

本教材的主要內容為:

1)衛(wèi)生統(tǒng)計學的基本原理和方法:包括統(tǒng)計描述(定量資料和分類資料的描述性

指標以及常用統(tǒng)計圖表)、常見的理論分布及其應用(正態(tài)分布、二項分布與Poisson分

布)、總體參數的估計(分總體均數、總體率和總體平均數)、假設檢驗C檢驗、〃檢驗、

方差分析、「檢驗、秩和檢驗等)、回歸與相關、多元線性回歸與logistic回歸、實驗設

計和調查設計(第2?第14章);

2)健康統(tǒng)計:醫(yī)學人口與疾病統(tǒng)計中常用的指標(第15章)、壽命表(第16章)、

生存率分析(第17章);

3)常用的綜合評價方法(第18章)。

第二節(jié)統(tǒng)計工作的步驟

統(tǒng)計學對統(tǒng)計工作的全過程起指導作用,任何統(tǒng)計工作和統(tǒng)計研究的全過程都可分

為以下四個步驟:

1、設計(design):在進行統(tǒng)計工作和研究工作之前必須有一個周密的設計。設計

是在廣泛查閱文獻、全面了解現狀、充分征詢意見的基礎上,對將要進行的研究工作所

做的全面設想。其內容包括:明確研究目的和研究假說,確定觀察對象、觀察單位、樣

本含量和抽樣方法,擬定研究方案、預期分析指標、誤差控制措施、進度與費用等。設

計是整個研究工作中最關鍵的一環(huán),也是指導以后工作的依據(詳見第13、14章)。

2、收集資料(collection):遵循統(tǒng)計學原理采取必要措施得到準確可靠的原始資料。

及時、準確、完整是收集統(tǒng)計資料的基本原則。衛(wèi)生工作中的統(tǒng)計資料主要來自以下三

個方面:①統(tǒng)計報表:是由國家統(tǒng)一設計,有關醫(yī)療衛(wèi)生機構定期逐級上報,提供居民

健康狀況和醫(yī)療衛(wèi)生機構工作的主要數據,是制定衛(wèi)生工作計劃與措施、檢查與總結工

作的依據。如法定傳染病報表,職業(yè)病報表,醫(yī)院工作報表等。②經常性工作記錄:如

衛(wèi)生監(jiān)測記錄、健康檢查記錄等。③專題調查或實驗。

3、整理資料(sortingdata):收集來的資料在整理之前稱為原始資料,原始資料通

常是一堆雜亂無章的數據。整理資料的目的就是通過科學的分組和歸納,使原始資料系

統(tǒng)化、條理化,便于進一步計算統(tǒng)計指標和分析。其過程是:首先對原始資料進行準確

性審查(邏輯審查與技術審查)和完整性審查;再擬定整理表,按照“同質者合并,非

同質者分開”的原則對資料進行質量分組,并在同質基礎上根據數值大小進行數量分組;

最后匯總歸納。

4、分析資料(analysisofdata):其目的是計算有關指標,反映數據的綜合特征,闡明

事物的內在聯(lián)系和規(guī)律。統(tǒng)計分析包括統(tǒng)計描述(descriptivestatistics)和統(tǒng)計推斷

(inferentialstatistics)<,前者是用統(tǒng)計指標與統(tǒng)計圖(表)等方法對樣本資料的數量特

征及其分布規(guī)律進行描述(詳見第2、6、12章);后者是指如何抽樣,以及如何用樣本

信息推斷總體特征(詳見第4、5、7、8、9、10、11、17、18章)。進行資料分析時,

需根據研究目的、設計類型和資料類型選擇恰當的描述性指標和統(tǒng)計推斷方法。

統(tǒng)計工作的四個步驟緊密相連、不可分割,任何一步的缺陷,都將影響整個研究結

果。

第三節(jié)統(tǒng)計學中的幾個基本概念

1>同質(homogeneity)與變異(variation)

嚴格地講,同質是指被研究指標的影響因素完全相同。但在醫(yī)學研究中,有些影響

因素往往是難以控制的(如遺傳、營養(yǎng)等),甚至是未知的。所以,在統(tǒng)計學中常把同

質理解為對研究指標影響較大的、可以控制的主要因素盡可能相同。例如研究兒童的身

高時,要求性別、年齡、民族、地區(qū)等影響身高較大的、易控制的因素要相同,而不易

控制的遺傳、營養(yǎng)等影響因素可以忽略。

同質基礎上的個體差異稱為變異。如同性別、同年齡、同民族、同地區(qū)的健康兒童

的身高、體重不盡相同。事實上,客觀世界充滿了變異,生物醫(yī)學領域更是如此。哪里

有變異,哪里就需要統(tǒng)計學。若所研究的同質群體中所有個體一模一樣,只需觀察任一

個體即可,無須進行統(tǒng)計研究。

2、總體(population)與樣本(sample)

任何統(tǒng)計研究都必須首先確定觀察單位(observedunit),亦稱個體(individual)。

觀察單位是統(tǒng)計研究中最基本的單位,可以是一個人、一個家庭、一個地區(qū)、一個樣

品、一個采樣點等。

總體是根據研究目的確定的同質觀察單位的全體,或者說,是同質的所有觀察單位

某種觀察值(變量值)的集合。例如欲研究山東省2002年7歲健康男孩的身高,那么,

觀察對象是山東省2002年的7歲健康男孩,觀察單位是每個7歲健康男孩,變量是身

高,變量值(觀察值)是身高測量值,則山東省2002年全體7歲健康男孩的身高值構

成一個總體。它的同質基礎是同地區(qū)、同年份、同性別、同為健康兒童??傮w又分為有

限總體(finitepopulation)和無限總體(infinitepopulation)0有限總體是指在某特定的

時間與空間范圍內,同質研究對象的所有觀察單位的某變量值的個數為有限個,如上例;

無限總體是抽象的,無時間和空間的限制,觀察單位數是無限的,如研究碘鹽對缺碘性

甲狀腺病的防治效果,該總體的同質基礎是缺碘性甲狀腺病患者,同用碘鹽防治;該總

體應包括已使用和設想使用碘鹽防治的所有缺碘性甲狀腺病患者的防治效果,沒有時間

和空間范圍的限制,因而觀察單位數無限,該總體為無限總體。

在實際工作中,所要研究的總體無論是有限的還是無限的,通常都是采用抽樣研究。

樣本是按照隨機化原則,從總體中抽取的有代表性的部分觀察單位的變量值的集合。如

從上例的有限總體(山東省2002年7歲健康男孩)中,按照隨機化原則抽取100名7

歲健康男孩,他們的身高值即為樣本。從總體中抽取樣本的過程為抽樣,抽樣方法有多

種,詳見第14章。抽樣研究的目的是用樣本信息推斷總體特征。

統(tǒng)計學好比是總體與樣本間的橋梁,能幫助人們設計與實施如何從總體中科學地抽

取樣本,使樣本中的觀察單位數(亦稱樣本含量,samplesize)恰當,信息豐富,代表

性好;能幫助人們挖掘樣本中的信息,推斷總體的規(guī)律性。

3、資料(data)與變量(variable)及其分類

總體確定之后,研究者應對每個觀察單位的某項特征進行測量或觀察,特征稱為變

量。如“身高”、“體重”、“性別”、“血型”、“療效”等。變量的測定值或觀察值稱為變量

值(valueofvariable)或觀察值(observedvalue),亦稱為資料。

按變量的值是定量的還是定性的,可將變量分為以下類型,變量的類型不同,其分

布規(guī)律亦不同,對它們采用的統(tǒng)計分析方法也不同。在處理資料之前,首先要分清變量

類型。

1)數值變量(numericalvariable):其變量值是定量的,表現為數值大小,可經測

量取得數值,多有度量衡單位。如身高(cm)、體重(kg)、血壓(mmHgkPa)、脈搏

(次/min)和白細胞計數(X1()9/L)等。這種由數值變量的測量值構成的資料稱為數值

變量資料?,亦稱為定量資料(quantitativedata)。大多數的數值變量為連續(xù)型變量,如身

高、體重、血壓等;而有的數值變量的測定值只能是正整數,如脈搏、白細胞計數等,

在醫(yī)學統(tǒng)計學中把它們也視為連續(xù)型變量。

2)分類變量(catagoricalvariable):其變量值是定性的,表現為互不相容的類別或

屬性。分類變量可分為無序變量和有序變量兩類:

(1)無序分類變量(unorderedcategoricalvariable)是指所分類別或屬性之間無程

度和順序的差別。,它又可分為①二項分類,如性別(男、女),藥物反應(陰性和陽性)

等;②多項分類,如血型(0、A、B、AB),職業(yè)(工、農、商、學、兵)等。對于無

序分類變量的分析,應先按類別分組,清點各組的觀察單位數,編制分類變量的頻數表,

所得資料為無序分類資料,亦稱計數資料。

(2)有序分類變量(ordinalcategoricalvariable)各類別之間有程度的差別。如尿

糖化驗結果按一、土、+、++、+++分類;療效按治愈、顯效、好轉、無效分類。

對于有序分類變量,應先按等級順序分組,清點各組的觀察單位個數,編制有序變量(各

等級)的頻數表,所得資料稱為等級資料。

變量類型不是一成不變的,根據研究目的的需要,各類變量之間可以進行轉化。例

如血紅蛋白量(g/L)原屬數值變量,若按血紅蛋白正常與偏低分為兩類時,可按二項

分類資料分析;若按重度貧血、中度貧血、輕度貧血、正常、血紅蛋白增高分為五個等

級時,可按等級資料分析。有時亦可將分類資料數量化,如可將病人的惡心反應以0、

1、2、3表示,則可按數值變量資料(定量資料)分析。

4、隨機事件(randomevent)與概率(probability)

醫(yī)學研究的現象,大多數是隨機現象,對隨機現象進行實驗或觀察稱為隨機試驗。

隨機試驗的各種可能結果的集合稱為隨機事件,亦稱偶然事件,簡稱事件。例如用相同

治療方案治療一批某病的患者,治療轉歸可能為治愈、好轉、無效、死亡四種結果,對

于一個剛入院的患者,治療后究竟發(fā)生哪一種結果是不確定的,可能發(fā)生的每一種結果

都是一個隨機事件。

對于隨機事件來說,在一次隨機試驗中,某個隨機事件可能發(fā)生也可能不發(fā)生,但

在一定數量的重復試驗后,該隨機事件的發(fā)生情況是有規(guī)律可循的。概率是描述隨機事

件發(fā)生的可能性大小的數值,常用P表示。例如,投擲一枚均勻的硬幣,隨機事件A

表示“正面向上”,用n表示投擲次數;m表示隨機事件A發(fā)生的次數;f表示隨機事

件A發(fā)生的頻率(f=m/n),0<m<n,0<^lo用不同的投擲次數n作隨機試驗,結果如

下:m/n=8/l0=0.8,7/20=0.35,,249/500=0.498,501/1000=0.501,10001/2000=0.5000,

由此看出當投擲次數n足夠大時戶m/n-0.5,稱尸(A)=0.5,或簡寫為:P=0.5。當n足

夠大時,可以用f估計P。

隨機事件概率的大小在0與1之間,即0<P<l,常用小數或百分數表示。P越接近

1,表示某事件發(fā)生的可能性越大;尸越接近0,表示某事件發(fā)生的可能性越小。尸=1

表示事件必然發(fā)生,P=0表示事件不可能發(fā)生,它們是確定性的,不是隨機事件,但

可以把它們看成隨機事件的特例。

若隨機事件A的概率尸(A)ga,習慣上,當方0.05時,就稱A為小概率事件。其統(tǒng)

計學意義是小概率事件在一次隨機試驗中不可能發(fā)生。例如,某都市大街上疾駛的汽車

撞傷行人的事件的發(fā)生概率為1/萬,但大街上仍有行人,這是因為“被撞”事件是小概

率事件,所以行人認為自己上街這“一次試驗”中不會發(fā)生“被撞”事件?!靶「怕省钡臉藴?/p>

a是人為規(guī)定的,對于可能引起嚴重后果的事件,如術中大出血等,可規(guī)定好0.01,甚

至更小。

第四節(jié)學習衛(wèi)生統(tǒng)計學應注意的問題

衛(wèi)生統(tǒng)計學是從事公共衛(wèi)生領域研究和工作的必要基礎。預防醫(yī)學專業(yè)的學生在學

習本課程時應注意:

1、醫(yī)學生在學習過程中必須運用邏輯思維方法掌握衛(wèi)生統(tǒng)計學的基本知識、基本

技能、基本概念和基本方法。切忌死記硬背、生搬硬套,應通過實例提高綜合分析問題

的能力。

2、掌握調查設計和實驗設計的原則,培養(yǎng)收集、整理、分析統(tǒng)計資料的系統(tǒng)工作

能力。在統(tǒng)計工作中要以實事求是、嚴謹的科學態(tài)度對待原始資料,反對偽造和篡改統(tǒng)

計數字。通過學習這門課程,逐步樹立起實事求是、嚴謹的工作作風。

3、在學習統(tǒng)計指標與分析方法時,應重點掌握統(tǒng)計公式的意義、用途和應用條件,

不必深究其數學推導。最終掌握正確的分析思路:進行資料分析時,需根據研究目的、

設計類型和資料類型選擇恰當的描述性指標和統(tǒng)計推斷方法。

(王潔貞)

第二章定量資料的統(tǒng)計描述

學時分配:4學時

掌握內容:

1、頻數表的編制

2、集中趨勢的描述

3、離散趨勢的描述

第一節(jié)數值變量資料的頻數表

統(tǒng)計描述是用統(tǒng)計指標、統(tǒng)計圖或統(tǒng)計表描述資料的分布規(guī)律及其數量特征。

頻數表是統(tǒng)計描述中經常使用的基本工具之一。

1.頻數表(frequencytable)的編制

在觀察值個數較多時,為了解一組同質觀察值的分布規(guī)律和便于指標的計算,可編

制頻數分布表,簡稱頻數表。

(1)求全距(range):找出觀察值中的最大值與最小值,其差值即為全距(或極差),

用R表示。

(2)確定組段和組距:根據樣本含量的大小確定“組段”數,一般設8-15個組段,

觀察單位較少時組段數可相對少些,觀察單位較多時組段數可相對多些,常用全距的

1/10取整做組距,以便于匯總和計算。第一組段應包括全部觀察值中的最小值,最末組

段應包括全部觀察值中的最大值,并且同時寫出其下限與上限。各組段的起點和終點分

別稱為下限和上限,某組段包含下限,但不包含上限,其組中值為該組段的(下限+上

限)/2。相鄰兩組段的下限之差稱為組距。

(3)列表劃記:確定組段界限,列成表2.1的形式,采用計算機或用劃記法將原始

數據匯總,得出各組段的觀察例數,即頻數,表中的第(1)、(3)欄即所需的頻數表。

表2.1某地110名18歲男大學生身高(cm)均數的頻數表

身高組段劃記頻數,f組中值,X

(1)(2)(3)(4)

108-—1109

110-T3111

112-正IF9113

114-正F9115

116-正正正15117

118-正正正下18119

120-正正正正一21121

122?正正F14123

124-正正10125

126~iF4127

128-T3129

130?T2131

132T34—1133

合計110

2.頻數分布的特征

由頻數表可看出頻數分布的兩個重要特征:集中趨勢(centraltendency)和離散程

度(dispersion)。身高有高有矮,但多數人身高集中在中間部分組段,以中等身高居多,

此為集中趨勢;由中等身高到較矮或較高的頻數分布逐漸減少,反映了離散程度。對于

數值變量資料?,可從集中趨勢和離散程度兩個側面去分析其規(guī)律性。

3.頻數分布的類型

頻數分布有對稱分布和偏態(tài)分布之分。對稱分布是指多數頻數集中在中央位置,兩

端的頻數分布大致對稱。偏態(tài)分布是指頻數分布不對稱,集中位置偏向一側,若集中位

置偏向數值小的i側,稱為正偏態(tài)分布;集中位置偏向數值大的一側,稱為負偏態(tài)分布,

如冠心病、大多數惡性腫瘤等慢性病患者的年齡分布為負偏態(tài)分布。臨床上正偏態(tài)分布

資料較多見。不同的分布類型應選用不同的統(tǒng)計分析方法。

4.頻數表的用途

可以揭示資料分布類型和分布特征,以便選取適當的統(tǒng)計方法;便于進一步計算指

標和統(tǒng)計處理;便于發(fā)現某些特大或特小的可疑值。

第二節(jié)集中趨勢的統(tǒng)計描述指標

描述一組同質觀察值的平均水平或中心位置的常用指標有均數、兒何均數、中位數

等。

1.均數(mean,average):是算術均數(arithmeticmean)的簡稱。常用X表示樣

本均數,〃表示總體均數。均數用于反映一組同質觀察值的平均水平,適用于正態(tài)或近

似正態(tài)分布的數值變量資料。其計算方法有:

(1)直接法:用于樣本含量較少時,其公式為:

下二江=X+X?+…X”(2.1)

nn

式中,希臘字母E(讀作sigma)表示求和;X,為,…,Xn為各觀察值;〃為樣本含

量,即觀察值的個數。

(2)加權法(weightingmethod):用于頻數表資料或樣本中相同觀察值較多時,其

公式為:

又_//+人工+...+,3=

(2.2)

'/+力+…+£,Z/

式中,X,E,…,及與力,力,…,人分別為頻數表資料中各組段的組中值和相應

組段的頻數(或相同觀察值與其對應的頻數)。

2.幾何均數(geometricmean)用G表示,適用于①對數正態(tài)分布,即數據經過對

數變換后呈正態(tài)分布的資料;②等比級數資料,即觀察值之間呈倍數或近似倍數變化的

資料如醫(yī)學實踐中的抗體滴度、平均效價等。其計算方法有

(1)直接法:

G=NXH2...X“

G=ig-iJgX]+吆/+…+lgX“)=-i(Z:X)

或lg(2.3)

nn

(2)加權法:

G-./JgM+/21gX2+…+/lgX*

=lglgT(W/:X)(2.4)

./;+,/;+????+工J

注意:計算兒何均數時觀察值中不能有0,因0不能取對數;-組觀察值中不能同

時有正或負值。

3.中位數(median)用"表示。中位數是一組由小到大按順序排列的觀察值中

位次居中的數值。中位數可用于描述①非正態(tài)分布資料(對數正態(tài)分布除外);②頻數

分布的一端或兩端無確切數據的資料③總體分布不清楚的資料。在全部觀察中,小于和

大于中位數的觀察值個數相等。

(1)直接法:將觀察值由小到大排列,按式(2.6)或式(2.7)計算。

〃為奇數,M=X(n+l)/2(1.5)

〃為偶數,+X”)(1.6)

2ir1

式中下標緊下、為有序數列的位次。X苧、“、為相應位次的

觀察值。

(2)頻數表法:用于頻數表資料。

計算步驟是:①計算]的大小,并按所分組段由小到大計算累計頻數和累計頻率,

如表2.1第(3)、(4)欄;②確定〃所在組段。累計頻數中大于的最小數值所在的組段

即為〃所在的組段;或累計頻率中大于50%的最小頻率所在的組段即為/所在的組段。

③按式(2.7)求中位數”。

屈=2+3q-”)(2.7)

式中:L、八£”分別為“所在組段的下限、組距和頻數;E九為小于L的各組

段的累計頻數。

例1.1由表2.1計算中位數

表2.1199名食物中毒患者潛伏期的〃和Px的計算

潛伏明(小時)W累計頻數X/累計頻率(%)

泊1A""(2)(3)(4)=(3)/〃

(1)

0?303015.1

12?7110150.8

24?4915075.4

36?2817889.4

48?1419296.5

60?619899.5

72?841199100.0

合計199

本例”=199,根據表2.3第(2)欄數據,自上而下計算累計頻數及累計頻率,見

第(3)、(4)欄。1=99.5,由第(3)欄知,101是累計頻數中大于99.5的最小值,

或由第(4)欄知50.8%是大于50%的最小的累計頻率,故”在“12?”組段內,將

相應的A、八%o、代入(2.8),求得M。

止尸50=£+-!-(〃.50%-2人)=12+12/71(199x50%-30)=23.75(小時)

人0

4.百分位數(percentile)用?表示。一個百分位數Px將一組觀察值分為兩部

分,理論上有X%的觀察值比它小,有(100-X)%的觀察值比它大,是一種位置指

標。中位數是一個特定的百分位數,即止P50。百分位數的計算步驟與中位數類似,

首先要確定Px所在的組段。先計算〃“%,累計頻數中大于〃?*%的最小值所在的

組段就是Px所在組段。計算見公式(2.8)。

人=£+/(〃.X%-“)(2.8)

JX

式中:L、八△分別為外所在組段的下限、組距和頻數;為小于L的各組段的

累計頻數。

百分位數用于描述一組數據某一百分位位置的水平,多個百分位數的結合應用

時,可描述一組觀察值的分布特征;百分位數可用于確定非正態(tài)分布資料的醫(yī)學參

考值范圍。應用百分位數,樣本含量要足夠大,否則不宜取靠近兩端的百分位數。

第三節(jié)離散程度的統(tǒng)計描述指標

描述數值變量資料頻數分布的另一主要特征是離散程度,用變異指標表示。只有把

集中指標和離散指標結合起來才能全面反映資料的分布特征。常用變異指標有全距、四

分位數間距、方差、標準差、變異系數。

1.全距(range,簡記為R):亦稱極差,是一組同質觀察值中最大值與最小值之差。

它反映了個體差異的范圍,全距大,說明變異度大;反之,全距小,說明變異度小。用

全距描述定量資料的變異度大小,雖然計算簡單,但不足之處有:①只考慮最大值與最

小值之差異,不能反映組內其它觀察值的變異度;②樣本含量越大,抽到較大或較小觀

察值的可能性越大,則全距可能越大。因此樣本含量相差懸殊時不宜用全距比較。

2.四分位數間距(quartile,簡記為0):為上四分位數Qu(即P75)與下四分位數

QL(即尸25)之差。四分位數間距可看成是中間50%觀察值的極差,其數值越大,變異度

越大,反之,變異度越小。如例2.7中,已求得0尸尸75=35.82小時,例=尸25=15.34小時,

則四分位數間距Q=QU-QL=35.82-15.34=20.48(小時)。由于四分位數間距不受兩端個別

極大值或極小值的影響,因而四分位數間距較全距穩(wěn)定,但仍未考慮全部觀察值的變異

度,常用于描述偏態(tài)頻數分布以及分布的一端或兩端無確切數值資料的離散程度。

3.方差(variance):為了全面考慮觀察值的變異情況,克服全距和四分位數間距

的缺點,需計算總體中每個觀察值X與總體均數〃的差值(X-〃),稱之為離均差。由于

2(不〃尸0,不能反映變異度的大小,而用離均差平方和Z(X-〃)2(sumofsquaresof

deviationsfrommean)反映之,同時還應考慮觀察值個數N的影響,故用式(2.9)即總體

方差/表示。

"("(2.9)

N

在實際工作中,總體均數日往往是未知的,所以只能用樣本均數工作為總體均數〃

的估計值,即用Z(X-又)2代替Z(X-〃)2,用樣本例數〃代替M但再按式(2.9)

計算的結果總是比實際/小。英國統(tǒng)計學家W.S.Gosset提出用n-\代替〃來校正,這

就是樣本方差§2其公式為:

相=E(X-.)(2.10)

n-\

式中的n-\稱為自由度(degreeoffreedom)0

4.標準差(standarddeviation):方差的度量單位是原度量單位的平方,將方差開

方后與原數據的度量單位相同。標準差大,表示觀察值的變異度大;反之,標準差小,

表示觀察值的變異度小。計算見公式(2.11)和(2.12)。

2

C=(1.11)

s=JX(x-X)[(1.1:

vn-\

離均差平方和Z(X-又)2常用SS或/xx表示。數學上可以證明:

SS=G=E(X-滅)2=\X2—(三°,所以,樣本標準差的計算公式可寫成:

直接法:s=^(2.13)

Yn—\

卜田0)2

加權法:",乙(1.14)

5.變異系數(coefficientofvariation,簡記為CT):常用于比較度量單位不同或均數相

差懸殊的兩組或多組資料的變異度。其公式為

CV=*100%(2.15)

(丁守鑾)

第三章正態(tài)分布及其應用

學時分配:2學時

掌握內容:

1、正態(tài)分布的概念、特征和標準正態(tài)分布

2、正態(tài)分布的應用

第一節(jié)正態(tài)分布的概念和特征

一、正態(tài)分布的概念

由表1」的頻數表資料所繪制的直方圖,圖3.1(1)可以看出,高峰位于中部,左

右兩側大致對稱。我們設想,如果觀察例數逐漸增多,組段不斷分細,直方圖頂端的連

線就會逐漸形成一條高峰位于中央(均數所在處),兩側逐漸降低且左右對稱,不與橫

軸相交的光滑曲線圖3.1(3)。這條曲線稱為頻數曲線或頻率曲線,近似于數學上的正

態(tài)分布(normaldistribution)o由于頻率的總和為100%或1,故該曲線下橫軸上的面積

為100%或lo

圖3.1頻數分布逐漸接近正態(tài)分布示意圖

為了應用方便,常對正態(tài)分布變量X作變量變換。

該變換使原來的正態(tài)分布轉化為標準正態(tài)分布(standardnormaldistribution),亦稱u

分布。”被稱為標準正態(tài)變量或標準正態(tài)離差(standardnormaldeviate)。

二、正態(tài)分布的特征:

1.正態(tài)曲線(normalcurve)在橫軸上方均數處最高。

2.正態(tài)分布以均數為中心,左右對稱。

3.正態(tài)分布有兩個參數,即均數〃和標準差〃是位置參數,當。固定不變時,

〃越大,曲線沿橫軸越向右移動;反之,〃越小,則曲線沿橫軸越向左移動。。是形狀

參數,當〃固定不變時,b越大,曲線越平闊;。越小,曲線越尖峭。通常用N(〃02)

表示均數為〃,方差為人的正態(tài)分布。用N(0,1)表示標準正態(tài)分布。

4.正態(tài)曲線下面積的分布有一定規(guī)律。

實際工作中,常需要了解正態(tài)曲線下橫軸上某一區(qū)間的面積占總面積的百分數,以

便估計該區(qū)間的例數占總例數的百分數(頻數分布)或觀察值落在該區(qū)間的概率。正態(tài)

曲線下一定區(qū)間的面積可以通過附表1求得。對于正態(tài)或近似正態(tài)分布的資料,已知均

數和標準差,就可對其頻數分布作出概約估計。

查附表1應注意:①表中曲線下面積為-8到〃的左側累計面積;②當已知以、◎和

X時先按式(3.1)求得〃值,再查表,當卬。未知且樣本含量“足夠大時,可用樣本

均數斤和標準差S分別代替H和°,按〃=(X-亍)/£式求得“值,再查表;③曲線下對

稱于0的區(qū)間面積相等,如區(qū)間(-00,-1.96)與區(qū)間(1.96,00)的面積相等,④曲線

下橫軸上的總面積為100%或I0

正態(tài)分布曲線下有三個區(qū)間的面積應用較多,應熟記:①標準正態(tài)分布時區(qū)間(-1,1)

或正態(tài)分布時區(qū)間(pi-ldR+lo)的面積占總面積的68.27%;②標準正態(tài)分布時區(qū)間

(-1.96,1.96)或正態(tài)分布時區(qū)間(中1.96。小+1.96。)的面積占總面積的95%;③標準正

態(tài)分布時區(qū)間(-2.58,2.58)或正態(tài)分布時區(qū)間(匕2.58研+2.58。)的面積占總面積的99%。

如圖3.2所示。

圖3.2正態(tài)曲線與標準正態(tài)曲線的面積分布

第二節(jié)正態(tài)分布的應用

某些醫(yī)學現象,如同質群體的身高、紅細胞數、血紅蛋白量、膽固醇等,以及實驗

中的隨機誤差,呈現為正態(tài)或近似正態(tài)分布;有些資料雖為偏態(tài)分布,但經數據變換后

可成為正態(tài)或近似正態(tài)分布,故可按正態(tài)分布規(guī)律處理。

1.估計正態(tài)分布資料的頻數分布

例1.10某地1993年抽樣調查了100名18歲男大學生身高(cm),其均數=1名.70cm,

標準差5=4.01cm,①估計該地18歲男大學生身高在168cm以下者占該地18歲男大學

生總數的百分數;②分別求滅±ls、了±1.96s、了±2.58s范圍內18歲男大學生占該地

18歲男大學生總數的實際百分數,并與理論百分數比較。

本例,〃、b未知但樣本含量〃較大,按式(3.1)用樣本均數X和標準差S分別

代替"和b,求得〃值,H=(168-172.70)/4.01=-1.17O查附表標準正態(tài)曲線下的面積,在

表的左側找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大

學生身高在168cm以下者,約占總數12.10%。其它計算結果見表3.1。

表3.1100名18歲男大學生身高的實際分布與理論分布

實際分布

身高范圍(cm)-理論分布(%)

X±s人數百分數(%)

X±ls168.69?176.716767.0068.27

J±1.965164.84?180.569595.0095.00

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論