![醫(yī)學(xué)科學(xué)研究報告論文中統(tǒng)計方法的正確應(yīng)用_第1頁](http://file4.renrendoc.com/view/a46d99fbe88112cd42d00d46e9e57f8b/a46d99fbe88112cd42d00d46e9e57f8b1.gif)
![醫(yī)學(xué)科學(xué)研究報告論文中統(tǒng)計方法的正確應(yīng)用_第2頁](http://file4.renrendoc.com/view/a46d99fbe88112cd42d00d46e9e57f8b/a46d99fbe88112cd42d00d46e9e57f8b2.gif)
![醫(yī)學(xué)科學(xué)研究報告論文中統(tǒng)計方法的正確應(yīng)用_第3頁](http://file4.renrendoc.com/view/a46d99fbe88112cd42d00d46e9e57f8b/a46d99fbe88112cd42d00d46e9e57f8b3.gif)
![醫(yī)學(xué)科學(xué)研究報告論文中統(tǒng)計方法的正確應(yīng)用_第4頁](http://file4.renrendoc.com/view/a46d99fbe88112cd42d00d46e9e57f8b/a46d99fbe88112cd42d00d46e9e57f8b4.gif)
![醫(yī)學(xué)科學(xué)研究報告論文中統(tǒng)計方法的正確應(yīng)用_第5頁](http://file4.renrendoc.com/view/a46d99fbe88112cd42d00d46e9e57f8b/a46d99fbe88112cd42d00d46e9e57f8b5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、-. z.醫(yī)學(xué)科學(xué)研究論文中統(tǒng)計方法的正確應(yīng)用一、 統(tǒng)計方法正確應(yīng)用的重要性醫(yī)學(xué)統(tǒng)計方法很多,各適用于不同的數(shù)據(jù)。臨床試驗中所用統(tǒng)計方法必須根據(jù)數(shù)據(jù)情況認(rèn)真選用。這是因為,數(shù)理統(tǒng)計是根據(jù)一定的數(shù)據(jù)分布推導(dǎo)出一定的統(tǒng)計方法,它僅適用于一定的數(shù)據(jù)。例如,檢驗及方差分析是由正態(tài)分布數(shù)據(jù)以及各組方差一樣推導(dǎo)出來的,因而要求數(shù)據(jù)為正態(tài)分布(至少接近正態(tài)分布)且方差齊性。但是,在論文的統(tǒng)計方法局部常有如下闡述:一般資料進展2檢驗,其余資料進展檢驗,這種不管數(shù)據(jù)分布是否很偏態(tài),就一概使用*種統(tǒng)計方法不正確。此外,分類數(shù)據(jù)與計量數(shù)據(jù)的統(tǒng)計方法也不同,分類數(shù)據(jù)中對于名義變量和順序變量的統(tǒng)計方法也不同。統(tǒng)計方法應(yīng)
2、用的錯誤會使整個精心進展的研究得出錯誤的結(jié)論。在這一講中我們將結(jié)合目前文獻中常見的一些統(tǒng)計方法的錯誤應(yīng)用,對如何根據(jù)數(shù)據(jù)的情況來正確地選擇統(tǒng)計方法進展討論。二、 統(tǒng)計方法上常見的一些問題1.檢驗和方差分析要求數(shù)據(jù)服從正態(tài)分布:在醫(yī)學(xué)研究中大量的數(shù)據(jù)并不服從正態(tài)分布。有時可以從報告中的數(shù)據(jù)看出。例如,在文獻中體溫降至正常的平均日數(shù)在兩組分別為3 .01 .7及2 .42 .0。由數(shù)據(jù)可以看到標(biāo)準(zhǔn)差是平均數(shù)的1/2以上,甚至接近平均數(shù)。這就提示數(shù)據(jù)嚴(yán)重偏離了正態(tài)分布。因為,當(dāng)數(shù)據(jù)不可能為負(fù)值(如日數(shù)),且樣本不是過小時,按正態(tài)分布規(guī)律,平均數(shù)減3個標(biāo)準(zhǔn)差仍應(yīng)是正數(shù)。這里平均數(shù)減3個標(biāo)準(zhǔn)差已經(jīng)是-2
3、.1和-3.6了。因為日數(shù)不可能是負(fù)數(shù),這就說明數(shù)據(jù)偏離了正態(tài)分布規(guī)律。又如,文獻2關(guān)于統(tǒng)計分析方法方面寫道:測量參數(shù)以表示。根據(jù)性別及骨密度(2.5為界)分組,用兩樣本均數(shù)檢驗對組間各形態(tài)計量參數(shù)進展統(tǒng)計分析(SPSS8.0軟件)。樣本均數(shù)與總體均數(shù)用檢驗比較形態(tài)計量學(xué)參數(shù)與正常參考值之間的差異。由文內(nèi)表格(表1)可以看到有不少標(biāo)準(zhǔn)差大于均數(shù)。數(shù)據(jù)很可能是很偏態(tài),不宜使用檢驗。事實上,檢驗和方差分析是一種所謂穩(wěn)建的(robust)統(tǒng)計方法。就是說,當(dāng)分布偏離正態(tài)分布不大時,對其結(jié)果的影響不大。但對于計量數(shù)據(jù)還是應(yīng)領(lǐng)先做正態(tài)性檢驗。如果正態(tài)性檢驗結(jié)果認(rèn)為數(shù)據(jù)不服從正態(tài),可以進展數(shù)據(jù)轉(zhuǎn)換,但比較
4、麻煩。簡單的方法是用非參數(shù)統(tǒng)計。過去一般認(rèn)為非參數(shù)統(tǒng)計效率較差,但這是指當(dāng)數(shù)據(jù)為正態(tài)分布時。如果數(shù)據(jù)是非正態(tài)分布時其效率比參數(shù)法高,甚至可以高出很多。常用的有秩和檢驗和符號秩和檢驗等。2.關(guān)于多組計量資料的一攬子比較:在多組計量資料的組間兩兩比較時不可以用一攬子比較。所謂一攬子比較是進展多組比較時進展所有的兩兩比較。這是因為,在進展兩組間比較時我們確定了第類錯誤的概率。一般我們用=0.05。如果做一攬子比較,就會擴大,也即,第類錯誤的概率擴大了。我們就會得到過多的假陽性結(jié)果。這時對第類錯誤的概率進展調(diào)整的方法很多。一般先做方差分析,然后再用各種多重比較的方法,如Student Newman K
5、euls法等,做各組間的兩兩比較。文獻2是一個用錯了的例子。文獻4的表中(表2),原作者對A、B、C3組做了一攬子比較。正確的做法應(yīng)當(dāng)是先做總的檢驗,然后再做多重比較。本例還有各組間方差不齊的問題。不宜用方差分析而需用非參數(shù)統(tǒng)計方法來處理。3.順序變量的2檢驗:(1)臨床療效的比較:2組有效率的比較,用四格表2檢驗或Fisher準(zhǔn)確檢驗法是可以的。但是,如按療效分成多個等級,如痊愈、顯效、進步、無效4個療效等級,則目前常用的2(Peason2)不能說明療效的好壞。因為Peason2只檢驗構(gòu)造是否均衡而不能檢驗2組療效是否有差異。在表3這個假設(shè)的例子中, Peason2檢驗得到差異有高度統(tǒng)計意義
6、的結(jié)果。而實際上很難說哪一組療效更好。如果我們對表3中任何兩列進展對換。Peason2的數(shù)值也不會有變化。表1老年股骨頸骨折患者骨密度、骨形態(tài)計量學(xué)參數(shù)與形態(tài)計量學(xué)正常值比較(%,)組別 例數(shù) TBV OV TOS PRS正常值 15.36 1.07 13.21 4.76骨密度降低2.5 10 8.683.18 7.7813.54 6.557.07 6.798.68骨密度降低2.5 7 7.922.58 4.357.40 5.946.27 2.432 .9與正常值比較: 0.05, 0.001表2 燃煤型砷中毒患者皮膚組織中p53mt陽性表達分析組別 例數(shù)陽性 細(xì)胞密度() 陽性率(%)組 1
7、8 38.0729.00 88.89組 11 17.1615.00 72.73組 39 4.058.24 25.64對照 12 0 0各組與對照比較:0.01;與比較0.01;與比較0.01;與比較0.05表3一個假設(shè)的順序變量2檢驗的例子(例數(shù))組別 痊愈 顯效 進步 無效藥 100 50 50 100藥 50 100 100 502=56.556,=3,=0.001表4是克霉唑與對照治療陰道炎的實例。原作者并未對此進展統(tǒng)計分析。對于這種順序分類變量資料可以用Wilco*on秩和檢驗、Ridit分析或Cochran Mantel Haensze行平均分差檢驗(Test of row mean
8、 scores difference)。這三者都是合理的方法,只是評分方法有所不同而已。因為其檢驗的假設(shè)有所不同,其結(jié)果也會有些差異,其中以用行平均分差檢驗較好。因為可以計算出平均得分顯示兩者之差值。如表4,假設(shè)用4個等級以0,1,2,3來評分,2組平均分分別為2 728及2 632分,十分接近,=1,=0 324。本例得出差異無統(tǒng)計意義的結(jié)論,但這并不能說2種藥的療效相等或相近(見本講第三節(jié))。表4克霉唑與對照治療陰道炎的療效比較(例數(shù))組別 痊愈 顯效 進步 無效 平均分克霉唑 92 17 1 4 311/114=2.728對照藥 65 14 6 2 229/87=2.632(2)時間作為
9、順序變量:如上所述,Pearson2檢驗只能說明構(gòu)成比例的不同。對于順序變量,需要用行平均分差的檢驗。Ridit檢驗或者Wilco*on秩和檢驗。文獻7是以時間作為順序變量的例子(表5)。這一Pearson2檢驗的結(jié)果只能得出新生兒黃疸消退時間不同的結(jié)論,而不能得出觀察組消退較晚的結(jié)論。如果我們把任何各列交換。Pearson2檢驗的結(jié)果完全不變。如果我們以0、1、2、3 來代表7、9、11等依次各列,可以計算對照組和觀察組的平均分為:對照組:(08+116+236 )/(8+16+36 )=446/150=2.973。觀察組:(00+16+218 )/(0+6+18+ )=826/196=4.
10、214。行平均分檢驗結(jié)果為2=94 593,=1,=0.001說明觀察組黃疸消退延長。本例為計量資料的頻數(shù)表形式。也可計算均數(shù)和標(biāo)準(zhǔn)差,用檢驗比較均數(shù)的差異。4.把行列表合并成四格表:比較療效時,把療效合并成四格表而用卡方檢驗有效率,在方法上似無不可,但損失了信息。而且,合并的方法對于療效的判斷會有影響(表6)。表5 肉眼觀察新生兒黃疸消退時間(例數(shù))出 生 后 時 間()組別 7 9 11 13 15 17 19 21 23 24對照組 8 16 36 68 16 6 0 0 0觀察組 0 6 18 34 59 45 19 13 2Peason2=113 9(作者為114 06),0 01表
11、6治療組與對照組的療效比較顯效 好轉(zhuǎn) 無效 總有效組別 例數(shù) 例數(shù) (%) 例數(shù) (%) 例數(shù) (%) 例數(shù) (%)治療組 20 16 80.0 3 15.0 1 5.0 19 95.0對照組 27 4 14.8 20 74.1 3 11.1 24 88.9作者由表6得出結(jié)論:治療組顯效率明顯高于對照組,統(tǒng)計學(xué)上差異有極顯著性(0.05)。由此可見,不同的合并方法對結(jié)果有很大的影響。這種情況還是用對順序變量作分析的統(tǒng)計方法來分析為好。本例用秩和檢驗結(jié)果=4.088,=0.000。說明2組差異有高度統(tǒng)計意義。從數(shù)據(jù)可見治療組療效較好。在臨床試驗中有人把無效和改善合并為無效,顯效和控制合并為有效來
12、計算有效率。由于病情輕的病人原來病情為1級,治愈了為0級,降低了1級,只能算改善,不可能到達顯效或控制。因而,有效率的統(tǒng)計就會受到入組病人病情嚴(yán)重程度差異的影響。比較各組病人病情的不同也會影響有效率的比較。這只有采用在病人入組時,按病情分層隨機化的方法來解決。對于分層的數(shù)據(jù)應(yīng)當(dāng)把層作為一個因素進展分析。如用方差分析和多元回歸。對于生存數(shù)據(jù)用CO*回歸分析等。這時把層作為協(xié)變量進展分析。5.一般2檢驗只用于分析計數(shù)資料:2分布原本由連續(xù)變量導(dǎo)出。但目前我們大量應(yīng)用的2檢驗是應(yīng)用于計數(shù)資料。計數(shù)是指清點的數(shù)目。對于分類數(shù)據(jù)是清點人數(shù)、陽性數(shù)文獻7是一個應(yīng)用錯誤的例子。表7的數(shù)據(jù)是計量數(shù)據(jù),這樣算出
13、來的2什么也不是。表7新生兒接種乙肝疫苗后不同時間平均膽紅素濃度血膽紅素平均值(mol/L)出生后時間() 觀察組(44例) 對照組(21例)0 18.0 17.53 110.0 108.06 151.2 148.29 177.0 130.312 168.0 66.015 159.3 31.018 126.0 20.121 76.3 15.024 36.427 16.02=164 04,0 05的結(jié)果。但作者并未作出兩藥療效一樣或相近的結(jié)論。這是正確的。然而,這樣設(shè)計的目的卻常常是為了說明兩種藥的療效相近。這是應(yīng)該用等效性檢驗的方法。四、 科研論文中應(yīng)寫明所用統(tǒng)計分析方法的具體名稱統(tǒng)計方法的誤
14、用在雜志上屢見不鮮。通常,在文章的材料與方法局部應(yīng)當(dāng)有一段專門說明所用統(tǒng)計方法的內(nèi)容。在發(fā)表文章時寫明所用的統(tǒng)計方法,這樣才能供審稿者或讀者來判斷結(jié)論是否正確可靠。例如,配對數(shù)據(jù)與成組數(shù)據(jù)的統(tǒng)計方法就不同。如果籠統(tǒng)地說用了檢驗,就很難判斷其正確性??墒?有些研究報告中卻完全沒有提到所用的是什么統(tǒng)計方法。例如,在文獻12中,列出了許多值,下了許多結(jié)論,竟完全沒有提及所用的統(tǒng)計方法。這樣怎么讓讀者來判斷結(jié)論是否正確呢五、 統(tǒng)計檢驗結(jié)論的表達1.差異有統(tǒng)計意義的表達:統(tǒng)計分析的結(jié)果是推翻無效假設(shè)或是不能推翻無效假設(shè)。無效假設(shè)在一般的統(tǒng)計檢驗為2組總體參數(shù)相等。推翻無效假設(shè)只能說2組總體參數(shù)不相等而并
15、不能說2組相差很大。2組相差如何要對可信區(qū)間進展研究觀察后得出。由于統(tǒng)計檢驗不能得出差異的大小,因而結(jié)論不能說有明顯差異或有顯著差異,也不能說差異非常顯著,更不能說差異明顯。在國外的統(tǒng)計書籍上的英語表達為significant,它的正確意義應(yīng)當(dāng)是有意義的、有重要性的。俄語為和日語中的有意也是這個意思。國內(nèi)只有極個別的英漢詞典把significant誤譯為顯著的。正確的說法應(yīng)當(dāng)是差異有統(tǒng)計意義或差異有高度統(tǒng)計意義等。在中華醫(yī)學(xué)會系列雜志對來稿中統(tǒng)計學(xué)處理的有關(guān)要求中對此也有說明。文獻15中有這樣一段說明:丙酸倍氯米松組患者吸入糖皮質(zhì)激素后,其氣道反響性有顯著降低(0.05);對照組治療前后氣道反
16、響性無明顯變化(0.05,)。這顯然是把統(tǒng)計意義和差異的大小混為一談了。文獻16總結(jié)了1984年6月至1998年12月手術(shù)治療的肝內(nèi)膽管結(jié)石640例。文中有一段說明為:肝切除術(shù)后殘石率(7.8%)明顯低于膽道探查組(69.3%),差異有非常顯著意義(0.005),左肝管術(shù)后殘石率明顯低于右肝管或左右肝管,差異有非常顯著意義(0.005)。516例獲0.55年隨訪,優(yōu)良率為87 4%,397例獲612年隨訪,術(shù)后優(yōu)良率為82.1%。結(jié)論:肝切除術(shù)和自體組織修復(fù)術(shù)明顯優(yōu)于其他術(shù)式,左肝管結(jié)石的手術(shù)效果明顯優(yōu)于右肝管和左右肝管結(jié)石。2.值的表達:中華醫(yī)學(xué)會系列雜志對來稿中統(tǒng)計學(xué)處理的有關(guān)要求中對統(tǒng)計
17、結(jié)果的解釋和表達要求之一為:應(yīng)盡可能給出具體的值(如:=0.0238),但目前大多數(shù)的文獻中都只用0 (單側(cè))或 H0:Md(d)=0, H1:Md(d)50時,正態(tài)近似有效對子數(shù)n=11,查附表10,雙側(cè)臨界值=11,T*雙側(cè)臨界值故不能拒絕H0。結(jié)論:可以認(rèn)為孿生兄弟間的差異尚無統(tǒng)計學(xué)意義。或 尚不能認(rèn)為孿生兄弟間的差異具有統(tǒng)計學(xué)意義。當(dāng)研究例數(shù)較大時(n50),秩和T的分布近似正態(tài)分布,可以用正態(tài)分布理論作假設(shè)檢驗。這時正態(tài)分布的均數(shù)和標(biāo)準(zhǔn)差分別等于:Tn(n1)/4 檢驗的公式為:表 7.2 Wilco*on 符號秩檢驗的判斷原則雙側(cè)檢驗單側(cè)檢驗(1)單側(cè)檢驗(2)檢驗假設(shè)H0:Md(
18、d)0H0:Md(d)0H0:Md(d)0H1:Md(d)0H1:Md(d)0H1:Md(d)0統(tǒng)計決策:小樣本查表法假設(shè)T*T/2(n)則拒絕H0假設(shè)T-T(n)則拒絕H0假設(shè)T+T(n)則拒絕H0大樣本正態(tài)近似法假設(shè)ZZ/2則拒絕H0假設(shè)ZZ則拒絕H0假設(shè)ZZ則拒絕H0符號秩檢驗的分布理論:假定有4個差值,如果H0成立時,這4個差值有同等的概率取正值或負(fù)值,即每個值取正值的概率等于1/2。4個差值每種組合發(fā)生的可能性就是:所有可能的秩和情況和T*的分布見表7.1。表7.1 n4時所有可能秩和情況和T*的分布正差數(shù)的秩次負(fù)差值的秩次正秩和T+負(fù)秩和T-檢驗統(tǒng)計量T*概率P1,2,3,4-10
19、000.06252,3,419110.06251,3,428220.06251,2,437330.12503,41,27331,2,346440.12502,41,36441,42,35550.12502,31,45551,32,44640.125041,2,34641,23,43730.125031,2,437321,3,42820.062512,3,41910.0625-1,2,3,401000.0625如果零假設(shè)成立,觀察的結(jié)果應(yīng)該服從這分布,即出現(xiàn)極端情形的可能性很小。如果小概率事件真的出現(xiàn)了,則我們對零假設(shè)的真實性產(chǎn)生疑心,拒絕零假設(shè)。7.2 兩獨立樣本的秩和檢驗(Wilco*on
20、rank sum test)例7.2 在缺氧條件下,觀察4只貓與12只兔的生存時間(分),結(jié)果見表7.5。試判斷貓、兔在缺氧條件下生存時間的差異是否具有統(tǒng)計學(xué)意義。表7.5 缺氧條件下貓與兔的生存時間(分)比較貓兔生存時間秩次生存時間秩次生存時間秩次生存時間秩次259.5151216281234151522172813441716323830144618174259.5351646191952711n1=5R1=78.5n2=14R2=111.5這是生存時間資料,一般不服從正態(tài)分布,樣本也較小,需考慮用非參數(shù)檢驗秩和檢驗。秩和檢驗的根本思想:兩組觀察值共有n例,設(shè)例數(shù)較少的組有n1例,按觀察值
21、大小順序分別編秩為1,2,n。如果零假設(shè)成立,兩組的秩和不會太大,也不會太??;如果極端的結(jié)果出現(xiàn),則可能零假設(shè)不成立,就拒絕零假設(shè)。具體計算步驟:1建立檢驗假設(shè):H0:Md1Md2,即兩總體分布位置一樣;H1:Md1Md2,即兩總體分布位置不同;=0.052排秩次、計算秩和:兩組混合排秩次,有一樣值求平均秩僅有同組一樣值可忽略。3當(dāng)n1n2時,取較小樣本的秩和為檢驗統(tǒng)計量T*R1;當(dāng)n1n2時,取秩和較小者為檢驗統(tǒng)計量T*min(R1,R2)。本例,求例數(shù)較少組的秩和T*=78.5。4決策T值在表中兩界值之間時,不拒絕H0 (p值大于相應(yīng)界值)反之,T值在表中兩界值之外時,拒絕H0 (p值小于
22、相應(yīng)界值)。本例, n15,n214,n2-n19,查附表11,TL0.0122,TU0.0178,T*TU0.01,P0.01,故拒絕H0,可認(rèn)為貓、兔在缺氧條件下的生存時間的中位數(shù)不相等。當(dāng)樣本較大時,秩和的分布近似正態(tài)分布,可以用正態(tài)分布理論作假設(shè)檢驗。這時正態(tài)分布的均數(shù)和標(biāo)準(zhǔn)差分別等于:T*n1(n1)/2 檢驗公式為:7.3 多個樣本分布位置一樣的假設(shè)檢驗完全隨機化設(shè)計資料分布位置的假設(shè)檢驗(Kruskal- Wallis test) 14名新生兒出生體重。母親吸煙習(xí)慣分組:A組:多于1包/天; B組:少于1包/天; C組:現(xiàn)已戒煙; D組:從不吸煙 表7.7不同吸煙習(xí)慣母親的新生兒
23、體重kg出生體重*ij相應(yīng)秩次rijABCDABCD2.72.93.33.5347112.43.23.63.625.512.512.52.23.23.43.715.59143.43.499ni4343Ri151537.537.5計算步驟:1檢驗假設(shè):H0:k個總體中位數(shù)相等;H1:k個總體中位數(shù)不等;=0.05。2計算統(tǒng)計量:各組混合編秩,如不同組間出現(xiàn)一樣值,求平均秩;3計算各組的秩和。如果H0成立,第i組秩和的期望總體均數(shù)與方差分別為:在此根底上建立檢驗統(tǒng)計量:當(dāng)H0成立時,該檢驗統(tǒng)計量近似服從自由度為(k-1)的2分布。為簡化運算,由上式推導(dǎo)出如下公式:校正:3決策:自由度 df=4-1
24、=3,查2值表得20.05(3) =7.815,p0.05,故拒絕零假設(shè),可以認(rèn)為不同吸煙習(xí)慣對新生兒體重有影響。 3.k組秩平均值的多重比較無論是用K-W檢驗,還是用Friedman檢驗,當(dāng)拒絕零假設(shè)時,并不能直接判斷k組中哪些組間差異具有統(tǒng)計學(xué)意義,為此需進展組間的多重比較(multiple parison)。對于完全隨機設(shè)計資料,令和分別為欲比較的第i組與第j組樣本的平均秩。平均秩差數(shù)的絕對值用表示,則其平均秩差數(shù)的方差為式中n為k組的總樣本含量,ni,nj分別為第i組與第j組樣本含量。其檢驗假設(shè)為H0:第i組與第j組中位數(shù)相等;H1:第i組與第j組中位數(shù)不等。用正態(tài)近似法,其檢驗統(tǒng)計量
25、為然后將Zij值與標(biāo)準(zhǔn)正態(tài)分布的界值比較。設(shè)共有c個Zij,即總共進展c次比較。則用/c作檢驗水準(zhǔn)。例7.5 仍以例7.3出生體重數(shù)據(jù)(見表7.7)為例,四個吸煙組平均秩分別為: 15/43.75,15/35.0,37.5/49.375,37.5/312.50本例主要考慮不吸煙組的平均秩與另外三組平均秩的比較,共有三個比較對,即 c3假設(shè)0.05,則限定每一個Z檢驗第I類錯誤概率不超過0.05/30.0167由標(biāo)準(zhǔn)正態(tài)分布獲得該多重檢驗的界值為Z0.01672.12當(dāng)所求得的Zij2.12時,判斷第i和j兩組處理差異有統(tǒng)計學(xué)意義。用(7.24)式分別求得三個比較對的Zij值為,因為Z1,4與Z
26、2,4均大于Z0.0167,可認(rèn)為當(dāng)前尚在吸煙的母親與從不吸煙母親相比,他們的新生兒的出生體重差異具有統(tǒng)計學(xué)意義。補充:1臨界值表的構(gòu)造原理 設(shè)有兩組,n=6,隨機分成兩組,n1=3,n2=3,則 H0成立時,20種可能的組合情況及秩和R1:秩號1,2,31,2,41,2,51,2,61,3,41,3,51,3,61,4,51,4,61,5,6R167898910101112秩號2,3,42,3,52,3,62,4,52,4,62,5,63,4,53,4,63,5,64,5,6R19101111121312131415以上每一種組合出現(xiàn)的時機都是1/20。R16789101112131415P
27、(R1)0.050.050.100.150.150.150.100.100.050.05H0成立時,R1的分布中,下側(cè)尾部面積為0.05的臨界值=6上側(cè)尾部面積為0.05的臨界值=15查表: 單側(cè)0.05或雙側(cè)0.10所對應(yīng)的臨界區(qū)間為(6,15)2秩和檢驗與t檢驗之間的比較表1 秩和檢驗的效率 正態(tài).10.20.30.40.50.60.70.80.90成效.03.08.18.32.50.68.83.93.9822.622.121.721.521.621.822.222.923.9效率.91.88.87.85.86.87.89.92.96表2 秩和檢驗的效率 正態(tài).51.01.52.02.53
28、.03.54.0成效.072.210.431.674.858.953.988.998效率.968.978.961.956.960.960.964.976表3 秩和檢驗的效率(m,n 均趨于無窮大)分布類型LogisticDonble E*ponentialRectangularE*ponential效率1.513一般說,與t檢驗相比,秩和檢驗的效率.864小結(jié):1檢驗水平 秩和檢驗的檢驗水平不依賴于真實的分布,并且完全知道。分布接近正態(tài)時,t檢驗的檢驗水平接近名義上指定的水平。2成效 正態(tài)時,t檢驗的成效略高于秩和檢驗不多,約5%;分布接近正態(tài),兩檢驗差異不大秩和檢驗并不很差;分布與正態(tài)分布很
29、不一樣時,秩和檢驗遠(yuǎn)優(yōu)于t檢驗。衛(wèi) 生 統(tǒng) 計 學(xué)第一章 緒論教學(xué)內(nèi)容 一、衛(wèi)生統(tǒng)計學(xué)的定義二、衛(wèi)生統(tǒng)計資料類型 三、統(tǒng)計學(xué)根本概念 四、統(tǒng)計工作的根本步驟 教學(xué)目標(biāo)1. 知道 衛(wèi)生統(tǒng)計工作的根本步驟2. 熟悉資料的統(tǒng)計分類,理解不同類型的資料應(yīng)采用不同的統(tǒng)計分析方法3. 掌握以下根本概念:同質(zhì)與變異、總體與樣本、總體研究與抽樣研究、誤差、概率與小概率事件一、衛(wèi)生統(tǒng)計學(xué)的定義隨機現(xiàn)象隨機現(xiàn)象是指在一次試驗或觀察時,其結(jié)果不確定,而在一樣條件下,大量試驗或觀察其結(jié)果呈現(xiàn)*種規(guī)律性的現(xiàn)象。數(shù)理統(tǒng)計是研究隨機現(xiàn)象規(guī)律性的一門數(shù)學(xué)學(xué)科。衛(wèi)生統(tǒng)計學(xué)health statistics是運用數(shù)理統(tǒng)計的根本原
30、理和方法,通過數(shù)據(jù)的收集,整理和分析,研究預(yù)防醫(yī)學(xué)和衛(wèi)生事業(yè)管理中隨機現(xiàn)象規(guī)律性的一門應(yīng)用科學(xué)。二、衛(wèi)生統(tǒng)計資料類型計量資料:用度量衡的方法測定每個觀察單位的*項指標(biāo),表現(xiàn)為數(shù)值的大小,通常是有度量衡單位,屬于連續(xù)性資料。計數(shù)資料:將全體觀察單位按照*種性質(zhì)或類別進展分類,然后分別清點各類別的例數(shù),這樣得到的數(shù)據(jù)稱為計數(shù)資料,也稱分類資料。二分類資料:例如,對*醫(yī)院做人力資源調(diào)查。以每個工作人員作為一個觀察單位,按技術(shù)人員和非技術(shù)人員分為兩類。多分類資料:如,觀察人群的血型,以人為單位,結(jié)果分為A型、B型、AB型、O型,為互不相容的多個類別。等級資料:將全體觀察單位按照*種性質(zhì)或類別分類,各類
31、別之間有程度的差異,分別清點各類中觀察單位的個數(shù),這種數(shù)據(jù)資料稱為等級資料。三、統(tǒng)計學(xué)根本概念一總體總體是根據(jù)研究目確實定的同質(zhì)觀察單位的全體,更確切地說,是同質(zhì)的所有觀察單位*種變量值的集合。二樣本與隨機抽樣從總體中隨機抽取局部個體,其實測值的集合稱為樣本。隨機抽樣,就是按照隨機的原則獲得樣本,保證總體中每個個體都有同等時機被抽取,使樣本對總體有較好的代表性。三抽樣研究從所研究的總體中隨機抽取一局部有代表性的樣本進展研究稱為抽樣研究。抽樣研究的目的是通過樣本信息推論總體特征。四誤差誤差通常指測量值與真值之差。包括系統(tǒng)誤差、隨機測量誤差和抽樣誤差。1系統(tǒng)誤差:又稱偏倚不是偶然機遇造成的,而是*
32、種必然因素所致,具有一定的傾向性。觀察結(jié)果一慣性的往一邊偏,要高都高,偏低都低。系統(tǒng)誤差一旦發(fā)生,統(tǒng)計學(xué)是無能為力的,因此要盡可能防止。而大多數(shù)系統(tǒng)誤差可以通過周密的研究設(shè)計得到解決。2隨機測量誤差:這種誤差是偶然因素所致,故無方向性,如對同一樣品屢次測定,結(jié)果有高有低,不完全一致。隨機測量誤差是不可防止的。3抽樣誤差:抽樣研究所抽取的樣本,只包含總體中的局部個體,由于存在個體變異,樣本指標(biāo)往往不等于總體參數(shù),這種差異是由抽樣造成的,稱為抽樣誤差。五概率概率是描述隨機事件發(fā)生的可能性大小的指標(biāo),用P來表示。隨機事件的概率在0與1之間,常用小數(shù)或百分?jǐn)?shù)表示。P越接近1,說明*事件發(fā)生的可能性越大
33、,P越接近0,說明*事件發(fā)生的可能性越小。小概率事件:隨機事件P0.05或 P0.01,分別表示事件發(fā)生的可能性等于或小于0.05(5%)和可能性等于或小于0.01(1%),在一次試驗或觀察時發(fā)生的可能性很小,習(xí)慣上稱為小概率事件。六頻率假設(shè)隨機事件在n次重復(fù)中出現(xiàn)m次,則n/m比值成為隨機事件出現(xiàn)的頻率。當(dāng)n充分大時,隨機事件的頻率接近概率。四、統(tǒng)計工作的根本步驟統(tǒng)計工作包括設(shè)計、收集資料、整理資料、分析資料四個根本步驟。這四個步驟之間嚴(yán)密聯(lián)系,環(huán)環(huán)相扣。一定不要只在分析結(jié)果時才想到統(tǒng)計。大家在今后的學(xué)習(xí)中會發(fā)現(xiàn),統(tǒng)計分析方法是建立在研究設(shè)計和分析目的根底上的。一設(shè)計研究分析的總設(shè)想。包括專
34、業(yè)設(shè)計和統(tǒng)計設(shè)計,也就是除了專業(yè)方面的研究目的技術(shù)路線外,還包括抽樣方法、樣本含量等。需要強調(diào)的是良好的設(shè)計是統(tǒng)計分析的根底。二收集資料資料必須完整、正確和及時。要有足夠的數(shù)量。注意資料的代表性和可比性。代表性是指樣本能很好的代表總體。應(yīng)遵循隨機化原則抽取樣本??杀刃允侵冈诮y(tǒng)計比較時,比照的各組之間,除觀察問題或?qū)嶒炓蛩夭煌?,其它條件都要求盡量一致。三整理資料原始資料的檢查與核對資料的分組設(shè)計和歸納匯總四分析資料統(tǒng)計描述:用一些統(tǒng)計指標(biāo),統(tǒng)計圖表等方法對資料的數(shù)量特征和分布規(guī)律進展測定和描述。統(tǒng)計推斷:用樣本信息推斷總體特征,包括參數(shù)的估計和假設(shè)檢驗。本章為大家介紹了衛(wèi)生統(tǒng)計學(xué)的定義、衛(wèi)生統(tǒng)
35、計資料類型、統(tǒng)計學(xué)根本概念和統(tǒng)計工作的根本步驟。第二章 計量資料的統(tǒng)計描述教學(xué)內(nèi)容第一節(jié) 計量資料的頻數(shù)表 第二節(jié) 描述集中趨勢的指標(biāo)第三節(jié) 描述離散趨勢的指標(biāo)第四節(jié) 正態(tài)分布及其應(yīng)用第五節(jié) 實例解析教學(xué)目標(biāo)1. 會編制頻數(shù)分布表, 并據(jù)此描述資料的頻數(shù)分布特征2. 掌握各種平均數(shù)指標(biāo)的計算及其適用條件,尤其是均數(shù)3. 掌握各種離散趨勢指標(biāo)的計算及其適用條件,尤其是標(biāo)準(zhǔn)差,熟悉標(biāo)準(zhǔn)差的意義及應(yīng)用4. 了解正態(tài)分布及標(biāo)準(zhǔn)正態(tài)分布的概念和特征5. 熟悉標(biāo)準(zhǔn)正態(tài)變換公式6. 掌握標(biāo)準(zhǔn)正態(tài)分布曲線下的面積規(guī)律,并會正確應(yīng)用 7. 掌握正態(tài)分布理論的重要應(yīng)用:醫(yī)學(xué)參考值*圍的估計第一節(jié) 計量資料的頻數(shù)表
36、一、頻數(shù)表計量資料需編制頻數(shù)分布表,頻數(shù)表編制的步驟參見實用衛(wèi)生統(tǒng)計學(xué)第二章第一節(jié)中的內(nèi)容,頻數(shù)表包括一些有序的組段及落在各或組段內(nèi)的觀察值的個數(shù)即頻數(shù)。從而了解資料的特征和分布類型。二、頻數(shù)分布兩個特征:集中趨勢和離散趨勢。三、頻數(shù)分布類型1對稱分布:是指集中位置在正中,左右兩側(cè)頻數(shù)分布大體對稱的分布。2偏態(tài)分布:偏態(tài)分布是指集中位置偏向一側(cè),兩側(cè)頻數(shù)分布不對稱。如果集中位置偏向數(shù)值小的一側(cè),稱為正偏態(tài)分布;假設(shè)集中位置偏向數(shù)值大的一側(cè),則稱為負(fù)偏態(tài)分布。3對數(shù)正態(tài)分布:有些偏態(tài)分布的資料,其原始數(shù)據(jù)經(jīng)過對數(shù)轉(zhuǎn)換后如用原始數(shù)據(jù)的對數(shù)值lg*代替*服從正態(tài)分布,稱為對數(shù)正態(tài)分布。第二節(jié) 描述集
37、中趨勢的指標(biāo)描述計量資料集中趨勢常用的指標(biāo)有均數(shù),幾何均數(shù),中位數(shù)。一.算術(shù)均數(shù)arithmetic mean簡稱均數(shù)。常用表示總體均數(shù),用表示樣本均數(shù)。均數(shù)反映一組觀察值在數(shù)量上的平均水平。 一均數(shù)的適用條件適用于對稱分布尤其是正態(tài)分布資料。 二均數(shù)的計算 1直接法 2.12加權(quán)法weighting method 2.2 對已繪制頻數(shù)表的資料,也可用加權(quán)法求均數(shù)。這時用各組段的組中值作*,組中值為本組段的下限與下一個組段的下限相加再除以2。 二、幾何均數(shù)geometric mean幾何均數(shù)用符號G表示。 一適用條件等比資料,如醫(yī)學(xué)上血清抗體滴度,人口幾何增長等資料。 2對數(shù)正態(tài)分布資料有些偏
38、態(tài)分布的資料,原始數(shù)據(jù)經(jīng)過對數(shù)轉(zhuǎn)換后服從正態(tài)分布,如疾病的潛伏期等資料。 二幾何均數(shù)的計算 1直接法 當(dāng)樣本量n較小時,常用直接法求幾何均數(shù)。其對數(shù)形式為 2.4 2加權(quán)法 當(dāng)資料中一樣觀察值個數(shù)較多時,或頻數(shù)表資料,可用下式計算 2.5公式中*為各組的效價或滴度的倒數(shù)等比資料時或各組的組中值對數(shù)正態(tài)分布資料時,f為各組的頻數(shù)。三、中位數(shù)median用M表示,它是指一組由小到大順序排列的觀察值中位次居中的那個觀察值。 一中位數(shù)的適用條件1偏態(tài)分布資料。 2分布類型不明確的資料。 3資料的一端或兩端無確定數(shù)據(jù)不能求均數(shù)和幾何均數(shù)時,可求中位數(shù)。 二中位數(shù)的計算 1直接法 當(dāng)觀察值個數(shù)n較小時,可
39、直接由原始數(shù)據(jù)求中位數(shù)。先將觀察值由小到大順序排列,再按公式2.6或2.7計算。n為奇數(shù)時, 2.6n為偶數(shù)時, 2.7 2頻數(shù)表法當(dāng)觀察值例數(shù)較多時,先將觀察值歸納成頻數(shù)表,按組段由小到大計算累計頻數(shù)和累計頻率,再按公式2.8計算中位數(shù)。 (2.8)公式中L為包括中位數(shù)即累計頻率為50%的那個組段的下限,i為該組段的組距,fM為該組段的頻數(shù),fL小于L的各組段的累計頻數(shù),n為總例數(shù)。第三節(jié) 描述離散趨勢的指標(biāo) 描述離散趨勢常用指標(biāo)有極差、四分位數(shù)間距、方差、標(biāo)準(zhǔn)差和變異系數(shù),其中以方差和標(biāo)準(zhǔn)差最為常用。 一、極差range,R極差=最大值-最小值。用極差描述變異度大小,簡單明了。缺點為:除最
40、大值和最小值外,不能反映組內(nèi)其它數(shù)據(jù)的變異度。易受個別特大值、特小值的影響,即不夠穩(wěn)定。即使樣本例數(shù)不變,極差的抽樣誤差亦較大。 二、四分位數(shù)間距quartile interval,Q (2.10)它也可被看成是中間一半觀察值的極差。它和極差類似,仍未考慮到每個觀察值的變異度。但它比極差穩(wěn)定。它適用于任何分布資料,主要用于偏態(tài)分布資料,特別是末端無確定數(shù)據(jù)的資料。Q越大,數(shù)據(jù)分布的變異度越大。 三、方差variance和標(biāo)準(zhǔn)差standard deviation 一方差 為抑制極差的缺點,需全面考慮每個觀察值的離散情況,就總體而言,應(yīng)考慮總體中每個觀察值變量值*與總體均數(shù)之差,稱為離均差*-。
41、由于*-有正有負(fù),相互抵消,這樣就不能反映變異度大小,故將離均差平方后再相加,即(*-)2,稱為離均差平方和。但(*-)2大小,除了與變異度有關(guān)外,還與觀察值的個數(shù)N的多少有關(guān)。即使兩總體變異度一樣,N大則(*-)2亦大。為消除這一影響,求其平均來描述離散趨勢,這就是總體方差,用符號2表示。 (2.11)實際工作中,很難得到總體均數(shù)和總例數(shù)N,常需根據(jù)樣本均數(shù)和樣本例數(shù)n,計算出樣本方差,用樣本方差估計總體方差。樣本方差用s2 表示。樣本方差s2的公式為(2.12)公式中n-1,在統(tǒng)計學(xué)上稱為自由度degree of freedom。2或s2越大,觀察值的變異度越大,即離散程度越大。方差適用于
42、描述對稱分布,尤其正態(tài)分布資料的離散趨勢。 二標(biāo)準(zhǔn)差 方差的單位是原來測量單位的平方,為了使用原測量單位,常將方差開平方,這就是標(biāo)準(zhǔn)差??傮w標(biāo)準(zhǔn)差用符號表示,樣本標(biāo)準(zhǔn)差用符號s表示??傮w標(biāo)準(zhǔn)差(2.13)樣本標(biāo)準(zhǔn)差 (2.14) 1標(biāo)準(zhǔn)差適用條件:對稱分布資料,尤其正態(tài)分布資料。 2標(biāo)準(zhǔn)差的意義:標(biāo)準(zhǔn)差可反映全部個體觀察值的離散程度,標(biāo)準(zhǔn)差越大,觀察值的變異越大,數(shù)據(jù)越分散,均數(shù)的代表性越差。標(biāo)準(zhǔn)差越小,說明資料離散程度小,資料較集中,均數(shù)的代表性好。 3標(biāo)準(zhǔn)差的計算有直接法和加權(quán)法 1直接法 數(shù)學(xué)上可證明 ,在計算標(biāo)準(zhǔn)差時,可直接將原始數(shù)據(jù)代入公式2.15,從而使得計算更為方便。(2.15)
43、2加權(quán)法 頻數(shù)表資料可用加權(quán)法計算標(biāo)準(zhǔn)差,公式如下(2.16)四、變異系數(shù)coefficient of variation,CV變異系數(shù)為標(biāo)準(zhǔn)差s與均數(shù)之比用百分?jǐn)?shù)表示,公式為(2.17)變異系數(shù)常用于: 1.度量衡單位不同的多組資料的變異度的比較。例如,欲比較身高和體重何者變異度大,由于度量衡單位不同,不能直接用標(biāo)準(zhǔn)差來比較,而應(yīng)用變異系數(shù)比較。2比較均數(shù)相差懸殊的多組資料的變異度。第四節(jié) 正態(tài)分布及其應(yīng)用 一、正態(tài)分布的概念和特征 一標(biāo)準(zhǔn)正態(tài)變換和標(biāo)準(zhǔn)正態(tài)分布為應(yīng)用方便,常將服從正態(tài)分布的原始變量*N(,)進展變量變換 (2.19) 這種變換叫標(biāo)準(zhǔn)正態(tài)變換或u變換。u稱為標(biāo)準(zhǔn)正態(tài)變量,它服
44、從均數(shù)為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布,即uN0,1。通過標(biāo)準(zhǔn)正態(tài)變換,可將正態(tài)分布變換為標(biāo)準(zhǔn)正態(tài)分布。標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)如下u40,且所有T5時,用2檢驗的根本公式或四格表專用公式。當(dāng)n40,但有1T0,Y隨*增大而增大; b好轉(zhuǎn)無效。 在資料分析時,根據(jù)需要可以對以上三種資料進展轉(zhuǎn)化。如血壓,當(dāng)舒*壓到達95mmHg時被認(rèn)為是高血壓,低于這個值被確認(rèn)為血壓正常,再清點兩組的人數(shù),這樣就將計量資料轉(zhuǎn)化為計數(shù)資料。進一步將舒*壓值介于9094mmHg之間定義為臨界高血壓,6090mmHg之間定義為正常血壓,低于60mmHg被認(rèn)為是低血壓,這樣又將計量資料轉(zhuǎn)化為等級資料。又如將評價療效中的治愈
45、、好轉(zhuǎn)合并為一組稱為有效,無效保持不變,這樣將等級資料轉(zhuǎn)化為計數(shù)資料。再如將性別中的男、女分別以0,1表示則計數(shù)資料變成了計量資料,在統(tǒng)計學(xué)中稱為指示變量(indicative variable)或偽變量(dummy variable)。但這里的0和1并無數(shù)值意義, 不表示女大于男,0用來指示男,1用來指示女。二、按研究因素間的因果聯(lián)系分類 連接變量 疾病 病因 自變量 應(yīng)變量 混雜變量 圖13-1 病因關(guān)系中的變量類型在流行病學(xué)病因研究中,根據(jù)研究變量在疾病發(fā)生過程中所起的作用大致分為四個類型(圖131)。 自變量(independent variable),它的變化可以引起*一現(xiàn)象或情況發(fā)
46、生相應(yīng)變化。 應(yīng)變量(dependent variable)或結(jié)果變量(oute variable),它因自變量變化而引發(fā)的效應(yīng)或結(jié)果。 由病因(自變量)至疾病(應(yīng)變量)的過程中,往往需先引發(fā)一個或多個中間變化,最終才能發(fā)病。這些中間現(xiàn)象稱為連接變量(con-necting variable)。 混雜變量(confounding variable),它與研究的病因(自變量)和研究的疾病(應(yīng)變量)均有關(guān),它能縮小或夸大病因與疾病間的真正聯(lián)系。第2節(jié) 統(tǒng)計方法的選擇 醫(yī)學(xué)研究中資料統(tǒng)計分析的目的有三:估計變量間相互聯(lián)系的強度或不同處理組間*指標(biāo)差異的大??;由樣本統(tǒng)計量推論總體參數(shù);在估計和推論統(tǒng)計
47、分析中控制混雜因素。研究人員在分析資料之前首先要對將要分析的變量有所認(rèn)識,即認(rèn)清所要分析變量的類型和特征,以及變量在研究中所起的作用。待分析變量是連續(xù)性變量、等級變量、還是名義變量;如為連續(xù)性變量,它的分布情況怎樣;如為名義變量,是二分類還是多分類。變量在研究中屬于自變量、應(yīng)變量,還是混雜變量或連接變量。一旦理清變量的類型和特征,以及在研究中的關(guān)系后,再根據(jù)研究目的選擇恰當(dāng)?shù)慕y(tǒng)計方法分析研究資料。 確定應(yīng)變量以后,自變量的數(shù)量和類型決定選擇那一種統(tǒng)計方法。例如研究人員只想估計人群中高血壓的發(fā)生率,而不關(guān)心研究對象的其他特征,如吸煙、年齡、性別等。即通過樣本統(tǒng)計量估計總體的情況,這時所執(zhí)行的統(tǒng)計
48、分析稱為單變量分析(univariable analysis)。單變量分析適合于只有一個應(yīng)變量,而沒有自變量的研究資料。如果研究人員的目的是探討吸煙與人群冠心病發(fā)病率的關(guān)系,此時所執(zhí)行的雙變量分析(bivariable analysis)。 雙變量分析適合于含有一個應(yīng)變量和一個有自變量的研究資料。如果研究人員除了對吸煙與人群中冠心病發(fā)病率的影響外,同時還考慮研究對象的年齡、性別等特征的作用,此時要做的統(tǒng)計分析為多變量分析(multivariable analysis)。 以下內(nèi)容就單變量分析、雙變量分析、多變量分析中,按照不同類型(連續(xù)性變量、等級變量、名義變量)和特征(正態(tài)與偏態(tài)、二分類與多
49、分類)的應(yīng)變量與不同類型、特征的自變量的組合(圖132),介紹如何正確選擇統(tǒng)計方法。應(yīng)變量 無自變量 一個自變量 多個自變量 單變量分析 雙變量分析 多變量分析 計量資料 等級資料 計數(shù)資料 計量資料 等級資料 計數(shù)資料 計量資料 等級資料 計數(shù)資料 圖132 醫(yī)學(xué)研究中統(tǒng)計方法選擇流程圖一、單變量分析 對不含有自變量,僅有應(yīng)變量的研究資料所進展的統(tǒng)計分析稱為單變量統(tǒng)計分析。單變量分析的應(yīng)用主要有三個方面:單樣本的描述性分析。估計總體參數(shù)。樣本統(tǒng)計量與總體參數(shù)的比較,因為檢驗中未涉及到自變量,檢驗假設(shè)是樣本來自于同一總體,即樣本統(tǒng)計量等于總體參數(shù)。此外配對t檢驗也可以看作是單變量分析,因為在該
50、檢驗中應(yīng)變量是兩處理組觀察值的差,也未涉及自變量的問題。 一計量資料 應(yīng)變量為計量資料的單變量分析有以下內(nèi)容:描述研究變量的集中趨勢和變異程度;利用樣本統(tǒng)計量估計總體均數(shù)和均數(shù)的可信限;樣本均數(shù)與總體均數(shù)的比較;配對t檢驗。應(yīng)變量為計量資料 描述性分析 總體均數(shù)估計 總體均數(shù)與樣 配對t檢驗 本均數(shù)的比較 均數(shù) 正態(tài)分布 偏態(tài)分布 標(biāo)準(zhǔn)誤 n30 均數(shù) 中位數(shù)、眾數(shù) t檢驗 u檢驗 標(biāo)準(zhǔn)差 四分位數(shù)間距圖133 計量資料單變量分析統(tǒng)計方法選擇流程圖 在計量資料描述統(tǒng)計分析中采用那一統(tǒng)計指標(biāo)和統(tǒng)計檢驗方法則取決與研究變量的分布和樣本大小,選擇原則如圖133。 1. 描述性分析 描述性分析就是對資
51、料作出數(shù)字性總結(jié),并可利用統(tǒng)計圖表的形式將分析結(jié)果表達出來,使之醒目、易懂、便于交流。計量資料的描述性分析就是選擇適當(dāng)?shù)慕y(tǒng)計指標(biāo)表示一組觀察變量的集中趨勢和離散程度。常用反映集中趨勢的統(tǒng)計指標(biāo)有算術(shù)均數(shù)(arithmetic mean)、中位數(shù)(median)、眾數(shù)(mode);反映離散程度的統(tǒng)計指標(biāo)有標(biāo)準(zhǔn)差(standard deviation)、四分位數(shù)間距、級差(range)和變異系數(shù)(coefficient of variation)。(1)集中趨勢的描述 1)算術(shù)均數(shù):簡稱均數(shù)(mean),是統(tǒng)計學(xué)中最為常用的統(tǒng)計指標(biāo)。它是將總體或樣本*一標(biāo)志的各個數(shù)值相加的總和除以這些數(shù)值的總個數(shù)
52、的結(jié)果,用表示。 該指標(biāo)充分利用了每一數(shù)據(jù)所提供的信息,便于作進一步統(tǒng)計分析。但較易受到極端值極大值、極小值的影響,使之失去代表性。 均數(shù)適用于描述對稱分布,特別是正態(tài)分布的資料。當(dāng)資料中存在極端值時,不宜選用該指標(biāo)。注意只有同質(zhì)性的事物求平均數(shù)才有實際意義,才能反映事物的特征。 2)中位數(shù):即將數(shù)據(jù)按由小到大的順序排序后,居于中間位置的那個數(shù),用M表示。在該組數(shù)據(jù)中有一半比它大,有一半比它小。中位數(shù)適用于呈偏態(tài)分布的計量資料,或等級資料。 因中位數(shù)不是由全部觀察值綜合計算出來,所以不受個別極大值或極小值影響。因此,它也有不能充分利用每一數(shù)據(jù)提供信息的缺點,同時進一步的統(tǒng)計分析也不如均數(shù)來的方
53、便。因中位數(shù)只與一組數(shù)據(jù)中位次居中的數(shù)值大小有關(guān),故當(dāng)觀察例數(shù)較少時,中位數(shù)作為描述集中趨勢指標(biāo)的穩(wěn)定性較差。在對稱分布中,中位數(shù)和均數(shù)在理論上應(yīng)該一樣。 3)眾數(shù):在一組數(shù)據(jù)中出現(xiàn)頻次最多的觀察值稱為眾數(shù),用M0表示。通常觀察值數(shù)量大的情況下選用眾數(shù)表達集中趨勢。它具有通俗易懂,不受極端值影響的特點。但難以作進一步的統(tǒng)計分析。眾數(shù)主要描述呈雙峰分布的計量資料,或等級資料。 4)幾何均數(shù):n個數(shù)據(jù)連乘的積開n次方所得的根稱為幾何均數(shù)(geometric mean),用G表示。 幾何均數(shù)常被用于等比級數(shù)資料的平均水平,如抗體的平均滴度和平均效價;也可用于描述觀察值稱對數(shù)正態(tài)分布資料的平均水平;另
54、外,當(dāng)數(shù)據(jù)中有少數(shù)數(shù)據(jù)過大或過小時也可用幾何平均數(shù)描述集中趨勢。 (2)離散程度的描述指標(biāo) 1)極差:又稱全距,是一組觀察值中最大值與最小值之差。是衡量變異程度的最簡單的指標(biāo),它反映個體的變異*圍。用R表示。極差多用在特別強調(diào)極端值的情況下。 極差的計算只考慮最大、最小值,因此不能反映其它數(shù)據(jù)的變異情況。因受到極端值的影響,表現(xiàn)出較差的穩(wěn)定性。當(dāng)比較樣本含量相差懸殊的兩組數(shù)據(jù)的變異程度時,因樣本量大而同時抽中最大、最小值的時機大,因而比小樣本得到大極差的可能性大,故不宜用極差作為比較變異程度的指標(biāo)。 2)四分位數(shù)間距:將一組觀察值由小至大排位,然后分為四個等份,其中有三個點,即第25百分位數(shù)第
55、一四分位數(shù),第50百分位數(shù)第二四分位數(shù),第75百分位數(shù)第三四分位數(shù)。四分位數(shù)間距就是第75百分位數(shù)值與第25百分位數(shù)值之差。其間包括了全部觀察值的一半。四分位數(shù)間距常用描述分析等級資料或偏態(tài)資料的離散程度。 四分位數(shù)間距作為變異程度指標(biāo),比極差穩(wěn)定,不受極端值影響;但仍未充分應(yīng)用每一個觀察值提供的變異信息。 3)標(biāo)準(zhǔn)差:是表示一組變量離散程度的統(tǒng)計指標(biāo)。它常用于呈正態(tài)分布或?qū)ΨQ分布的資料。它與均數(shù)結(jié)合起來,能更全面地說明一組觀察值的分布情況。 4)變異系數(shù):又稱離散系數(shù),用CV表示。計算方式為標(biāo)準(zhǔn)差與均數(shù)之比用百分?jǐn)?shù)表示,即:CV=(SD/)100%。 變異系數(shù)反映的是資料的相對變異程度,因沒
56、有單位,便于資料間的相互比較。它常用于比較均數(shù)相差懸殊的幾組資料的變異程度,以及比較間度量衡單位不同的幾組資料的變異程度。 (3)集中趨勢指標(biāo)、離散程度指標(biāo)間的聯(lián)合使用 1)均數(shù)與中位數(shù)的聯(lián)合使用:通過比照均數(shù)與中位數(shù)估計觀察值的頻數(shù)分布形態(tài)。如果均數(shù)與中位數(shù)相等,觀察值通常呈對稱分布;如果均數(shù)大于中位數(shù),觀察值分布偏向右側(cè),為正偏態(tài)分布;如果均數(shù)小于中位數(shù),觀察值分布偏向左側(cè),為負(fù)偏態(tài)分布。 2)標(biāo)準(zhǔn)差與均數(shù)的聯(lián)合使用:主要反映觀察值圍繞均數(shù)的分布情況,標(biāo)準(zhǔn)差越大,說明觀察值圍繞均數(shù)的分布越分散,均數(shù)的代表性就越差;標(biāo)準(zhǔn)差越小,說明觀察值圍繞均數(shù)的分布就越集中,均數(shù)的代表性就越好。此外,在醫(yī)
57、學(xué)中常用均數(shù)1.96標(biāo)準(zhǔn)差求正常值的*圍(或參考值*圍),統(tǒng)計學(xué)中稱為95%可信限(confidence limit,CL),它的含義是在該區(qū)間內(nèi)包含了95的觀察值,即95的正常人*指標(biāo)在這個*圍內(nèi)。 3)四分位數(shù)間距與中位數(shù)聯(lián)合使用:常用來對等級資料或偏態(tài)資料進展描述分析,描述它們的集中趨勢和離散程度。2.總體均數(shù)估計 由于抽樣誤差的原因,樣本的結(jié)果一般都不正好等于總體的結(jié)果,因此有必要用樣本結(jié)果(稱為統(tǒng)計量)來推論總體結(jié)果(稱為參數(shù))。這種用樣本統(tǒng)計量推論總體參數(shù)的過程就是參數(shù)估計。 參數(shù)估計分點估計和區(qū)間估計兩種。點估計就是用樣本結(jié)果代表總體結(jié)果的一種推斷方法。區(qū)間估計就是對總體參數(shù)作出
58、一個*圍估計,并說明該*圍包含總體均數(shù)的可能性有多大,在統(tǒng)計學(xué)中該*圍被稱為可信區(qū)間或置信區(qū)間(confidence interval CI)。常用的有95%或99%可信區(qū)間。在計算可信區(qū)間之前,必須先計算標(biāo)準(zhǔn)誤(standard error),它是描述樣本統(tǒng)計量與總體參數(shù)離散程度的指標(biāo),表示所得樣本統(tǒng)計量的可靠程度。標(biāo)準(zhǔn)誤越小,樣本統(tǒng)計量(樣本均數(shù)、樣本率)對總體參數(shù)(總體均數(shù)、總體率)的代表性就越好,反之代表性就差。 總體均數(shù)可信區(qū)間的計算方法,因是否知道總體標(biāo)準(zhǔn)差而不同。時按正態(tài)分布的原理計算,不知時按t分布的原理計算。 當(dāng)時,可用下式計算:(13-1)式中*為樣本均數(shù),n為樣本含量,為
59、總體標(biāo)準(zhǔn)差,/n為標(biāo)準(zhǔn)誤,如計算95可信區(qū)間,0.051.96,如計算99可信區(qū)間,0.012.58。 當(dāng)不知時,可用下式計算: (13-2)式中為樣本均數(shù),n為樣本含量,s為樣本標(biāo)準(zhǔn)差(代替總體標(biāo)準(zhǔn)差),s/n為標(biāo)準(zhǔn)誤,t,是按自由度n1,由t界值表查得。 3. 總體均數(shù)與樣本均數(shù)的比較 通過比較樣本均數(shù)與總體均數(shù)0(大量觀察所得的穩(wěn)定值或標(biāo)準(zhǔn)值)之間的差異,來推斷樣本均數(shù)所代表的未知總體均數(shù)是否與總體均數(shù)相等。 當(dāng)樣本量較小時用t檢驗,要求樣本取自于正態(tài)分布的總體。當(dāng)樣本量較大時,如30,特別是50以上,無論樣本所來自的總體是否為正態(tài)分布,都可用u檢驗。 t檢驗、u檢驗公式如下: (13-
60、3) (13-4) 4. 配對樣本均數(shù)的t檢驗 臨床研究中,即同一受試對象承受*項處理的前后或承受兩種不同的處理;或者先將條件一樣或相近的實驗對象進展配對,然后再用隨機的方法將其中的一組定為實驗組,另一組為對照組。由此類研究而獲得的資料稱為配對資料。 對于配對資料,人們感興趣的是每對觀察值差異的平均水平和變異程度,而不是受試對象間的差異。且可視兩次結(jié)果的差值為一個樣本,因此可以用樣本均數(shù)與總體均數(shù)比較的方法,進展統(tǒng)計處理。如果處理無影響,理論上差值d的總體均數(shù)應(yīng)為0。所以可將這類問題看成是樣本均數(shù)d與總體均數(shù)0的比較。 通過對每對實驗結(jié)果差值的平均數(shù)的分析來推斷*處理因素對實驗結(jié)果有無影響或兩
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度新型建筑防水涂料銷售及施工合同
- 關(guān)于購買蔬菜合同范本
- 養(yǎng)殖回收蛋合同范例
- 2025年度高端汽車進口貿(mào)易合同范本
- 2025年度文化旅游產(chǎn)業(yè)貸款擔(dān)保合同
- 網(wǎng)絡(luò)供應(yīng)商供貨合同范本
- 2025年度教育培訓(xùn)機構(gòu)廣告設(shè)計制作合同
- 信托股東轉(zhuǎn)讓股合同范本
- 中國足球協(xié)會勞動合同范本
- 休閑快餐服務(wù)合同范本
- 設(shè)備安全操作培訓(xùn)
- 光伏發(fā)電項目屋面作業(yè)安全檢查表
- GB/T 7251.5-2017低壓成套開關(guān)設(shè)備和控制設(shè)備第5部分:公用電網(wǎng)電力配電成套設(shè)備
- 2023年湖南高速鐵路職業(yè)技術(shù)學(xué)院高職單招(數(shù)學(xué))試題庫含答案解析
- 中考語文非連續(xù)性文本閱讀10篇專項練習(xí)及答案
- GB/T 13088-2006飼料中鉻的測定
- 經(jīng)顱磁刺激的基礎(chǔ)知識及臨床應(yīng)用參考教學(xué)課件
- 小學(xué)語文人教四年級上冊第四單元群文閱讀“神話故事之人物形象”PPT
- 鄉(xiāng)村振興匯報課件
- 紅色記憶模板課件
- 麗聲三葉草分級讀物第四級A Friend for Little White Rabbit課件
評論
0/150
提交評論