科研設(shè)計(jì)的統(tǒng)計(jì)學(xué)原則_第1頁
科研設(shè)計(jì)的統(tǒng)計(jì)學(xué)原則_第2頁
科研設(shè)計(jì)的統(tǒng)計(jì)學(xué)原則_第3頁
科研設(shè)計(jì)的統(tǒng)計(jì)學(xué)原則_第4頁
已閱讀5頁,還剩101頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、科研設(shè)計(jì)的統(tǒng)計(jì)學(xué)原則科研設(shè)計(jì)的統(tǒng)計(jì)學(xué)原則高月求高月求實(shí)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)設(shè)計(jì) 實(shí)驗(yàn)(實(shí)驗(yàn)(Experiment)指由研究者主動(dòng)地決定給予)指由研究者主動(dòng)地決定給予部分實(shí)驗(yàn)對象某種處理,給予另一部分對象某種部分實(shí)驗(yàn)對象某種處理,給予另一部分對象某種對照處理的研究設(shè)計(jì)形式,這種處理的分配常常對照處理的研究設(shè)計(jì)形式,這種處理的分配常常是隨機(jī)的。是隨機(jī)的。 實(shí)驗(yàn)設(shè)計(jì)(實(shí)驗(yàn)設(shè)計(jì)(Experimental design)是通過對象)是通過對象的選擇、處理因素的合理分配、結(jié)果指標(biāo)的準(zhǔn)確的選擇、處理因素的合理分配、結(jié)果指標(biāo)的準(zhǔn)確測量和恰當(dāng)?shù)馁Y料分析來提高組與組間非處理因測量和恰當(dāng)?shù)馁Y料分析來提高組與組間非處理因素的一

2、致性,使實(shí)驗(yàn)結(jié)果有較好的可比性,并且素的一致性,使實(shí)驗(yàn)結(jié)果有較好的可比性,并且較好地控制誤差,用較小的樣本獲取可靠的結(jié)論。較好地控制誤差,用較小的樣本獲取可靠的結(jié)論。實(shí)驗(yàn)設(shè)計(jì)三要素實(shí)驗(yàn)設(shè)計(jì)三要素 處理處理 對象對象 效應(yīng)效應(yīng) 降壓藥降壓藥 高血壓病人高血壓病人 血壓值血壓值處理處理 處理(處理(treatment):研究者根據(jù)研究目的):研究者根據(jù)研究目的欲施加或欲觀察的,能作用于受試對象并欲施加或欲觀察的,能作用于受試對象并引起效應(yīng)的因素。引起效應(yīng)的因素。 非處理因素:相應(yīng)的也能使受試對象產(chǎn)生非處理因素:相應(yīng)的也能使受試對象產(chǎn)生效應(yīng)的因素,又稱混雜因素效應(yīng)的因素,又稱混雜因素(confoun

3、ding factor)。 處理因素要標(biāo)準(zhǔn)化,處理水平始終一致。處理因素要標(biāo)準(zhǔn)化,處理水平始終一致。對象對象(subjects) 指根據(jù)研究目的確定的觀察對象(動(dòng)物或指根據(jù)研究目的確定的觀察對象(動(dòng)物或人體),必須具備同質(zhì)性和代表性人體),必須具備同質(zhì)性和代表性 1)動(dòng)物的選擇:種類、品系、年齡、性別、)動(dòng)物的選擇:種類、品系、年齡、性別、體重、營養(yǎng)體重、營養(yǎng) 2)人的選擇:診斷明確、依從性好,反映)人的選擇:診斷明確、依從性好,反映主觀感覺主觀感覺效應(yīng)效應(yīng)(effect)是處理因素作用于受試對象的反應(yīng)和結(jié)果,通過觀察指標(biāo)表是處理因素作用于受試對象的反應(yīng)和結(jié)果,通過觀察指標(biāo)表達(dá)。指標(biāo)要求:達(dá)。

4、指標(biāo)要求: 1)客觀性:主觀指標(biāo)和客觀指標(biāo)。)客觀性:主觀指標(biāo)和客觀指標(biāo)。 2)精確性:)精確性: 準(zhǔn)確度準(zhǔn)確度(accuracy):觀察值與真值的接近程度,受系:觀察值與真值的接近程度,受系統(tǒng)誤差的影響。統(tǒng)誤差的影響。 精密度精密度(precision):重復(fù)觀察時(shí)觀察值與其均值的接:重復(fù)觀察時(shí)觀察值與其均值的接近程度,受隨機(jī)誤差的影響;近程度,受隨機(jī)誤差的影響; 3)靈敏性)靈敏性(sensitivity):表示指標(biāo)檢出真陽性的能力,可:表示指標(biāo)檢出真陽性的能力,可減少假陰性率。減少假陰性率。 4)特異性)特異性(specificity):表示指標(biāo)檢出真陰性的能力,減表示指標(biāo)檢出真陰性的能

5、力,減少假陽性率。少假陽性率。實(shí)驗(yàn)誤差及其特點(diǎn)實(shí)驗(yàn)誤差及其特點(diǎn) 在實(shí)驗(yàn)中,由于實(shí)驗(yàn)對象自身特點(diǎn)、實(shí)驗(yàn)在實(shí)驗(yàn)中,由于實(shí)驗(yàn)對象自身特點(diǎn)、實(shí)驗(yàn)條件的變化和實(shí)驗(yàn)結(jié)果測量的不確定性造條件的變化和實(shí)驗(yàn)結(jié)果測量的不確定性造成實(shí)驗(yàn)結(jié)果與真值的差別稱實(shí)驗(yàn)誤差成實(shí)驗(yàn)結(jié)果與真值的差別稱實(shí)驗(yàn)誤差(Experimental error)。根據(jù)統(tǒng)計(jì)分析上)。根據(jù)統(tǒng)計(jì)分析上的處理不同,實(shí)驗(yàn)誤差分成兩類:的處理不同,實(shí)驗(yàn)誤差分成兩類: 隨機(jī)誤差(隨機(jī)誤差(Random error) 非隨機(jī)誤差非隨機(jī)誤差 隨機(jī)誤差(隨機(jī)誤差(Random error) 隨機(jī)誤差是由大量的、微小的、偶然因素隨機(jī)誤差是由大量的、微小的、偶然因素引

6、起的不易控制的誤差。如在實(shí)驗(yàn)中,溫引起的不易控制的誤差。如在實(shí)驗(yàn)中,溫度、濕度、風(fēng)向、振動(dòng)、試劑、儀器、操度、濕度、風(fēng)向、振動(dòng)、試劑、儀器、操作員等都可能造成結(jié)果的偏差。作員等都可能造成結(jié)果的偏差。 隨機(jī)變異是沒有傾向性的,在大量觀察條隨機(jī)變異是沒有傾向性的,在大量觀察條件下,隨機(jī)誤差的分布呈標(biāo)準(zhǔn)正態(tài)分布。件下,隨機(jī)誤差的分布呈標(biāo)準(zhǔn)正態(tài)分布。隨機(jī)誤差的規(guī)律可以用統(tǒng)計(jì)方法分析。隨機(jī)誤差的規(guī)律可以用統(tǒng)計(jì)方法分析。非隨機(jī)誤差非隨機(jī)誤差 又稱偏倚(又稱偏倚(bias)或系統(tǒng)誤差()或系統(tǒng)誤差(Systematic error) 由于在對象選擇、處理因素分配的不隨機(jī)、測量結(jié)果的不由于在對象選擇、處理因素

7、分配的不隨機(jī)、測量結(jié)果的不準(zhǔn)確造成實(shí)驗(yàn)結(jié)果有傾向性地偏離稱之。(無統(tǒng)計(jì)規(guī)律、準(zhǔn)確造成實(shí)驗(yàn)結(jié)果有傾向性地偏離稱之。(無統(tǒng)計(jì)規(guī)律、可預(yù)防、務(wù)必控制)可預(yù)防、務(wù)必控制) (1)選擇偏倚選擇偏倚(Selection bias):指在選擇研究對象和分組:指在選擇研究對象和分組時(shí)的非隨機(jī)化,造成結(jié)果的偏倚。如肝癌手術(shù)治療與化療時(shí)的非隨機(jī)化,造成結(jié)果的偏倚。如肝癌手術(shù)治療與化療的療效比較中,由于手術(shù)對象的選擇性造成有利于手術(shù)組的療效比較中,由于手術(shù)對象的選擇性造成有利于手術(shù)組的結(jié)果。的結(jié)果。 (2)信息偏倚(信息偏倚(Information bias):指測量方面的誤差,):指測量方面的誤差,特別是主觀因素

8、造成的有傾向性的偏倚。如在臨床試驗(yàn)中,特別是主觀因素造成的有傾向性的偏倚。如在臨床試驗(yàn)中,實(shí)驗(yàn)組是在醫(yī)院測量,對照組是在家中測量。實(shí)驗(yàn)組是在醫(yī)院測量,對照組是在家中測量。 (3)混雜偏倚(混雜偏倚(Confounding):指實(shí)驗(yàn)組與對照組在一):指實(shí)驗(yàn)組與對照組在一些影響實(shí)驗(yàn)結(jié)果的非處理因素不均衡造成結(jié)果的偏倚。如些影響實(shí)驗(yàn)結(jié)果的非處理因素不均衡造成結(jié)果的偏倚。如病情輕重、并發(fā)癥、輔助治療和護(hù)理等因素不均衡。病情輕重、并發(fā)癥、輔助治療和護(hù)理等因素不均衡。實(shí)驗(yàn)設(shè)計(jì)的原則實(shí)驗(yàn)設(shè)計(jì)的原則 對照(對照(Control) 隨機(jī)化(隨機(jī)化(Randomization) 重復(fù)(重復(fù)(Replication

9、) 盲法(盲法(blind method) 對照(對照(Control)指設(shè)立對照組以排除非處理因素而顯示出處理的效指設(shè)立對照組以排除非處理因素而顯示出處理的效應(yīng)。應(yīng)。處理組處理組 處理因素處理因素+非處理因素非處理因素=處理和非處理的效應(yīng)處理和非處理的效應(yīng)對照組對照組 非處理因素非處理因素= 非處理因素的效應(yīng)非處理因素的效應(yīng)對比對比 處理因素處理因素 =處理效應(yīng)處理效應(yīng) 對照組設(shè)置的三個(gè)條件:對照組設(shè)置的三個(gè)條件: 對等:除處理因素外,兩組對等的非處理因素對等:除處理因素外,兩組對等的非處理因素 同步:兩組始終處于同一空間和同一時(shí)間同步:兩組始終處于同一空間和同一時(shí)間 專設(shè):對照組專門設(shè)立,

10、一般不能以文獻(xiàn)為對照專設(shè):對照組專門設(shè)立,一般不能以文獻(xiàn)為對照(有時(shí)可與(有時(shí)可與“常模常模”比較)比較)隨機(jī)化(隨機(jī)化(Randomization) 隨機(jī)原則是指隨機(jī)原則是指“機(jī)會(huì)均等機(jī)會(huì)均等”,最簡單的方,最簡單的方法是抽簽法是抽簽 隨機(jī)隨機(jī)隨便,任何隨便都不是隨機(jī)的隨便,任何隨便都不是隨機(jī)的 隨機(jī)化類型隨機(jī)化類型 隨機(jī)抽樣:每個(gè)個(gè)體有同等的機(jī)會(huì)被抽中隨機(jī)抽樣:每個(gè)個(gè)體有同等的機(jī)會(huì)被抽中 分組隨機(jī):每個(gè)實(shí)驗(yàn)對象分配到不同處理分組隨機(jī):每個(gè)實(shí)驗(yàn)對象分配到不同處理組的機(jī)會(huì)相同組的機(jī)會(huì)相同 隨機(jī)順序:每個(gè)實(shí)驗(yàn)對象接受處理先后的隨機(jī)順序:每個(gè)實(shí)驗(yàn)對象接受處理先后的機(jī)會(huì)相同機(jī)會(huì)相同重復(fù)(重復(fù)(Rep

11、lication) 重復(fù)是指在相同實(shí)驗(yàn)條件下進(jìn)行多次研究重復(fù)是指在相同實(shí)驗(yàn)條件下進(jìn)行多次研究或多次觀察,以提高實(shí)驗(yàn)的可靠性與科學(xué)或多次觀察,以提高實(shí)驗(yàn)的可靠性與科學(xué)性。性。 廣義地講,重復(fù)包括:整個(gè)實(shí)驗(yàn)的重復(fù)、廣義地講,重復(fù)包括:整個(gè)實(shí)驗(yàn)的重復(fù)、用多個(gè)實(shí)驗(yàn)單位進(jìn)行重復(fù)、同一實(shí)驗(yàn)單位用多個(gè)實(shí)驗(yàn)單位進(jìn)行重復(fù)、同一實(shí)驗(yàn)單位的重復(fù)觀察。的重復(fù)觀察。 決定重復(fù)性的關(guān)鍵是樣本含量,故常將重決定重復(fù)性的關(guān)鍵是樣本含量,故常將重復(fù)性簡化為復(fù)性簡化為“樣本含量樣本含量”盲法(盲法(blind method) 按實(shí)驗(yàn)方案規(guī)定,盡量不讓參與臨床實(shí)驗(yàn)的受試按實(shí)驗(yàn)方案規(guī)定,盡量不讓參與臨床實(shí)驗(yàn)的受試者、研究者、醫(yī)務(wù)人員

12、、監(jiān)視員、數(shù)據(jù)管理和統(tǒng)者、研究者、醫(yī)務(wù)人員、監(jiān)視員、數(shù)據(jù)管理和統(tǒng)計(jì)分析人員知道患者接受何種治療。計(jì)分析人員知道患者接受何種治療。 單盲法(單盲法(single blind)指受試者不知道自己屬于)指受試者不知道自己屬于試驗(yàn)組還是對照組試驗(yàn)組還是對照組 雙盲法(雙盲法(double blind)指受試者和試驗(yàn)醫(yī)務(wù)人)指受試者和試驗(yàn)醫(yī)務(wù)人員都不知道病人屬于試驗(yàn)組還是對照組員都不知道病人屬于試驗(yàn)組還是對照組 非盲法非盲法(open label): 采用單盲或非盲法試驗(yàn)應(yīng)在采用單盲或非盲法試驗(yàn)應(yīng)在研究方案中申述理由。研究方案中申述理由。 盲法的原則應(yīng)自始至終地貫徹于整個(gè)試驗(yàn)之中盲法的原則應(yīng)自始至終地貫

13、徹于整個(gè)試驗(yàn)之中 針對研究類型選擇適當(dāng)?shù)难芯吭O(shè)計(jì) 類型目的首選的研究設(shè)計(jì)治療研究檢驗(yàn)各種干預(yù)措施如藥物治療、介入或外科手術(shù)的效果隨機(jī)對照臨床試驗(yàn)診斷研究評(píng)估新的診斷方法的有效性和可行性橫斷面調(diào)查(須同時(shí)進(jìn)行新方法和金標(biāo)準(zhǔn)方法檢驗(yàn))預(yù)后研究了解確診病人以后可能發(fā)生的情況縱向隊(duì)列研究因果關(guān)系研究評(píng)估有害因素與疾病發(fā)生是否有關(guān)隊(duì)列研究或病例-對照研究,病例報(bào)告亦有用篩選研究評(píng)估適于大規(guī)模人群檢驗(yàn)和在疾病呈現(xiàn)癥狀早期檢出該病的各種檢查方法橫斷面調(diào)查隨機(jī)對照臨床試驗(yàn)(RCT)n適用RCT解決的臨床問題 對某一疾病,研究藥物在效果上是否優(yōu)于安慰劑或另一種藥物(對照藥)? 新的手術(shù)方法是否優(yōu)于傳統(tǒng)方法? 改

14、變生活習(xí)慣是否會(huì)影響病人血壓水平?RCT的優(yōu)點(diǎn)n在選定的病人組群中,可嚴(yán)格評(píng)價(jià)單一變量的效果n前瞻性設(shè)計(jì)n應(yīng)用假設(shè)推導(dǎo)進(jìn)行推理n消除偏倚:比較基線指標(biāo)相同的兩個(gè)組n可作薈萃分析和系統(tǒng)性評(píng)價(jià) RCT被認(rèn)為是臨床科研的“金標(biāo)準(zhǔn)”RCT的缺點(diǎn)n 耗費(fèi)又耗時(shí):無法完成、樣本量不足、研究時(shí)間太短n 多數(shù)由研究機(jī)構(gòu)或藥廠(公司)資助,難免不會(huì)影響公正n 常使用“替代終點(diǎn)”n 可出現(xiàn)“潛在的偏倚” 隨機(jī)化不完善 未對所有合格病人進(jìn)行隨機(jī)化分配 未避免資料評(píng)價(jià)人員知道病人隨機(jī)情況n 其他 排除標(biāo)準(zhǔn)的偏倚 入選標(biāo)準(zhǔn)的偏倚 不適合進(jìn)行RCT:n預(yù)后研究 適于縱向隊(duì)列研究n篩查研究 適于橫斷面研究n“保健質(zhì)量”研究

15、:尚未確定“成功”標(biāo)準(zhǔn),適于定性研究方法隊(duì)列研究 選擇2組,暴露于某種特定物質(zhì)(藥物、疫苗、環(huán)境致病物等)不同的人群,隨訪,觀察每組發(fā)生特定疾病結(jié)局或人數(shù)。 研究對象為可能發(fā)病或不發(fā)病者。 關(guān)注的是病因,而非疾病治療適合采用隊(duì)列研究的臨床問題n吸煙導(dǎo)致肺癌嗎?n高血壓隨著時(shí)間推移會(huì)變好嗎?n避孕藥導(dǎo)致“乳腺癌”嗎?n早產(chǎn)兒在以后的生長發(fā)育和學(xué)習(xí)成績上情況如何?病例-對照研究 確定有某種特定疾病的病人并與對照組進(jìn)行匹配,收集其暴露于某種可疑致病因子的資料。 關(guān)注的是病因而非疾病治療。 對于罕見病的研究可能是唯一選擇。橫斷面調(diào)查 對某一研究對象中的代表性樣本(或病人)進(jìn)行訪問、檢查或研究以獲得對某

16、一特定臨床問題的答案。 資料在單一時(shí)間點(diǎn)收集,但可回顧性追溯過去有關(guān)健康方面的經(jīng)歷。病例報(bào)告 以故事方式描述單一患者病史。可綜合形成病例系列,以描述一個(gè)以上患有某一特殊情況患者的病史,闡述此種情況的某個(gè)方面、治療情況或?qū)χ委熤涣挤磻?yīng)。病例報(bào)告之優(yōu)點(diǎn)n可以傳遞大量在臨床試驗(yàn)中或調(diào)查中可能丟失的信息n易被普通醫(yī)師或大眾理解n易于完成(數(shù)天內(nèi))統(tǒng)計(jì)工作的步驟統(tǒng)計(jì)工作的步驟 第一步設(shè)計(jì)(design): 第二步收集資料(collection of data): 第三步整理資料(sorting data): 第四步分析資料(analysis of data):設(shè)計(jì)(設(shè)計(jì)(design) 首先明確研究目

17、的首先明確研究目的, 根據(jù)研究目的,從統(tǒng)計(jì)角度對資料的根據(jù)研究目的,從統(tǒng)計(jì)角度對資料的搜集、整理和分析全過程提出全面具體的計(jì)劃和要求,作搜集、整理和分析全過程提出全面具體的計(jì)劃和要求,作為統(tǒng)計(jì)工作實(shí)施的依據(jù),以便用盡可能少的人力、物力和為統(tǒng)計(jì)工作實(shí)施的依據(jù),以便用盡可能少的人力、物力和時(shí)間獲得準(zhǔn)確可靠的結(jié)論。時(shí)間獲得準(zhǔn)確可靠的結(jié)論。 1、明確對象、明確對象 2、明確取得原始資料的方法、明確取得原始資料的方法 3、如何整理資料、如何整理資料 4、計(jì)算哪些指標(biāo)、計(jì)算哪些指標(biāo) 5、用何種統(tǒng)計(jì)推斷方法、用何種統(tǒng)計(jì)推斷方法 6、預(yù)測結(jié)果、預(yù)測結(jié)果搜集資料搜集資料 搜集及時(shí)、準(zhǔn)確、完整地搜集原始資料是統(tǒng)計(jì)

18、工搜集及時(shí)、準(zhǔn)確、完整地搜集原始資料是統(tǒng)計(jì)工作最重要的一步,它直接關(guān)系著統(tǒng)計(jì)結(jié)論的質(zhì)量。作最重要的一步,它直接關(guān)系著統(tǒng)計(jì)結(jié)論的質(zhì)量。 統(tǒng)計(jì)資料的來源主要有:統(tǒng)計(jì)資料的來源主要有: 1、報(bào)表資料。、報(bào)表資料。 2、醫(yī)療、預(yù)防機(jī)構(gòu)的日常工作記錄。、醫(yī)療、預(yù)防機(jī)構(gòu)的日常工作記錄。 3、專題研究實(shí)驗(yàn)數(shù)據(jù)和現(xiàn)場調(diào)查資料。、專題研究實(shí)驗(yàn)數(shù)據(jù)和現(xiàn)場調(diào)查資料。整理資料(整理資料(sorting of data) 整理資料又稱統(tǒng)計(jì)歸納:是把搜集到的資整理資料又稱統(tǒng)計(jì)歸納:是把搜集到的資料進(jìn)行適當(dāng)?shù)姆纸M,把性質(zhì)相同的資料歸料進(jìn)行適當(dāng)?shù)姆纸M,把性質(zhì)相同的資料歸納到一起,用表格或圖形的方式展示出來,納到一起,用表格或

19、圖形的方式展示出來,以反映研究對象的規(guī)律性。以反映研究對象的規(guī)律性。 1、審核資料、審核資料 2、設(shè)計(jì)分組:質(zhì)量分組和數(shù)量分組、設(shè)計(jì)分組:質(zhì)量分組和數(shù)量分組 3、擬整理表、擬整理表 4、歸納匯總、歸納匯總分析資料分析資料 分析資料資料的分析過程是通過計(jì)算有關(guān)的統(tǒng)計(jì)分析資料資料的分析過程是通過計(jì)算有關(guān)的統(tǒng)計(jì)指標(biāo),對資料進(jìn)行概括的、全面的描述,以及從指標(biāo),對資料進(jìn)行概括的、全面的描述,以及從樣本信息推斷總體特征,分析資料就是從獲取的樣本信息推斷總體特征,分析資料就是從獲取的資料中抽取有關(guān)信息的過程。資料中抽取有關(guān)信息的過程。 1、統(tǒng)計(jì)指標(biāo)的計(jì)算、統(tǒng)計(jì)指標(biāo)的計(jì)算 2、統(tǒng)計(jì)圖表的繪制、統(tǒng)計(jì)圖表的繪制

20、3、估計(jì)總體參數(shù)、估計(jì)總體參數(shù) 4、進(jìn)行假設(shè)檢驗(yàn)、進(jìn)行假設(shè)檢驗(yàn) 5、回歸與相關(guān)、回歸與相關(guān) 6、多元分析、多元分析統(tǒng)計(jì)資料的類型統(tǒng)計(jì)資料的類型v 計(jì)量資料計(jì)量資料 v 計(jì)數(shù)資料計(jì)數(shù)資料v 等級(jí)資料等級(jí)資料 計(jì)量資料(計(jì)量資料(measurement data)measurement data) 通過對觀察單位測量取得數(shù)值,其值一般有度量衡單位。 如身高、體重、血壓、脈搏、白細(xì)胞空氣中二氧化碳含量等。此類資料具有計(jì)量單位,各觀察單位常有量的差別。分析計(jì)量資料常用平均數(shù)、標(biāo)準(zhǔn)差、t檢驗(yàn)、方差分析、相關(guān)與回歸分析等。 計(jì)數(shù)資料計(jì)數(shù)資料(enumeration data)(enumeration da

21、ta) 將觀察單位按某種屬性或類別分組,然后清點(diǎn)各組的觀察單位數(shù)。 如性別、血型、民族、職稱、某病的治愈和未愈數(shù)等。分屬于各組的觀察單位間有質(zhì)的差別,不同質(zhì)的觀察單位不能歸在同一組內(nèi)。分析計(jì)數(shù)資料常用率、構(gòu)成比、x2檢驗(yàn)等。 將觀察單位按某種屬性的不同程度分組,然后清點(diǎn)各組的觀察單位數(shù)。 如療效可分為治愈、顯效、好轉(zhuǎn)、無效;尿蛋白化驗(yàn)結(jié)果分為-、 + 、+ 、+等。這類資料具有計(jì)數(shù)資料的性質(zhì),但所分各組又是按一定順序如由輕到重、由小到大排列的。分析等級(jí)資料常用率、構(gòu)成比、秩和檢驗(yàn)等。等級(jí)資料等級(jí)資料 (ranked data)ranked data)醫(yī)學(xué)統(tǒng)計(jì)中的幾個(gè)基本概念醫(yī)學(xué)統(tǒng)計(jì)中的幾個(gè)基本

22、概念 數(shù)據(jù)與變量 總體和樣本 隨機(jī)化 統(tǒng)計(jì)量與參數(shù) 抽樣誤差 概率 變量(variable) 具有變異性的數(shù)據(jù)稱為變量。 1數(shù)值變量(numerical variable) :為連續(xù)變量,如身高、體重、血壓等。數(shù)值變量均可通過對觀察單位測量取得數(shù)值,其值一般有度量衡單位。數(shù)值變量資料也稱作計(jì)量資料。 2分類變量(categorical variable) :可能取值是離散的,表現(xiàn)為互不相容的類別。比如性別、血型、民族、職稱等。分類變量資料又稱為計(jì)數(shù)資料。分類變量有兩種:無序分類變量和有序分類變量 總體與樣本總體與樣本 總體(population):是根據(jù)研究目的確定的同質(zhì)的觀察單位的某個(gè)變量值

23、的全體。分有限總體和無限總體 。 樣本(sample):通常是從總體中隨機(jī)抽取有代表性的一部分觀察單位。注意其代表性 和可靠性。抽樣誤差抽樣誤差(sampling errorsampling error) 用于描述樣本特征的指標(biāo)稱為統(tǒng)計(jì)量,而用于描述總體特征的指標(biāo)稱為參數(shù)。 我們把由隨機(jī)抽樣引起的樣本指標(biāo)與總體指標(biāo)的差異稱為抽樣誤差。 由于個(gè)體變異的普遍存在,抽樣誤差是不可避免的。只要遵循隨機(jī)化的原則,抽樣誤差的大小就可以用統(tǒng)計(jì)方法進(jìn)行估計(jì)。一般情況下樣本越大,抽樣誤差越小,反映事物客觀規(guī)律的準(zhǔn)確性越高,反之,樣本越小,抽樣誤差越大。 概率(概率(probability) 描述隨機(jī)事件發(fā)生的可

24、能性大小的數(shù)值稱概率。 隨機(jī)事件的概率隨機(jī)事件的概率P取值在取值在0 1之間,之間,P越接近越接近1,說明某事,說明某事件發(fā)生的可能性越大;件發(fā)生的可能性越大;P越接近越接近0,說明某事件發(fā)生的可能性,說明某事件發(fā)生的可能性越小。越小。 如果某事件的概率如果某事件的概率P=0,表示該事件不可能發(fā)生,稱其為,表示該事件不可能發(fā)生,稱其為不可能事件;如果不可能事件;如果P=1,表示該事件必然發(fā)生,稱其為必然,表示該事件必然發(fā)生,稱其為必然事件。事件。 隨機(jī)事件是可能發(fā)生也可能不發(fā)生的事件。如果某隨機(jī)隨機(jī)事件是可能發(fā)生也可能不發(fā)生的事件。如果某隨機(jī)事件發(fā)生的概率事件發(fā)生的概率P0.05,或,或P0.

25、01表示該事件發(fā)生的可能表示該事件發(fā)生的可能性很小,我們稱其為小概率事件。其意義為在一次試驗(yàn)中不性很小,我們稱其為小概率事件。其意義為在一次試驗(yàn)中不發(fā)生事件。發(fā)生事件。 數(shù)值變量資料的統(tǒng)計(jì)描述數(shù)值變量資料的統(tǒng)計(jì)描述 統(tǒng)計(jì)圖表統(tǒng)計(jì)圖表 統(tǒng)計(jì)指標(biāo)統(tǒng)計(jì)指標(biāo) 平均數(shù)平均數(shù)v 均數(shù)v 幾何均數(shù)v 中位數(shù)和百分?jǐn)?shù)均數(shù)均數(shù)(meanmean) 均數(shù)是算術(shù)平均數(shù)均數(shù)是算術(shù)平均數(shù) (arithmetic mean)(arithmetic mean)的簡的簡稱??傮w均數(shù)用希臘字母稱。總體均數(shù)用希臘字母( )表示,樣本均數(shù)表示,樣本均數(shù)用用( )表示。表示。 1 1、應(yīng)用條件、應(yīng)用條件:均數(shù)反映同質(zhì)的一組觀察:均數(shù)

26、反映同質(zhì)的一組觀察值在數(shù)量上的平均水平,樣本所代表總體為正值在數(shù)量上的平均水平,樣本所代表總體為正態(tài)分布。態(tài)分布。 x2 2、計(jì)算方法:、計(jì)算方法: (1)直接法直接法 當(dāng)樣本中觀察值個(gè)數(shù)不多時(shí),通??捎弥苯臃?,公式當(dāng)樣本中觀察值個(gè)數(shù)不多時(shí),通??捎弥苯臃?,公式為:為:式中式中是希臘字母,讀作是希臘字母,讀作sigma ,為求和的符號(hào)。,為求和的符號(hào)。 nxx(2)加權(quán)法加權(quán)法當(dāng)觀察值個(gè)數(shù)較多時(shí)。通??捎眉訖?quán)法,公式為:當(dāng)觀察值個(gè)數(shù)較多時(shí)。通常可用加權(quán)法,公式為:式中式中X為各組的組中值,組中值等于該組的上限加為各組的組中值,組中值等于該組的上限加下限之和除以下限之和除以2。 f為各組的頻數(shù),

27、它相當(dāng)于為各組的頻數(shù),它相當(dāng)于權(quán)數(shù)權(quán)數(shù)權(quán)衡了各組中值由于頻數(shù)不同對均數(shù)的影響,故權(quán)衡了各組中值由于頻數(shù)不同對均數(shù)的影響,故本法也稱為加權(quán)法。本法也稱為加權(quán)法。nfxx幾何均數(shù)(geometric mean) geometric mean) 1 1、應(yīng)用條件、應(yīng)用條件: 觀察的數(shù)據(jù)是呈倍數(shù)關(guān)系的資料觀察的數(shù)據(jù)是呈倍數(shù)關(guān)系的資料 ,采用幾何均數(shù),采用幾何均數(shù)簡記為(簡記為( G)表示其平均水平。)表示其平均水平。 2 2、計(jì)算方法:、計(jì)算方法:如果觀察的數(shù)據(jù)個(gè)數(shù)不多可以采用直接算法。如果觀察的數(shù)據(jù)個(gè)數(shù)不多可以采用直接算法。公式為:公式為: 如果樣本量很大,或只掌握頻數(shù)表資料可以按下式計(jì)算分組資料如

28、果樣本量很大,或只掌握頻數(shù)表資料可以按下式計(jì)算分組資料的幾何均數(shù)。公式為:的幾何均數(shù)。公式為:)lg(lg1nxG)lg(lg1nxfG百分位數(shù)(percentile)(percentile) 百分位數(shù)是一種位置指標(biāo),用于描述一組觀察百分位數(shù)是一種位置指標(biāo),用于描述一組觀察值在某百分位置上的水平。第百分位數(shù)以值在某百分位置上的水平。第百分位數(shù)以 PX表示表示。 PX 是一個(gè)數(shù),其意義是將某變量的觀察值按從是一個(gè)數(shù),其意義是將某變量的觀察值按從小到大的順序排列,比小到大的順序排列,比PX 小的觀察值的個(gè)數(shù)占小的觀察值的個(gè)數(shù)占x%,比,比 PX 大的觀察值的個(gè)數(shù)占(大的觀察值的個(gè)數(shù)占(100-x)

29、%。 百分位數(shù)用于描述觀察值序列在某百分位位置百分位數(shù)用于描述觀察值序列在某百分位位置的水平,公式為:的水平,公式為: 中位數(shù)簡記為中位數(shù)簡記為M M,中位數(shù)是一個(gè)位置指標(biāo),用于中位數(shù)是一個(gè)位置指標(biāo),用于描述一組資料的平均水平,其含義是將一組觀察值描述一組資料的平均水平,其含義是將一組觀察值按從小到大的順序排列,位置居中的數(shù)就是中位數(shù)按從小到大的順序排列,位置居中的數(shù)就是中位數(shù),中位數(shù)即第中位數(shù)即第50百分位數(shù)。公式為:百分位數(shù)。公式為: 應(yīng)用條件為:應(yīng)用條件為: 分布呈明顯偏態(tài);分布呈明顯偏態(tài); 分布的一端或兩端無確定數(shù)值;分布的一端或兩端無確定數(shù)值; 分布不清等資料。分布不清等資料。中位數(shù)

30、(medianmedian))2(50CnfiLpxu極差(R)u四分位間距(Q) u標(biāo)準(zhǔn)差(S)u變異系數(shù)(CV)u標(biāo)準(zhǔn)誤(SE) 變異指標(biāo)變異指標(biāo) 極差簡記為(極差簡記為(R)又稱全距。是一組觀察)又稱全距。是一組觀察值中最大值與最小值之差。值中最大值與最小值之差。 四分位數(shù),簡記為(四分位數(shù),簡記為(Q)是特定的百分位)是特定的百分位數(shù),是上四分位數(shù)與下四分位數(shù)之差??梢詳?shù),是上四分位數(shù)與下四分位數(shù)之差??梢钥闯墒侨坑^察值的位于中間的一半的極差看成是全部觀察值的位于中間的一半的極差。 Q=P75-P25極差(極差(rangerange)和四分位間距(和四分位間距(quartilequa

31、rtile)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(standard deviation)(standard deviation) 標(biāo)準(zhǔn)差每個(gè)觀察值到均數(shù)的平均距離,總體標(biāo)準(zhǔn)差用希臘字母( )表示,樣本標(biāo)準(zhǔn)差用( )表示。1、應(yīng)用條件:反映同質(zhì)的一組觀察值在數(shù)量 上的變異程度,樣本所代表總體為正態(tài)分布。s2、計(jì)算方法:、計(jì)算方法:(1)直接法直接法 當(dāng)樣本中觀察值個(gè)數(shù)不多時(shí),通??捎弥苯臃ǎ?dāng)樣本中觀察值個(gè)數(shù)不多時(shí),通??捎弥苯臃ǎ綖椋菏綖椋?2)加權(quán)法加權(quán)法當(dāng)觀察值個(gè)數(shù)較多時(shí)。通常可用加權(quán)法,公式為:當(dāng)觀察值個(gè)數(shù)較多時(shí)。通??捎眉訖?quán)法,公式為:1)(1)(222nnXXnXXs3 3、標(biāo)準(zhǔn)差應(yīng)用、標(biāo)準(zhǔn)差應(yīng)用v

32、標(biāo)準(zhǔn)差的大小反應(yīng)變異程度的大小,標(biāo)準(zhǔn) 差大 ,表示變異程度大,即觀察值較分散,反之則表示變異程度小,較集中。v 結(jié)合均數(shù)確定醫(yī)學(xué)參考值范圍。v 結(jié)合均數(shù)計(jì)算變異系數(shù)。v 計(jì)算標(biāo)準(zhǔn)誤。 當(dāng)兩組資料單位不同或均數(shù)相差較大時(shí),變異大小不能當(dāng)兩組資料單位不同或均數(shù)相差較大時(shí),變異大小不能直接用標(biāo)準(zhǔn)差進(jìn)行比較,應(yīng)計(jì)算標(biāo)準(zhǔn)差對均數(shù)的百分比,即直接用標(biāo)準(zhǔn)差進(jìn)行比較,應(yīng)計(jì)算標(biāo)準(zhǔn)差對均數(shù)的百分比,即變異系數(shù)變異系數(shù)(coefficient of variation, 簡記為簡記為CV)。公式為:公式為: 當(dāng)觀察值為統(tǒng)計(jì)量時(shí),描述其變異程度的大小用標(biāo)準(zhǔn)誤當(dāng)觀察值為統(tǒng)計(jì)量時(shí),描述其變異程度的大小用標(biāo)準(zhǔn)誤(stand

33、ard error簡記為簡記為SE)。)。 公式為:公式為: 變異系數(shù)和標(biāo)準(zhǔn)誤變異系數(shù)和標(biāo)準(zhǔn)誤%100XSCVnSSxnppSp)1( 計(jì)量資料的統(tǒng)計(jì)推斷計(jì)量資料的統(tǒng)計(jì)推斷 ( (總體均數(shù)的估計(jì)與假設(shè)檢驗(yàn)總體均數(shù)的估計(jì)與假設(shè)檢驗(yàn)) )v均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤v總體均數(shù)估計(jì)總體均數(shù)估計(jì)v假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)v抽樣研究抽樣研究:由樣本推斷總體的過程。v抽樣誤差抽樣誤差:由抽樣引起的樣本指標(biāo)與總體指標(biāo)的差異稱為抽樣誤差。抽樣誤差是不可避免的,但只要樣本是隨機(jī)抽取的,就可以用統(tǒng)計(jì)方法來估計(jì)它的大小。均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤v均數(shù)標(biāo)準(zhǔn)誤均數(shù)標(biāo)準(zhǔn)誤:樣本均數(shù)變異程度的

34、大小,反映了均數(shù)的抽樣誤差的大小。我們以樣本均數(shù)的標(biāo)準(zhǔn)差作為衡量均數(shù)抽樣誤差大小的尺度,即均數(shù)的標(biāo)準(zhǔn)誤。公式為:nSSxv均數(shù)標(biāo)準(zhǔn)誤和標(biāo)準(zhǔn)差相同,都是說明變異程度大小的指標(biāo)。不同的是標(biāo)準(zhǔn)差表示的是某變量個(gè)體觀察值變異程度的大小,而標(biāo)準(zhǔn)誤表示的是樣本均數(shù)變異程度的大小。樣本含量越小,抽樣誤差越大,即標(biāo)準(zhǔn)誤越大;反之樣本含量越大,抽樣誤差越小,即標(biāo)準(zhǔn)誤越小。根據(jù)研究設(shè)計(jì)類型選擇分析方法 在成組比較設(shè)計(jì)中,若是兩組比較在成組比較設(shè)計(jì)中,若是兩組比較需要應(yīng)用需要應(yīng)用t檢驗(yàn)或檢驗(yàn)或X2檢驗(yàn)。多組比較需檢驗(yàn)。多組比較需應(yīng)用方差分析、行應(yīng)用方差分析、行列表列表X2檢驗(yàn)或分級(jí)檢驗(yàn)或分級(jí)的分析方法。的分析方法。

35、成組比較的設(shè)計(jì)成組比較的設(shè)計(jì) 把除處理因素外,其他條件基本相似的受試對象把除處理因素外,其他條件基本相似的受試對象配成對子,每對中的兩個(gè)隨機(jī)分配到兩個(gè)處理組。配成對子,每對中的兩個(gè)隨機(jī)分配到兩個(gè)處理組。 在同一受試對象上進(jìn)行兩種不同的處理。上述在同一受試對象上進(jìn)行兩種不同的處理。上述 兩兩種情況其目的是推斷兩種處理的效果有無差別。種情況其目的是推斷兩種處理的效果有無差別。 在某項(xiàng)處理前后觀察受試對象的某指標(biāo)值,通過在某項(xiàng)處理前后觀察受試對象的某指標(biāo)值,通過處理前后該指標(biāo)值的差推斷該處理是否有效。處理前后該指標(biāo)值的差推斷該處理是否有效。 這種類型的設(shè)計(jì)需要按照配比的這種類型的設(shè)計(jì)需要按照配比的t

36、檢驗(yàn),檢驗(yàn),X2檢驗(yàn)及檢驗(yàn)及配對的病例對照研究方法進(jìn)行數(shù)據(jù)分析。配對的病例對照研究方法進(jìn)行數(shù)據(jù)分析。配對設(shè)計(jì)配對設(shè)計(jì)重復(fù)測量的設(shè)計(jì)重復(fù)測量的設(shè)計(jì) 這類設(shè)計(jì)方法是在給定一個(gè)處理因素這類設(shè)計(jì)方法是在給定一個(gè)處理因素后在不同的時(shí)間重復(fù)測量某一效應(yīng)變量的后在不同的時(shí)間重復(fù)測量某一效應(yīng)變量的改變情況。如欲評(píng)價(jià)生物制品接種后的免改變情況。如欲評(píng)價(jià)生物制品接種后的免疫學(xué)效果,在接種后的疫學(xué)效果,在接種后的2周、周、4周、周、6周和周和8周測定抗體滴度,即為此類設(shè)計(jì)類型。對周測定抗體滴度,即為此類設(shè)計(jì)類型。對于這種設(shè)計(jì)類型的數(shù)據(jù)需應(yīng)用重復(fù)測量的于這種設(shè)計(jì)類型的數(shù)據(jù)需應(yīng)用重復(fù)測量的方差分析方法進(jìn)行數(shù)據(jù)的分析。方

37、差分析方法進(jìn)行數(shù)據(jù)的分析。多因素設(shè)計(jì)多因素設(shè)計(jì) 若在研究設(shè)計(jì)中有多個(gè)自變量,則可根若在研究設(shè)計(jì)中有多個(gè)自變量,則可根據(jù)因變量的性質(zhì)選擇合適的多因素分析方法。據(jù)因變量的性質(zhì)選擇合適的多因素分析方法。如果自變量是數(shù)值變量,則可考慮應(yīng)用多元如果自變量是數(shù)值變量,則可考慮應(yīng)用多元回歸分析方法、協(xié)方差分析方法。如果是分回歸分析方法、協(xié)方差分析方法。如果是分類變量,則可選擇類變量,則可選擇logistic回歸分析方法、判回歸分析方法、判別分析方法及聚類分析方法等。別分析方法及聚類分析方法等。 根據(jù)變量的類型選擇分析方法 區(qū)別與明確研究的因變量和自變量具有重要區(qū)別與明確研究的因變量和自變量具有重要的流行病學(xué)

38、與生物統(tǒng)計(jì)學(xué)意義,首先它有助的流行病學(xué)與生物統(tǒng)計(jì)學(xué)意義,首先它有助于選擇擬研究的變量,對調(diào)查表的設(shè)計(jì)具有于選擇擬研究的變量,對調(diào)查表的設(shè)計(jì)具有指導(dǎo)作用。指導(dǎo)作用。 其次數(shù)據(jù)分析階段可以指導(dǎo)數(shù)據(jù)分析方法的其次數(shù)據(jù)分析階段可以指導(dǎo)數(shù)據(jù)分析方法的選擇及模型的建立。若因變量是分類變量,選擇及模型的建立。若因變量是分類變量,則常考慮應(yīng)用分類變量的分析方法,如卡方則??紤]應(yīng)用分類變量的分析方法,如卡方檢驗(yàn),檢驗(yàn),logistic回歸分析等。如果因變量是數(shù)回歸分析等。如果因變量是數(shù)值變量,則考慮應(yīng)用數(shù)值變量的分析方法如值變量,則考慮應(yīng)用數(shù)值變量的分析方法如t檢驗(yàn)、方差分析,協(xié)方差分析、多元回歸等。檢驗(yàn)、方差

39、分析,協(xié)方差分析、多元回歸等。同時(shí)明確自變量與因變量可以建立正確的統(tǒng)同時(shí)明確自變量與因變量可以建立正確的統(tǒng)計(jì)學(xué)分析模型。計(jì)學(xué)分析模型。 因變量應(yīng)該放在模型的左側(cè),自變量則放在模型因變量應(yīng)該放在模型的左側(cè),自變量則放在模型的右側(cè)。的右側(cè)。 例如欲評(píng)價(jià)不同治療方法(口服藥物、注射胰島例如欲評(píng)價(jià)不同治療方法(口服藥物、注射胰島素及膳食控制)對糖尿病人的治療效果(血糖水素及膳食控制)對糖尿病人的治療效果(血糖水平),在分析時(shí)要求調(diào)整病人的性別、年齡和病平),在分析時(shí)要求調(diào)整病人的性別、年齡和病程的影響。對本例的處理需要進(jìn)行協(xié)方差分析,程的影響。對本例的處理需要進(jìn)行協(xié)方差分析,在應(yīng)用在應(yīng)用SAS進(jìn)行分析

40、時(shí),要將血糖水平(因變量)進(jìn)行分析時(shí),要將血糖水平(因變量)放在模型的左則,而治療方法或其它協(xié)變量放在模型的左則,而治療方法或其它協(xié)變量(covariate)即性別、年齡和病程放在模型的右)即性別、年齡和病程放在模型的右側(cè)。又如分析脂蛋白(側(cè)。又如分析脂蛋白(a)與冠心病發(fā)生的關(guān)系,)與冠心病發(fā)生的關(guān)系,則冠心病是否發(fā)生為因變量,脂蛋白(則冠心病是否發(fā)生為因變量,脂蛋白(a)則為自)則為自變量,不可顛倒這種關(guān)系。變量,不可顛倒這種關(guān)系。 不同變量類型的數(shù)據(jù)分析方法選擇因變量自變量數(shù)值變量分類變量有序變量數(shù)值變量相關(guān)分析,多元回歸分析t檢驗(yàn),方差分析,協(xié)方差分析,多元回歸分析相關(guān)分析,多元回歸分

41、析分類變量t檢驗(yàn),方差分析,logistic回歸分析,判別分析,聚類分析c2檢驗(yàn),logistic回歸分析c2檢驗(yàn)有序變量方差分析,logistic回歸分析,判別分析,聚類分析c2檢驗(yàn),logistic回歸分析相關(guān)分析,c2檢驗(yàn)生存時(shí)間生存分析不同研究設(shè)計(jì)和數(shù)據(jù)類型的數(shù)據(jù)分析方法選擇 研究設(shè)計(jì)類型變量類型兩組比較兩組以上比較實(shí)驗(yàn)前后比較重復(fù)測量兩變量間的聯(lián)系重復(fù)測量的方 差 分析線性回歸,Pearson相關(guān)系數(shù) 數(shù)值變量 t檢驗(yàn)方差分析配對t檢驗(yàn) 分類變量 c2檢驗(yàn)c2檢驗(yàn)配對c2檢驗(yàn)列聯(lián)表相關(guān)系數(shù) 有序變量Mann-Whitney秩 和 檢驗(yàn)Kruskal-Wallis分析Wilcoxon符

42、號(hào)秩和檢驗(yàn)Spearman相關(guān)系數(shù) 生存時(shí)間生存分析數(shù)據(jù)的分析程序 數(shù)據(jù)的轉(zhuǎn)換1 )非正態(tài)數(shù)據(jù)的變量轉(zhuǎn)換非正態(tài)數(shù)據(jù)的變量轉(zhuǎn)換 多數(shù)的統(tǒng)計(jì)學(xué)分析方法是建立在數(shù)據(jù)正態(tài)多數(shù)的統(tǒng)計(jì)學(xué)分析方法是建立在數(shù)據(jù)正態(tài)分布的基礎(chǔ)上的,若數(shù)據(jù)不符合正態(tài)分分布的基礎(chǔ)上的,若數(shù)據(jù)不符合正態(tài)分布,則不能夠應(yīng)用參數(shù)檢驗(yàn)布,則不能夠應(yīng)用參數(shù)檢驗(yàn)(parametric test)的方法,只能應(yīng)用非參數(shù)檢驗(yàn)的方法,只能應(yīng)用非參數(shù)檢驗(yàn)(non-parametric test)的方法,而非參數(shù)的方的方法,而非參數(shù)的方法不是對原始數(shù)據(jù)的檢驗(yàn),如秩和檢驗(yàn)法不是對原始數(shù)據(jù)的檢驗(yàn),如秩和檢驗(yàn)就是非參數(shù)檢驗(yàn)方法之一,它是對原始就是非參數(shù)檢驗(yàn)方

43、法之一,它是對原始數(shù)據(jù)的秩次數(shù)據(jù)的秩次(rank)進(jìn)行檢驗(yàn),這樣可能損進(jìn)行檢驗(yàn),這樣可能損失數(shù)據(jù)信息,降低檢驗(yàn)效率失數(shù)據(jù)信息,降低檢驗(yàn)效率 在對數(shù)值變量進(jìn)行分析時(shí),需首先根據(jù)統(tǒng)計(jì)分在對數(shù)值變量進(jìn)行分析時(shí),需首先根據(jù)統(tǒng)計(jì)分析方法析方法/統(tǒng)計(jì)分析公式的限制性使用條件對數(shù)據(jù)統(tǒng)計(jì)分析公式的限制性使用條件對數(shù)據(jù)進(jìn)行進(jìn)行“條件條件”檢驗(yàn),如正態(tài)性檢驗(yàn)和方差齊性檢驗(yàn),如正態(tài)性檢驗(yàn)和方差齊性檢驗(yàn)等。很多統(tǒng)計(jì)學(xué)軟件具有方便的正態(tài)性檢檢驗(yàn)等。很多統(tǒng)計(jì)學(xué)軟件具有方便的正態(tài)性檢驗(yàn)、方差齊性檢驗(yàn)功能如驗(yàn)、方差齊性檢驗(yàn)功能如SAS軟件等軟件等 .若經(jīng)過檢若經(jīng)過檢驗(yàn)數(shù)據(jù)不符合使用條件,就需要進(jìn)行數(shù)據(jù)的變驗(yàn)數(shù)據(jù)不符合使用條件

44、,就需要進(jìn)行數(shù)據(jù)的變量變換,變換后符合條件就可以應(yīng)用參數(shù)檢驗(yàn)量變換,變換后符合條件就可以應(yīng)用參數(shù)檢驗(yàn)的方法,否則,只有應(yīng)用非參數(shù)檢驗(yàn)的方法。的方法,否則,只有應(yīng)用非參數(shù)檢驗(yàn)的方法。 數(shù)據(jù)變量轉(zhuǎn)換的方法很多,可以根據(jù)數(shù)據(jù)的分?jǐn)?shù)據(jù)變量轉(zhuǎn)換的方法很多,可以根據(jù)數(shù)據(jù)的分布特征,選擇合適的數(shù)據(jù)轉(zhuǎn)換方法。常用的方布特征,選擇合適的數(shù)據(jù)轉(zhuǎn)換方法。常用的方法有對數(shù)變換,平方根變換或倒數(shù)變換等。法有對數(shù)變換,平方根變換或倒數(shù)變換等。 2) 分類變量轉(zhuǎn)換成啞變量分類變量轉(zhuǎn)換成啞變量 若分類變量是二分類尺度及順序尺度,則可若分類變量是二分類尺度及順序尺度,則可直接應(yīng)用其原有的數(shù)量化數(shù)值,但對于名義直接應(yīng)用其原有的數(shù)

45、量化數(shù)值,但對于名義尺度因?yàn)楦黝悇e間沒有順序關(guān)系,在進(jìn)行不尺度因?yàn)楦黝悇e間沒有順序關(guān)系,在進(jìn)行不同分析(包括多元分析、同分析(包括多元分析、logistic回歸、回歸、Cox回歸等)時(shí),不能使用原始的計(jì)算機(jī)錄回歸等)時(shí),不能使用原始的計(jì)算機(jī)錄入數(shù)值,必經(jīng)進(jìn)行變量轉(zhuǎn)換。即將該變量轉(zhuǎn)入數(shù)值,必經(jīng)進(jìn)行變量轉(zhuǎn)換。即將該變量轉(zhuǎn)換成(水平數(shù)換成(水平數(shù)-1)個(gè)啞變量,再將這些新轉(zhuǎn))個(gè)啞變量,再將這些新轉(zhuǎn)換的變量放入多因素模型中。換的變量放入多因素模型中。 t檢驗(yàn)的應(yīng)用條件 兩組數(shù)據(jù)的比較兩組數(shù)據(jù)的比較 1樣本量比較?。颖玖勘容^小(n50) 2樣本來自正態(tài)總體樣本來自正態(tài)總體 3兩樣本總體方差齊同兩樣本總

46、體方差齊同 當(dāng)兩樣本方差不齊時(shí)可以采用當(dāng)兩樣本方差不齊時(shí)可以采用t檢驗(yàn),變量檢驗(yàn),變量變換,或者秩和檢驗(yàn)。變換,或者秩和檢驗(yàn)。方差分析的應(yīng)用條件 兩組以上數(shù)據(jù)的比較兩組以上數(shù)據(jù)的比較 1各樣本是相互獨(dú)立的隨機(jī)樣本;各樣本是相互獨(dú)立的隨機(jī)樣本; 2各樣本要來自正態(tài)總體;各樣本要來自正態(tài)總體; 3要求各個(gè)樣本的總體方差齊同。要求各個(gè)樣本的總體方差齊同。多個(gè)樣本均數(shù)間的兩兩比較 NewmanKeuls檢驗(yàn),亦稱檢驗(yàn),亦稱StudentNewmanKeuls(SNK)檢驗(yàn),簡稱檢驗(yàn),簡稱q檢驗(yàn)。檢驗(yàn)。 最小顯著性差距最小顯著性差距(LSD)t檢驗(yàn)。檢驗(yàn)。協(xié)方差分析 定量分析中,進(jìn)行兩個(gè)樣本或者多個(gè)樣本

47、定量分析中,進(jìn)行兩個(gè)樣本或者多個(gè)樣本的均數(shù)比較時(shí),不僅需要使用假設(shè)檢驗(yàn)判的均數(shù)比較時(shí),不僅需要使用假設(shè)檢驗(yàn)判斷其差異是否具有統(tǒng)計(jì)學(xué)差異,還應(yīng)該考斷其差異是否具有統(tǒng)計(jì)學(xué)差異,還應(yīng)該考慮他們之間是否存在混雜因素(協(xié)變量)慮他們之間是否存在混雜因素(協(xié)變量)的影響。若存在協(xié)變量,則應(yīng)該通過協(xié)方的影響。若存在協(xié)變量,則應(yīng)該通過協(xié)方差分析進(jìn)行校正。協(xié)方差分析是定量變量差分析進(jìn)行校正。協(xié)方差分析是定量變量分析中控制混雜因素的重要手段分析中控制混雜因素的重要手段 影響觀察指標(biāo)的其他非研究性因素(混雜因影響觀察指標(biāo)的其他非研究性因素(混雜因素)在統(tǒng)計(jì)分析中又稱之為協(xié)變量;考慮協(xié)變量素)在統(tǒng)計(jì)分析中又稱之為協(xié)變

48、量;考慮協(xié)變量影響的方差分析即為協(xié)方差分析。協(xié)方差分析是影響的方差分析即為協(xié)方差分析。協(xié)方差分析是解決以上問題的分析方法,它將線性回歸與方差解決以上問題的分析方法,它將線性回歸與方差分析結(jié)合起來,檢驗(yàn)分析結(jié)合起來,檢驗(yàn)2個(gè)或者多個(gè)修正均數(shù)之間有個(gè)或者多個(gè)修正均數(shù)之間有無差別的假設(shè)檢驗(yàn)方法。一般是先用直線回歸的無差別的假設(shè)檢驗(yàn)方法。一般是先用直線回歸的方法找出各組因變量與協(xié)變量之間的數(shù)量關(guān)系,方法找出各組因變量與協(xié)變量之間的數(shù)量關(guān)系,求得修假定協(xié)變量相等時(shí)的修正系數(shù),然后用方求得修假定協(xié)變量相等時(shí)的修正系數(shù),然后用方差分析比較修正均數(shù)間的差別。差分析比較修正均數(shù)間的差別。協(xié)方差分析的條件1各個(gè)樣

49、本來自方差齊同的正態(tài)總體各個(gè)樣本來自方差齊同的正態(tài)總體2各組的總體直線回歸系數(shù)相同,且都不為各組的總體直線回歸系數(shù)相同,且都不為0。協(xié)方差分析的判別步驟: 1正態(tài)性和方差齊性檢驗(yàn);正態(tài)性和方差齊性檢驗(yàn); 2判斷協(xié)變量與因變量有無線性關(guān)系;判斷協(xié)變量與因變量有無線性關(guān)系; 3判斷各組回歸直線是否平行。判斷各組回歸直線是否平行。直線回歸與相關(guān)的區(qū)別與聯(lián)系區(qū)別區(qū)別直線相關(guān)直線相關(guān)直線回歸直線回歸變量變量地位地位變量變量 x 變量變量 y 處于處于平等的地位,彼此平等的地位,彼此相關(guān)關(guān)系相關(guān)關(guān)系變量變量 y 稱為因變量,處稱為因變量,處在被解釋的地位,在被解釋的地位,x 稱稱為自變量,用于預(yù)測因?yàn)樽宰?/p>

50、量,用于預(yù)測因變量的變化變量的變化變量變量性質(zhì)性質(zhì)所涉及的變量所涉及的變量 x 和和 y 都是隨機(jī)變量,都是隨機(jī)變量,要求兩個(gè)變量服從要求兩個(gè)變量服從雙變量正態(tài)分布雙變量正態(tài)分布因變量因變量 y 是隨機(jī)變量,是隨機(jī)變量,自變量自變量 x 可以是隨機(jī)變可以是隨機(jī)變量,也可以是非隨機(jī)的量,也可以是非隨機(jī)的確定變量確定變量實(shí)際實(shí)際作用作用主要是描述兩個(gè)變主要是描述兩個(gè)變量之間線性關(guān)系的量之間線性關(guān)系的密切程度密切程度(相關(guān)系數(shù)(相關(guān)系數(shù)無單位)無單位)揭示變量揭示變量 x 對變量對變量 y 的影響大小的影響大?。ɑ貧w系數(shù)(回歸系數(shù)有單位),有單位),還可以由回還可以由回歸方程進(jìn)行預(yù)測和控制歸方程進(jìn)行

51、預(yù)測和控制 多元線性回歸的基本概念 事物間的相互聯(lián)系往往是多方面的,在很多情況事物間的相互聯(lián)系往往是多方面的,在很多情況下對應(yīng)變量下對應(yīng)變量y 發(fā)生影響的自變量往往不止一個(gè)發(fā)生影響的自變量往往不止一個(gè) 。多。多元線性回歸的目的就是用一個(gè)多元線性回歸方程表元線性回歸的目的就是用一個(gè)多元線性回歸方程表示多個(gè)自變量和示多個(gè)自變量和1個(gè)應(yīng)變量間的關(guān)系。個(gè)應(yīng)變量間的關(guān)系。mmiixbxbxbxbby 22110標(biāo)準(zhǔn)偏回歸系數(shù)表示其他自變量固定的情況下,xi改變一個(gè)單位,y平均改變bi個(gè)單位。多元線性回歸的應(yīng)用條件:1. 獨(dú)立性:各觀察對象間相互獨(dú)立。獨(dú)立性:各觀察對象間相互獨(dú)立。2. 線性:自變量與應(yīng)變

52、量間的關(guān)系為線性。線性:自變量與應(yīng)變量間的關(guān)系為線性。3. 正態(tài)性:自變量取不同值時(shí),應(yīng)變量的分正態(tài)性:自變量取不同值時(shí),應(yīng)變量的分布為正態(tài)。布為正態(tài)。4. 方差齊性:自變量取不同值時(shí),應(yīng)變量的方差齊性:自變量取不同值時(shí),應(yīng)變量的總體方差相等。總體方差相等。5. 當(dāng)不符合條件時(shí),可對自變量進(jìn)行變換。當(dāng)不符合條件時(shí),可對自變量進(jìn)行變換。 如:如:23322110)lg(xbxbxbby 要比較各個(gè)自變量對于應(yīng)變量的作用大小,要比較各個(gè)自變量對于應(yīng)變量的作用大小,不能用偏回歸系數(shù),因?yàn)楦髌貧w系數(shù)的單不能用偏回歸系數(shù),因?yàn)楦髌貧w系數(shù)的單位不同。必須把偏回歸系數(shù)標(biāo)準(zhǔn)化,化成沒位不同。必須把偏回歸系

53、數(shù)標(biāo)準(zhǔn)化,化成沒有單位的標(biāo)準(zhǔn)偏回歸系數(shù)有單位的標(biāo)準(zhǔn)偏回歸系數(shù). 消除不同單位的影響后,標(biāo)準(zhǔn)偏回歸系數(shù)的消除不同單位的影響后,標(biāo)準(zhǔn)偏回歸系數(shù)的絕對值越大,該自變量對于應(yīng)變量的作用越絕對值越大,該自變量對于應(yīng)變量的作用越大,但該差別是否有統(tǒng)計(jì)意義,也必須經(jīng)過大,但該差別是否有統(tǒng)計(jì)意義,也必須經(jīng)過檢驗(yàn)。檢驗(yàn)。(2) 對各偏回歸系數(shù)的顯著性檢驗(yàn):對各偏回歸系數(shù)的顯著性檢驗(yàn): F檢驗(yàn)與檢驗(yàn)與 t檢驗(yàn)檢驗(yàn) 1. 計(jì)算截距和各偏回歸系數(shù)。2. 多元回歸方程的顯著性檢驗(yàn):(1)整個(gè)方程的顯著性檢驗(yàn):用方差分析。 逐步回歸分析的目的是建立逐步回歸分析的目的是建立“最優(yōu)最優(yōu)”回歸回歸方程。方程。 “最優(yōu)最優(yōu)”回歸

54、方程是指包含所有對回歸方程是指包含所有對y有顯著有顯著作用的自變量,而不包含對作用的自變量,而不包含對y作用不顯著的作用不顯著的自變量的方程。自變量的方程。 逐步回歸分析的基本概念逐步回歸分析的基本概念 逐步回歸分析的計(jì)算方法 在供選的自變量在供選的自變量Xi中,按其對中,按其對y的作用大小,由的作用大小,由大到小地把自變量逐個(gè)引入方程,大到小地把自變量逐個(gè)引入方程, 每引入一個(gè)自每引入一個(gè)自變量就對它作顯著性檢驗(yàn),顯著時(shí)才引入,而當(dāng)變量就對它作顯著性檢驗(yàn),顯著時(shí)才引入,而當(dāng)新的自變量進(jìn)入方程后新的自變量進(jìn)入方程后, 對方程中原有的自變量也對方程中原有的自變量也要作檢驗(yàn),并把作用最小且退化為不

55、顯著的自變要作檢驗(yàn),并把作用最小且退化為不顯著的自變量逐個(gè)剔出方程。因此,逐步回歸的每一步(引量逐個(gè)剔出方程。因此,逐步回歸的每一步(引入一個(gè)變量或剔除一個(gè)變量都稱為一步)前后都入一個(gè)變量或剔除一個(gè)變量都稱為一步)前后都要作顯著性檢驗(yàn),以保證每次引入新變量前方程要作顯著性檢驗(yàn),以保證每次引入新變量前方程中只包含作用顯著的自變量。這樣一步步進(jìn)行下中只包含作用顯著的自變量。這樣一步步進(jìn)行下去去, 直至方程中所含自變量都顯著而又沒有新的作直至方程中所含自變量都顯著而又沒有新的作用顯著的自變量可引入方程為止。用顯著的自變量可引入方程為止。 逐步回歸分析在醫(yī)學(xué)研究中的應(yīng)用及需要注意的幾個(gè)問題 1方程方程

56、“最優(yōu)最優(yōu)”問題,實(shí)際是精選自變量以求得擬和效果問題,實(shí)際是精選自變量以求得擬和效果最好的多元回歸方程。最好的多元回歸方程。最優(yōu)子集回歸最優(yōu)子集回歸是選擇一種使回歸方是選擇一種使回歸方程擬和最好的自變量,而逐步回歸則選擇對因變量作用有程擬和最好的自變量,而逐步回歸則選擇對因變量作用有意義的自變量。要根據(jù)研究目的選用適合方法。意義的自變量。要根據(jù)研究目的選用適合方法。 2逐步回歸主要在醫(yī)學(xué)中用于病因探索,臨床療效分析及逐步回歸主要在醫(yī)學(xué)中用于病因探索,臨床療效分析及控制等??刂频?。 3線性回歸模型要注意正態(tài)性,方差齊性和獨(dú)立性,因變線性回歸模型要注意正態(tài)性,方差齊性和獨(dú)立性,因變量必須是隨機(jī)變量

57、等。量必須是隨機(jī)變量等。 4入選變量如果明顯地與實(shí)際問題的專業(yè)理論不一致時(shí),入選變量如果明顯地與實(shí)際問題的專業(yè)理論不一致時(shí),首先檢查數(shù)據(jù)是否有異常點(diǎn),自變量間有無共線性存在,首先檢查數(shù)據(jù)是否有異常點(diǎn),自變量間有無共線性存在,數(shù)據(jù)輸入是否有誤等,要結(jié)合專業(yè)知識(shí)作出合理的解釋。數(shù)據(jù)輸入是否有誤等,要結(jié)合專業(yè)知識(shí)作出合理的解釋。 5逐步回歸在對大量因素進(jìn)行分析時(shí),可以先進(jìn)行聚類分逐步回歸在對大量因素進(jìn)行分析時(shí),可以先進(jìn)行聚類分析,然后進(jìn)行逐步回歸。通常,觀察單位取變量值的析,然后進(jìn)行逐步回歸。通常,觀察單位取變量值的510倍為宜。倍為宜。Logistic回歸分析的基本思想回憶: 線性回歸分析對因變量的要求因變量因變量y 連續(xù)型連續(xù)型 服從正態(tài)分布服從正態(tài)分布膽固醇含量膽固醇含量自變量自變量x數(shù)值型數(shù)值型 與與Y呈線性關(guān)系呈線性關(guān)系年齡年齡舒張壓舒張壓醫(yī)學(xué)研究中經(jīng)常遇到分類型變量,例如: 二分類變量: 生存與死亡 有病與無病 有效與無效 感染與未感染 多分類有序變量: 疾病程度(輕度、中度、重度) 治愈效果(治愈、顯效、好轉(zhuǎn)、無效) 多分類無序變量: 手術(shù)方法(A、B、C) 就

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論