科研設(shè)計的統(tǒng)計學原則_第1頁
科研設(shè)計的統(tǒng)計學原則_第2頁
科研設(shè)計的統(tǒng)計學原則_第3頁
科研設(shè)計的統(tǒng)計學原則_第4頁
科研設(shè)計的統(tǒng)計學原則_第5頁
已閱讀5頁,還剩101頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

科研設(shè)計的統(tǒng)計學原則第1頁,共106頁,2023年,2月20日,星期一實驗設(shè)計實驗(Experiment)指由研究者主動地決定給予部分實驗對象某種處理,給予另一部分對象某種對照處理的研究設(shè)計形式,這種處理的分配常常是隨機的。實驗設(shè)計(Experimentaldesign)是通過對象的選擇、處理因素的合理分配、結(jié)果指標的準確測量和恰當?shù)馁Y料分析來提高組與組間非處理因素的一致性,使實驗結(jié)果有較好的可比性,并且較好地控制誤差,用較小的樣本獲取可靠的結(jié)論。第2頁,共106頁,2023年,2月20日,星期一實驗設(shè)計三要素處理→對象→效應↓↓↓降壓藥高血壓病人血壓值第3頁,共106頁,2023年,2月20日,星期一處理處理(treatment):研究者根據(jù)研究目的欲施加或欲觀察的,能作用于受試對象并引起效應的因素。非處理因素:相應的也能使受試對象產(chǎn)生效應的因素,又稱混雜因素(confoundingfactor)。處理因素要標準化,處理水平始終一致。第4頁,共106頁,2023年,2月20日,星期一對象(subjects)指根據(jù)研究目的確定的觀察對象(動物或人體),必須具備同質(zhì)性和代表性1)動物的選擇:種類、品系、年齡、性別、體重、營養(yǎng)2)人的選擇:診斷明確、依從性好,反映主觀感覺第5頁,共106頁,2023年,2月20日,星期一效應(effect)是處理因素作用于受試對象的反應和結(jié)果,通過觀察指標表達。指標要求:1)客觀性:主觀指標和客觀指標。2)精確性:準確度(accuracy):觀察值與真值的接近程度,受系統(tǒng)誤差的影響。精密度(precision):重復觀察時觀察值與其均值的接近程度,受隨機誤差的影響;3)靈敏性(sensitivity):表示指標檢出真陽性的能力,可減少假陰性率。4)特異性(specificity):表示指標檢出真陰性的能力,減少假陽性率。第6頁,共106頁,2023年,2月20日,星期一實驗誤差及其特點

在實驗中,由于實驗對象自身特點、實驗條件的變化和實驗結(jié)果測量的不確定性造成實驗結(jié)果與真值的差別稱實驗誤差(Experimentalerror)。根據(jù)統(tǒng)計分析上的處理不同,實驗誤差分成兩類:隨機誤差(Randomerror)非隨機誤差第7頁,共106頁,2023年,2月20日,星期一隨機誤差(Randomerror)隨機誤差是由大量的、微小的、偶然因素引起的不易控制的誤差。如在實驗中,溫度、濕度、風向、振動、試劑、儀器、操作員等都可能造成結(jié)果的偏差。隨機變異是沒有傾向性的,在大量觀察條件下,隨機誤差的分布呈標準正態(tài)分布。隨機誤差的規(guī)律可以用統(tǒng)計方法分析。第8頁,共106頁,2023年,2月20日,星期一非隨機誤差

又稱偏倚(bias)或系統(tǒng)誤差(Systematicerror)由于在對象選擇、處理因素分配的不隨機、測量結(jié)果的不準確造成實驗結(jié)果有傾向性地偏離稱之。(無統(tǒng)計規(guī)律、可預防、務必控制)(1)選擇偏倚(Selectionbias):指在選擇研究對象和分組時的非隨機化,造成結(jié)果的偏倚。如肝癌手術(shù)治療與化療的療效比較中,由于手術(shù)對象的選擇性造成有利于手術(shù)組的結(jié)果。(2)信息偏倚(Informationbias):指測量方面的誤差,特別是主觀因素造成的有傾向性的偏倚。如在臨床試驗中,實驗組是在醫(yī)院測量,對照組是在家中測量。(3)混雜偏倚(Confounding):指實驗組與對照組在一些影響實驗結(jié)果的非處理因素不均衡造成結(jié)果的偏倚。如病情輕重、并發(fā)癥、輔助治療和護理等因素不均衡。第9頁,共106頁,2023年,2月20日,星期一實驗設(shè)計的原則對照(Control)隨機化(Randomization)重復(Replication)盲法(blindmethod)第10頁,共106頁,2023年,2月20日,星期一對照(Control)指設(shè)立對照組以排除非處理因素而顯示出處理的效應。處理組處理因素+非處理因素=處理和非處理的效應對照組非處理因素=非處理因素的效應對比處理因素=處理效應對照組設(shè)置的三個條件:對等:除處理因素外,兩組對等的非處理因素同步:兩組始終處于同一空間和同一時間專設(shè):對照組專門設(shè)立,一般不能以文獻為對照(有時可與“常?!北容^)第11頁,共106頁,2023年,2月20日,星期一隨機化(Randomization)隨機原則是指“機會均等”,最簡單的方法是抽簽隨機≠隨便,任何隨便都不是隨機的隨機化類型隨機抽樣:每個個體有同等的機會被抽中分組隨機:每個實驗對象分配到不同處理組的機會相同隨機順序:每個實驗對象接受處理先后的機會相同第12頁,共106頁,2023年,2月20日,星期一重復(Replication)重復是指在相同實驗條件下進行多次研究或多次觀察,以提高實驗的可靠性與科學性。廣義地講,重復包括:整個實驗的重復、用多個實驗單位進行重復、同一實驗單位的重復觀察。決定重復性的關(guān)鍵是樣本含量,故常將重復性簡化為“樣本含量”第13頁,共106頁,2023年,2月20日,星期一盲法(blindmethod)按實驗方案規(guī)定,盡量不讓參與臨床實驗的受試者、研究者、醫(yī)務人員、監(jiān)視員、數(shù)據(jù)管理和統(tǒng)計分析人員知道患者接受何種治療。單盲法(singleblind)指受試者不知道自己屬于試驗組還是對照組雙盲法(doubleblind)指受試者和試驗醫(yī)務人員都不知道病人屬于試驗組還是對照組非盲法(openlabel):采用單盲或非盲法試驗應在研究方案中申述理由。盲法的原則應自始至終地貫徹于整個試驗之中第14頁,共106頁,2023年,2月20日,星期一針對研究類型選擇適當?shù)难芯吭O(shè)計

類型目的首選的研究設(shè)計治療研究檢驗各種干預措施如藥物治療、介入或外科手術(shù)的效果隨機對照臨床試驗診斷研究評估新的診斷方法的有效性和可行性橫斷面調(diào)查(須同時進行新方法和金標準方法檢驗)預后研究了解確診病人以后可能發(fā)生的情況縱向隊列研究因果關(guān)系研究評估有害因素與疾病發(fā)生是否有關(guān)隊列研究或病例-對照研究,病例報告亦有用篩選研究評估適于大規(guī)模人群檢驗和在疾病呈現(xiàn)癥狀早期檢出該病的各種檢查方法橫斷面調(diào)查第15頁,共106頁,2023年,2月20日,星期一隨機對照臨床試驗(RCT)適用RCT解決的臨床問題對某一疾病,研究藥物在效果上是否優(yōu)于安慰劑或另一種藥物(對照藥)?新的手術(shù)方法是否優(yōu)于傳統(tǒng)方法?改變生活習慣是否會影響病人血壓水平?第16頁,共106頁,2023年,2月20日,星期一RCT的優(yōu)點在選定的病人組群中,可嚴格評價單一變量的效果前瞻性設(shè)計應用假設(shè)—推導進行推理消除偏倚:比較基線指標相同的兩個組可作薈萃分析和系統(tǒng)性評價

RCT被認為是臨床科研的“金標準”第17頁,共106頁,2023年,2月20日,星期一RCT的缺點耗費又耗時:無法完成、樣本量不足、研究時間太短多數(shù)由研究機構(gòu)或藥廠(公司)資助,難免不會影響公正常使用“替代終點”可出現(xiàn)“潛在的偏倚”隨機化不完善未對所有合格病人進行隨機化分配未避免資料評價人員知道病人隨機情況其他排除標準的偏倚入選標準的偏倚第18頁,共106頁,2023年,2月20日,星期一不適合進行RCT:預后研究適于縱向隊列研究篩查研究適于橫斷面研究“保健質(zhì)量”研究:尚未確定“成功”標準,適于定性研究方法第19頁,共106頁,2023年,2月20日,星期一隊列研究選擇≥2組,暴露于某種特定物質(zhì)(藥物、疫苗、環(huán)境致病物等)不同的人群,隨訪,觀察每組發(fā)生特定疾病結(jié)局或人數(shù)。研究對象為可能發(fā)病或不發(fā)病者。關(guān)注的是病因,而非疾病治療第20頁,共106頁,2023年,2月20日,星期一適合采用隊列研究的臨床問題吸煙導致肺癌嗎?高血壓隨著時間推移會變好嗎?避孕藥導致“乳腺癌”嗎?早產(chǎn)兒在以后的生長發(fā)育和學習成績上情況如何?第21頁,共106頁,2023年,2月20日,星期一病例--對照研究確定有某種特定疾病的病人并與對照組進行匹配,收集其暴露于某種可疑致病因子的資料。關(guān)注的是病因而非疾病治療。對于罕見病的研究可能是唯一選擇。第22頁,共106頁,2023年,2月20日,星期一橫斷面調(diào)查對某一研究對象中的代表性樣本(或病人)進行訪問、檢查或研究以獲得對某一特定臨床問題的答案。資料在單一時間點收集,但可回顧性追溯過去有關(guān)健康方面的經(jīng)歷。第23頁,共106頁,2023年,2月20日,星期一病例報告以故事方式描述單一患者病史。可綜合形成病例系列,以描述一個以上患有某一特殊情況患者的病史,闡述此種情況的某個方面、治療情況或?qū)χ委熤涣挤磻5?4頁,共106頁,2023年,2月20日,星期一病例報告之優(yōu)點可以傳遞大量在臨床試驗中或調(diào)查中可能丟失的信息易被普通醫(yī)師或大眾理解易于完成(數(shù)天內(nèi))第25頁,共106頁,2023年,2月20日,星期一第26頁,共106頁,2023年,2月20日,星期一統(tǒng)計工作的步驟第一步設(shè)計(design):第二步收集資料(collectionofdata):第三步整理資料(sortingdata):第四步分析資料(analysisofdata):第27頁,共106頁,2023年,2月20日,星期一設(shè)計(design)

首先明確研究目的,根據(jù)研究目的,從統(tǒng)計角度對資料的搜集、整理和分析全過程提出全面具體的計劃和要求,作為統(tǒng)計工作實施的依據(jù),以便用盡可能少的人力、物力和時間獲得準確可靠的結(jié)論。

1、明確對象

2、明確取得原始資料的方法

3、如何整理資料

4、計算哪些指標

5、用何種統(tǒng)計推斷方法

6、預測結(jié)果第28頁,共106頁,2023年,2月20日,星期一搜集資料搜集及時、準確、完整地搜集原始資料是統(tǒng)計工作最重要的一步,它直接關(guān)系著統(tǒng)計結(jié)論的質(zhì)量。統(tǒng)計資料的來源主要有:1、報表資料。2、醫(yī)療、預防機構(gòu)的日常工作記錄。3、專題研究實驗數(shù)據(jù)和現(xiàn)場調(diào)查資料。第29頁,共106頁,2023年,2月20日,星期一整理資料(sortingofdata)整理資料又稱統(tǒng)計歸納:是把搜集到的資料進行適當?shù)姆纸M,把性質(zhì)相同的資料歸納到一起,用表格或圖形的方式展示出來,以反映研究對象的規(guī)律性。

1、審核資料

2、設(shè)計分組:質(zhì)量分組和數(shù)量分組

3、擬整理表

4、歸納匯總第30頁,共106頁,2023年,2月20日,星期一分析資料分析資料資料的分析過程是通過計算有關(guān)的統(tǒng)計指標,對資料進行概括的、全面的描述,以及從樣本信息推斷總體特征,分析資料就是從獲取的資料中抽取有關(guān)信息的過程。

1、統(tǒng)計指標的計算

2、統(tǒng)計圖表的繪制

3、估計總體參數(shù)

4、進行假設(shè)檢驗

5、回歸與相關(guān)

6、多元分析第31頁,共106頁,2023年,2月20日,星期一統(tǒng)計資料的類型

計量資料

計數(shù)資料等級資料

第32頁,共106頁,2023年,2月20日,星期一

計量資料(measurementdata)

通過對觀察單位測量取得數(shù)值,其值一般有度量衡單位。

如身高、體重、血壓、脈搏、白細胞空氣中二氧化碳含量等。此類資料具有計量單位,各觀察單位常有量的差別。分析計量資料常用平均數(shù)、標準差、t檢驗、方差分析、相關(guān)與回歸分析等。第33頁,共106頁,2023年,2月20日,星期一

計數(shù)資料(enumerationdata)

將觀察單位按某種屬性或類別分組,然后清點各組的觀察單位數(shù)。

如性別、血型、民族、職稱、某病的治愈和未愈數(shù)等。分屬于各組的觀察單位間有質(zhì)的差別,不同質(zhì)的觀察單位不能歸在同一組內(nèi)。分析計數(shù)資料常用率、構(gòu)成比、x2檢驗等。第34頁,共106頁,2023年,2月20日,星期一

將觀察單位按某種屬性的不同程度分組,然后清點各組的觀察單位數(shù)。

如療效可分為治愈、顯效、好轉(zhuǎn)、無效;尿蛋白化驗結(jié)果分為-、+、++、+++等。這類資料具有計數(shù)資料的性質(zhì),但所分各組又是按一定順序如由輕到重、由小到大排列的。分析等級資料常用率、構(gòu)成比、秩和檢驗等。等級資料(rankeddata)第35頁,共106頁,2023年,2月20日,星期一醫(yī)學統(tǒng)計中的幾個基本概念

數(shù)據(jù)與變量總體和樣本隨機化統(tǒng)計量與參數(shù)抽樣誤差概率

第36頁,共106頁,2023年,2月20日,星期一變量(variable)

具有變異性的數(shù)據(jù)稱為變量。1.數(shù)值變量(numericalvariable):為連續(xù)變量,如身高、體重、血壓等。數(shù)值變量均可通過對觀察單位測量取得數(shù)值,其值一般有度量衡單位。數(shù)值變量資料也稱作計量資料。2.分類變量(categoricalvariable):可能取值是離散的,表現(xiàn)為互不相容的類別。比如性別、血型、民族、職稱等。分類變量資料又稱為計數(shù)資料。分類變量有兩種:無序分類變量和有序分類變量

第37頁,共106頁,2023年,2月20日,星期一

總體與樣本

總體(population):是根據(jù)研究目的確定的同質(zhì)的觀察單位的某個變量值的全體。分有限總體和無限總體。樣本(sample):通常是從總體中隨機抽取有代表性的一部分觀察單位。注意其代表性和可靠性。第38頁,共106頁,2023年,2月20日,星期一抽樣誤差(samplingerror)

用于描述樣本特征的指標稱為統(tǒng)計量,而用于描述總體特征的指標稱為參數(shù)。

我們把由隨機抽樣引起的樣本指標與總體指標的差異稱為抽樣誤差。

由于個體變異的普遍存在,抽樣誤差是不可避免的。只要遵循隨機化的原則,抽樣誤差的大小就可以用統(tǒng)計方法進行估計。一般情況下樣本越大,抽樣誤差越小,反映事物客觀規(guī)律的準確性越高,反之,樣本越小,抽樣誤差越大。第39頁,共106頁,2023年,2月20日,星期一

概率(probability)

描述隨機事件發(fā)生的可能性大小的數(shù)值稱概率。

隨機事件的概率P取值在0~1之間,P越接近1,說明某事件發(fā)生的可能性越大;P越接近0,說明某事件發(fā)生的可能性越小。如果某事件的概率P=0,表示該事件不可能發(fā)生,稱其為不可能事件;如果P=1,表示該事件必然發(fā)生,稱其為必然事件。隨機事件是可能發(fā)生也可能不發(fā)生的事件。如果某隨機事件發(fā)生的概率P〈0.05,或P〈0.01表示該事件發(fā)生的可能性很小,我們稱其為小概率事件。其意義為在一次試驗中不發(fā)生事件。

第40頁,共106頁,2023年,2月20日,星期一數(shù)值變量資料的統(tǒng)計描述統(tǒng)計圖表統(tǒng)計指標第41頁,共106頁,2023年,2月20日,星期一平均數(shù)

均數(shù)幾何均數(shù)中位數(shù)和百分數(shù)第42頁,共106頁,2023年,2月20日,星期一均數(shù)(mean)

均數(shù)是算術(shù)平均數(shù)(arithmeticmean)的簡稱??傮w均數(shù)用希臘字母()表示,樣本均數(shù)用()表示。1、應用條件:均數(shù)反映同質(zhì)的一組觀察值在數(shù)量上的平均水平,樣本所代表總體為正態(tài)分布。

第43頁,共106頁,2023年,2月20日,星期一2、計算方法:

(1)直接法

當樣本中觀察值個數(shù)不多時,通??捎弥苯臃ǎ綖椋菏街笑彩窍ED字母,讀作sigma,為求和的符號。

第44頁,共106頁,2023年,2月20日,星期一(2)加權(quán)法當觀察值個數(shù)較多時。通??捎眉訖?quán)法,公式為:式中X為各組的組中值,組中值等于該組的上限加下限之和除以2。f為各組的頻數(shù),它相當于‘權(quán)數(shù)’權(quán)衡了各組中值由于頻數(shù)不同對均數(shù)的影響,故本法也稱為加權(quán)法。第45頁,共106頁,2023年,2月20日,星期一幾何均數(shù)(geometricmean)

1、應用條件:觀察的數(shù)據(jù)是呈倍數(shù)關(guān)系的資料,采用幾何均數(shù)簡記為(G)表示其平均水平。2、計算方法:如果觀察的數(shù)據(jù)個數(shù)不多可以采用直接算法。公式為:如果樣本量很大,或只掌握頻數(shù)表資料可以按下式計算分組資料的幾何均數(shù)。公式為:第46頁,共106頁,2023年,2月20日,星期一百分位數(shù)(percentile)

百分位數(shù)是一種位置指標,用于描述一組觀察值在某百分位置上的水平。第百分位數(shù)以PX表示。PX是一個數(shù),其意義是將某變量的觀察值按從小到大的順序排列,比PX小的觀察值的個數(shù)占x%,比PX大的觀察值的個數(shù)占(100-x)%。百分位數(shù)用于描述觀察值序列在某百分位位置的水平,公式為:

第47頁,共106頁,2023年,2月20日,星期一中位數(shù)簡記為M,中位數(shù)是一個位置指標,用于描述一組資料的平均水平,其含義是將一組觀察值按從小到大的順序排列,位置居中的數(shù)就是中位數(shù),中位數(shù)即第50百分位數(shù)。公式為:

應用條件為:①分布呈明顯偏態(tài);②分布的一端或兩端無確定數(shù)值;③分布不清等資料。中位數(shù)(median)第48頁,共106頁,2023年,2月20日,星期一極差(R)四分位間距(Q)標準差(S)變異系數(shù)(CV)標準誤(SE)

變異指標第49頁,共106頁,2023年,2月20日,星期一

極差簡記為(R)又稱全距。是一組觀察值中最大值與最小值之差。四分位數(shù),簡記為(Q)是特定的百分位數(shù),是上四分位數(shù)與下四分位數(shù)之差??梢钥闯墒侨坑^察值的位于中間的一半的極差。

Q=P75-P25極差(range)和四分位間距(quartile)第50頁,共106頁,2023年,2月20日,星期一標準差(standarddeviation)

標準差每個觀察值到均數(shù)的平均距離,總體標準差用希臘字母()表示,樣本標準差用()表示。1、應用條件:反映同質(zhì)的一組觀察值在數(shù)量上的變異程度,樣本所代表總體為正態(tài)分布。第51頁,共106頁,2023年,2月20日,星期一2、計算方法:(1)直接法當樣本中觀察值個數(shù)不多時,通??捎弥苯臃ǎ綖椋?2)加權(quán)法當觀察值個數(shù)較多時。通??捎眉訖?quán)法,公式為:第52頁,共106頁,2023年,2月20日,星期一3、標準差應用

標準差的大小反應變異程度的大小,標準差大,表示變異程度大,即觀察值較分散,反之則表示變異程度小,較集中。結(jié)合均數(shù)確定醫(yī)學參考值范圍。結(jié)合均數(shù)計算變異系數(shù)。計算標準誤。第53頁,共106頁,2023年,2月20日,星期一

當兩組資料單位不同或均數(shù)相差較大時,變異大小不能直接用標準差進行比較,應計算標準差對均數(shù)的百分比,即變異系數(shù)(coefficientofvariation,簡記為CV)。公式為:當觀察值為統(tǒng)計量時,描述其變異程度的大小用標準誤(standarderror簡記為SE)。公式為:

變異系數(shù)和標準誤第54頁,共106頁,2023年,2月20日,星期一

計量資料的統(tǒng)計推斷(總體均數(shù)的估計與假設(shè)檢驗)均數(shù)的抽樣誤差與標準誤總體均數(shù)估計假設(shè)檢驗第55頁,共106頁,2023年,2月20日,星期一抽樣研究:由樣本推斷總體的過程。抽樣誤差:由抽樣引起的樣本指標與總體指標的差異稱為抽樣誤差。抽樣誤差是不可避免的,但只要樣本是隨機抽取的,就可以用統(tǒng)計方法來估計它的大小。均數(shù)的抽樣誤差與標準誤第56頁,共106頁,2023年,2月20日,星期一均數(shù)標準誤:樣本均數(shù)變異程度的大小,反映了均數(shù)的抽樣誤差的大小。我們以樣本均數(shù)的標準差作為衡量均數(shù)抽樣誤差大小的尺度,即均數(shù)的標準誤。公式為:第57頁,共106頁,2023年,2月20日,星期一均數(shù)標準誤和標準差相同,都是說明變異程度大小的指標。不同的是標準差表示的是某變量個體觀察值變異程度的大小,而標準誤表示的是樣本均數(shù)變異程度的大小。樣本含量越小,抽樣誤差越大,即標準誤越大;反之樣本含量越大,抽樣誤差越小,即標準誤越小。第58頁,共106頁,2023年,2月20日,星期一根據(jù)研究設(shè)計類型選擇分析方法第59頁,共106頁,2023年,2月20日,星期一在成組比較設(shè)計中,若是兩組比較需要應用t檢驗或X2檢驗。多組比較需應用方差分析、行×列表X2檢驗或分級的分析方法。成組比較的設(shè)計第60頁,共106頁,2023年,2月20日,星期一把除處理因素外,其他條件基本相似的受試對象配成對子,每對中的兩個隨機分配到兩個處理組。在同一受試對象上進行兩種不同的處理。上述兩種情況其目的是推斷兩種處理的效果有無差別。在某項處理前后觀察受試對象的某指標值,通過處理前后該指標值的差推斷該處理是否有效。這種類型的設(shè)計需要按照配比的t檢驗,X2檢驗及配對的病例對照研究方法進行數(shù)據(jù)分析。配對設(shè)計第61頁,共106頁,2023年,2月20日,星期一重復測量的設(shè)計這類設(shè)計方法是在給定一個處理因素后在不同的時間重復測量某一效應變量的改變情況。如欲評價生物制品接種后的免疫學效果,在接種后的2周、4周、6周和8周測定抗體滴度,即為此類設(shè)計類型。對于這種設(shè)計類型的數(shù)據(jù)需應用重復測量的方差分析方法進行數(shù)據(jù)的分析。第62頁,共106頁,2023年,2月20日,星期一多因素設(shè)計

若在研究設(shè)計中有多個自變量,則可根據(jù)因變量的性質(zhì)選擇合適的多因素分析方法。如果自變量是數(shù)值變量,則可考慮應用多元回歸分析方法、協(xié)方差分析方法。如果是分類變量,則可選擇logistic回歸分析方法、判別分析方法及聚類分析方法等。第63頁,共106頁,2023年,2月20日,星期一根據(jù)變量的類型選擇分析方法第64頁,共106頁,2023年,2月20日,星期一區(qū)別與明確研究的因變量和自變量具有重要的流行病學與生物統(tǒng)計學意義,首先它有助于選擇擬研究的變量,對調(diào)查表的設(shè)計具有指導作用。其次數(shù)據(jù)分析階段可以指導數(shù)據(jù)分析方法的選擇及模型的建立。若因變量是分類變量,則??紤]應用分類變量的分析方法,如卡方檢驗,logistic回歸分析等。如果因變量是數(shù)值變量,則考慮應用數(shù)值變量的分析方法如t檢驗、方差分析,協(xié)方差分析、多元回歸等。同時明確自變量與因變量可以建立正確的統(tǒng)計學分析模型。第65頁,共106頁,2023年,2月20日,星期一因變量應該放在模型的左側(cè),自變量則放在模型的右側(cè)。例如欲評價不同治療方法(口服藥物、注射胰島素及膳食控制)對糖尿病人的治療效果(血糖水平),在分析時要求調(diào)整病人的性別、年齡和病程的影響。對本例的處理需要進行協(xié)方差分析,在應用SAS進行分析時,要將血糖水平(因變量)放在模型的左則,而治療方法或其它協(xié)變量(covariate)即性別、年齡和病程放在模型的右側(cè)。又如分析脂蛋白(a)與冠心病發(fā)生的關(guān)系,則冠心病是否發(fā)生為因變量,脂蛋白(a)則為自變量,不可顛倒這種關(guān)系。第66頁,共106頁,2023年,2月20日,星期一不同變量類型的數(shù)據(jù)分析方法選擇因變量自變量數(shù)值變量分類變量有序變量數(shù)值變量相關(guān)分析,多元回歸分析t檢驗,方差分析,協(xié)方差分析,多元回歸分析相關(guān)分析,多元回歸分析分類變量t檢驗,方差分析,logistic回歸分析,判別分析,聚類分析c2檢驗,logistic回歸分析c2檢驗有序變量方差分析,logistic回歸分析,判別分析,聚類分析c2檢驗,logistic回歸分析相關(guān)分析,c2檢驗生存時間

生存分析

第67頁,共106頁,2023年,2月20日,星期一不同研究設(shè)計和數(shù)據(jù)類型的數(shù)據(jù)分析方法選擇

研究設(shè)計類型變量類型兩組比較兩組以上比較實驗前后比較重復測量兩變量間的聯(lián)系

重復測量的方差分析線性回歸,Pearson相關(guān)系數(shù)數(shù)值變量t檢驗方差分析配對t檢驗

分類變量c2檢驗c2檢驗配對c2檢驗

列聯(lián)表相關(guān)系數(shù)有序變量Mann-Whitney秩和檢驗Kruskal-Wallis分析Wilcoxon符號秩和檢驗

Spearman相關(guān)系數(shù)生存時間生存分析

第68頁,共106頁,2023年,2月20日,星期一數(shù)據(jù)的分析程序第69頁,共106頁,2023年,2月20日,星期一第70頁,共106頁,2023年,2月20日,星期一第71頁,共106頁,2023年,2月20日,星期一數(shù)據(jù)的轉(zhuǎn)換第72頁,共106頁,2023年,2月20日,星期一1)非正態(tài)數(shù)據(jù)的變量轉(zhuǎn)換多數(shù)的統(tǒng)計學分析方法是建立在數(shù)據(jù)正態(tài)分布的基礎(chǔ)上的,若數(shù)據(jù)不符合正態(tài)分布,則不能夠應用參數(shù)檢驗(parametrictest)的方法,只能應用非參數(shù)檢驗(non-parametrictest)的方法,而非參數(shù)的方法不是對原始數(shù)據(jù)的檢驗,如秩和檢驗就是非參數(shù)檢驗方法之一,它是對原始數(shù)據(jù)的秩次(rank)進行檢驗,這樣可能損失數(shù)據(jù)信息,降低檢驗效率第73頁,共106頁,2023年,2月20日,星期一在對數(shù)值變量進行分析時,需首先根據(jù)統(tǒng)計分析方法/統(tǒng)計分析公式的限制性使用條件對數(shù)據(jù)進行“條件”檢驗,如正態(tài)性檢驗和方差齊性檢驗等。很多統(tǒng)計學軟件具有方便的正態(tài)性檢驗、方差齊性檢驗功能如SAS軟件等.若經(jīng)過檢驗數(shù)據(jù)不符合使用條件,就需要進行數(shù)據(jù)的變量變換,變換后符合條件就可以應用參數(shù)檢驗的方法,否則,只有應用非參數(shù)檢驗的方法。數(shù)據(jù)變量轉(zhuǎn)換的方法很多,可以根據(jù)數(shù)據(jù)的分布特征,選擇合適的數(shù)據(jù)轉(zhuǎn)換方法。常用的方法有對數(shù)變換,平方根變換或倒數(shù)變換等。第74頁,共106頁,2023年,2月20日,星期一

2)分類變量轉(zhuǎn)換成啞變量若分類變量是二分類尺度及順序尺度,則可直接應用其原有的數(shù)量化數(shù)值,但對于名義尺度因為各類別間沒有順序關(guān)系,在進行不同分析(包括多元分析、logistic回歸、Cox回歸等)時,不能使用原始的計算機錄入數(shù)值,必經(jīng)進行變量轉(zhuǎn)換。即將該變量轉(zhuǎn)換成(水平數(shù)-1)個啞變量,再將這些新轉(zhuǎn)換的變量放入多因素模型中。第75頁,共106頁,2023年,2月20日,星期一t檢驗的應用條件兩組數(shù)據(jù)的比較1樣本量比較?。╪<50);2樣本來自正態(tài)總體;3兩樣本總體方差齊同;當兩樣本方差不齊時可以采用t’檢驗,變量變換,或者秩和檢驗。第76頁,共106頁,2023年,2月20日,星期一u檢驗

兩組數(shù)據(jù)的比較1樣本量足夠大(n>50)2樣本來自正態(tài)總體3兩樣本總體方差齊同當兩樣本方差不齊時可以采用t’檢驗,變量變換,或者秩和檢驗。第77頁,共106頁,2023年,2月20日,星期一方差分析的應用條件兩組以上數(shù)據(jù)的比較1各樣本是相互獨立的隨機樣本;2各樣本要來自正態(tài)總體;3要求各個樣本的總體方差齊同。第78頁,共106頁,2023年,2月20日,星期一多個樣本均數(shù)間的兩兩比較Newman-Keuls檢驗,亦稱Student-Newman-Keuls(SNK)檢驗,簡稱q檢驗。最小顯著性差距(LSD)t檢驗。第79頁,共106頁,2023年,2月20日,星期一協(xié)方差分析定量分析中,進行兩個樣本或者多個樣本的均數(shù)比較時,不僅需要使用假設(shè)檢驗判斷其差異是否具有統(tǒng)計學差異,還應該考慮他們之間是否存在混雜因素(協(xié)變量)的影響。若存在協(xié)變量,則應該通過協(xié)方差分析進行校正。協(xié)方差分析是定量變量分析中控制混雜因素的重要手段第80頁,共106頁,2023年,2月20日,星期一影響觀察指標的其他非研究性因素(混雜因素)在統(tǒng)計分析中又稱之為協(xié)變量;考慮協(xié)變量影響的方差分析即為協(xié)方差分析。協(xié)方差分析是解決以上問題的分析方法,它將線性回歸與方差分析結(jié)合起來,檢驗2個或者多個修正均數(shù)之間有無差別的假設(shè)檢驗方法。一般是先用直線回歸的方法找出各組因變量與協(xié)變量之間的數(shù)量關(guān)系,求得修假定協(xié)變量相等時的修正系數(shù),然后用方差分析比較修正均數(shù)間的差別。第81頁,共106頁,2023年,2月20日,星期一協(xié)方差分析的條件1各個樣本來自方差齊同的正態(tài)總體2各組的總體直線回歸系數(shù)相同,且都不為0。第82頁,共106頁,2023年,2月20日,星期一協(xié)方差分析的判別步驟:

1正態(tài)性和方差齊性檢驗;2判斷協(xié)變量與因變量有無線性關(guān)系;3判斷各組回歸直線是否平行。第83頁,共106頁,2023年,2月20日,星期一直線回歸與相關(guān)的區(qū)別與聯(lián)系第84頁,共106頁,2023年,2月20日,星期一區(qū)別直線相關(guān)直線回歸變量地位變量x變量y處于平等的地位,彼此相關(guān)關(guān)系變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預測因變量的變化變量性質(zhì)所涉及的變量x和y都是隨機變量,要求兩個變量服從雙變量正態(tài)分布因變量y是隨機變量,自變量x可以是隨機變量,也可以是非隨機的確定變量實際作用主要是描述兩個變量之間線性關(guān)系的密切程度(相關(guān)系數(shù)無單位)揭示變量x對變量y的影響大?。ɑ貧w系數(shù)有單位),還可以由回歸方程進行預測和控制第85頁,共106頁,2023年,2月20日,星期一多元線性回歸的基本概念

事物間的相互聯(lián)系往往是多方面的,在很多情況下對應變量y發(fā)生影響的自變量往往不止一個。多元線性回歸的目的就是用一個多元線性回歸方程表示多個自變量和1個應變量間的關(guān)系。標準偏回歸系數(shù)表示其他自變量固定的情況下,xi改變一個單位,y平均改變bi個單位。第86頁,共106頁,2023年,2月20日,星期一多元線性回歸的應用條件:

1.獨立性:各觀察對象間相互獨立。2.線性:自變量與應變量間的關(guān)系為線性。3.正態(tài)性:自變量取不同值時,應變量的分布為正態(tài)。4.方差齊性:自變量取不同值時,應變量的總體方差相等。5.當不符合條件時,可對自變量進行變換。如:第87頁,共106頁,2023年,2月20日,星期一要比較各個自變量對于應變量的作用大小,不能用偏回歸系數(shù),因為各偏回歸系數(shù)的單位不同。必須把偏回歸系數(shù)標準化,化成沒有單位的標準偏回歸系數(shù).消除不同單位的影響后,標準偏回歸系數(shù)的絕對值越大,該自變量對于應變量的作用越大,但該差別是否有統(tǒng)計意義,也必須經(jīng)過檢驗。第88頁,共106頁,2023年,2月20日,星期一(2)對各偏回歸系數(shù)的顯著性檢驗:

F檢驗與t檢驗

1.計算截距和各偏回歸系數(shù)。2.多元回歸方程的顯著性檢驗:(1)整個方程的顯著性檢驗:用方差分析。第89頁,共106頁,2023年,2月20日,星期一逐步回歸分析的目的是建立“最優(yōu)”回歸方程。“最優(yōu)”回歸方程是指包含所有對y有顯著作用的自變量,而不包含對y作用不顯著的自變量的方程。逐步回歸分析的基本概念第90頁,共106頁,2023年,2月20日,星期一逐步回歸分析的計算方法

在供選的自變量Xi中,按其對y的作用大小,由大到小地把自變量逐個引入方程,每引入一個自變量就對它作顯著性檢驗,顯著時才引入,而當新的自變量進入方程后,對方程中原有的自變量也要作檢驗,并把作用最小且退化為不顯著的自變量逐個剔出方程。因此,逐步回歸的每一步(引入一個變量或剔除一個變量都稱為一步)前后都要作顯著性檢驗,以保證每次引入新變量前方程中只包含作用顯著的自變量。這樣一步步進行下去,直至方程中所含自變量都顯著而又沒有新的作用顯著的自變量可引入方程為止。第91頁,共106頁,2023年,2月20日,星期一逐步回歸分析在醫(yī)學研究中的應用及需要注意的幾個問題1方程“最優(yōu)”問題,實際是精選自變量以求得擬和效果最好的多元回歸方程。最優(yōu)子集回歸是選擇一種使回歸方程擬和最好的自變量,而逐步回歸則選擇對因變量作用有意義的自變量。要根據(jù)研究目的選用適合方法。2逐步回歸主要在醫(yī)學中用于病因探索,臨床療效分析及控制等。3線性回歸模型要注意正態(tài)性,方差齊性和獨立性,因變量必須是隨機變量等。4入選變量如果明顯地與實際問題的專業(yè)理論不一致時,首先檢查數(shù)據(jù)是否有異常點,自變量間有無共線性存在,數(shù)據(jù)輸入是否有誤等,要結(jié)合專業(yè)知識作出合理的解釋。5逐步回歸在對大量因素進行分析時,可以先進行聚類分析,然后進行逐步回歸。通常,觀察單位取變量值的5~10倍為宜。第92頁,共106頁,2023年,2月20日,星期一Logistic回歸分析的基本思想回憶:線性回歸分析對因變量的要求因變量y連續(xù)型服從正態(tài)分布膽固醇含量自變量x數(shù)值型與Y呈線性關(guān)系年齡舒張壓第93頁,共106頁,2023年,2月20日,星期一醫(yī)學研究中經(jīng)常遇到分類型變量,例如:二分類變量:生存與死亡有病與無病有效與無效感染與未感染多分類有序變量:疾病程度(輕度、中度、重度)治愈效果(治愈、顯效、好轉(zhuǎn)、無效)多分類無序變量:手術(shù)方法(A、B、C)就診醫(yī)院(甲、乙、丙、?。┑?4頁,共106頁,2023年,2月20日,星期一這種回歸分析問題不能借助于線性回歸模型,因為因變量的假設(shè)條件遭到破壞。能否找到一種其他形式的模型y=f(x)來描述分類變量y和x之間依存關(guān)系呢?因為從數(shù)學角度看,使得x取任意值而y僅取1和0兩個值的的函數(shù)不存在。第95頁,共106頁,2023年,2月20日,星期一轉(zhuǎn)換為分析y取某個值的概率變量p與x的關(guān)系不能直接分析變量y與x的關(guān)系Logistic回歸模型第96頁,共106頁,2023年,2月20日,星期一Logistic回歸分析的分類按數(shù)據(jù)的類型:非條件logistic回歸分析(成組數(shù)據(jù))條件logistic回歸分析(配對病例-對照數(shù)據(jù))按因變量取值個數(shù):二值logistic回歸分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論