多元統(tǒng)計分析_第1頁
多元統(tǒng)計分析_第2頁
多元統(tǒng)計分析_第3頁
多元統(tǒng)計分析_第4頁
多元統(tǒng)計分析_第5頁
已閱讀5頁,還剩108頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、多元統(tǒng)計分析簡介多元統(tǒng)計分析簡介客觀世界中的任何事物的形成, 變化和發(fā)展都是受多種因素的影響。 各種因素之間又存在著廣泛而又錯綜復(fù)雜的聯(lián)系. 例如疾病的產(chǎn)生就受到多種因素的支配, 各種病因之間也常存在著一定的內(nèi)在聯(lián)系和相互制約. 需要分析哪些是主要的, 本質(zhì)的, 哪些是次要的, 片面的, 它們之間的相互關(guān)系怎樣等問題. 多元統(tǒng)計分析正是為了解決這些問題而產(chǎn)生的 。 統(tǒng)計學(xué)基礎(chǔ)知識的回顧統(tǒng)計學(xué)是一門關(guān)于如何收集、分析、解釋和表達(dá)數(shù)據(jù)的科學(xué)。 -Websters International Dictionary統(tǒng)計學(xué)是研究隨機(jī)現(xiàn)象規(guī)律性的方法學(xué)。什么是統(tǒng)計學(xué)?溫故而知新三類現(xiàn)象自然界和人類社會活動

2、中,普遍存在三類現(xiàn)象?,F(xiàn)象。確定性現(xiàn)象:在相同的條件下出現(xiàn)相同的結(jié)果,稱為確定性現(xiàn)象或必然現(xiàn)象。如地球的運(yùn)動。隨機(jī)性現(xiàn)象:在相同的條件下出現(xiàn)不同的結(jié)果,但結(jié)果是確定的,稱為隨機(jī)性現(xiàn)象。如擲硬幣。模糊性現(xiàn)象:在相同的條件下出現(xiàn)不確定的結(jié)果,稱為模糊性現(xiàn)象。如美人與丑人。不同現(xiàn)象與研究方法研究方法現(xiàn)象研究方法現(xiàn)象研究方法確定性現(xiàn)象經(jīng)典數(shù)學(xué)隨機(jī)性現(xiàn)象概率統(tǒng)計學(xué)模糊性現(xiàn)象模糊數(shù)學(xué)統(tǒng)計學(xué)兩個方面的作用一.是培養(yǎng)統(tǒng)計思維方法二.學(xué)以至用,解決實(shí)際問題統(tǒng)計學(xué)的知識已滲透到自然科學(xué)、社會科學(xué)以及人類生活的各個領(lǐng)域。統(tǒng)計學(xué)應(yīng)用的普適性自由落體運(yùn)動規(guī)律:公式: h=1/2 g*t2重力加速度常數(shù)重力加速度常數(shù) g

3、=9.80665米米/秒秒2公式是怎樣產(chǎn)生的公式是怎樣產(chǎn)生的? ? h經(jīng)典應(yīng)用1:牛頓的自由落體運(yùn)動牛頓的自由落體運(yùn)動實(shí)驗(yàn)多次重復(fù)實(shí)驗(yàn),測量計錄每次下落的高度與時間數(shù)據(jù): 采用什么方法找規(guī)律呢? 運(yùn)用了統(tǒng)計學(xué)思想運(yùn)用了統(tǒng)計學(xué)思想回歸分析回歸分析直線回歸方程: y = a+b*x h 1/2 g th牛頓發(fā)現(xiàn)定律方法的探究時間t高度 h14.9239.1388.3. h 。 。 。 。 。 。 。 。 。 0 1 2 3 4 t 散 點(diǎn) 圖牛頓的自由落體定律的產(chǎn)生回歸方程的構(gòu)造回歸方程的構(gòu)造:回歸方程: y = a+b*x h 0 1/2 g t2h自由落體定律的探究影響定律公式的因素影響定律公

4、式的因素:靈感測量誤差測量誤差模型的選擇模型的選擇腎臟體積的經(jīng)驗(yàn)公式腎臟為不規(guī)則體腎臟為不規(guī)則體, ,怎樣測量怎樣測量? ?立方體體積規(guī)律:公式: V=長*寬*高=abca 經(jīng)典應(yīng)用2:腎臟體積的測量bc腎臟體積計算公式:經(jīng)驗(yàn)公式: V=/4*長*寬*高公式怎樣產(chǎn)生的公式怎樣產(chǎn)生的? ?腎臟體積測量實(shí)驗(yàn)用20個腎臟標(biāo)本,測量計錄每個體積及其長,寬,高的數(shù)據(jù): 采用什么方法找規(guī)律呢? 回歸方程的構(gòu)造回歸方程的構(gòu)造: y = a+b*x V=/4*長*寬*高實(shí)驗(yàn)的回顧1 10010 52.52 11010 62.63 10511 52.1 . . .影響公式的因素影響公式的因素:測量誤差測量誤差

5、模型的選擇模型的選擇歷史上很多非統(tǒng)計專業(yè)人員,通過對統(tǒng)計學(xué)的學(xué)習(xí)和研究,在專業(yè)和統(tǒng)計學(xué)取得有很深的造詣。物理學(xué)家愛因斯坦學(xué)習(xí)和研究統(tǒng)計,將統(tǒng)計學(xué)思想應(yīng)用于他的物理學(xué)和哲學(xué)研究中。生物學(xué)家達(dá)爾文學(xué)習(xí)和研究統(tǒng)計,進(jìn)化論方面的工作在本質(zhì)而言是屬于生物統(tǒng)計學(xué)。護(hù)理學(xué)的奠基人 Nightingale學(xué)習(xí)和研究統(tǒng)計,出版世界上第一部醫(yī)院統(tǒng)計的專著醫(yī)院統(tǒng)計與醫(yī)院規(guī)劃。不同科學(xué)間相互協(xié)作的重要性統(tǒng)計學(xué)是“對令人困惑費(fèi)解的問題做出數(shù)字設(shè)想的藝術(shù)?!?美國美國DavidFreedman統(tǒng)計學(xué)是一門處理數(shù)據(jù)中變異性的科學(xué)和藝術(shù)。-JohnM.LastA Dictionary of EpidemiologyA Dic

6、tionary of Epidemiology 科學(xué)與藝術(shù)的不同在于不同的人處理相同的問題可能得到不同的結(jié)果現(xiàn)代統(tǒng)計學(xué)的基本內(nèi)容現(xiàn)代統(tǒng)計學(xué)的基本內(nèi)容一、一、試驗(yàn)設(shè)計試驗(yàn)設(shè)計二、二、數(shù)據(jù)管理數(shù)據(jù)管理三、三、統(tǒng)計分析統(tǒng)計分析實(shí)驗(yàn)設(shè)計臨床試驗(yàn)設(shè)計調(diào)查研究設(shè)計數(shù)據(jù)管理質(zhì)量控制統(tǒng)計描述統(tǒng)計推斷一、一、 試驗(yàn)設(shè)計試驗(yàn)設(shè)計進(jìn)行一項(xiàng)科研如同建造一座大廈,其設(shè)計、進(jìn)行一項(xiàng)科研如同建造一座大廈,其設(shè)計、質(zhì)量控制、分析、驗(yàn)收等都十分重要。如果質(zhì)量控制、分析、驗(yàn)收等都十分重要。如果大廈沒有良好的設(shè)計和質(zhì)量控制,就會出現(xiàn)大廈沒有良好的設(shè)計和質(zhì)量控制,就會出現(xiàn)問題,甚至倒塌,負(fù)責(zé)人會受到國家法律懲問題,甚至倒塌,負(fù)責(zé)人會

7、受到國家法律懲治??蒲泄ぷ魅魶]有良好的設(shè)計和質(zhì)量控制,治??蒲泄ぷ魅魶]有良好的設(shè)計和質(zhì)量控制,就會失敗,得出錯誤的結(jié)果,對后來的科研就會失敗,得出錯誤的結(jié)果,對后來的科研產(chǎn)生誤導(dǎo)作用。產(chǎn)生誤導(dǎo)作用??蒲性O(shè)計如同建筑設(shè)計一樣舉足輕重??蒲性O(shè)計如同建筑設(shè)計一樣舉足輕重。1 試驗(yàn)設(shè)計的三要素1)、試驗(yàn)因素2)、試驗(yàn)對象3)、試驗(yàn)效應(yīng)2 實(shí)驗(yàn)設(shè)計的三原則 隨機(jī)隨機(jī)對照對照重復(fù)重復(fù)(均衡均衡)二、二、 數(shù)據(jù)管理數(shù)據(jù)管理數(shù)據(jù)管理數(shù)據(jù)管理質(zhì)量控制質(zhì)量控制三、三、 數(shù)據(jù)分析數(shù)據(jù)分析統(tǒng)計描述統(tǒng)計描述統(tǒng)計推斷統(tǒng)計推斷 通過統(tǒng)計描述不僅可以對數(shù)據(jù)的概通過統(tǒng)計描述不僅可以對數(shù)據(jù)的概貌,分布,變量間的關(guān)系等有大致的了貌

8、,分布,變量間的關(guān)系等有大致的了解,而且可發(fā)現(xiàn)數(shù)據(jù)中的異?,F(xiàn)象。因解,而且可發(fā)現(xiàn)數(shù)據(jù)中的異常現(xiàn)象。因此,統(tǒng)計描述此,統(tǒng)計描述 在統(tǒng)計分析中占有相當(dāng)重在統(tǒng)計分析中占有相當(dāng)重要的地位。要的地位。1 統(tǒng)計描述統(tǒng)計描述 率、構(gòu)成比率、構(gòu)成比 統(tǒng)計量統(tǒng)計量 均數(shù)、中位數(shù)均數(shù)、中位數(shù) 相關(guān)回歸系數(shù)相關(guān)回歸系數(shù)統(tǒng)計表統(tǒng)計表統(tǒng)計圖統(tǒng)計圖 條圖、直方圖、線圖等條圖、直方圖、線圖等 用樣本的信息來推斷總體的特征叫用樣本的信息來推斷總體的特征叫統(tǒng)計推斷統(tǒng)計推斷. 統(tǒng)計分析的目的是由樣本推斷總體,統(tǒng)計分析的目的是由樣本推斷總體,故統(tǒng)計學(xué)的主體是統(tǒng)計推斷故統(tǒng)計學(xué)的主體是統(tǒng)計推斷2統(tǒng)計推斷統(tǒng)計推斷 實(shí)驗(yàn)設(shè)計的模型1 試驗(yàn)

9、因素 試驗(yàn)效應(yīng) (自變量) (因變量) XY試驗(yàn)對象 F y=f(x)+e 1 因果關(guān)系: 實(shí)驗(yàn)設(shè)計的模型2 A因素 B因素 (X1變量) (X2變量) X1X2試驗(yàn)對象 F X2=f(x1)+e 2 相互關(guān)聯(lián):參數(shù)參數(shù)點(diǎn)估計點(diǎn)估計估計估計區(qū)間估計區(qū)間估計統(tǒng)統(tǒng)u檢驗(yàn)檢驗(yàn)計計參數(shù)參數(shù)t檢驗(yàn)檢驗(yàn)推推F檢驗(yàn)檢驗(yàn)斷斷假設(shè)假設(shè)相關(guān)與回歸相關(guān)與回歸檢驗(yàn)檢驗(yàn)卡方檢驗(yàn)卡方檢驗(yàn)非參非參秩和檢驗(yàn)秩和檢驗(yàn)秩相關(guān)檢驗(yàn)秩相關(guān)檢驗(yàn)統(tǒng)計軟件的重要作用“計算機(jī)軟件給統(tǒng)計學(xué)帶來革命性變化”發(fā)表論文或進(jìn)行科研課題時,注明統(tǒng)計軟件和采用的統(tǒng)計分析方法.統(tǒng)計分析工具的選擇:CHISSSAS, SPSS,STATA 實(shí)例解析實(shí)例解析3

10、 攜帶火柴和發(fā)生肺癌間的關(guān)系的研究。 人們觀察發(fā)現(xiàn)那些攜帶火柴的人更有可能發(fā)生肺癌。 難道這表明攜帶火柴可能引起肺癌? 這中間存在混雜因素-吸煙 客觀事實(shí),攜帶火柴不可能引起肺癌。 混雜因素的影響混雜因素的影響 圖1.1 危險因素、混雜因素和結(jié)果的關(guān)系攜帶火柴 肺癌 吸煙 實(shí)例解析實(shí)例解析4 喝咖啡與心肌梗塞喝咖啡與心肌梗塞MI關(guān)系的研究。關(guān)系的研究。 有人觀察發(fā)現(xiàn)喝咖啡的人,很多人患有人觀察發(fā)現(xiàn)喝咖啡的人,很多人患MI,這種現(xiàn)象是表象還是內(nèi)在因果關(guān)系的?這種現(xiàn)象是表象還是內(nèi)在因果關(guān)系的? 數(shù)據(jù)來自數(shù)據(jù)來自2000年,小兒科邀請一位美國醫(yī)學(xué)及生物統(tǒng)計年,小兒科邀請一位美國醫(yī)學(xué)及生物統(tǒng)計學(xué)教授來

11、院講學(xué)的例子。學(xué)教授來院講學(xué)的例子。 研究者調(diào)查研究者調(diào)查MI及非及非MI病人各病人各150例,得到例,得到如下數(shù)據(jù)。表如下數(shù)據(jù)。表1.1 MI NoMI %Coffee 90 60 60No coffee 60 90 40 優(yōu)勢比優(yōu)勢比 : OR=90*90/(60*60)=2.25 Pearson chi2(1) = 12.0,P = 0.001。 說明喝咖啡人MI發(fā)生的危險性是不喝的2.25倍。 兩組MI發(fā)生率差異有顯著意義。 結(jié)論:喝咖啡與心肌梗塞MI有關(guān)!對否? 研究者懷慮結(jié)論,考慮到其中可能混雜其研究者懷慮結(jié)論,考慮到其中可能混雜其它因素,如吸煙對喝咖啡與心肌梗塞它因素,如吸煙對喝

12、咖啡與心肌梗塞MI間關(guān)系間關(guān)系的影響,進(jìn)一步分層分析得到。的影響,進(jìn)一步分層分析得到。表表 控制吸煙因素的干擾后結(jié)果控制吸煙因素的干擾后結(jié)果 Smoker Nosmoker MI NoMI % MI NoMI %Coffee 80 40 67 10 20 33 Noffee 20 10 67 40 80 33 優(yōu)勢比優(yōu)勢比 OR=1 , OR=1 P = 1.00, P = 1.00 表明,在吸煙組和不吸煙組中。喝咖啡與不喝咖啡的MI發(fā)生的相對危險度相同的。 喝咖啡與心肌梗塞喝咖啡與心肌梗塞MI關(guān)系關(guān)系說明當(dāng)存在混雜因素時說明當(dāng)存在混雜因素時,單因素單因素分析結(jié)論并不科學(xué)。分析結(jié)論并不科學(xué)。案

13、例案例: :研究生招生與性別的關(guān)系研究研究生招生與性別的關(guān)系研究案例討論研究生招生與案例討論研究生招生與性別的關(guān)系研究性別的關(guān)系研究 美國加州貝克萊分校1973年研究生的錄取情況如上表.結(jié)果顯示,男生報考人數(shù)據(jù)2691人,錄取1197人,錄取比例44.5%,女生報考人數(shù)據(jù)1835人,錄取556人,錄取比例30.3%。有人認(rèn)為該校在研究生錄取中存在性別歧視。試對此進(jìn)行討論與分析。 混雜因素的定義混雜因素的定義 當(dāng)某一危險因素和結(jié)果的相關(guān)性受第三個變量和危險因素及結(jié)果之間關(guān)系的影響,這第三個變量稱為混雜因素。l上兩例中,混雜因素是吸煙排除混雜因素的兩種方法 1、分層分析、分層分析2、多元統(tǒng)計分析、

14、多元統(tǒng)計分析 分層分析是在其它影響因素保持恒定情況下,評價某一危險因素對結(jié)果的影響。 例如,上面我們可以分別在吸煙者和非吸煙者之中,比較喝啡咖與和不喝啡咖的人。這可使我們在不依賴于吸煙的情況下,分析喝啡咖對MI的影響。 1 分層分析方法 -控制混雜因素對結(jié)果的影響分層分析的優(yōu)缺點(diǎn)優(yōu)點(diǎn):直觀簡潔。缺點(diǎn):當(dāng)考慮因素較多時分組數(shù)量倍增,需要例數(shù)較多,有時無法實(shí)現(xiàn)。 生命在于運(yùn)動。 運(yùn)動有利于長壽 流水不腐。這是人類長期經(jīng)驗(yàn)的總結(jié),但事實(shí)果真如此嗎?是科學(xué)的結(jié)論,還是事物的假象呢?實(shí)例解析實(shí)例解析5運(yùn)動與壽命關(guān)系的研究 許多研究表明長期運(yùn)動人的壽命比久坐型生活方式人的壽命長。 但是,如果運(yùn)動者壽命長的

15、真正原因是他不吸煙,沒有家族病史,好的生活環(huán)境等,那么運(yùn)動將不能改變一個人的壽命。 運(yùn)動與人的壽命的關(guān)系 美國美國Aerobics中心的追蹤研究中心的追蹤研究 在19701989年間,它們追蹤觀察25,341男性和7084女性, 研究運(yùn)動和死亡率的關(guān)系。男性參加者被追蹤觀察平均8.4年,女性平均7.5年。 所有參加者接受了基線檢查,這些檢查包括體檢、實(shí)驗(yàn)室檢測及踏車試驗(yàn)評價身體適宜運(yùn)動量。結(jié)果如表1.1。 Blair, S.N., Kampert, J.B., Kohl, H.W., et al. ”Influences of cardiorespiratory fitness and oth

16、er precursors on cardiovascular disease and all-cause mortality in men and women.” JAMA 1996;276:205-10表1.3 Aerobics 中心追蹤研究過程中生存與死亡者基線特征(男性組)指標(biāo) 生存 死亡 (n=24,740) ( n=601)年齡(SD) 42.7 (9.7) 52.1(11.4)*體重指數(shù) 26.0 (3.6) 26.3 ( 3.5)收縮壓 121.1(13.5) 130.4(19.1)*總膽固醇 213.1(40.6) 228.9(45.4)空腹血糖 100.4(16.3) 10

17、8.1(32.0) l運(yùn)動量(%)l 低 20.1 41.6l 中 42.0 39.1l 高 37.9 19.3*l 冠心病家族史 25.4 33.8*l 吸煙 26.3 36.9*l 異常心電圖 6.9 26.3*l 慢性病 18.4 40.3* 分析發(fā)現(xiàn),存活者和死亡者之間是有明顯區(qū)別的。特點(diǎn)是存活者較年輕,血壓較低,低膽固醇,很少吸煙并且高運(yùn)動量(基于他們踏車試驗(yàn)時間長短及程度)。 但表1.1并沒有回答我們的基本問題: 運(yùn)動是否獨(dú)立地延長壽命? 它并沒有回答這個問題是由于雖然高運(yùn)動量組很少在研究期間死亡,但他們或者較很少吸煙,或年輕,或有較低的血壓。 我們應(yīng)排除排除混雜因素 的影響。 分

18、層分析法 表1.4 Aerobics 中心追蹤研究中全因死亡患者吸煙和體質(zhì)的分層分析 每萬人年 分層相對危險度 死亡數(shù) (CI) 吸煙 低運(yùn)動量 48.0 1.63(1.26-2.13)* 中/高運(yùn)動量 29.4 1.0(參照組) 不吸煙 低運(yùn)動量 44.0 2.19(1.77-2.70)* 中/高運(yùn)動量 20.1 1.0(參照組)可見低運(yùn)動量組死亡率高于中/高運(yùn)動量組的死亡率,這一分層分析表明運(yùn)動的作用不依賴于吸煙狀態(tài)。 但是,有可能影響運(yùn)動和長壽之間關(guān)系的其它變量是怎樣的? 你可以層層分析每一原因,來證明運(yùn)動對長壽的影響不但不依賴于吸煙狀態(tài),也不依賴于年齡、性別、高血脂、高血壓等等。 如果

19、分層分析3個變量吸煙狀態(tài)、年齡、體重(正常/異常),你將需要在8個組中分析運(yùn)動和死亡率的關(guān)系。 如果分層分析6個變量吸煙狀態(tài)、年齡、性別、體重、膽固醇水平、高血壓狀態(tài)(是不是),你將需要在64個組中分析運(yùn)動和死亡率的關(guān)系。 多因素分析法 為判斷運(yùn)動是否獨(dú)立地與死亡有關(guān),研究者們運(yùn)用了COX比例風(fēng)險分析(proportional hazards analysis)的多元分析方法,結(jié)果如表1.2。準(zhǔn)許引自: Blair, S.N.,et al. ”Influences of cardiorespiratory fitness and other precursors on cardiovascul

20、ar disease and all-cause mortality in women.” JAMA 1996;276:205-10. Copyright 1996, American Medical Association. Additional data provided by authors. 表1.5 Aerobics 中心追蹤研究全死亡率危險因素的多元分析自變量 死亡率 調(diào)整相對危險度RR (百萬分?jǐn)?shù)) (95%CI)運(yùn)動量 低 38.1 1.52(1.28-1.82)* 中/高 25.0 1.0(參照組)吸煙狀況 吸煙 39.4 1.65(1.39-1.97)* 不吸煙 23.9

21、1.0(參照組) 收縮壓 140 mmHg 35.6 1.30(1.08-1.58)* 140mmHg 26.1 1.0(參照組)膽固醇 240 mg/dl 35.1 1.34(1.13-1.59)* 240 mg/dl 26.1 1.0(參照組)冠心病家族史 有 29.9 1.07(0.90-1.29)無 27.8 1.0(參照組)體重指數(shù) 27 Kg/m2 28.8 1.02(0.86-1.22) 27 Kg/m2 28.2 1.0(參照組) 空腹血糖 120 mg/dl 34.4 1.24(0.98-1.56) 120 mg/dl 27.9 1.0(參照組)異常心電圖 有 44.4 1.

22、64(1.34-2.01)*無 27.1 1.0(參照組) 慢性疾病 有 41.2 1.63(1.37-1.95)*無 25.3 1.0(參照組) 表明,如果你比較男性中每千人年死亡數(shù),你可以看出在低運(yùn)動組(38.1)比中/高運(yùn)動量組(25.0)有較高的死亡數(shù)。其相對危險度為38.1/25.0=1.52。說明低運(yùn)動量的人死亡的危險性是高運(yùn)動人的1.52倍。 這顯示運(yùn)動與生存率有關(guān),它并不依賴于吸煙、高血壓、高膽固醇及家族史。 運(yùn)動與人的壽命的關(guān)系 實(shí)例解析6 吸煙和冠狀血管疾病再通術(shù)后的預(yù)后間的關(guān)系 Aerobics中心的追蹤研究,他們追蹤了5437例冠狀血管疾病并接受再通手術(shù)(用線和球打開阻

23、塞的冠狀血管)的病人,將病人分為不吸煙、以前吸煙(至少在手術(shù)前6個月戒掉)、剛戒煙(因手術(shù)后剛戒掉)、及持續(xù)吸煙4個組。結(jié)果見表1.4.5 Hasdai, D., Garratt, K.N., Grill, D.E., Lerman, A., Homes, D.R. “Effect of samoking status on the long-term outcome after successful percutaneous coronary revascularization.” N. Engl, J. Med. 1997;336:755-61. 表1.6 吸煙狀況和死亡危險性的兩變量關(guān)系

24、 組別 死亡相對危險度RR ( 95%CI) 不吸煙 1.0 (參照組) 以前吸煙 1.08 (0.92-1.26) 剛戒煙 0.56 (0.40-0.77)* 持續(xù)吸煙 0.74 (0.59-0.94)*引自: D., et al. “Effect of smoking status on the long-term outcome after successful percutaneous coronary revascularization.” N. Engl. J. Med. 1997; 336:755-61. 持續(xù)吸煙組的死亡相對危險度怎么比不吸煙組低呢?(煙草公司希望) 在你假定在

25、此研究中可能有差錯之前,一些其它研究發(fā)現(xiàn)在冠狀動脈疾病血栓溶解治療中,吸煙和預(yù)后具有同樣的關(guān)系,這一作用被稱為“吸煙者悖論”是什么原因?qū)е逻@一“悖論”呢? Barbash, G.L.,Reiner, J., White, H.D., Et al. “Evaluation of paradoxical beneficial effects of smoking in patients receiving thrombolytic therapy for acute myocardial infarction: Mechanisms of the smokers paradox from the

26、GUSTO-I trial, with angiographic insights.” J. Am. Coll. Cardiol. 1995;26:1222-9. 表1.5 人口學(xué)及臨床因素與吸煙狀況的關(guān)系 不吸煙 以前吸煙 剛戒煙 持續(xù)吸煙年齡SD (年) 6711 6510 5610 5511心絞痛病程 ( 月) 4166 5172 2146 2955糖尿病,% 21 18 8 10高血壓,% 54 48 38 39冠狀動脈疾病,%一枝血管 50 51 57 55二枝血管 36 36 34 36三枝血管 14 13 10 9 表1.5可以看到,相比于吸煙者和以前吸煙者,剛戒煙者和持續(xù)吸煙者

27、更年輕,心絞痛時間更短,較少有糖尿病和高血壓,較少有嚴(yán)重的冠心病。看到這些,你對剛戒煙者和持續(xù)吸煙者的死亡率低于不吸煙者和以前吸煙者就不會奇怪了。因?yàn)樗麄儽炔晃鼰熣吆鸵郧拔鼰熣吣贻p,而且很少有醫(yī)學(xué)隱患。 表1.6 比較一元統(tǒng)計與多元統(tǒng)計吸煙狀況與死亡危險性的關(guān)系 不吸煙 以前吸煙 剛戒煙 持續(xù)吸煙一元統(tǒng)計的危險相對度 1.0 1.08 0.56 0.749 5%CI (參照組) (0.92-1.26) (0.40-0.77) (0.59-0.94)多元統(tǒng)計的相對危險度 1.0 1.34 1.21 1.769 5%CI ( 參照組) (1.14-1.57) (0.87-1.70) (1.37-2

28、.26) 表1.6 將一元分析死亡危險性(未校正)和多元統(tǒng)計分析死亡危險性相比.在多元統(tǒng)計分析中,研究者校正了4組中存在的如年齡、心絞痛時間等差別。 通過對這4組基線差別的統(tǒng)計學(xué)校正,剛戒煙者和持續(xù)吸煙者的死亡危險顯著高于不吸煙者更加靈敏的結(jié)果。一元統(tǒng)計和多元分析的差別表明混雜因素是存在的。 多因素分析與分層分析的比較 當(dāng)你用分層分析每增加一個變量,你將倍增分組的數(shù)量。 一方面產(chǎn)生大量的打印結(jié)果、需要整本書報告你的結(jié)果。 另一方面即使在開始時有很大的樣本量,可能在某些分組中樣本量還是不足。有時無法分層的。 多因素分析克服了這方面的限制,它將使你同時評價各種不同因素對結(jié)果的不同作用。 但多因素分

29、析需要前提條件,模型對數(shù)據(jù)的性質(zhì)要作一些假定,這些假定有時候是很難證實(shí)的。多因素分析與分層分析的比較*混雜因素與干預(yù)因素關(guān)系 當(dāng)危險因素和結(jié)果的相關(guān)性受第三個因素和危險因素及結(jié)果之間關(guān)系的影響,這第三個變量稱為混雜因素。一個干預(yù)因素是出現(xiàn)結(jié)果的原因。 Camango及其同事們在研究中度酒精消費(fèi)和心臟病危險性關(guān)系時校正了年齡、吸煙、運(yùn)動、糖尿病及心臟病家族史,但是他們沒有校正血壓、體重指數(shù)、高膽固醇血癥。為什么不? 這些因素符合混雜因素的定義,它們與危險因素(酒精消費(fèi))有關(guān)并與結(jié)果(心肌梗塞)有因果關(guān)系,問題是酒精消費(fèi)可加重導(dǎo)致高血壓、體重指數(shù)增加及高膽固醇血癥。因此,如圖1.3所示。這些變量可

30、能通過其它致病途徑導(dǎo)致心肌梗塞,應(yīng)考慮為干預(yù)變量,不應(yīng)考慮為混雜因素,如果將混雜因素作為干預(yù)變量來校正,那么你需要重新考慮你的結(jié)果。 血壓升高 體重指數(shù)增加 高膽固醇血癥 心肌梗塞酒精消費(fèi)統(tǒng)計學(xué)不能區(qū)別混雜和干預(yù)變量統(tǒng)計學(xué)并不能告訴你什么是混雜因素,什么是干預(yù)變量。從統(tǒng)計上講,混雜因素與干預(yù)變量是一回事。在你的模型中,是因?yàn)橛谢祀s因素而引入該變量,還是因?yàn)橛懈深A(yù)變量而排除該變量呢?這一決定必須根據(jù)以前的研究和生物學(xué)上的可解釋性作出。 一一 多元統(tǒng)計分析的概念多元統(tǒng)計分析的概念 多元統(tǒng)計分析是研究客觀事物中多多元統(tǒng)計分析是研究客觀事物中多種指標(biāo)間相互依賴種指標(biāo)間相互依賴, 相互影響的統(tǒng)計規(guī)相互影

31、響的統(tǒng)計規(guī)律性的一個數(shù)理統(tǒng)計學(xué)分支律性的一個數(shù)理統(tǒng)計學(xué)分支. 醫(yī)用多元統(tǒng)計分析是多元統(tǒng)計分醫(yī)用多元統(tǒng)計分析是多元統(tǒng)計分析在醫(yī)學(xué)領(lǐng)域的應(yīng)用析在醫(yī)學(xué)領(lǐng)域的應(yīng)用. 二、學(xué)習(xí)多元統(tǒng)計分析的重要性二、學(xué)習(xí)多元統(tǒng)計分析的重要性 為什么開這門課?為什么開這門課?多元統(tǒng)計分析與已學(xué)的醫(yī)學(xué)統(tǒng)計學(xué)的多元統(tǒng)計分析與已學(xué)的醫(yī)學(xué)統(tǒng)計學(xué)的區(qū)別在哪呢?區(qū)別在哪呢? 多元統(tǒng)計分析能使我們對所研多元統(tǒng)計分析能使我們對所研究的問題更全面究的問題更全面, 更深刻的認(rèn)識更深刻的認(rèn)識. 幫幫助我們透過現(xiàn)象看本質(zhì)助我們透過現(xiàn)象看本質(zhì),發(fā)觀事物之發(fā)觀事物之間內(nèi)在的本質(zhì)規(guī)律間內(nèi)在的本質(zhì)規(guī)律,從而推動醫(yī)學(xué)科從而推動醫(yī)學(xué)科學(xué)的發(fā)展。學(xué)的發(fā)展。

32、三三. 多元統(tǒng)計分析的特點(diǎn)多元統(tǒng)計分析的特點(diǎn)優(yōu)點(diǎn)有兩個優(yōu)點(diǎn)有兩個: 一一 多元統(tǒng)計分析的資料較容易取得多元統(tǒng)計分析的資料較容易取得; 二二 多元統(tǒng)計分析可以從整體上分析結(jié)果多元統(tǒng)計分析可以從整體上分析結(jié)果. 四、開展多元統(tǒng)計教學(xué)的可能性四、開展多元統(tǒng)計教學(xué)的可能性 多元統(tǒng)計分析的數(shù)學(xué)理論十分復(fù)雜多元統(tǒng)計分析的數(shù)學(xué)理論十分復(fù)雜; 多元統(tǒng)計分析的計算量很大多元統(tǒng)計分析的計算量很大; 教學(xué)工作開展不夠教學(xué)工作開展不夠. 個人電子計算機(jī)的飛速發(fā)展,對個人電子計算機(jī)的飛速發(fā)展,對多元統(tǒng)計學(xué)產(chǎn)生重大影響。多元統(tǒng)計學(xué)產(chǎn)生重大影響。 常用的統(tǒng)計軟件包有常用的統(tǒng)計軟件包有CHISS,SAS、SPSS、STATI

33、STCA, Stata等等. 五 關(guān)于多元統(tǒng)計選修課一 選修課的目的二 課時按排 , 30學(xué)時,1.5學(xué)分六 多元統(tǒng)計的教與學(xué)一一了解各種多元統(tǒng)計學(xué)方法的適用前提條件了解各種多元統(tǒng)計學(xué)方法的適用前提條件和用應(yīng)范圍和用應(yīng)范圍二二掌握一種統(tǒng)計軟件掌握一種統(tǒng)計軟件三三正確解釋軟件輸出結(jié)果及結(jié)論正確解釋軟件輸出結(jié)果及結(jié)論講授與上機(jī)實(shí)習(xí)結(jié)合講授與上機(jī)實(shí)習(xí)結(jié)合三三成績考核成績考核七七. 多元統(tǒng)計分析的前提條件多元統(tǒng)計分析的前提條件 1. 多元統(tǒng)計對資料的分布有一定的要求; 2. 需要有足夠大的樣本,一般認(rèn)為, 例數(shù)m是研究因素個數(shù)P的10倍左右。 為什么在統(tǒng)計學(xué)常常需要足夠多的觀測例數(shù)呢?例甲、乙兩研究者

34、分別例甲、乙兩研究者分別 用某新藥治療用某新藥治療10例和例和403例老年性氣管炎患者例老年性氣管炎患者, 其療效如下表。其療效如下表。 甲 治療結(jié)果 例 數(shù) % 臨床治愈 7 70 未治愈 3 30 合計 10 100乙 治療結(jié)果 例 數(shù) % 臨床治愈 83 20 未治愈 320 80 合計 403 100臨床上感興趣的問題是新藥治療老年性氣管炎治愈率是多少, 而不是10和403例的治愈頻率, 那么應(yīng)用20%,還是70%, 以估計新藥治療老年性氣管炎治愈率呢? 概率與頻率的關(guān)系概率與頻率的關(guān)系什么是概率?什么是概率?概率是度量概率是度量隨機(jī)事件隨機(jī)事件A發(fā)生可能性大發(fā)生可能性大小的一個數(shù)量小

35、的一個數(shù)量.記為記為P(A)。)。什么是頻率?什么是頻率?頻率頻率若在若在n次同樣的隨機(jī)試驗(yàn)次同樣的隨機(jī)試驗(yàn),事件事件A發(fā)生了發(fā)生了k次次,則比值則比值k/n稱為頻率稱為頻率頻率與概率的關(guān)系:頻率與概率的關(guān)系:拋擲硬幣的試驗(yàn)結(jié)果拋擲硬幣的試驗(yàn)結(jié)果 試驗(yàn)者 拋擲次數(shù)(n) 正面次數(shù)(k) 頻率(k/n)l TONG 3 3 1.00l 5 4 0.80l 10 3 0.30l 20 7 0.35l 50 27 0.54l 100 52 0.52l 500 246 0.492歷史上許多著名科學(xué)家做過拋擲硬歷史上許多著名科學(xué)家做過拋擲硬幣的試驗(yàn)幣的試驗(yàn),拋擲硬幣試驗(yàn)結(jié)果如表拋擲硬幣試驗(yàn)結(jié)果如表 l

36、試驗(yàn)者 拋擲次數(shù)(n) 正面次數(shù)(k) 頻率(k/n)l l De Morgan 2048 1061 0.518l Buffon 4,040 2,048 0.5069l Pearson 12,000 6,019 0.5016l Pearson 24,000 12,012 0.5005l 觀測例數(shù)越少,抽樣誤差越大,樣本的對研究總體的代表性就小。所以,醫(yī)學(xué)試驗(yàn)中需要足夠多的例數(shù)。定理定理: 若當(dāng)試驗(yàn)次數(shù)n充分大以后, 頻率k/n穩(wěn)定地在某一確定值P的附近擺動。即: Lim (k k/n)=P n 實(shí)際工作中實(shí)際工作中,常常用頻率求概率的近似值用頻率求概率的近似值:P(A)f(A)=k/n.頻率與

37、概率的關(guān)系頻率與概率的關(guān)系 在醫(yī)學(xué)研究中,常常存在許多反在醫(yī)學(xué)研究中,常常存在許多反映個體變異性的指標(biāo),統(tǒng)計學(xué)上稱為變映個體變異性的指標(biāo),統(tǒng)計學(xué)上稱為變量量, 如年齡、病情、性別等??煞秩悺H缒挲g、病情、性別等。可分三類。 定性變量是對研究單位的定性特征的描述,有類別。 亦稱分類變量. 如性別分男、女為二分類變量。血型可分為A、B、 AB、 O四類型, 為四分類變量。 二項(xiàng)分類變量如性別,用一個變量表示,一般可賦值為0和1,或1和2。 1 女 X= 0 男無序多分類 變量如血型分為A、B、 AB、 O四類型。 需用三個啞變量來區(qū)分。 1 A型 1 B型 1 O型 X1= X2= X3= 0

38、其它 0 其它 0 其它當(dāng)X1=0,X2=0,X3=0時,為AB型一般N分類,需要N-1個啞變量表示。 等級變量:是對研究單位的等級特征的描述。如病情分輕、中,重三個等級。數(shù)值化法:數(shù)值化法:只須用一個只須用一個X X作為分類變量作為分類變量, , 然后按等級然后按等級順序分別賦值。順序分別賦值。b例如,用例如,用X X表示病情表示病情, , 其賦值方法分為其賦值方法分為: : 0 0 輕輕X= 1 X= 1 中中 2 2 重重九,九, 如何收集和整理多元分析資料如何收集和整理多元分析資料 設(shè)研究問題中含有p個指標(biāo)變量x1, x2,xp. 及n個觀察對象. 其數(shù)據(jù)結(jié)構(gòu)為: 編號 X1 X2 X

39、3 . XP 1 x11 x21 x31 x1p 2 x12 x22 x32 x2p 3 x13 x23 x33 x3p n x1n x2n x3n xnp l實(shí)驗(yàn)數(shù)據(jù)要求完整、準(zhǔn)確、真實(shí)。實(shí)驗(yàn)數(shù)據(jù)要求完整、準(zhǔn)確、真實(shí)。l若某一觀測指標(biāo)的值若某一觀測指標(biāo)的值, , 有空缺有空缺, , 應(yīng)注應(yīng)注明。明。在在SASSAS中用中用“.”.”表示空缺。切忌表示空缺。切忌憑主觀愿望填寫,憑主觀愿望填寫, l在計算機(jī)中在計算機(jī)中, , 常采用常采用EPI,CHISSDBASE、ExcelExcel、 SASSAS等建立數(shù)據(jù)庫等建立數(shù)據(jù)庫. 1 1 多元回歸分析多元回歸分析多元回歸分析簡介 直線回歸分析一個

40、自變量和一個因變量間的關(guān)系, 在醫(yī)學(xué)實(shí)踐中,常會遇到一個應(yīng)變量與多個自變量數(shù)量關(guān)系的問題。如醫(yī)院住院人數(shù)不僅與門診人數(shù)有關(guān), 而且可能與病床周轉(zhuǎn)次數(shù), 床位數(shù)等有關(guān). 多元回歸分析正是為解決這些問題而產(chǎn)生的 。 多元回歸分析多元回歸分析多元線性回歸是研究多個自多元線性回歸是研究多個自變量與一個因變量之間數(shù)量變量與一個因變量之間數(shù)量關(guān)系的一種統(tǒng)計方法。關(guān)系的一種統(tǒng)計方法。實(shí)例分析實(shí)例分析腎小球?yàn)V過率的影響因素研究腎小球?yàn)V過率的影響因素研究臨床觀測臨床觀測61例患者的腎小球?yàn)V過率例患者的腎小球?yàn)V過率y,及及10種觀察指種觀察指標(biāo)標(biāo):年齡年齡X1,糖化血紅蛋白糖化血紅蛋白X2,飯后兩小時血糖飯后兩小

41、時血糖X3,胰島素胰島素X4,膽固醇膽固醇X5,肌肝肌肝X6,平均動脈壓平均動脈壓X7,體重體重X8,腎臟體積腎臟體積X9,尿白蛋白排泄率尿白蛋白排泄率X10。病例病例X1X2X3X4X5X6X7X8X9X10y1369163155310130435511772391424177699025310231303421429748296242933101.6145202210310190203101116試分析這試分析這10項(xiàng)指標(biāo)與腎小球?yàn)V過率間的關(guān)系。項(xiàng)指標(biāo)與腎小球?yàn)V過率間的關(guān)系。 變量 系數(shù) 標(biāo)準(zhǔn)誤 t值 P值 截距 71.02 27.66 2.567 0.0133 X1 0.14 0.27

42、0.510 0.6124 X2 -0.62 0.95 -0.656 0.5149 X3 1.01 0.48 2.084 0.0423 * X4 0.06 0.16 0.382 0.7039 X5 2.33 1.86 1.255 0.2153 X6 -0.64 0.19 -3.369 0.0015 * X7 0.02 0.18 0.157 0.8757 X8 -0.24 0.78 -0.308 0.7594 X9 0.23 0.04 5.008 0.0001 * X10 -0.21 0.14 -1.524 0.1337P值可以看出,在十個變量中, X3飯后兩小時血糖,X6肌肝 t和 X9 腎臟體

43、積對腎小球?yàn)V過率影響有顯著性意義, 其它的7個變量沒有顯著性意義。2 曲線擬合 1)多項(xiàng)式曲線多項(xiàng)式曲線 一般多項(xiàng)式曲線的方程為 n時, 二次多項(xiàng)式曲線,即拋物線.nnXbXbXbbY22103 Logistic回歸分析回歸分析 Logistic回歸分析簡介分析簡介 在醫(yī)學(xué)研究中, 經(jīng)常要分析某種結(jié)果的產(chǎn)生與哪些因素有關(guān)。 例如:生存與死亡, 發(fā)病與未發(fā)病, 陰性與陽性等結(jié)果的產(chǎn)生可能與病人的年齡、性別、生活習(xí)慣、體質(zhì)、遺傳等許多因素有關(guān)。 如何找出其中哪些因素對結(jié)果的產(chǎn)生有顯著性影響呢? Logistic回歸分析能較好地解決這類問題。 Logistic 回歸是一種概率模型, 它是以疾病、死亡

44、等結(jié)果發(fā)生的概率為因變量, 影響疾病發(fā)生的因素為自變量建立模型。它適用于因變量為二項(xiàng), 多項(xiàng)分類的資料。在臨床醫(yī)學(xué)中多用于鑒別診斷, 評價治療措施的好壞及分析與疾病預(yù)后有關(guān)的因素等。 例號 是否患病 性別 吸煙 年齡 地區(qū) 1 0 1 0 30 0 2 0 0 1 46 1 3 0 0 1 30 1 . . . . 29 1 0 0 25 0 30 1 0 0 26 1 單因素Logistic回歸分析結(jié)果模型 變量 系數(shù) 標(biāo)準(zhǔn)誤 卡方 P值 1 X1 1.704 0.80 4.53 0.0332 2 X2 2.564 0.93 7.50 0.0062 3 X3 0.142 0.04 9.34

45、0.0022 4 X4 -0.271 0.73 0.13 0.7128 結(jié)果表明, 性別, 吸煙, 年齡三個因素都與肺癌有關(guān). 由于在對某一因素進(jìn)行單因素分析時沒有控制其它因素的干擾, 因此結(jié)果不可靠. 多元Logistic回歸分析結(jié)果變量 系數(shù) 標(biāo)準(zhǔn)誤 Wald 卡方 P值 INTERCPT -9.75 4.09 5.66 0.02 X1 2.52 1.82 1.92 0.17 X2 3.98 1.98 4.06 0.04 X3 0.19 0.08 5.67 0.02 X4 -1.30 1.58 0.68 0.41 由上最大似然估計分析知因素X2(吸煙), X3(年齡)對肺癌的發(fā)生有顯著的影響。 所得的回歸方程為: Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.Logistic回歸模型可以用于進(jìn)行預(yù)測 和判斷工作.生存分析簡介生存分析簡介疾病治療的預(yù)后情況,一方面看結(jié)局好壞,另一方面還要看出現(xiàn)這種結(jié)局所經(jīng)歷的時間長短,這類資料一般通過隨訪收集。隨訪資料常因中途退出,失訪,中止觀察等原因造成某些數(shù)據(jù)觀察不完全,須要用專門的方法進(jìn)行統(tǒng)計處理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論