多元統(tǒng)計方法_第1頁
多元統(tǒng)計方法_第2頁
多元統(tǒng)計方法_第3頁
多元統(tǒng)計方法_第4頁
多元統(tǒng)計方法_第5頁
已閱讀5頁,還剩75頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多元統(tǒng)計方法第1頁,共80頁,2023年,2月20日,星期四多元統(tǒng)計方法線性回歸Logistic回歸注:完全可以用于單因素分析,從這一點也可以看出統(tǒng)計學的方法是相通的。SPSS無法進行條件Logistic回歸,就像sas沒有專門針對配對資料的語句一樣,任何統(tǒng)計軟件均有局限性。建立方程的計算量很大,一般需軟件完成。前人手工計算這兩種回歸(借助科學計算器),精神可嘉80年代,一個Logistic回歸即使用計算機,計算的時間也以天計。第2頁,共80頁,2023年,2月20日,星期四調(diào)整或控制多變量的控制或調(diào)整法就是同時記錄可能有影響的因素,把他們與可能的危險因素一起作分析單因素分析有統(tǒng)計學意義,多因素分析沒有意義的解釋,舉例第3頁,共80頁,2023年,2月20日,星期四Inunivariateanalysis,thefamilyhistoriesofSAHandICHwerepositivelyassociatedwitheachofthesubtypesofstroke.whereasafteradjustmentforpotentialriskfactors,familyhistoryofICHnolongershowedasignificantassociationwithhaematoma.單因素分析有意義,多因素沒有意義的解釋第4頁,共80頁,2023年,2月20日,星期四Familyhistoryofintracerebralhaematomawasnotanindependentriskfactorforhaematoma,butitmightbeagoodpredictor,whichindirectly

influencesthepathogenesisofintracerebralhaematomaviacertainhereditarycomponentssuchashypertension,andevenlifestylefactorssuchasalcoholconsumption.第5頁,共80頁,2023年,2月20日,星期四Isfamilyhistoryanindependentriskfactorforstroke?

JNeurolNeurosurgPsychiatry.1997Jan;62(1):66-70.第6頁,共80頁,2023年,2月20日,星期四多元線性回歸(簡單步驟)指標多,難以理解。在計算自動化時代,這是回歸的難點,我們不懂如何判斷我們的模型的好壞第7頁,共80頁,2023年,2月20日,星期四回歸的實際應(yīng)用在影響因素分析中

一種是探索模式,在回歸模型中探索所有可能的自變量與應(yīng)變量的關(guān)系

一種是控制模式,即控制混雜因素的影響后者對回歸模型的要求要小的多,不出現(xiàn)異常情況,可僅對模型擬合稍作考慮。第8頁,共80頁,2023年,2月20日,星期四SPSS菜單analyze-regression-linear第9頁,共80頁,2023年,2月20日,星期四變量的數(shù)量化(1)自變量為連續(xù)型變量:必要時作變換(2)自變量為有序變量:依次賦值,如療效好中差,可分別賦值3、2、1(3)自變量為二分類:如令男=1,女=0(4)自變量為名義分類:需要采用啞變量(dummyvariables)進行編碼

第10頁,共80頁,2023年,2月20日,星期四名義分類變量的啞變量化假如職業(yè)分類為工、農(nóng)、商、學、兵5類,則可定義比分類數(shù)少1個,即4個啞變量。編碼方法如下:第11頁,共80頁,2023年,2月20日,星期四數(shù)據(jù)格式第12頁,共80頁,2023年,2月20日,星期四回歸的一些定義應(yīng)變量(dependentvariable)自變量(independentvariable)偏回歸系數(shù)pertialregressioncoefficient常數(shù)項b0決定系數(shù)determinationcoefficient,Rsquare共線性collinearity:自變量間存在著線性關(guān)系yi=b0+b1x1i+b2x2i+…+bnxni第13頁,共80頁,2023年,2月20日,星期四回歸方程的建立就是求解b0和bi的過程矩陣的各種計算(求解線性方程)SPSS的實現(xiàn):

analyze-regression-linear將回歸方程中的所有自變量作為一個整體來檢驗他們于應(yīng)變量之間是否具有線性關(guān)系,P<0.05,說明所擬合的方程具有統(tǒng)計學意義,但并不說明模型擬合的好壞各自變量的假設(shè)檢驗與評價,檢驗各自變量和應(yīng)變量是否有線性關(guān)系,P<(可放寬)說明有線性關(guān)系,同樣t值不說明線性關(guān)系的強弱,這樣,一個回歸方程就建立了,回歸方程的建立就是如此easy。第14頁,共80頁,2023年,2月20日,星期四線性與擬合優(yōu)度有線性關(guān)系擬合優(yōu)度不一定很好上述F和t檢驗有統(tǒng)計學意義,只是說明自變量與y有線性關(guān)系,但未能表示“關(guān)系有多大”舉例:上述方程的R2很小,但因為樣本量大,F(xiàn)值很大R2的意義:可以由BMI,age和膳食口味解釋SBP的4.3%變化我認為,因素分析可以只考慮線性關(guān)系的有無。特別是在控制模式中。第15頁,共80頁,2023年,2月20日,星期四自變量的選擇全局擇優(yōu)法:求出所有可能的回歸模型(共有2m-1個)對應(yīng)的準則值;按R2,Cp準則,AIC準則等統(tǒng)計量選擇最優(yōu)模型。求出所有可能的回歸模型(共有2m-1個)對應(yīng)的準則值;按上述準則選擇最優(yōu)模型缺點:如果自變量個數(shù)為4,則所有的回歸有24-1=15個;當自變量數(shù)個數(shù)為10時,所有可能的回歸為210-1=1023個;……;當自變量數(shù)個數(shù)為50時,所有可能的回歸為250-1≈1015個。第16頁,共80頁,2023年,2月20日,星期四全局擇優(yōu)法決定系數(shù)(R2)和校正決定系數(shù)(R2c),可以用來評價回歸方程的優(yōu)劣?!綬2隨著自變量個數(shù)的增加而增加,所以需要校正】

校正決定系數(shù)(R2c)越大,方程越優(yōu)。Cp選擇法:選擇Cp最接近p或p+1的方程(不同學者解釋不同)。

Cp無法用Spss直接計算,可能需要手工。其中p為方程中自變量的個數(shù),m為自變量總個數(shù)第17頁,共80頁,2023年,2月20日,星期四Cp準則的計算公式第18頁,共80頁,2023年,2月20日,星期四AIC準則的計算公式第19頁,共80頁,2023年,2月20日,星期四自變量的選擇逐步選擇法逐步選擇法:(一)前進法(forward)(二)后退法(backward)(三)逐步回歸法(stepwise)小樣本檢驗水準a定為0.10或0.15,大樣本把值定為0.05。值越小表示選取自變量的標準越嚴。注意,引入變量的檢驗水準要小于或等于剔除變量的檢驗水準。第20頁,共80頁,2023年,2月20日,星期四自變量到底如何選擇兩種方法結(jié)合手工選擇,逐步選擇法選擇后手工增減變量看校正決定系數(shù)(R2c)等方程擬合優(yōu)劣指標的好壞放寬或限制進入方程的標準,特別是在逐步回歸的時候硬性進入方程最感興趣的研究變量第21頁,共80頁,2023年,2月20日,星期四統(tǒng)計“最優(yōu)”與專業(yè)的“最優(yōu)”不同準則、方法得出的“最優(yōu)”方程不同;不同的引入、剔除標準獲得的“最優(yōu)”方程不同;方程還受數(shù)據(jù)的正確性、共線性影響第22頁,共80頁,2023年,2月20日,星期四強影響點,記錄的選擇變量記錄第23頁,共80頁,2023年,2月20日,星期四強影響點,記錄的選擇從理論上講,每一個樣本點對回歸模型的影響應(yīng)該是同等的,實際并非如此。有些樣本點(記錄)對回歸模型影響很大。對由過失或錯誤造成的點應(yīng)刪去沒有錯誤的強影響點可能和自變量與應(yīng)變量的相關(guān)有關(guān),不可輕易刪除。第24頁,共80頁,2023年,2月20日,星期四判斷強影響點的指標SPSS軟件中的指標analyze-regression-linear-saveSave中的選項均進入數(shù)據(jù)庫,而不出現(xiàn)在output中各種殘差越大,單一記錄對方程的影響越大第25頁,共80頁,2023年,2月20日,星期四判斷強影響點的指標(2)距1越遠,越是強影響點其余指標絕對值越大越是強影響點第26頁,共80頁,2023年,2月20日,星期四多重共線性自變量間存在著線性關(guān)系,使一個或幾個自變量可以由另外的自變量線性表示時,稱為該變量與另外的自變量間存在有共線性(collinearity)。容易出現(xiàn):回歸系數(shù)的符號與由專業(yè)知識不符變量的重要性與專業(yè)不符整個方程決定系數(shù)R2高,但各自變量對應(yīng)的回歸系數(shù)均不顯著。第27頁,共80頁,2023年,2月20日,星期四多重共線性的診斷SPSS中的指標容許度:越近似于0,共線性越強特征根:越近似于0,共線性越強條件指數(shù):越大,共線性越強第28頁,共80頁,2023年,2月20日,星期四Spss的實現(xiàn)與結(jié)果analyze-regression-linear-statistics第29頁,共80頁,2023年,2月20日,星期四實例以BMI為應(yīng)變量,SBP,DBP和年齡為自變量進行回歸。結(jié)果如圖極端例子:以SBP為應(yīng)變量,BMI和復制BMI為自變量,結(jié)果為其中之一無法進入方程從第四個特征根看,特征根小,條件指數(shù)大,從變量的方差比例來看,SBP和DBP在其中貢獻最大,可以說兩者有近似共線性不過兩者的共線性對方程的影響并不大第30頁,共80頁,2023年,2月20日,星期四容許度越近于0共線性越大,等于0,完全共線復制的BMI根本無法進入方程后面討論交互作用的時候我們還要提到共線性第31頁,共80頁,2023年,2月20日,星期四一、應(yīng)用影響因素分析,控制混雜因素預(yù)測:由自變量值推出應(yīng)變量Y的值控制:指定應(yīng)變量Y的值查看自變量的改變量影響因素分析,控制混雜因素在醫(yī)學研究中最為長用,個人認為對模型擬合要求較低,特別在控制混雜的控制模式中后兩種用途對模型要求嚴格第32頁,共80頁,2023年,2月20日,星期四二、應(yīng)用條件第33頁,共80頁,2023年,2月20日,星期四回歸系數(shù)符號反常與主要變量選不進方程的原因分析有重要影響的因素未包括在內(nèi)某些變量個體間的差異很大樣本內(nèi)突出點上數(shù)據(jù)誤差大變量的變化范圍較小樣本數(shù)太少上述各項在用最小二乘法求解方程過程中對殘差等重要中間指標的影響大,造成最小二乘法的失效。第34頁,共80頁,2023年,2月20日,星期四線性回歸的注意事項應(yīng)變量為連續(xù)變量,自變量可以為連續(xù)變量、分類變量或有序變量樣本含量:一般要求樣本量n至少是方程中自變量個數(shù)m的5-10倍逐步回歸不是萬能的,一個goodoffit好的模型建立需要多方面考證。多重共線性:自變量存在較強的線性關(guān)系檢驗兩變量間有無交互作用,普遍的做法是在方程中加入它們的乘積項再做檢驗。但共線性的問題會因此而突出,舉例共線性很大SPSS菜單在處理回歸中選項較少,但完全可以滿足一般模型的擬合。其syntax模式應(yīng)該有更多選項,但鑒于介紹這方面內(nèi)容的書籍文獻較少。如確實需要嚴格的模型擬合,SAS可能是更好的選擇第35頁,共80頁,2023年,2月20日,星期四回歸的發(fā)展加權(quán)回歸有重復測量的回歸分析:對每一個回歸變量x的y有多次重復的測量值。嶺回歸分析:改進的最小二乘方,用于自變量相關(guān)性大,或某些變量變化范圍太小??捎胹as實現(xiàn)。第36頁,共80頁,2023年,2月20日,星期四Logistic回歸實際上屬于判別分析,因擁有很差的判別效率而不常用。適用于流行病學資料的因素分析實驗室中藥物的劑量-反應(yīng)關(guān)系臨床試驗評價疾病的預(yù)后因素分析第37頁,共80頁,2023年,2月20日,星期四二、Logistic回歸模型Logistic回歸的分類

二分類多分類其中二分較為常用

條件Logistic回歸非條件Logistic回歸兩者針對的資料類型不一樣,后者者針對成組研究,前者針對配對或配伍研究。第38頁,共80頁,2023年,2月20日,星期四26例冠心病病人和28例對照者進行病例對照研究(變量賦值表)

自變量為連續(xù)變量,最好變?yōu)榈燃壔蛴嫈?shù)資料有統(tǒng)計學家持反對意見認為損失信息第39頁,共80頁,2023年,2月20日,星期四26例冠心病病人和28例對照者進行病例對照研究(數(shù)據(jù)格式)

第40頁,共80頁,2023年,2月20日,星期四Logistic回歸方程的建立建立方程就是求解b0,b1…bp第41頁,共80頁,2023年,2月20日,星期四Logistic回歸中的常數(shù)項(b0)表示,在不接觸任何潛在危險/保護因素條件下,效應(yīng)指標發(fā)生與不發(fā)生事件的概率之比的對數(shù)值。Logistic回歸中的回歸系數(shù)(bi)表示,某一因素改變一個單位時,效應(yīng)指標發(fā)生與不發(fā)生事件的概率之比的對數(shù)變化值,即OR或RR的對數(shù)值。參數(shù)意義第42頁,共80頁,2023年,2月20日,星期四回歸系數(shù)的意義單純從數(shù)學上講,與多元線性回歸分析中回歸系數(shù)的解釋并無不同,亦即bi表示xi改變一個單位時,logitP的平均變化量。第43頁,共80頁,2023年,2月20日,星期四多因素Logistic回歸分析時,對回歸系數(shù)的解釋都是指在其它所有自變量固定的情況下的優(yōu)勢比。存在因素間交互作用時,Logistic回歸系數(shù)的解釋變得更為復雜,應(yīng)特別小心。調(diào)整與控制第44頁,共80頁,2023年,2月20日,星期四流行病學中的一些基本概念:相對危險度(relativerisk):RR=P1/P2比數(shù)

Odds=P/(1-P)比數(shù)比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率較小情況下,OR≈RR第45頁,共80頁,2023年,2月20日,星期四根據(jù)Wald檢驗可知,Logistic回歸系數(shù)bi服從u分布。因此其可信區(qū)間為進而,優(yōu)勢比e(bi)的可信區(qū)間為第46頁,共80頁,2023年,2月20日,星期四參數(shù)估計似然函數(shù)計算方法最大似然法迭代法初始值迭代次數(shù)人為精度可能不收斂總體來說,解比較穩(wěn)定。第47頁,共80頁,2023年,2月20日,星期四SPSS的實現(xiàn)analyze-regression-binarylogistic第48頁,共80頁,2023年,2月20日,星期四analyze-regression-binarylogistic-option模型擬合優(yōu)度指標,2值越小,P值越大表明模型越好迭代過程,可以監(jiān)察方程計算的過程參數(shù)估計的相關(guān)矩陣,每步各協(xié)變量的零級相關(guān)系數(shù)(簡單相關(guān)系數(shù))均小(<0.80),提示各協(xié)變量間相互獨立其他第49頁,共80頁,2023年,2月20日,星期四結(jié)果說明內(nèi)編碼缺省值最好不超過總樣本量的10%不然代表性太差但也不是絕對第50頁,共80頁,2023年,2月20日,星期四結(jié)果說明(2)

我們只看最后一步模型系數(shù)總的檢驗Step:增加或減少的變量對方程的影響,P越大說明這個變量對方程的影響越小Block:Model:方程內(nèi)包含的變量總體,如果P>,說明Logistic方程總體有意義,借用線性的解釋來說將回歸方程中的所有自變量作為一個整體來檢驗他們于應(yīng)變量之間是否具有線性關(guān)系,P<0.05,說明所擬合的方程具有統(tǒng)計學意義,但并不說明模型擬合的好壞:真正的模型擬合一般要把其提高到0.20或0.10而非0.05。第51頁,共80頁,2023年,2月20日,星期四結(jié)果3模型擬合優(yōu)度指標,2值越小,P值越大表明模型越好兩種R2的解釋與線性方程同,14.9%在流行病學研究中算一個比較好的了判別分析用表第52頁,共80頁,2023年,2月20日,星期四結(jié)果4Wald檢驗(waldtest)

即廣義的t檢驗,統(tǒng)計量為u,下面詳細討論之參數(shù)估計的相關(guān)矩陣,每步各協(xié)變量的零級相關(guān)系數(shù)(簡單相關(guān)系數(shù))均?。?lt;0.80),提示各協(xié)變量間相互獨立至此,一個最簡單logistic方程建立和檢驗告一段落,下面涉及自變量的選擇和強影響點的挑選第53頁,共80頁,2023年,2月20日,星期四自變量的篩選目的:與多元線性回歸分析類似,當自變量的數(shù)目較多時,為使logistic回歸方程比較穩(wěn)定和便于解釋。方法:一般統(tǒng)計學書介紹和統(tǒng)計軟件固有的有前進法、后退法,逐步法。個人認為,還應(yīng)考慮模型的整體擬合優(yōu)度,并結(jié)合專業(yè)知識手工增加或剔除變量第54頁,共80頁,2023年,2月20日,星期四全局擇優(yōu)指標擬合分類表最大似然函數(shù)值L(=1)或logL(=0)即-2loglikelihood=0擬合優(yōu)度檢驗通過上述指標,比較不同方程擬合優(yōu)度的優(yōu)劣R2越大,擬合越好模型擬合優(yōu)度指標,2值越小,P值越大表明模型越好第55頁,共80頁,2023年,2月20日,星期四逐步選擇法三種向前逐步法,協(xié)變量引入檢驗均基于score統(tǒng)計量刪除變量基于條件估計的似然比刪除變量基于最大偏似然估計似然比刪除變量基于Wald統(tǒng)計量第56頁,共80頁,2023年,2月20日,星期四似然比檢驗(likehoodratiotest)通過比較包含與不包含某一個或幾個待檢驗觀察因素的兩個模型的對數(shù)似然函數(shù)變化來進行,其統(tǒng)計量為G(又稱Deviance)。G=-2(lnLp-lnLk)

樣本量較大時,G近似服從自由度為待檢驗因素個數(shù)的2分布。第57頁,共80頁,2023年,2月20日,星期四比分檢驗(scoretest)

以未包含某個或幾個變量的模型為基礎(chǔ),保留模型中參數(shù)的估計值,并假設(shè)新增加的參數(shù)為零,計算似然函數(shù)的一價偏導數(shù)(又稱有效比分)及信息距陣,兩者相乘便得比分檢驗的統(tǒng)計量S。樣本量較大時,S近似服從自由度為待檢驗因素個數(shù)的2分布。第58頁,共80頁,2023年,2月20日,星期四Wald檢驗(waldtest)

即廣義的t檢驗,統(tǒng)計量為u

u服從正態(tài)分布,即為標準正態(tài)離差。

Logistic回歸系數(shù)的區(qū)間估計

第59頁,共80頁,2023年,2月20日,星期四上述三種方法中,似然比檢驗最可靠,比分檢驗一般與它相一致,但兩者均要求較大的計算量;而Wald檢驗未考慮各因素間的綜合作用,在因素間有共線性時結(jié)果不如其它兩者可靠。但SPSS和SAS軟件均采用Wald檢驗來判斷變量在方程中的作用由于軟件的計算相對容易,可以多種方法比較,結(jié)果多數(shù)一致,如果不一致,也均發(fā)生在臨近界值的變量上,這些變量在方程中本身對應(yīng)變量的影響就不大,在實際中對研究的影響也較小。第60頁,共80頁,2023年,2月20日,星期四尋找強影響點,記錄的選擇殘差:非標準化Logit單位學生化標準化偏差絕對值越大,影響越大記錄對方程影響大小的指標,值越大影響越大預(yù)測值和概率第61頁,共80頁,2023年,2月20日,星期四

分類自變量的啞變量編碼為了便于解釋,對二項分類變量一般按0、1編碼,一般以0表示陰性或較輕情況,而1表示陽性或較嚴重情況。如果對二項分類變量按+1與-1編碼,那么所得的,容易造成錯誤的解釋。在sas的計算中無法對分類變量做多種處理?在SAS中使用啞變量必須用數(shù)據(jù)步建立新變量第62頁,共80頁,2023年,2月20日,星期四西、中西、中三種療法啞變量化

原資料姓名性別年齡療法張山150中西李四120西王五018中劉六070中趙七135中西孫八029西啞變量化姓名性別年齡X1X2張山15001李四12010王五01800劉六07000趙七13501孫八02910第63頁,共80頁,2023年,2月20日,星期四Spss中亞變量的設(shè)置分類變量必須轉(zhuǎn)化。如地區(qū)對血壓的影響。等級資料,當?shù)燃壷g量度不一時必須轉(zhuǎn)化,如正常,超重和肥胖連續(xù)資料不宜直接進入方程時,轉(zhuǎn)化為等級資料或分類資料第64頁,共80頁,2023年,2月20日,星期四亞變量的SPSS處理菜單第65頁,共80頁,2023年,2月20日,星期四亞變量的SPSS處理菜單(二)第66頁,共80頁,2023年,2月20日,星期四亞變量設(shè)置(Spss)IndicatorSimpleDifferenceRepeated參照分類為0,其余為1,即各分類與參照分類比較除第一類分類外,各分類與其之前平均分類效應(yīng)比較第67頁,共80頁,2023年,2月20日,星期四亞變量設(shè)置(2)Helmert:與Difference相反,各水平與其之后水平的平均效應(yīng)比較Deviation:除參照分類外,各水平與分類的總效應(yīng)比較Polynomial?!颍ぃィ#ぃ 颍#ぃ?……好像和連續(xù)變量有關(guān)手工設(shè)置亞變量還是有缺點的,如應(yīng)用于等級資料就不合適第68頁,共80頁,2023年,2月20日,星期四第二節(jié).條件logistic回歸

Sas統(tǒng)計軟件所得的結(jié)果解釋與spss相似第69頁,共80頁,2023年,2月20日,星期四七、條件Logistic回歸對配對/比調(diào)查資料,應(yīng)該用條件Logistic回歸分析。對于配比資料,第i個配比組可以建立一個Logistic回歸:第70頁,共80頁,2023年,2月20日,星期四假設(shè)自變量在各配比組中對結(jié)果變量的作用是相同的,即自變量的回歸系數(shù)與配比

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論