第8章logistic回歸模型_第1頁
第8章logistic回歸模型_第2頁
第8章logistic回歸模型_第3頁
第8章logistic回歸模型_第4頁
第8章logistic回歸模型_第5頁
已閱讀5頁,還剩93頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第八章Logistic回歸模型許多社會科學的觀察都只分類而不是連續(xù)的.比如,政治學中經常研究的是否選舉某候選人.又如,經濟學研究中所涉及的是否銷售或購買某種商品、是否簽訂—個合同等等.這種選擇量度通常分為兩類,即“是’與“否”.在社會學和人口研究中,人們的社會行為與事件的發(fā)生如犯罪、逃學、遷移、結婚、離婚、患病等等都可以按照二分類變量來測量。線性回歸模型在定量分析中也許是最流行的統(tǒng)計分析方法,然而在許多情況下,線性回歸會受到限制.比如,當因變量是一個分類變量,不是一個連續(xù)變量時,線性回歸就不適用,嚴重違反假設條件.

分類變量分析通常采用對數線性模型(Log-linearmodel),而因變量為二分變量時,對數線性模型就變成Logistic回歸模型.logistic回歸是一個概率型模型,因此可以利用它預測某事件發(fā)生的概率。例如在臨床上可以根據患者的一些檢查指標,判斷患某種疾病的概率有多大。目的:作出以多個自變量(危險因素)估計應變量(結果因素)的logistic回歸方程。屬于概率型非線性回歸。資料:1.應變量為反映某現象發(fā)生與不發(fā)生的二值變量;2.自變量宜全部或大部分為分類變量,可有少數數值變量。分類變量要數量化。用途:研究某種疾病或現象發(fā)生和多個危險因素(或保護因子)的數量關系。用檢驗(或u檢驗)的局限性:1.只能研究1個危險因素;2.只能得出定性結論。1.成組(非條件)logistic回歸方程。2.配對(條件)logistic回歸方程。第八章第一節(jié)機動目錄上頁下頁返回結束logistic回歸模型

一、兩分類因變量與Logistic回歸模型事件發(fā)生的條件概率P(yi=1|xi)與xi之間的非線性關系通常是單調函數,假設有一個理論上存在的連續(xù)反應變量yi代表事件發(fā)生的可能性,其值域為負無窮至正無窮.當該變量的值跨越一個臨界點c(比如c=o),使導致事件發(fā)生.于是有:當yi*>0時,yi=1在其它情況,yi=0這里,yi是實際觀察到的反應變量,yi=1表示事件發(fā)生.yi=0表示事件未發(fā)生.如果假設在反應變量yi*和自變量xi之間存在一種線性關系,即如果假設在反應變量yi*和自變量xi之間存在一種線性關系,即這里,yi是實際觀察到的反應變量,yi=1表示事件發(fā)生.yi=0表示事件未發(fā)生.由上面的式子得到:通常,假設公式中誤差項εi有l(wèi)ogistic分布或標準正態(tài)分布.由于logistic分布和標準正態(tài)分布都是對稱的,得到:如果εi為logistic分布,就得到logistic模型;如果εi為標準正態(tài)分布,就得到probit模型.其中F為累積分布函數.當εi為logistic分布時:上式可以變換為:記條件概率得logistic回歸模型pi是xi的非線性函數,可以轉換為線性函數定義不發(fā)生事件的條件概率為:那么事件發(fā)生概率與不發(fā)生概率之比為:這個比率成為事件的發(fā)生比(theoddsoftheexperiencinganevent),簡稱odds,對odds取對數,可以得到對數發(fā)生比:上面的式子由于做了對數變換,被稱作logit形式,也稱作y的logit,即logit(y).當有k個自變量時,相應的logistic回歸模型將有如下形式:其中,pi=P(yi=1|x1i,x2i,…,xki)為在給定系列自變量x1,x2,…,xki的值時事件發(fā)生概率。第八章第二節(jié)機動目錄上頁下頁返回結束Logistic回歸模型估計最大似然估計(MaximumLikelihoodEstimation)最大似然估計法既可以用于線性模型,也可以用于更為復雜的非線性估計.方法:首先要建立似然函數(Likelihoodfunction)將觀測數據的概率表示為未知模型的參數選擇能夠使這一函數達到最大的參數估計一、建立似然函數假設有由N個案例構成的總體、Yl,…YN,從中隨機抽取n個案例作為樣本,觀測值標注為Yl,…,yn,設pi=P(yi=1|xi)為給定xi的條件下得到結果yi=1的條件概率。而在同樣條件下得到結果yi=0的條件概率為1-pi,于是得到一個觀測值的概率為:其中yi=0或1,聯(lián)合分布可以表示為各個邊際分布的乘積:似然函數取對數為了求最大的估計參數,得到回歸模型的對數似然函數:分別對α,?求偏導,令它等于0,可以得到似然方程組:由于方程是α和?的非線性函數,求解是通過計算機迭代計算完成的.得到α和?的最大似然估計值從上面的兩個公式的得到的,?的值估計就是最大似然估計。按照慣例,用^表示估計值,p表示條件概率的估計值,這個值是在給定xi的條件下yi=1的條件概率的估計。它代表了logistic模型的擬合值或預測值,令偏導函數等于0時,這意味著觀測值之和等于預測概率之和,這一性質在評價模型擬和情況時非常有用。二、模型估計的假設條件1.數據必須來自于隨機樣本2.因變量Yi被假設為K個自變量Xki的函數.3.Xi對多重共線性敏感,自變量之間存在的多重共線性會導致標準誤的膨脹。4.因變量是分類變量5.因變量和各自變量之間的關系是非線性的6.在OLS回歸中要假設方差不變,類似的假設在logistic中不需要7.沒有關于自變量分布的假設條件,自變量可以是連續(xù)變量,也可以使離散變量,還可以是虛擬變量,并且不需要假設它們之間存在多元正態(tài)分布三、最大似然估計的性質logistic的最大似然估計與OLS估計的性質幾乎完全相同,即logistic的最大似然估計有:一致性,漸進有效性漸進正態(tài)性四、模型估計的樣本規(guī)模最大似然估計具有的一致性、有效性和正態(tài)性都是一些很好的統(tǒng)計件質,然而保持這些性質的條件為樣本規(guī)模要很大.但是,這并不等于說最大似然估計在小樣本時統(tǒng)計性質就—定不好.簡單而言,我們通常并不知道在小樣本時的統(tǒng)計性質究競如何。更實際的問題是,樣本在多大時就可以應用最大似然化計,或多大樣本可以保證統(tǒng)計檢驗得到顯著的結果.這個問題現無明確的答案.許多研究者在沒有其他方法可供選擇的條件下,便無論對大樣本還是對小樣本都用最大似然估計方法根據一些資深研究人員的看法,最大似然估計的大樣本性質維持得較好,即使在中等規(guī)模樣本(比如M=100)的條件下也能夠接受。Long(1997)提到,在樣本規(guī)模小于100時使用最大似然估計風險較大.樣本大于500時就顯得比較充分了。第八章第三節(jié)機動目錄上頁下頁返回結束Logistic回歸模型的評價模型估計完成以后,我們需要評價模型如何有效地描述反應金旦及模型匹配配觀測數據的程度如果模型的預測值能夠與對應的觀測值有較高的一致性,就認為這一模型擬和數據.否則,將不能接受這一模型,就需要對模型重新設置。一、擬和優(yōu)度檢驗預測值與觀測值之間差別在開始討論具體擬合優(yōu)度統(tǒng)計指標之前,先介紹一下協(xié)變類型的概念,這一概念又稱為子總體.協(xié)變類型描述的是模型中協(xié)變量不同值的特定組合.如果模型中只包括兩個分類變量,比如性別和重點大學,出于性別和重點大學都是二分類變量,因此模型中只有4種(即2x2)可能的協(xié)變類型組合,即協(xié)變類型或子總體為4個。在固定樣本規(guī)模n情況下,協(xié)變類型越多,每個類型(即每個子總體)中的案例數nj就越少在每個協(xié)變類型中,預測的事件發(fā)生頻數表示為nj*,其中是第j種協(xié)變類型中事件發(fā)生的模型預測概率。與此類似,我們也可以計算每種協(xié)變類型中事件末發(fā)生的頻數.二、皮爾遜皮爾遜可以用通過比較模型預測的和觀測的事件發(fā)生和不發(fā)生的頻數檢驗模型成立的假設.將觀測頻數和預測頻數代入標準計算公式,J是協(xié)變類型的種類數目,Oj和Ej分別為第j類協(xié)變類型中的觀測頻數和預測頻數卡方值很小,意味著預測值與觀測值之間沒有顯著差別卡方值很大,意味著預測值與觀測值之間有顯著差別,擬合不佳三、偏差觀測值和預測值的比較還可以根據對數似然函數表示,以作為模型所估計得最大似然值,它概括了樣本數據由這一模型所擬和的程度,由于這一統(tǒng)計量不能獨立于樣本規(guī)模,因此不能根據它的值估計模型的擬和優(yōu)度對于同一套數據還必須有一個基準模型作為比較所設模型擬和優(yōu)度的標準。一種基準模型為保和模型,它的最大似然值為,通過比較和,便可以估計所設模型代表數據的充分程度。通常采用-2乘以設定模型和飽和模型的最大似然值的對數:D統(tǒng)計量被稱為偏差,D值越小,擬和優(yōu)度越好。四、Hosmer-Lemeshow擬合優(yōu)度指標當自變量數量增加時,尤其是連續(xù)自變量納入模型之后,協(xié)變類型的數量便會很大,于是許多協(xié)變類型只有很少的觀測案例.結果,偏差和皮爾遜卡方值不再適用于估計擬合優(yōu)度.Hosmer-Lemeshow研究了一種對logistic模型擬和優(yōu)度的檢驗方法。Hosmer-Lemeshow指標(記為HL)是一種類似于皮爾遜χ2統(tǒng)計量的指標.它可以從觀測頻數和預測頻數構成的2*G交互表中求得.其統(tǒng)計公式如下:其中G代表分組數,且G<10,ng為第n組中的案例數;yg為第g組事件的觀測數量;為第g組的預測事件概率;ng為事件的預測數,實際上它等于第g組的預測概率之和.五、信息測量類指標另一種估計logistic回歸模型的擬合優(yōu)度的指標是信息測量類的指標.這些指標也可以用來比較不同模型的優(yōu)劣其中一種著名的信息測量指標是Aknike信息標準。它的定義如下:其中K為模型中自變量的個數;S是反應變量類別總數減1(對于logistic回歸有S=2-1),n是觀測數量,是所設模型的估計最大似然值的自然對數,其值較大表示擬合較好.其他條件不變的情況下,較小的AIC值表示擬合模型較好.AIC指標還常常應用于比較不同樣本的模型,或應用于比較非嵌套關系的模型,而這些模型的比較不能采用似然比(L.R.)檢驗.六、Logistic回歸模型的預測準確性—類R2指標線性回歸的R2有一種十分誘人的解釋特性,即它描述因變量的變動中模型的自變量所“解釋”的百分比.但是,在logistic回歸分析中卻沒有相應的統(tǒng)計指標.不過,在模型似然值對數的基礎上,可以為logistic同歸模型計算某種類似R2的指標,表示如下:與R2類似,LRI在0到1之間。當自變量與因變量完全不相關時(即所有的回歸系數為0),LRI=0。當模型的擬合程度提高時,LRI值增加,擬合得越好,LRI越接近1。七、模型卡方統(tǒng)計線性回歸及AN0VA模型中.常用自由度分別為K和n-K-1的F檢驗(來檢驗“除常數項外的所有系數都等于0”的無關假設。logistic回歸中服務于同一目的的檢驗卻是似然比檢驗,它可以用來檢驗logistic回歸模型是否統(tǒng)計件顯著,似然比統(tǒng)計量近似地服從于卡方分布。實際上,模型卡方與多元線性回歸中的F檢驗十分類似.模型卡方作為一種卡方統(tǒng)計量來檢驗可以提供關于零假設(即除常數項外的所有系數都等于0的假設,通常以公式表示為:H0:B1=B2=…=Bk=0第八章第四節(jié)機動目錄上頁下頁返回結束Logistic回歸系數的解釋當logistic回歸模型能夠較好地擬合數據時,便可以對模型的系數進行解釋了.類似于線性同歸系數,logistic回歸系數也可以被解釋為對應自變量一個單位的變化所導致的因變量上的變化.logistic回歸模型的系數如果是正值且統(tǒng)計顯著,意味著在控制其他自變量的條件下.對數發(fā)生比隨對應自變量值增加而增加;相反,一個顯著的負系數代表對數發(fā)生比隨對應自變量的增加而減少;如果系數的統(tǒng)計性不顯著,說明對應自變量的作用在統(tǒng)計上與0無差異.由于Logistic回歸的因變量不是常規(guī)的連續(xù)變量,而是logit(即對數發(fā)生比,那么對應每個自變量的估計系數便是對該自變量對logit的作用.盡管這種解直截了當,但是其實十分含糊.因為logit或對數發(fā)生比沒有較直觀的含義.通常,較方便的是將logit進行轉換后再進行解釋,而不是直接解釋系數本身.如果我們將回歸模型等式兩側取自然指數,于是左邊便成為發(fā)生比(p/(1—p)).由于發(fā)生比是日常生活中的常用概念,比如關于高校錄取或投票選舉結果等成功與失敗的比率,因此這種解釋便變得容易理解.一、發(fā)生比和發(fā)生比率發(fā)生比是事件的發(fā)生頻數與不發(fā)生頻數之間的比,即:odds=(事件發(fā)生頻數)/(事件不發(fā)生頻數)由于發(fā)生比被表示為一個比值,因此其值域的上限無邊界,即可以在所有非負值域取值.當比值大于1時,事件更為可能發(fā)生.比如,一個事件發(fā)生的概率為0.6.那么事件不發(fā)生的概率即0.4,于是發(fā)生比便等于0.6/0.4=1.5這意味著事件發(fā)生的可能性是不發(fā)生的可能性的1.5倍,或者說我們期望看到對應每一次事件不發(fā)生有1.5次事件發(fā)生.如果發(fā)生比odd=0.25,說明事件不發(fā)生可能性是發(fā)生可能性的4倍,或者說可以期望對應每4次事件不發(fā)生有1次事件發(fā)生.假設研究事件為“高中畢業(yè)后考入大學“(簡標為“是%).否事件便是“未能考入大學”(簡際為“否”).共有1000名高中畢業(yè)生,其中550名男生、450名女生.因此,考入大學的發(fā)生比為“是”的頻數除以“否”的頻數.假如分別有259名男生和76名女生考入了大學(同時有291名男生和374名女生落榜)男生和女生的(是/否)發(fā)生比分別為:oddsm=259/291=0.8900;oddsf=76/374=0.2032而男生與女生的發(fā)生比率(OR)為:OR=oddsm/oddsj=0.8900/0.2032=4.38二、按發(fā)生比解釋系數對logistic回歸系數進行解釋時,很難具體把握以對數單位測量的作用幅度,所以通常將以logit單位推導的作用轉換為對應的發(fā)生比率.例如有如下模型:其中變量p為高中畢業(yè)后進人大學的概率;變量GENDER表示性別(1為男性。0為女性);變量KFYSCH表示高中類型(1為重點中學,0為其他中學);變量MEANGR代表高中平均成績,GENDERKEYSCH都是虛擬變量,而MEANGR是連續(xù)變量。因為理解發(fā)生比比理解對數發(fā)生比更容易,logistic回歸模型可以按事件發(fā)生比的形式改寫為:連續(xù)自變量的發(fā)生比率在上面的例子中,自變量MEANER的logistic回歸系數為=0.4245,因此MEANER增加一個單位將使發(fā)生比變化。e0.4245=1.529在社會科學研究中,人們對一些連續(xù)變量中一個單位值的變化通常不感興趣.比如,年齡增加1歲或收入增加1元的作用十分微小,并不重要而一個離散的變化,如年齡增加5歲或收入增加100元的變化也許更有意義.為了估計連續(xù)變量的調整發(fā)生比率,通常先要設定兩個要比較的變量值比方用a和b標志這兩個代表連續(xù)自變量Xk水平的值,那么這個變量從a變到b時,其logit的變化為:調整發(fā)生比率為:其中,代表在控制其他變量條件下,xk變化一個單位時導致logit(對數發(fā)生比)的變化估計在我們的例子中,計算當MEANGR比總平均值高5分時調整發(fā)生比率是多少,應用上面的式子可以得到:AOR=exp[(5-0)×0.4245]=8.352分類自變量的發(fā)生比率當分類自變量多于兩個類別時,就要建立—組虛擬變量來代表類型的歸屬性質如果—個分類變量包括m個類別,那么可以產生m個相應的虛擬變量.但是,建模需要的虛擬變量的數目應等于分類總數減l這就是說,如果變量包括m個類別,那只需要建立m-1個虛擬變量即可.不能同時在模型中包括m個虛擬變量,因為其中的每一個虛擬變量都是其余虛擬變量的線性組合,這會違反回歸的基本假設條件。從建模中省略的那個類別稱作參照類比如,學校的類型是個名義變量,如果我們定義它有三個類別:重點中學,城市普通中學,農村普通中學.我們將在模型中設置兩個虛擬變量SCH1(表示重點中學)和SCH2(表示城市普通中學)模型中沒有包括表示農村普通中學的虛擬變量,所以農村普通中學這個類別就作為參照類.分類變量的哪一類別應為參照類是隨意的,在省略農村普通中學虛擬變量的情況下當一個學生屬重點中學時,虛擬變量SCH1=1,否則,SCHl=0;當屬城市普通中學時,虛擬變量SCH2=1,否則,SCH2=0這時,模型如下:如同在線性回歸中一樣,系數代表重點中學與農村普通中學(參照類)在因變量上的差別.所以

為重點中學對農村普通中學的發(fā)生比率.在同樣的基礎上,

為城市普通中學對農村普通小學的發(fā)生比率。標準化系數通常在線性回歸模型中的自變量是以不同尺度測量的.比如。收入的單位是元,年齡的單位是歲,長度單位可用厘米、分米、或米,如此等等,于是,某個自變量中的一個單位的變化并不等價于另一個自變量上一個單位的變化如果我們要比較因變量與不同自變量之間關系的強度,通常采用標準化回歸系數.出于同樣的原因,在logistic回歸分析中也可以考慮使用標準化系數。對logistic回歸來說Logistic回歸的標準化系數為:第八章第五節(jié)機動目錄上頁下頁返回結束Logistic回歸系數的統(tǒng)計推斷如果模型滿足假設條件,可以由樣本模型的結果對總體參數進行統(tǒng)汁推斷.統(tǒng)計推斷有兩個含義:假設檢驗和參數估計.1.假設檢驗涉及的一系列工作最后導致接受或拒絕總體參數所作假設陳述的結論;2.參數估計便是估計出總體參數的值(包括點估計和置信區(qū)間估計).一、Logistic回歸系數的顯著性檢驗在logistic回歸模型中自變量xk對logit作用的顯著性檢驗.這涉及到一個自變量是否與反應變量顯著相關的統(tǒng)計假設,以及如何建立和檢驗這一假設并做出結論。假設零假設H0為:=o(表示自變量對事件發(fā)生可能性無影響作用)如果零假設被拒絕、說明事件發(fā)生可能性依賴于xk的變化。Wald檢驗選擇顯著性水平以后,就可以計算檢驗統(tǒng)計量了,可以采用Z統(tǒng)計量:其中為的標準誤Wald統(tǒng)計量的一般形式:Qβ=r其中β為待檢驗的模型參數向量,Q為常數矩陣(各元素值為0或1),r為常數矩陣(元素為0)W=[Qβ-r]’[QVar(β)Q’]-1[Qβ-r]~χ2(Q的行數)常用統(tǒng)計軟件中,對logistic回歸系數進行顯著性檢驗時通常使用wald檢驗,其公式為:決策的規(guī)則為:若W在α=0.05水平的χ2>3.841,拒絕H0若W在α=0.01水平的χ2>6.635,拒絕H0若W在α=0.001水平的χ2>10.828,拒絕H0似然比檢驗統(tǒng)計學已經證明,在大樣本時,如果兩個模型之間有嵌套關系.那么兩個模型之間的對數似然比乘以-2的結果(簡標為-2LL)之差近似服從卡方分布。這一檢驗統(tǒng)計量稱為似然比(1ikelihoodratio簡標為L.R.),在0~+∞之間.其中β為待檢驗的模型參數向量,Q為常數矩陣(各元素值為0或1),r為常數矩陣(元素為0)L.R.=(-2LLm2)-(-2LLm1)=-2ln(Lm2/Lm1)若令:

回歸模型概率P:0~1,logitP:-∞~∞。

取值范圍

logistic函數的圖形模型參數的意義常數項表示暴露劑量為0時個體發(fā)病與不發(fā)病概率之比的自然對數?;貧w系數表示自變量改變一個單位時logitP的改變量。流行病學衡量危險因素作用大小的比數比例指標。計算公式為:優(yōu)勢比OR(oddsratio)與logisticP的關系:二、logistic回歸模型的參數估計參數估計

原理:最大似然(likelihood)估計

可反映某一因素兩個不同水平(c1,c0)的優(yōu)勢比。

2.優(yōu)勢比估計

例:下表是一個研究吸煙、飲酒與食道癌關系的病例-對照資料,試作logistic回歸分析。

確定各變量編碼

表吸煙與食道癌關系的病例-對照調查資料

經logistic回歸計算后得:的95可信區(qū)間:飲酒與不飲酒的優(yōu)勢比OR1的95可信區(qū)間

吸煙與不吸煙的優(yōu)勢比:三、logistic回歸模型的假設檢驗2.Wald檢驗1.似然比檢驗方法:前進法、后退法和逐步法。

檢驗統(tǒng)計量:不是F統(tǒng)計量,而是似然比統(tǒng)計量、

Wald統(tǒng)計量和計分統(tǒng)計量之一。四、變量篩選例:

為了探討冠心病發(fā)生的有關危險因素,對26例冠心病病人和28例對照者進行病例對照研究,各因素的說明及資料見下兩。試用logistic逐步回歸分析方法篩選危險因素。表冠心病8個可能的危險因素與賦值表冠心病危險因素的病例對照調查資料

表方程中的自變量及有關參數的估計值第八章第二節(jié)機動目錄上頁下頁返回結束條件logistic回歸

一、原理配對資料。最常用的是每組中有一個病例和若干個對照,即1:M配對研究(一般M≤3)表1:M

條件logistic回歸數據的格式

*t=0為病例,其他為對照條件logistic模型Pi表示第i層在一組危險因素作用下發(fā)病的概率,表示各層的效應,為待估計的參數。與非條件logistic回歸模型不同之處在常數項上,不同匹配組的可以各不相同,但內在假定了每個危險因素的致病能力在不同匹配組中相同。二、應用實例例

某北方城市研究喉癌發(fā)病的危險因素,用1:2配對的病例對照研究方法進行了調查?,F選取了6個可能的危險因素并節(jié)錄25對數據,各因素的賦值說明、資料列于下表。試作條件logistic逐步回歸分析。表進入方程中的自變量及有關參數的估計值

采用逐步法

6個危險

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論