![Logistic回歸模型.doc_第1頁](http://file.renrendoc.com/FileRoot1/2020-2/4/7532607e-19e1-437b-99d5-33ff8409df80/7532607e-19e1-437b-99d5-33ff8409df801.gif)
![Logistic回歸模型.doc_第2頁](http://file.renrendoc.com/FileRoot1/2020-2/4/7532607e-19e1-437b-99d5-33ff8409df80/7532607e-19e1-437b-99d5-33ff8409df802.gif)
![Logistic回歸模型.doc_第3頁](http://file.renrendoc.com/FileRoot1/2020-2/4/7532607e-19e1-437b-99d5-33ff8409df80/7532607e-19e1-437b-99d5-33ff8409df803.gif)
![Logistic回歸模型.doc_第4頁](http://file.renrendoc.com/FileRoot1/2020-2/4/7532607e-19e1-437b-99d5-33ff8409df80/7532607e-19e1-437b-99d5-33ff8409df804.gif)
![Logistic回歸模型.doc_第5頁](http://file.renrendoc.com/FileRoot1/2020-2/4/7532607e-19e1-437b-99d5-33ff8409df80/7532607e-19e1-437b-99d5-33ff8409df805.gif)
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
標準實用Logistic回歸模型1 Logistic回歸模型的基本知識1.1 Logistic模型簡介主要應用在研究某些現象發(fā)生的概率,比如股票漲還是跌,公司成功或失敗的概率,以及討論概率與那些因素有關。顯然作為概率值,一定有,因此很難用線性模型描述概率與自變量的關系,另外如果接近兩個極端值,此時一般方法難以較好地反映p的微小變化。為此在構建與自變量關系的模型時,變換一下思路,不直接研究,而是研究的一個嚴格單調函數,并要求在接近兩端值時對其微小變化很敏感。于是Logit變換被提出來: (1)其中當從時,從,這個變化范圍在模型數據處理上帶來很大的方便,解決了上述面臨的難題。另外從函數的變形可得如下等價的公式: (2)模型(2)的基本要求是,因變量(y)是個二元變量,僅取0或1兩個值,而因變量取1的概率就是模型要研究的對象。而,其中表示影響的第個因素,它可以是定性變量也可以是定量變量,。為此模型(2)可以表述成: (3)顯然,故上述模型表明是的線性函數。此時我們稱滿足上面條件的回歸方程為Logistic線性回歸。Logistic線性回歸的主要問題是不能用普通的回歸方式來分析模型,一方面離散變量的誤差形式服從伯努利分布而非正態(tài)分布,即沒有正態(tài)性假設前提;二是二值變量方差不是常數,有異方差性。不同于多元線性回歸的最小二乘估計法則(殘差平方和最小),Logistic變換的非線性特征采用極大似然估計的方法尋求最佳的回歸系數。因此評價模型的擬合度的標準變?yōu)樗迫恢刀请x差平方和。定義1 稱事件發(fā)生與不發(fā)生的概率比為 優(yōu)勢比(比數比 odds ratio 簡稱OR),形式上表示為OR= (4)定義2 Logistic回歸模型是通過極大似然估計法得到的,故模型好壞的評價準則有似然值來表征,稱-2為估計值的擬合似然度,該值越小越好,如果模型完全擬合,則似然值為1,而擬合似然度達到最小,值為0。其中表示的對數似然函數值。定義3 記為估計值的方差-協方差矩陣,為的標準差矩陣,則稱 (5)為的Wald統計量,在大樣本時,近似服從分布,通過它實現對系數的顯著性檢驗。定義4 假定方程中只有常數項,即各變量的系數均為0,此時稱 (6)為方程的顯著性似然統計量,在大樣本時,近似服從分布。1.2 Logistic模型的分類及主要問題根據研究設計的不同,Logistic回歸通常分為成組資料的非條件Logistic回歸和配對資料的條件Logistic回歸兩種大類。還兼具兩分類和多分類之分,分組與未分組之分,有序與無序變量之分。具體如下:兩分類非條件Logistic回歸:分組數據的Logistic回歸,未分組數據的Logistic回歸;多分類非條件Logistic回歸:無序變量Logistic回歸,無序變量Logistic回歸;條件Logistic回歸:1:1型、1:M型和M:N型Logistic回歸。關于Logistic回歸,主要研究的內容包括:1 模型參數的估計及檢驗2 變量模型化及自變量的選擇3 模型評價和預測問題4 模型應用2 Logistic模型的參數估計及算法實現2.1 兩分類分組數據非條件Logistic回歸因變量(反應變量)分為兩類,取值有兩種,設事件發(fā)生記為y=1,不發(fā)生記為 y=0,設自變量是分組數據,取有限的幾個值;研究事件發(fā)生的概率與自變量的關系,其Logistic回歸方程為: 或 例2.1.1 分組數據1 在一次住房展銷會上,與房地產商簽訂初步購房意向書的有n=325人,在隨后的3個月時間內,只有一部分顧客購買了房屋。購買房屋的顧客記為1,否則記為0。以顧客的年家庭收入(萬元)作為自變量,對數據統計后如表2.1.1所示,建立Logistic回歸模型。表2.1.1 購房分組數據序號年家庭收入X(萬元)簽訂意向人數實際購買人數11.525822.5321333.5582644.5522255.5432066.5392277.5281688.5211299.51510例2.1.2 藥物療效數據2 為考察某藥物療效,隨機抽取220例病人并分配到治療組和對照組,治療組采用治療藥物,對照組采用安慰劑。治療一段時間后觀察病人的療效,得到表2.1.2數據。設y為療效指標(y=1 有效,y=0無效),為治療組指標(1為治療組,0為對照組),為年齡組指標(1為45歲,0為其他)。表2.1.2 藥物療效數據序號治療分組年齡分組有療效無效合計111321850210402060301213152400184058上述兩個例子數據都是經過統計加工后的分組數據,對此類數據進行Logistic回歸,首先要明確應變量對應事件的發(fā)生概率如何確定和進行Logit變換,其次才能建立Logistic回歸。為便于數據處理,我們將此類數據的格式作個約定,排列格式為(組序號,自變量,該組事件發(fā)生數,該組總例數)。表2.1.3 分組數據的標準格式序號年家庭收入X(萬元)實際購買人數簽訂意向總人數11.582522.5133233.5265844.5225255.5204366.5223977.5162888.5122199.51015表2.1.1 改造表序號治療分組年齡分組有效例數觀察例數1113250210406030121524001858表2.1.2 改造表經過改造后,可得我們關心的事件的發(fā)生的頻率為 。其中為分組數,然后作Logit變換,即。變換后的數據,形式上已經可以采用一般的線性回歸的處理方式來估計回歸參數了。此時方程變?yōu)椋寒斎贿@樣處理并沒有解決異方差性,當較大時,的近似方差為: (7)所以選擇權重 ,最后采用加權最小二乘法估計參數。注意,分組數據的Logistic回歸只適用于大樣本分組數據,對小樣本的為分組數據不適用,并且以組數為回歸擬合的樣本量,明顯降低了擬合精度,在實際應用中必須謹慎。求解算法及步驟:1依據分組數據的標準格式,計算頻率、Logit變換和權重2構建加權最小二乘估計: (8)令 ,則方程又變成一般的線性回歸模型: (9)3構造增廣矩陣利用消去法得矩陣,得到估計其中為殘差平方和, 回歸方差各系數檢驗采用 總平方和,回歸平方和總平方和求解相當于擬合方程的殘差平方和,故得上式ST所以方程的檢驗為例2.1.1的求解過程如下(由LLLStat統計軟件計算):表2.1.4 數據Logit變換及權重 家庭年收入x實際購買mi簽訂意向ni比例pi邏輯變換Logit權重ni*pi(1-pi)1.500000 8250.320000-0.753772 5.440000 2.500000 13320.406250-0.379490 7.718750 3.500000 26580.448276 -0.207639 14.344828 4.500000 22520.423077 -0.310155 12.692308 5.500000 20430.465116 -0.139762 10.697674 6.500000 22390.564103 0.257829 9.589744 7.500000 16280.571429 0.287682 6.857143 8.500000 12210.571429 0.287682 5.142857 9.500000 10150.666667 0.693147 3.333333 表2.1.5 回歸模型基本信息 總樣本 9 求解方法 加權最小二乘僅常數項beta0 -0.095029 方程F統計量 51.982160 F分布自由度1,7 方程檢驗p值0.000176 總平方和 8.798294 回歸平方和 7.754112 殘差平方和 1.044181 表2.1.6 分組Logistic回歸系數檢驗 序號均值回歸系數系數標準誤t統計量自由度df檢驗P值常數項 2.837815-0.8488820.113578-7.47399470.000056家庭年收入x14.9011400.1493230.0207117.20986570.000056表2.1.7 0.086479 -0.014517 -0.014517 0.002876 本例Logistic模型的回歸方程:對于多分類無序自變量的Logistic回歸,即某個自變量為m個水平的名義變量(如治療方法A,B,C),只需要引入m-1(2個)個啞變量,然后采用上述方法進行分析。例2.1.3 研究三種治療方法對不同性別病人的治療效果2,數據如表2.1.4表2.1.4 性別和治療法對某病治愈情況的影響性別治療方法有效無效總例數男A7828106B10111112C6846114女A40545B54559C34640由于治療方法有三種,沒有等級關系,所以屬于無序的名義變量,故引入兩個啞變量分別代表A和B療法,其中表示方法A, 表示方法B, 表示方法C,將上述數據轉化成標準格式,得表2.1.5。表2.1.5 性別和治療法對某病治愈情況的影響性別有效總例數1107810610110111210068114010404500154590003440對于分類數據,也可以采用極大似然法進行參數估計,具體見2.2節(jié)最后部分內容。2.2 兩分類未分組(連續(xù))非條件Logistic回歸應變量取值為0和1,設事件發(fā)生記為y=1,否則為0,設自變量,n組觀測數據記為,。記,則與的Logistic回歸模型是: (10)易知,是均值為的0-1型分布,其分布律為 ,則的似然函數和對數似然函數分別為: 代入,得 (11)記,選取的估計使得達到極大,這就是Logistic回歸模型的極大似然估計,該過程的求解需要采用牛頓迭代法。構造得分函數,共k+1個非線性方程組,令其=0求解,其中 (12 )構造信息矩陣,即二階導矩陣的負矩陣,其中 (13 )很明顯,故是一個對稱矩陣。求解算法及步驟:1 根據公式(12 ) 計算得分函數,公式(13)計算信息矩陣給定初值, k =1 和精度,可取0.0000012 采用牛頓迭代式 , ,通過以下方式求解。構造增廣矩陣=,通過對IF矩陣作k+1次ij消去變換求解若 或者 或者 ,則轉3否則k = k +1,繼續(xù)執(zhí)行第2步3 此時就是回歸系數的數值估計,k就是迭代次數,消去變換后的矩陣的前子陣就是方差-協方差矩陣的估計陣=V ,下面給出檢驗有關計算:計算Wald統計量 ,近似服從分布,檢驗p值 標準誤, , 例2.2.1 公共交通調查數據1 在一次關于公共交通的社會調查中,調查項目為“是乘坐公共汽車上下班,還是騎自行車上下班”。因變量y=1表示乘坐公共汽車,y=0表示騎自行車。自變量是年齡,作為連續(xù)變量;是月收入(元);是性別,=1表示男性,=0表示女性。調查對象為工薪族群體,數據如表2.2.1所示。表2.2.1 公共交通社會調查 序號年齡月收入性別交通 y118850002211200003238500142395001528120001631850007361500018421000019469500110481200001155180001125621000113581800011418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011264810001027521500112856180011以下計算結果采用LLLStat 1.0 軟件得到:表2.2.2 主要計算結果序號均值回歸系數系數標準誤wald統計量自由度df檢驗p值OR=Exp(B)常數項0.535714-3.6550162.0912233.05476610.0805010.025861年齡1273.2142860.0821680.0521192.48551610.1148991.085639月收入0.4642860.0015170.0018650.66146610.4160431.001518性別36.107143-2.5018441.1578184.66917510.0307090.081934表2.2.3 Logistic模型基本信息總樣本28求解方法 極大似然法 & Newton迭代迭代次數(僅beta0) 7(4) -2LogLikelihood(Beta) 25.970652 僅常數項beta0 -0.143101 -2LogLikelihood(beta0) 38.673263 方程Wald值(相減) 12.702611 方程自由度 4 方程檢驗p值 0.012824 對于例2.1.3分組數據的極大似然估計法,主要過程如下: 代入,得 則有 ;其中,分別表示分組i中事件發(fā)生次數和總觀察數,如表2.1.4和2.1.5所示。然后可采用Newton-Raphson迭代法進行求解。由LLLStat計算得到如下結果。表2.2.4 性別和療法對某病治愈的影響(未分組Logistic似然估計法)序號均值回歸系數系數標準誤wald統計量自由度df檢驗P值常數項1.0000001.4183990.29869022.55051310.000002性別0.500000-0.9616180.29979710.28847210.001339治療A0.3333330.5847450.2641084.90196610.026826治療B0.3333331.5607630.31596124.40099310.000001表2.2.5回歸系數方差矩陣V(beta)(信息矩陣I(Beta)的逆矩陣)0.089215-0.072957-0.029931-0.030097-0.0729570.089878-0.0000780.000128-0.029931-0.0000780.0697530.029993-0.0300970.0001280.0299930.0998312.3 條件Logistic回歸2,3條件Logistic回歸是配對設計(病例-對照)中常用的一種統計分析方法,通過配對方法收集資料:每一配對組可包括一個病例和一個或多個對照,有1:1型、1:m型配對。假設收集了如下數據:表2.3.1 n個1:m配對組,k個協變量的比例資料 配對組號病例組第1對照組第m個對照組12配對資料用配對的方法來控制影響因素的干擾,并且每個配對組都可以建立一個Logistic回歸方程:為此需要估計的參數有n個常數項和k個回歸系數,配對數越多估計的參數就越多,但是一般的數據量難以支撐這樣的估計,故一般的Logistic回歸不適合配對資料。不過在參數估計時,常數項會被消去,所以方程組減少了n個常數項的估計,復雜度大大降低。對于回歸參數的估計采用條件似然函數替代一般的似然函數進行。對于第i個配對組而言,共有m+1個觀察對象,記為,其中僅有一例發(fā)病,且正好是病例組A發(fā)病,而對照組均沒有發(fā)病的條件概率(類似Bayes概率)可以表示成: (14)其中= ,而, (15 )故n個配對組的條件似然函數表示為: (16 )則對數似然函數為: (17)令 ,它是一個與第i個樣本點有關的k維向量,表示向量中的第g個元素,則有如下得分函數和信息矩陣:=注意此時的,沒有常數項。至此(17)式中的參數可采用Newton-Raphson迭代法求解了,初值依然取為0向量。不過該方程的求解已經相對復雜多了。方程似然度檢驗和回歸系數的wald檢驗同非條件Logistic回歸。例2.3.1 研究肥胖、口服避孕藥雌激素與子宮內膜癌的關系,隨機抽取20名患者,對于每名患者,在隨機抽取年齡相近的正常人作為對照。檢測患者與正常人的肥胖程度和雌激素服用情況3。表2.3.1 肥胖和雌激素與子宮內膜癌關系病例-對照研究數據配對組病例肥胖病例雌激素對照1肥胖對照1雌激素對照2肥胖對照2雌激素1110000211110131101114010001500100161100107110111811101191011111001010011010110120101011311001114110010151100011601010117010010181110011910010120110100例2.3.1 求解的主要結果,由LLLStat軟件計算得到:表2.3.2 條件Logistic回歸系數檢驗 序號均值(病例)回歸系數系數標準誤wald統計量自由度df檢驗P值肥胖0.6500001.8239140.54719211.11039010.000859雌激素0.8500001.5896210.45054412.44836710.000419表2.3.3條件Logistic回歸模型基本信息樣本量20求解方法極大似然+牛頓迭代迭代次數45-2LogLikelihood(Beta)33.306763-2LogLikelihood(0)43.944492方程Wald值(相減)10.637728方程自由度2方程檢驗p值0.0048982.4 多分類有序反應變量Logistic回歸在實際應用中,經常遇到反應變量為多分類有序變量的情況,例如評價指標分為差、中、良、優(yōu)等,各等級之間是有序的。這種資料的Logistic回歸分析通常稱為比例比數模型(累積概率模型) 4,它需要擬合m-1 (m為水平或等級個數)個Logistic回歸模型。有序累積概率Logistic模型: 或 (18) (19)有序累積概率模型參數的極大似然估計就是尋找參數使得聯合概率實現最大化,由于觀測之間相互獨立,聯合概率被分解成邊緣概率之積。而觀測到的概率就是累積概率之差:第i個觀測值對應似然值的貢獻取決于觀測到哪一個j值,因此對于次序響應的每個j值,取所有的觀測之的乘積,有似然函數:,其中若,則,否則并且對于任一個觀測而言,只有一個等級事件發(fā)生,即,故有(19)式。其對數似然函數如下(對于分組數據,似然函數變?yōu)椋海纸M中各分類例數)。 (20)其中: (21)然后就可以通過極大似然法,就上Newton-Raphson方法加以求解參數了,注意的是。下面給出具體推導求解的詳細過程。對(20)式進行化簡,可得 (22) (23) (24) (25) (26) (27) (28) (29) (30) (31) (32)由此構建信息矩陣和,并可迭代求解了。注:若為分組數據,上述每項乘以。例2.4.1 研究性別和兩種治療方法對某種疾病療效的影響3,將療效分成效果顯、有效和無效三個等級,根據試驗調查,得到如下資料。表2.4.1 性別和兩種治療方法對某種疾病療效的影響性別治療方法顯著有效無效合計女新藥165627傳統671932男新藥52714傳統101011表2.4.2 多分類有序反應變量數據格式行號性別治療方法頻數療效等級111161211523116341061510726101937015180122901731000111100021200103計算結果,由LLLStat統計軟件給出:表2.4.3 回歸系數方差矩陣V(beta)(信息矩陣I(Beta)的逆矩陣) 0.3747330.324880-0.257757-0.1928230.3248800.323782-0.244457-0.169612-0.257757-0.2444570.2894880.069404-0.192823-0.1696120.0694040.236257表2.4.4 有序分類因變量Logistic回歸系數檢驗 序號回歸系數系數標準誤wald統計量自由度df檢驗P值常數項a1-2.6935760.61215519.36137710.000011常數項a2-1.8120400.56901810.14105910.001450性別1.0523520.5380413.82552810.050477治療方法2.1872720.48606320.24980010.000007表2.4.5 有序分類因變量Logistic回歸模型基本信息 樣本分組數12求解方法極大似然+牛頓迭代迭代次數17注意:該結果與 SAS, DPS不一致。Poisson回歸模型1 簡介一般情況下,單位容積水中的細菌數,單位時間內某些事件發(fā)生的次數,單位面積上降落的灰塵的顆粒數等,都可以用Poisson分布來描述。一般Poisson分布描述成隨機變量,概率分布律為:易知,通常可能受到眾多因素的影響,不妨假設這些因素為(自變量,協變量),令,對于分組數據,Poisson分布的期望發(fā)生數假設為7: (1)其中為回歸參數,為第i組的總觀測數?;貧w模型的似然函數為Poisson分布條件下各個格子概率函數的乘積,因此Poisson分布的極大似然函數和對數似然函數具體形式分別為:代入,得 (2)令 (3), (4)則可采用Newton-Raphson迭代法求解參數的極大似然估計了。對于僅有常數項的Poisson模型,其估計值為,用于計算對數似然比。2案例分析例1 3 Doll和Hill(1966)研究英國男性醫(yī)生患冠心病與抽煙、年齡關系。由于死亡與追蹤人數和追蹤時間有關,故用追蹤人數和追蹤時間的乘積(人年)作為觀察單位數。假定其目標變量(死亡人數)近似服從Poisson分布,其調查取樣共74588調查單位,死亡598例。主要研究因素有抽煙(1為抽煙,0為不抽煙);調查對象年齡分成4組(35-44歲,45-54歲,55-64歲,65-74歲),此為多分類變量,需要設置三個變量加以區(qū)分,可將其中一個年齡組作為參照組,不妨取35-44歲,計算時不考慮對照組信息。表1 英國男性醫(yī)生患冠心病與抽煙、年齡關系分組抽煙34-44歲45-54歲55-64歲65-74歲死亡數總例數11100032523072101001044324831001020628612410001186126635010002187906001001210673700010285710800001282585由LLLStat軟件
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑廢棄物無害化處理及清運服務合同
- 2025年度學校食堂改造及運營管理合同
- 2025年度托盤銷售與物流園區(qū)運營管理服務合同
- 2025年度人工智能平臺部署-IDC定制化服務合同
- 2025年度五星級商務酒店合同租賃范本
- 2025年度演出活動觀眾服務合同范本
- 2025年度中國鐵路貨運合同服務優(yōu)化條款解析
- 2025年度城市燈光秀廣告裝修設計合同
- 申請書帶手機
- 電商直播營銷的策劃與執(zhí)行
- 采礦學課程設計-隆德煤礦1.8Mta新井開拓設計
- 桂花-作文ppt-PPT課件(共14張)
- 高一數學概率部分知識點總結及典型例題解析 新課標 人教版 必修
- 滴灌工程設計示例
- 鐵路運費計算方法
- 《小腦梗死護理查房》
- 免疫及炎癥相關信號通路
- 醫(yī)院室外管網景觀綠化施工組織設計
- 某風電場設備材料設備清單
- —橋梁專業(yè)施工圖設計審查要(終)
- 德龍自卸車合格證掃描件(原圖)
評論
0/150
提交評論