




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Logistic 回歸的介紹與實際應用摘要本文通過對logistic 回歸的介紹,Xt logistic 回歸模型建立的 分析,以與其在實際生活中的運用,我們可以得出所建立的模型對實 際例子的數據擬合結果不錯。關鍵詞:logistic 回歸;模型建立;擬合;> logistic回歸的簡要介紹1 、Logistic 回歸的應用 X圍: 適用于流行病學資料的危險因素分析實驗室中藥物的劑量-反響關系臨床試驗評價疾病的預后因素分析2、Logistic回歸的分類:按因變量的資料類型分:二分類、多分類;其中二分較為常用 按研究方法分:條 件Logistic回歸、非條件Logistic回歸兩者針對的資
2、料類型不一樣,后者針對成組研究,前者針對配對或配伍 研究。3、Logistic回歸的應用條件是: 獨立性。各觀測對象間是相互獨立的;LogitP與自變量是線性關系; 樣本量。經驗值是病例對照各50例以上或為自變量的5-10倍以10倍 為宜,不過隨著統(tǒng)計技術和軟件的開展,樣本量較小或不能進展似然 估計的情況下可采用準確logistic回歸分析,此時要求分析變量不能太多, 且變量分類不能太多; 當隊列資料進展logistic回歸分析時,觀察時間應該一樣,否如此需考慮 觀察時間的影響建議用 Poisson回歸。4、擬和logistic回歸方程的步驟: 對每一個變量進展量化,并進展單因素分析; 數據的
3、離散化,對于連續(xù)性變量在分析過程中常常需要進展離散變成等 級資料??刹捎玫姆椒ㄓ幸罁涷炦M展離散,或是按照四分、五分位數法來確定等級,也可采用聚類方法將計量資料聚為二類或多類,變?yōu)殡x 散變量。 對性質相近的一些自變量進展局部多因素分析,并探討各自變量等級 變量,數值變量納入模型時的適宜尺度,與對自變量進展必要的變量 變換; 在單變量分析和相關自變量分析的根底上,對 PWa常取,或的變 量,以與專業(yè)上認為重要的變量進展多因素的逐步篩選;模型程序每擬 合一個模型將給出多個指標值,供用戶判斷模型優(yōu)劣和篩選變量??梢?采用雙向篩選技術:a進入變量白篩選用score統(tǒng)計量或G統(tǒng)計量或 LRS(似然比統(tǒng)計
4、量),用戶確定P值臨界值如:、或,選擇統(tǒng)計量顯著且 最大的變量進入模型;b剔除變量的選擇用Z統(tǒng)計量(Wald統(tǒng)計量),用 戶確定其P值顯著性水平,當變量不顯者,從模型中予以剔除。這樣, 選入和剔除反復循環(huán),直至無變量選入,也無變量刪除為止,選入或剔 除的顯著界值確實定要依具體的問題和變量的多寡而定,一般地,當納 入模型的變量偏多,可提高選入界值或降低剔除標準,反之,如此降低 選入界值、提高刪除標準。但篩選標準的不同會影響分析結果,這在與 他人結果比擬時應當注意。 在多因素篩選模型的根底上,考慮有無必要納入變量的交互作用項;兩變量間的交互作用為一級交互作用,可推廣到二級或多級交互作用,但在實際應
5、用中,各變量最好相互獨立(也是模型本身的要求),不必研究交 互作用,最多是研究少量的一級交互作用。 對專業(yè)上認為重要但未選入回歸方程的要查明原因5、回歸方程擬合優(yōu)劣的判斷為線性回歸方程判斷依據,可用于 logistic回 歸分析決定系數(R2)和校正決定系數(),可以用來評價回歸方程的優(yōu)劣。R隨著自變量個數的增加而增加,所以需要校正;校正決定系數(4 )越大,方程越優(yōu)。但亦有研究指出 R2是多元線性回歸中經常用到的一個指標, 表示的是因變量的變動中由模型中自變量所解釋的百分比,并不涉與預 測值與觀測值之間差異的問題,因此在logistic回歸中不適合。Cp選擇法:選擇Cp最接近p或p+1的方程
6、不同學者解釋不同。Cp 無法用SPSS直接計算,可能需要手工。1964年CL Mallows提出:n5-尸一DIMS粘)口'MJ(泌,Cp接近p+1的模型為最優(yōu),其中p為方程中自變量的個數,m為自 變量總個數。AIC準如此:1973年由日本學者赤池提出 AIC計算準如此,AIC越小擬 合的方程越好。在logistic回歸中,評價模型擬合優(yōu)度的指標主要有Pearson/、偏差(devianceb Hosmer- Lemeshow (HL)指標、Akaike 信息準如此(AIC)、SC 指 標等。Pearson聲、偏差(deviance莊要用于自變量不多且為分類變量的情況, 當自變量增多且
7、含有連續(xù)型變量時,用HL指標如此更為恰當。Pearson又偏差(deviance)、Hosmer- Lemeshow (HL)指標值均服從 月分布,月檢驗無統(tǒng) 計學意義(P>0.05)表示模型擬合的較好,聲檢驗有統(tǒng)計學意義(P< 0.05)如此 表示模型擬合的較差。AIC和SC指標還可用于比擬模型的優(yōu)劣,當擬合多 個模型時,可以將不同模型按其 AIC和SC指標值排序,AIC和SC值較小 者一般認為擬合得更好。6、擬合方程的須知事項: 進展方程擬合對自變量篩選采用逐步選擇法前進法forward、后退法backward、逐步回歸法stepwise時,引入變量的檢驗水準要小于 或等于剔除
8、變量的檢驗水準; 小樣本檢驗水準a定為或,大樣本把a定為。值越小說明自變量選取的 標準越嚴;在逐步回歸的時可根據需要放寬或限制進入方程的標準,或硬性將最感 興趣的研究變量選入方程; 強影響點記錄的選擇:從理論上講,每一個樣本點對回歸模型的影響應 該是同等的,實際并非如此。有些樣本點記錄對回歸模型影響很大C 對由過失或錯誤造成的點應刪去,沒有錯誤的強影響點可能和自變量與 應變量的相關有關,不可輕易刪除。 多重共線性的診斷SPSS中的指標:a容許度:越近似于0,共線性 越強;b特征根:越近似于0,共線性越強;c條件指數:越大,共線性 越強;異常點的檢查:主要包括特異點(outher)、高杠桿點(h
9、igh leverage points) 以與強影響點(influential points) 0特異點是指殘差較其他各點大得多的 點;高杠桿點是指距離其他樣品較遠的點;強影響點是指對模型有較大 影響的點,模型中包含該點與不包含該點會使求得的回歸系數相差很大。單獨的特異點或高杠桿點不一定會影響回歸系數的估計,但如果既是特 異點又是高杠桿點如此很可能是一個影響回歸方程的“有害點。對特 異點、高杠桿點、強影響點診斷的指標有Pearso做差、Deviance殘差、杠桿度統(tǒng)計量 Hhat matrix diagnosis;、Cook距離、DFBETA、Score 檢驗統(tǒng)計量等。這五個指標中,Pears
10、o做差、Deviance殘差可用來檢查 特異點,如果某觀測值的殘差值2,如此可認為是一個特異點。杠桿度 統(tǒng)計量H可用來發(fā)現(xiàn)高杠桿點,H值大的樣品說明距離其他樣品較遠, 可認為是一個高杠桿點。Cook距離、DFBETA指標可用來度量特異點或 高杠桿點對回歸模型的影響程度。Cook距離是標準化殘差和杠桿度兩者 的合成指標,具值越大,明確所對應的觀測值的影響越大。DFBETA指標值反映了某個樣品被刪除后logistic回歸系數的變化,變化越大(即 DFBETA指標值越大),明確該觀測值的影響越大。如果模型中檢查出有 特異點、高杠桿點或強影響點,首先應根據專業(yè)知識、數據收集的情況, 分析其產生原因后酌
11、情處理。如來自測量或記錄錯誤,應剔除或校正, 否如此處置就必須持慎重態(tài)度,考慮是否采用新的模型,而不能只是簡 單地刪除就算完事。因為在許多場合,異常點的出現(xiàn)恰好是我們探測某 些事先不清楚的或許更為重要因素的線索。7、回歸系數符號反常與主要變量選不進方程的原因:存在多元共線性; 有重要影響的因素未包括在內; 某些變量個體間的差異很大; 樣本內突出點上數據誤差大;變量的變化X圍較??;樣本數太少。8、參數意義Logistic回歸中的常數項b0表示,在不接觸任何潛在危險/保護因素 條件下,效應指標發(fā)生與不發(fā)生事件的概率之比的對數值。Logistic回歸中的回歸系數bi表示,其它所有自變量固定不變,某一
12、 因素改變一個單位時,效應指標發(fā)生與不發(fā)生事件的概率之比的對數變 化值,即OR或RR的對數值。需要指出的是,回歸系數 B的大小并不反映變量對疾病發(fā)生的重要性,那么哪種因素對模型貢獻最大即與疾病 聯(lián)系最強呢?(InL(t-i)-InL(t)三種方法結果根本一致。 存在因素間交互作用時,Logistic回歸系數的解釋變得更為復雜,應特別 小心。 模型估計出OR,當發(fā)病率較低時,OR=RR,因此發(fā)病率高的疾病資料 不適合使用該模型。另外,Logistic模型不能利用隨訪研究中的時間信息, 不考慮發(fā)病時間上的差異,因而只適于隨訪期較短的資料,否如此隨著 隨訪期的延長,回歸系數變得不穩(wěn)定,標準誤增加。9
13、、統(tǒng)計軟件能夠進展logistic回歸分析的軟件非常多,常用的有SPSS SAS、Stata EGRET (Epidemiological Graphics Estimation and Testing Package 0二、logistic回歸模型的建立1、實際的例子:在一次住房展銷會上,與房地產商簽訂初步購房意向書的 共有n=313名顧客。在隨后的3個月的時間內,只有局部顧客確實購置了房屋。 購置房屋的顧客記為1,沒有購置房屋的顧客記為00以顧客的年家庭收入萬 元為自變量x,對表1中的數據建立Logistic回歸模型。廳P年家庭收 入萬元x簽i意同 書人數ni實際購房 人數mi實際購房 比
14、例pi mi /ni邏輯變換陪)權重Wi nR(1 r)1258232 1335826452225432063922728168211291510表12、模型的建立:Logistic 回歸方程: piexp(-0iXi) , i=1,2,.,c11 exp( 0iXi)1式中c為分組數據的組數。本例中,c=9。將以上回歸方程做線性變換,令 Pi ln(4一)21 Pi式2的變換稱為邏輯變換,變換后的線性回歸模型為:p'i兇i 3式3是一個普通的一元線性回歸模型。式3沒有給出誤差項的形式,我們 認為其誤差項的形式就是做線性變換所需要的形式。對表1中的數據,算出經驗回歸方程為:p 0.88
15、6 0.156x,4判別系數r2 0.9243 ,顯著性檢驗P值0,高度顯著。將式4復原為式1 '的Logistic回歸方程為:p 的 二86 口15%1 exp( 0.886 0.156x)三、運用模型進展預測 利用式5可以對購房比例做預測,例如X0 8 ,如此有=0.590oexp( 0.886 0.156x)1 exp( 0.886 0.156x)四、結果的實際意義這明確在住房展銷會上與房地產商簽訂初步購房意向書的年收入 8萬元家 庭中,預計實際購房比例為 59%或者說,一個簽訂初步購房意向書的年收入 8 萬元的家庭,其購房概率為59%.五、模型的擬合效果分析我們用Logisti
16、c回歸模型成功地擬合了因變量為定性變量的回歸模型,但是仍然存在一個不足之處,即異方差性并沒有解決。式3的回歸模型不是等方差的,應該對式3,用加權最小二乘估計。當n較大,p'的近似方差為:D(p') -16,其中 i E(yJ,因而選取權數:W np(1 p),7 ni i(1 i)對例題重新用加權最小二乘做估計。利用SPSS軟件操作,點選分析 回歸線 性回歸,因變量:邏輯變換;自變量:年家庭收入; WLS權重:權重W。得到 結果如下:模型匯總b,c模型RR方調整R方標準估計的誤 差Durbin-Watson1.939a.881.864a.預測變量:(常量),邏輯變換。b.因變量
17、:年家庭收入xc.加權的最小二乘回歸-按權重w進展加權Anova b,c模型平方和df均方FSig.1回歸1.000a殘差7總計8a.預測變量:(常量),邏輯變換。b.因變量:年家庭收入xc.加權的最小二乘回歸-按權重w進展加權系數a模型非標準化系數標準系數tSig.B標準誤差試用版1(常量).102.000家庭年收入.156.017.961.000a.因變量:邏輯變換系數a,b模型非標準化系數標準系數tSig.B標準誤差試用版1(常量).114.000家庭年收入.149.021.939.000a.因變量:邏輯變換b.加權的最小二乘回歸-按權重進展加權用加權最小二乘法得到的Logistic回歸方程為:Piexp( 0.849 0.149x) ,81 exp( 0.849 0.149x)利用8式可以對x0 8時的購房比例做預測,有:Piexp( 0.849 0.149x) =0.585,所以,年收入8萬元的家庭預計實際購房比
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年貴州省黔東南苗族侗族自治州單招職業(yè)傾向性考試題庫完整版
- 2025年大慶職業(yè)學院單招職業(yè)適應性考試題庫附答案
- 2025年廣州鐵路職業(yè)技術學院單招職業(yè)技能考試題庫及參考答案
- 2025年常州機電職業(yè)技術學院單招職業(yè)適應性考試題庫及完整答案1套
- 2025年福建體育職業(yè)技術學院單招職業(yè)適應性考試題庫完整
- 2025年博爾塔拉職業(yè)技術學院單招綜合素質考試題庫必考題
- 2025年大理護理職業(yè)學院單招職業(yè)技能測試題庫及完整答案一套
- 2025年德陽城市軌道交通職業(yè)學院單招職業(yè)適應性考試題庫及答案參考
- 大數據處理服務合同:企業(yè)數據共享與保護新策略
- 2025年原料及商品采購合同
- 口腔診所器材清單
- 急診與災難醫(yī)學第二版配套課件 02 急性發(fā)熱
- 部編版四年級道德與法治下冊4《買東西的學問》第1課時課件
- 綠化養(yǎng)護作業(yè)人員培訓方案、綠化養(yǎng)護應急預案
- 外研版英語(新標準)八年級下冊教案(全冊)
- 教師聽課評分表
- 公路工程竣工驗收鑒定書
- 項目章程模板范文
- 耳尖放血療法治療高血壓病技術
- 泰山產業(yè)領軍人才工程系統(tǒng)
- 輪扣架支模體系材料量計算
評論
0/150
提交評論