版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
28.二元Logsic回歸二元或多元線性回歸的因變量連續(xù)型變量量是分類變量(例如:患病與不患病;不重要、重要、非常重要,就需要用Lgic回歸。Lgic回歸分析可以從統(tǒng)計(jì)意義上估計(jì)出在其它自變量固定不變的情況下,每個自變量對因變量取某個值的概率的數(shù)值影響大小。Lgic回歸模型有“條件”與“非條件”之分,前者適用于配對病例對照資料的分析,后者適用于隊(duì)列研究或非配對的病例-對照研究成組資料的分析。對于二因變量,y=1表示事件發(fā)生;y=0表示事件不發(fā)生。事件發(fā)條件概率P{y1|xi}與xi之間是非線性關(guān)系通常是單調(diào)的,即隨著xi的增加/減少,P{=1|xi}也增加/減少。?Lgic函數(shù)F(x)= 1 ,圖形如下圖所示:?1+??該函數(shù)值域在(0,1)之間x于-F(x)趨于0x于+F(x)趨于1.正好合描述概率P{=1|xi}.例如某因素x導(dǎo)致患病與否:x在某一水平段內(nèi)變化時,對患病概率的影響較大;在x較低或較高時對患病概率影響都不大。記事件發(fā)生的條件概率P{=1|xi}=pi,則p= 1?i?1+?(激+β?)?i?記事件不發(fā)生的條件概率為
=?激+β????1+???1-pi=
1??1+激+β???則在條件xi下,事件發(fā)生概率與事發(fā)生概率之比為??? =?激+β???1???稱為事件的發(fā)生比,簡記為odds.對odds取自然對數(shù)得到???ln(1???)= 激β????式左邊(對數(shù)發(fā)生比)記為Logiy),稱為y的Logit變換??梢娮儞Q之的Logit(y)用線性回歸,計(jì)算出回歸系數(shù)α和β值。若分類因變量y與多個自變量xi有關(guān),則變換后Logit(y可由多p元線性回歸:p(p)(p1)11
xkk1e或 p(y1|x1e
,x) 1k (x11
x)kk一、簡單的二元Logistic回歸出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比,稱為優(yōu)勢比OR.問題1系有數(shù)據(jù)文件:因變量w:是否“低體重出生兒(0正常,1=低體重;自變量e:是否吸煙(0=,1=吸煙)【分析回元Logi打“Logc回歸”“l(fā)w“e變;點(diǎn)【確定,得到因變量編碼初始值 內(nèi)部值正常 0低出生體重 10起始塊分類表a,b已觀測 已預(yù)測低出生體重兒 百分比校正正常 低出生體重正常低出生體重兒步驟0 低出生體重
130 0 100.059 0 .0總計(jì)百分比 68.8a模型中包括常量。b切割值為.500若模型只含常數(shù)項(xiàng),預(yù)測正確率為68.8%(=13089;方程中的變量B S.E, Wals df Sig. Exp(B)步驟0常量 -.790 .157 25.327 1 .000 .454B=-0.79為模型常數(shù)項(xiàng)估計(jì)值,S.E為的標(biāo)準(zhǔn)誤;Wals為Wald卡方檢驗(yàn),原假設(shè)H0:回歸系數(shù)=0;不在方程中的變量得分 df Sig.變量 smoke步驟0總統(tǒng)計(jì)量
4.924 1 .0264.924 1 .026引入變量后的得分,以及該變量的回歸系數(shù)是否為0的檢驗(yàn),原假設(shè)H0:回歸系數(shù)0)1方法輸入模型系數(shù)的綜合檢驗(yàn)卡方 df Sig.步驟 4.867 1 .027步驟1塊 4.867 1 .027模型 4.867 1 .027之差,檢驗(yàn)兩個模型有無差異,設(shè)H0:無差異。a模型匯總a步驟 -對數(shù)似然值 Cox&S方ellNRgelkrkeR1 229.805 .025 .036a因?yàn)閰?shù)估計(jì)的更改范圍小于.以估計(jì)在迭代次數(shù)處終止。當(dāng)前模型的對數(shù)似然比值=229.805,兩個R方從不同角度反映了當(dāng)前模型自解釋因變量的變異占因總變異的比例。分類表a已觀測 已預(yù)測低出生體重兒 百分比校正正常 低出生體重正常低出生體重兒步驟1 低出生體重
130 0 100.059 0 .0總計(jì)百分比 68.8a切割值為.500值>0.5測正確率仍為68.8%a方程中的變量aB S.E, Wals df Sig. Exp(B)smoke .704步驟1常量 -1.087
.320 4.852 1.215 25.627 1
.028 2.022.000 .337a在步驟中輸入的變量:smoke.自變量的偏回歸系數(shù)及標(biāo)準(zhǔn)誤、Wald卡方、自由度、、OR值Exp(B).從而得Logistic回歸模型:Logit(P)=-107.0*ke模型結(jié)果解釋:產(chǎn)婦在妊娠期間是否吸煙*低出生體重兒交叉制表低出生體重兒 合計(jì)正常 低出生體重不吸煙產(chǎn)婦在妊娠期間是否吸煙吸煙
計(jì)數(shù)產(chǎn)婦在妊娠期間是否吸煙中的%計(jì)數(shù)產(chǎn)婦在妊娠期間是否吸煙中的%
86 29 11574.8% 25.2%100.0%44 30 7459.5% 40.5%100.0%計(jì)數(shù)合計(jì)產(chǎn)婦在妊娠期間是否吸煙中的%
130 59 18968.8% 31.2%100.0%常數(shù)項(xiàng):為自變量都取0時,優(yōu)勢比(P{Y=1}/P{Y=0})的自然對數(shù)值,即不吸煙組的低體重兒概率與正率之比的對數(shù)值:β0=ln[25.%(125.2%)]=ln(29/86)=1.087即exp(β0)表示不吸煙組的低體重兒概率與正常兒概率之比?;貧w系數(shù)βi表示自變量xi數(shù)值的改變量(βi比OR值表示自變量i每改變一個單位,陽性結(jié)果出現(xiàn)的概率與不出現(xiàn)的概率的比值是改變前相應(yīng)比值的βi)倍。例如,本例中β1=l[(30/4)/29/86)]=0.704相應(yīng)的OR值=exp(0.704)=2.02,表示吸煙狀況增加一個單位不吸煙改為吸煙時“吸煙組的低體重兒概率兒概率之比不吸煙組的低體重兒概率與正常兒概率之比”的2.02倍。注意:OR值反映的不是結(jié)果出現(xiàn)概率的變化倍對危險(xiǎn)度RR。二、將多分類自變量設(shè)置為啞變量對于問題,若將自變量e種族1=2=黑人、3=其的13并不表示種族之間的次序關(guān)系,即說“該自變量每增加1個單位”是錯誤的。此時,就需要將其設(shè)置為啞變量(只代表若干級別間的差異,這樣的回歸結(jié)果才有明確合理義有n個水平值的分類自變量xi默認(rèn)生成n-1個啞變量:x(1,,xi(n-1).本例中,對變量“race”有3個水平值,race(1)=“是否為白人:1=是,0=”;race(2)=“是否為黑人:1=是,0=”(race(1)race(2)都取0.黑人、其它種族分別編碼如下:分類變量編碼頻率 參數(shù)編碼(1) (2)白人 96 1.000 .000種族 黑人 26 .000 1.000其他種族 67 .000 .000“Logitc回歸窗口e【協(xié)變量框【分類,打開“定義分類變量”子窗口,將變量“rae”選入【分類協(xié)變量】框,點(diǎn)【繼續(xù);注【對比】框,可選對比方式:①指示指定某一分類水平作為參照可選第一或最后一個水平值;②簡單:可計(jì)算該分類變量的各水平與平相比的i值;③差值用于有類變量分類變量某個水平前面的所有水平平均值進(jìn)行比較;④Helmert:與“差值”相反,用于有序分類變量,分類變量某個水平與其后面的所有水平平均值進(jìn)行比較;⑤重復(fù)類變量的各水平前面相鄰的水平較;⑥多項(xiàng)式用于數(shù)值型類變量水平值和logitP間可能是出檢驗(yàn)結(jié)果(原假設(shè)H0:各水平是等距離的;⑦偏差除所的參照水平余每個水平均與總體水平相比此時每個水平的回歸系數(shù)都是相對于總體水平而言的改變參照水平可以用其它水平回歸系數(shù)計(jì)算。注:這里的方式選擇與【方差分析】的“t”選擇是相同的。下面以e”為例計(jì)算出的各種方式的轉(zhuǎn)化關(guān)系如下:注意(1)參照水平最好有實(shí)際意義,否則就失去比較的目標(biāo),證于30或50;(2)對有序自變量,若從專業(yè)來看:不同等級對因變量的影響以啞變量和連續(xù)型變量方式引入觀察各啞變量的系數(shù)間是歐服存在等級關(guān)系以及對兩個模型進(jìn)行似然比統(tǒng)學(xué)意義,且各啞變量的數(shù)間存在等級關(guān)系可以將該自變量作續(xù)型變量,否則最好是用啞變量方式,引入模型。三、自變量的篩選與逐步回歸回歸模型應(yīng)該盡量引入對因變量有影響作用的變量將沒有影響或影響較小的變量排除。用到的假設(shè)檢驗(yàn)方法有s檢驗(yàn)(最差,未考慮各因素的綜合作用檢驗(yàn)(最常用于篩,一般與似然比果一致。SPS提供了6種篩選變量的方(選入自變量時均采用比分檢驗(yàn),剔除自變量的標(biāo)準(zhǔn)不同:向前(條件、向前(LR、向前(d、向后(條件、向后(LR、向后(。問題用逐步回歸法“低體重出生兒做二元Loistc分析。1.【分析】——【回歸】——【二元Logitc,打開“Loc“l(fā)ow“a,,,oe,,t,,v”選入【協(xié)變量】框;2.點(diǎn)【分類,打開“定義分類變量”子窗口,將變量“race”【分類協(xié)變量框“指示符,點(diǎn)【更改,點(diǎn)【;.原窗【方法框選“向前LR表示向前似然比確定】得到因變量編碼初始值 內(nèi)部值正常 0低出生體重 1分類變量編碼頻率 參數(shù)編碼(1) (2)白人 96 .000 .000種族 黑人 26 1.000 .000其他種族 67 .000 1.0000起始塊(模型,只有常數(shù)項(xiàng))分類表a,b已觀測 已預(yù)測低出生體重兒 百分比校正正常 低出生體重正常低出生體重兒步驟0 低出生體重
130 0 100.059 0 .0總計(jì)百分比 68.8a模型中包括常量。b切割值為.500方程中的變量B S.E, Wals df Sig. Exp(B)步驟0常量 -.790 .157 25.327 1 .000 .454不在方程中的變量得分 df Sig.age 2.407 1 .121lwt 4.616 1 .032race 5.005 2 .082race(1) 1.727 1 .189race(2) 1.797 1 .180變量步驟0 smoke 4.924 1 .026ptl 7.267 1 .007ht 4.388 1 .036ui 4.205 1 .040ftv .934 1 .334總統(tǒng)計(jì)量 29.140 9 .001所有變量的比分檢驗(yàn)結(jié)果,race產(chǎn)生2個啞變量,故自由度為2;變“tl妊娠前早產(chǎn)次數(shù)的最大為77其P=0.007<0.05,故下一步將它首先選入模型。1方法向前步進(jìn)(似然比)(模型)模型系數(shù)的綜合檢驗(yàn)卡方 df Sig.步驟 6.779 1 .009步驟1塊 6.779 1 .009模型 6.779 1 .009步驟 4.309 1 .038步驟2塊 11.089 2 .004模型 11.089 2 .004步驟 6.363 1 .012步驟3塊 17.452 3 .001模型 17.452 3 .001每一步引入變量后,整個模型中是否所有回歸系數(shù)均為0的似然比檢驗(yàn)表。abbabb步驟 -對數(shù)似然值 Cox&S方ellNRgelkrkeR1 227.893 .035 .0502 223.583 .057 .0803 217.220 .088 .124a因?yàn)閰?shù)估計(jì)的更改范圍小于b因?yàn)閰?shù)估計(jì)的更改范圍小于
.以估計(jì)在迭代次數(shù)處終止。.以估計(jì)在迭代次數(shù)處終止。每一步的-2log(L)值逐步減小,兩個R方逐步增大。分類表a已觀測 已預(yù)測低出生體重兒 百分比校正正常 低出生體重正常低出生體重兒步驟1 低出生體重
126 4 96.957 2 3.4總計(jì)百分比 67.7正常低出生體重兒步驟2 低出生體重
121 9 93.150 9 15.3總計(jì)百分比 68.8正常低出生體重兒步驟3 低出生體重
123 7 94.647 12 20.3總計(jì)百分比 71.4a切割值為.500每一步的分類結(jié)果表。abc方程中的abcB S.E, Wals df Sig. Exp(B)ptl .802步驟1常量 -.964
.317 6.391 1.175 30.370 1
.011 2.230.000 .381ptl .823 .318 6.683 1 .010 2.277步驟2 ht 1.272 .616 4.270 1常量 -1.062 .184 33.224 1lwt -.015 .007 5.584 1ptl .728 .327 4.961 1步驟3ht 1.789 .694 6.639 1
.039 3.569.000 .346.018 .985.026 2.071.010 5.986常量 .893 .829 1.158 1 .282 2.441a在步驟中輸入的變量:ptl.b在步驟中輸入的變量:ht.c在步驟中輸入的變量:lwt.逐步回歸每一步引入的自變量及其回歸系數(shù)的估計(jì)值、標(biāo)準(zhǔn)誤、Walds卡方、自由度、P值、OR.最終依次篩選出的變量是:pt妊娠前早產(chǎn)次,h高血壓),lwt(產(chǎn)婦體重)??梢缘玫絃ogistic回歸方程:Logit(P)=0.893+0.728*ptl+1.789*ht0.015*lwt如果移去項(xiàng)則建模變量 模型對數(shù)似然性 在-2數(shù)似然中的 df 更改的顯著性更改步驟1ptl -117.336 6.779 1 .009ptl -115.325 7.067 1 .008步驟2ht -113.946 4.309 1 .038lwt -111.792 6.363 1 .012步驟3ptl -111.231 5.242 1 .022ht -112.145 7.070 1 .008已選入模型的變量在后續(xù)步驟中是否需除出模型的似然比檢驗(yàn)結(jié)果表,根據(jù)值判斷都不剔除。不在方程中的變量得分 df Sig.age 3.149 1 .076lwt 3.340 1 .068race 5.359 2 .069race(1) 2.056 1 .152變量 race(2) 1.712 1 .191步驟1smoke 3.164 1 .075ht 4.722 1 .030ui 2.162 1 .141ftv .753 1 .385總統(tǒng)計(jì)量 22.858 8 .004age 3.108 1 .078lwt 5.830 1 .016race 4.882 2 .087race(1) 1.597 1 .206變量步驟2 race(2) 1.834 1 .176smoke 3.117 1 .078ui 3.010 1 .083ftv .520 1 .471總統(tǒng)計(jì)量 18.690 7 .009age 1.725 1 .189race 5.216 2 .07
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度木方模板產(chǎn)業(yè)鏈上下游整合服務(wù)合同4篇
- 2025年度航空航天器研發(fā)與制造合同12篇
- 2025年度長途物流車輛定點(diǎn)清洗保養(yǎng)合同4篇
- 2025年度環(huán)保設(shè)備安裝與污染物減排服務(wù)協(xié)議3篇
- 2025年度木地板原材采購與倉儲管理合同4篇
- 2025年度勞動合同解除補(bǔ)償協(xié)議及離職員工子女教育資助協(xié)議
- 2025年度足療店線上線下整合營銷轉(zhuǎn)讓合同
- 2025年度影視演員經(jīng)紀(jì)服務(wù)與勞動合同
- 二零二五版木工行業(yè)綠色生產(chǎn)標(biāo)準(zhǔn)合同4篇
- 二零二五年度運(yùn)輸合同延誤糾紛處理范本
- 《大學(xué)生職業(yè)發(fā)展與就業(yè)指導(dǎo)》課程標(biāo)準(zhǔn)
- 第23課《出師表》課件(共56張)
- GB/T 3953-2024電工圓銅線
- 發(fā)電機(jī)停電故障應(yīng)急預(yù)案
- 接電的施工方案
- 常用藥物作用及副作用課件
- 幼兒阿拉伯?dāng)?shù)字描紅(0-100)打印版
- 社會組織等級評估報(bào)告模板
- GB/T 12173-2008礦用一般型電氣設(shè)備
- 新媒體研究方法教學(xué)ppt課件(完整版)
- 2020新版?zhèn)€人征信報(bào)告模板
評論
0/150
提交評論