logistic回歸、probit回歸與poission回歸_第1頁
logistic回歸、probit回歸與poission回歸_第2頁
logistic回歸、probit回歸與poission回歸_第3頁
logistic回歸、probit回歸與poission回歸_第4頁
logistic回歸、probit回歸與poission回歸_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 Logistic回歸回歸(因變量為二分變量(因變量為二分變量/二項分布)二項分布) probit回歸回歸 Poisson (因變量為(因變量為poisson分布)分布)第三章:橫截面數(shù)據(jù):因變量為分類變量及因第三章:橫截面數(shù)據(jù):因變量為分類變量及因變量為頻數(shù)(計數(shù))變量的情況變量為頻數(shù)(計數(shù))變量的情況 Logistic回歸回歸(因變量為二分變量(因變量為二分變量/二項分布)二項分布) probit回歸回歸 Poisson (因變量為(因變量為poisson分布)分布)第三章:橫截面數(shù)據(jù):因變量為分類變量及因第三章:橫截面數(shù)據(jù):因變量為分類變量及因變量為頻數(shù)(計數(shù))變量的情況變量為頻數(shù)(計數(shù)

2、)變量的情況概念 logistic回歸是研究因變量為二分類或多分類觀察結(jié)果與影響因素(自變量)之間關(guān)系的一種多變量分析方法,屬概率型非線性回歸。 最常用的是二值型二值型logistic ,即因變量的取值只包含兩個類別 例如:好、壞 ;發(fā)生、不發(fā)生;常用Y=1或Y=0表示。 自變量X稱為危險因素或暴露因素,可為連續(xù)變量、等級變量、分類變量,可有m個自變量X1, X2, Xm 。P表示Y=1的概率,是其他變量的一個函數(shù)。 【p(Y=1|X)表示在X的條件下Y=1的概率】 logistic回歸的數(shù)學表達式為: ln1TpXplogistic回歸的分類:(1)二分類資料logistic回歸: 因變量為

3、兩分類變量的資料,可用非條件logistic回歸和條件logistic回歸進行分析。非條件logistic回歸多用于非配比病例-對照研究或隊列研究資料,條件logistic回歸多用于配對或配比資料。(2)多分類資料logistic回歸: 因變量為多項分類的資料,可用多項分類logistic回歸模型或有序分類logistic回歸模型進行分析。 也可以分為也可以分為logistic回歸和條件回歸和條件logistic回歸回歸令因變量兩個水平對應(yīng)的值為0、1,概率為1-p、p,則顯然我們也可以用多重回歸進行分析?為什么要用logistic回歸分析?logistic回歸回歸系數(shù)、模型評估、參數(shù)估計、假

4、設(shè)檢驗等與之前的回歸分析有何不同?因變量為二分變量時既可以用logistics回歸也可以用probit回歸,那么probit回歸及其與logistic回歸的異同之處問題問題問題1:00(1)1xxeP ye)未發(fā)病、無效、存活等出現(xiàn)陰性結(jié)果發(fā)病、有效、死亡等)出現(xiàn)陽性結(jié)果( 0( 1Yp(y=1)表示某暴露因素狀態(tài)下,結(jié)果y=1的概率(P)模型。01(1)1exp ()p yx或或模型描述了應(yīng)變量模型描述了應(yīng)變量p與與x的關(guān)系的關(guān)系P概率概率10.5Z值值0123-1-2-3 圖圖1 Logistic回歸函數(shù)的幾何圖形回歸函數(shù)的幾何圖形)(exp11) 1(0 xypxz10線性回歸在處理有上

5、限和下限的因變量時面臨著線性回歸在處理有上限和下限的因變量時面臨著一個問題:一個問題:X上同樣的變化對上同樣的變化對Y產(chǎn)生的影響不同,產(chǎn)生的影響不同,由圖由圖1也可以直觀的看出這里并不適合進行線性也可以直觀的看出這里并不適合進行線性回歸。回歸。雖然有很多非線性的函數(shù)可以呈現(xiàn)雖然有很多非線性的函數(shù)可以呈現(xiàn)S形,但由于形,但由于Logit轉(zhuǎn)化比較簡易,所以更受歡迎。轉(zhuǎn)化比較簡易,所以更受歡迎。Logit與概率不同,它沒有上下限。比數(shù)去除了概率的上限,比與概率不同,它沒有上下限。比數(shù)去除了概率的上限,比數(shù)的對數(shù)去除了概率的下限;且是以數(shù)的對數(shù)去除了概率的下限;且是以0,5為中點對稱的,概率大為中點對

6、稱的,概率大于于0.5產(chǎn)生正的產(chǎn)生正的logit,logit距離距離0的距離反映了概率距離的距離反映了概率距離0.5的距離;的距離;概率上相同的改變與在概率上相同的改變與在logits上產(chǎn)生的改變是不同的,上產(chǎn)生的改變是不同的,logit轉(zhuǎn)化轉(zhuǎn)化拉直了拉直了X與最初的概率之間的非線性關(guān)系。與最初的概率之間的非線性關(guān)系。回歸系數(shù)的意義:回歸系數(shù)的意義: Logistic回歸中的回歸系數(shù)回歸中的回歸系數(shù) 表示,某一因表示,某一因素改變一個單位時,效應(yīng)指標發(fā)生與不發(fā)生事素改變一個單位時,效應(yīng)指標發(fā)生與不發(fā)生事件的概率之比的對數(shù)變化值,即件的概率之比的對數(shù)變化值,即OR的對數(shù)值。的對數(shù)值。 Logis

7、tic回歸中的常數(shù)項回歸中的常數(shù)項 表示,在不接觸任表示,在不接觸任何潛在危險保護因素條件下,效應(yīng)指標發(fā)生何潛在危險保護因素條件下,效應(yīng)指標發(fā)生與不發(fā)生事件的概率之比的對數(shù)值。與不發(fā)生事件的概率之比的對數(shù)值。i0單純從數(shù)學上講,與多元線單純從數(shù)學上講,與多元線性回歸分析中回歸系數(shù)的解性回歸分析中回歸系數(shù)的解釋并無不同。釋并無不同。問題問題2: 模型評估 (1)osmer-Lemeshowz指標 HL統(tǒng)計量的原假設(shè)Ho是預(yù)測值和觀測值之間無顯著差異,因此HL指標的P-Value的值越大,越不能拒絕原假設(shè),即說明模型很好的擬合了數(shù)據(jù)。(2)AIC和SC指標 即池雷準則和施瓦茨準則 與線性回歸類似A

8、IC和SC越小說明模型擬合的越好(3)似然比卡方出 從整體上看解釋變量對因變量有無解釋作用相當于多元回歸中的F檢驗 在logistic回歸中可以通過似然比(likelihood ratio test)進行檢驗(4)RSQUARE( R2 )和C統(tǒng)計量 解釋變量解釋在多大程度上解釋了因變量與線性回歸中的R2作用類似 在logistic回歸中可以通過R2和統(tǒng)計量進行度量統(tǒng)計量統(tǒng)計量 趨勢趨勢 擬合擬合 作用作用 備注備注 AIC 、SC 越小越小 越好越好 類似于多元回歸中的殘差平方和類似于多元回歸中的殘差平方和 似然比卡方似然比卡方 越大越大 越好越好 類似于多元回歸中的回歸平方和類似于多元回歸

9、中的回歸平方和 P值越小越好值越小越好RSQUARE 越大越大 越好越好 類似于多元回歸中的類似于多元回歸中的統(tǒng)計量統(tǒng)計量 越大越大 越好度量觀測值和條件預(yù)測的相對一致性越好度量觀測值和條件預(yù)測的相對一致性 統(tǒng)計量越小越好度量觀測值和預(yù)測值總體的一致性統(tǒng)計量越小越好度量觀測值和預(yù)測值總體的一致性 P值越大越好值越大越好說明:說明: 在實踐中,對以上統(tǒng)計量最為關(guān)注的是C統(tǒng)計量,其次是似然比卡方,最后才是統(tǒng)計量。AIC和SQUARE極少關(guān)注,這一點和多元線性回歸有很大的區(qū)別。根本原因就是多元線性回歸模型是一個預(yù)測模型,目標變量的值具有實際意義;而logistic是一個分類模型,目標變量只是一個分類

10、標識,因此更關(guān)注預(yù)測值和預(yù)測值之間的相對一致性而不是絕對一致性。參數(shù)估計參數(shù)估計 除此以外,除此以外,logistic回歸還可以用優(yōu)勢比估計:回歸還可以用優(yōu)勢比估計:案例:案例:在logistic過程步中加“descending”選項的目的是使SAS過程按陽性率(y=1)擬合模型,得到陽性病例對應(yīng)于陰性病例的優(yōu)勢比。 觀觀察察例例數(shù)數(shù)OR值OR的95%CI對偏回歸系數(shù)的假設(shè)檢驗logisticlogistic回歸模型的假設(shè)檢驗回歸模型的假設(shè)檢驗 3.比分檢驗(比分檢驗(score test) 以未包含某個或幾個變量的模型為基礎(chǔ),保留模型中參數(shù)的估計值,并假設(shè)新增加的參數(shù)為零,計算似然函數(shù)的一價

11、偏導(dǎo)數(shù)(又稱有效比分)及信息距陣,兩者相乘便得比分檢驗的統(tǒng)計量S 。樣本量較大時, S近似服從自由度為待檢驗因素個數(shù)的分布。上述三種方法中,似然比檢驗(與之前的類似)上述三種方法中,似然比檢驗(與之前的類似)最可靠,比分檢驗(最可靠,比分檢驗(logistic回歸模型特有)一回歸模型特有)一般與它相一致,但兩者均要求較大的計算量;而般與它相一致,但兩者均要求較大的計算量;而Wald檢驗(相當于廣義的檢驗(相當于廣義的t檢驗)未考慮各因素檢驗)未考慮各因素間的綜合作用,在因素間有共線性時結(jié)果不如其間的綜合作用,在因素間有共線性時結(jié)果不如其它兩者可靠。它兩者可靠。概率概率p值均小值均小于于0.05

12、,說明,說明方程有意義。方程有意義。對所擬合模型的假設(shè)檢驗:對所擬合模型的假設(shè)檢驗:變量篩選變量篩選 例例 某工作者在探討腎細胞癌轉(zhuǎn)移的有關(guān)臨床病理因素研究中,收集了一批行根治性腎切除術(shù)患者的腎癌標本資料,現(xiàn)從中抽取26例。試用logistic回歸分析篩選出于癌細胞轉(zhuǎn)移有關(guān)的危險因素(變量選入和剔除水平均為0.10)。 用逐步回用逐步回歸法擬合歸法擬合模型模型,變量變量選入和剔選入和剔除水平均除水平均為為0.10 指定選項“des”是為了按照y=1(有轉(zhuǎn)移)的概率擬合模型。如果不加此選擇項,則軟件會按照y=0(無轉(zhuǎn)移)的概率擬合模型,此時,應(yīng)變量的排序水平發(fā)生顛倒,且所有參數(shù)估計的符號相反,O

13、R值為原來的倒數(shù)。 logistic逐步回歸分析篩選出兩個有統(tǒng)計學意義的變量為x2和x4,回歸系數(shù)分別為2.4134和2.0963,比數(shù)比分別為11.172和8.136。結(jié)果中還給出了標準化偏回歸系數(shù),腎癌細胞核組織學分級(x4)在引起癌細胞轉(zhuǎn)移中的危險性大于腎細胞癌血管內(nèi)皮生長因子(x2)。 條件Logistic回歸對配對對配對/比調(diào)查資料,應(yīng)該用條件比調(diào)查資料,應(yīng)該用條件Logistic回歸分析。回歸分析。對于配比資料,第對于配比資料,第i個配比組可以建立一個個配比組可以建立一個Logistic回歸:回歸:假設(shè)自變量在各配比組中對結(jié)果變量的作用是相假設(shè)自變量在各配比組中對結(jié)果變量的作用是相

14、同的,即自變量的回歸系數(shù)與配比組無關(guān)。同的,即自變量的回歸系數(shù)與配比組無關(guān)。配比設(shè)計的配比設(shè)計的Logistic回歸模型回歸模型其中不含常數(shù)項。其中不含常數(shù)項。i1 122logit P=bkkb xb xb x1 122logit P=bkkxb xb x 可以看出此回歸模型與非條件可以看出此回歸模型與非條件Logistic回歸模型十分相似,只不過這里的參回歸模型十分相似,只不過這里的參數(shù)估計是根據(jù)條件概率得到的,因此數(shù)估計是根據(jù)條件概率得到的,因此稱為條件稱為條件Logistic回歸模型。回歸模型。 條件條件Logistic回歸的回歸系數(shù)檢驗與分回歸的回歸系數(shù)檢驗與分析,和非條件析,和非條

15、件Logistic回歸完全相同。回歸完全相同。 1.1.疾?。辰Y(jié)果)的危險因素分析和篩選疾病(某結(jié)果)的危險因素分析和篩選 用回歸模型中的回歸系數(shù)(用回歸模型中的回歸系數(shù)(i i)和)和OROR說明說明危險因素與疾病的關(guān)系。危險因素與疾病的關(guān)系。適用的資料:適用的資料: 前瞻性研究設(shè)計、病例對照研究設(shè)計、前瞻性研究設(shè)計、病例對照研究設(shè)計、 橫斷面研究設(shè)計的資料。橫斷面研究設(shè)計的資料。三類研究計算的三類研究計算的logistic logistic 回歸模型的回歸模型的 意義是一致。僅常意義是一致。僅常數(shù)項不同。(證明略)數(shù)項不同。(證明略)logisticlogistic回歸的應(yīng)用回歸的應(yīng)用2

16、.校正混雜因素,對療效做評價校正混雜因素,對療效做評價 在臨床研究和療效的評價,組間某些因素構(gòu)在臨床研究和療效的評價,組間某些因素構(gòu)成不一致干擾療效分析,通過該法可控制非處成不一致干擾療效分析,通過該法可控制非處理因素,正確評價療效。理因素,正確評價療效。3.預(yù)測與判別預(yù)測與判別 預(yù)測個體在某因素存在條件下,發(fā)生某事件預(yù)測個體在某因素存在條件下,發(fā)生某事件(發(fā)病)的概率,為進一步治療提供依據(jù)。(發(fā)病)的概率,為進一步治療提供依據(jù)。問題問題3 3 如同logistic回歸,probit分析依賴于將二分因變量上的回歸轉(zhuǎn)化成連續(xù)因變量上的回歸。給定經(jīng)歷某事件或者具有某特點的概率,預(yù)測的probit變

17、成了一個由一個或者多個自變量所決定的線性方程的因變量:Z代表了利用累積標準正態(tài)分布將概率轉(zhuǎn)為z分數(shù)的非線性轉(zhuǎn)化。通過用一個線性方程來預(yù)測z分數(shù),probit分析暗含了一個與概率的非線性關(guān)系,與曲線的極限比,因變量在接近曲線中點時對概率有更大的影響。i01*iZbbX 在在logistic回歸中我們可以利用簡單的公式來總結(jié)將概率變成比數(shù)對數(shù)回歸中我們可以利用簡單的公式來總結(jié)將概率變成比數(shù)對數(shù)的轉(zhuǎn)化以及比數(shù)對數(shù)變成概率的轉(zhuǎn)化。對于的轉(zhuǎn)化以及比數(shù)對數(shù)變成概率的轉(zhuǎn)化。對于probit分析,標準正態(tài)分布曲分析,標準正態(tài)分布曲線的復(fù)雜公式讓這一切難度更大(盡管用計算機可以很容易得到)。線的復(fù)雜公式讓這一切

18、難度更大(盡管用計算機可以很容易得到)。 除了除了logit與與probit轉(zhuǎn)化當中的一些相似性,它們兩個所得出的系數(shù)會轉(zhuǎn)化當中的一些相似性,它們兩個所得出的系數(shù)會有一個隨意的常數(shù)(約有一個隨意的常數(shù)(約1.8)的區(qū)別。(由于軟件程序中)的區(qū)別。(由于軟件程序中probit分析將誤分析將誤差項的標準差定為差項的標準差定為1,而,而logistic分析將誤差項的標準差大約定為分析將誤差項的標準差大約定為1.814)logitic系數(shù)大約是系數(shù)大約是probit系數(shù)的系數(shù)的1.8倍,將倍,將logistic系數(shù)除以這個值可以讓系數(shù)除以這個值可以讓二者的單位具有可比性,但是由于二者的單位具有可比性,

19、但是由于logistic和正態(tài)曲線不同,所以和正態(tài)曲線不同,所以logitic系數(shù)和系數(shù)和probit系數(shù)依然會有小小的不同。但是基本上,系數(shù)依然會有小小的不同。但是基本上, logistic分析和分析和probit分析得出的結(jié)果在本質(zhì)上都是相似的。分析得出的結(jié)果在本質(zhì)上都是相似的。 與與logistic回歸一樣,回歸一樣, probit分析也利用最大似然估計進行參數(shù)估計,分析也利用最大似然估計進行參數(shù)估計,且估計過程與且估計過程與logistic回歸一模一樣。但與回歸一模一樣。但與logistic 回歸不同的是,這里回歸不同的是,這里使用的是累積標準正態(tài)分布所以不能從自變量和估計參數(shù)得到因變

20、量的使用的是累積標準正態(tài)分布所以不能從自變量和估計參數(shù)得到因變量的p值。且為了計算更簡單一些,程序是讓似然數(shù)的自然對數(shù)取最大值而非讓值。且為了計算更簡單一些,程序是讓似然數(shù)的自然對數(shù)取最大值而非讓似然函數(shù)取最大值。似然函數(shù)取最大值。 系數(shù)含義及對整個模型的評估和檢驗與系數(shù)含義及對整個模型的評估和檢驗與logistic回歸的內(nèi)容大同小異回歸的內(nèi)容大同小異probit分析與分析與logistic回歸只是因變量的回歸只是因變量的轉(zhuǎn)化方式不同以及因此產(chǎn)生的細小差異轉(zhuǎn)化方式不同以及因此產(chǎn)生的細小差異 Logistic回歸回歸(因變量為二分變量(因變量為二分變量/二項分布)二項分布) probit回歸回歸

21、 Poisson (因變量為(因變量為poisson分布)分布)第三章:橫截面數(shù)據(jù):因變量為分類變量及因第三章:橫截面數(shù)據(jù):因變量為分類變量及因變量為頻數(shù)(計數(shù))變量的情況變量為頻數(shù)(計數(shù))變量的情況概念 Poisson回歸: 用來為技術(shù)資料和列聯(lián)表建模的一種回歸分析。泊松回歸假設(shè)反應(yīng)變量Y是Poisson分布,并假設(shè)它期望值的對數(shù)可被未知參數(shù)的線性組合建模。 Poisson回歸模型有時(特別是當用作列聯(lián)表模型時)又被稱作對數(shù)-線性模型。 ekkyPk!)(分類數(shù)據(jù)表現(xiàn)為離散的計數(shù),服從分類數(shù)據(jù)表現(xiàn)為離散的計數(shù),服從Poisson分布分布因變量Y服從Poisson分布,期望值為 ( Poiss

22、on分布變量的方差也是 )如果有一個解釋變量x,可以寫出如下回歸模型:這里g是一個連接函數(shù)(link function),通常取log函數(shù),因此得到對數(shù)線性模型可寫成:01( )gx01 1log( )x01 1xe Poisson回歸模型是描述服從Poisson分布的目標變量y的均數(shù) 與協(xié)變量 關(guān)系的回歸模型。 對數(shù)線性模型 解釋變量xi增加一個單位, 增加ymxx ,.,1nnxxg.)(110nnxx.)log(110nnxxe.110ie 單位率的模型可寫作 N稱作偏移(offset), log(N)被用做偏移量;當所有協(xié)變量都無作用時, 等于NnnxxN.)log(11001 1.n

23、 nxxNe 01 1log( )log( ).n nNxxPoisson分布下模型的似然函數(shù) 對于低發(fā)生(?。┞实拈_放性隊列研究資料,由于di服從Poisson分布,其概率函數(shù)為: 其中di是隨機變量,可取值為di=1,2, 其期望發(fā)生數(shù)i=nihi( )?;貧w模型的似然函數(shù)為Poisson分布條件下各個格子概率函數(shù)的總概率(積)。 L()=!idiidepii!)()(11ihndiiniinidehnpiii,iX參數(shù)估計 兩側(cè)取對數(shù),回歸模型的對數(shù)似然函數(shù)為: lnL()= 對數(shù)似然函數(shù)中的未知參數(shù)可以用迭代 重復(fù)加權(quán)最小二乘法(簡稱IRLS法)估計, 它與通常的極大似然估計結(jié)果一致。 也可用極大似然估計法 ),(_),(ln(iiiiiiXhnXhnd模型擬合度與參數(shù)檢驗偏差統(tǒng)計量偏差統(tǒng)計量 P o i s s o n 回 歸 模 型 擬 合 好 壞 用 偏 差 統(tǒng) 計 量(deviance)表示,偏差統(tǒng)計量實際上是對數(shù)似然比統(tǒng)計量,它是飽和模型(saturated model)和擬合模型對數(shù)似然值差的兩倍,其在Poisson分布條件下的計算公式為:2=2 (ln() ()iiiiidGdd參數(shù)檢驗 參數(shù)檢驗可通過兩個包含不同參數(shù)個數(shù)模型的偏差統(tǒng)計量G2的差(G2)和自由度的差(df)來實現(xiàn),當G2時,P0.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論