第6章邏輯斯蒂回歸模型.ppt

上傳人：門*** IP屬地：江西上傳時(shí)間：2020-10-07 格式：PPT 頁數(shù)：29 大?。?44.50KB 積分：18 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余24頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第六章邏輯斯蒂回歸,Logistic回歸模型,對(duì)列聯(lián)表的分析，獨(dú)立性檢驗(yàn)可以初步了解屬性之間是否相互獨(dú)立，或是否相關(guān)；通過列聯(lián)表的相合性檢驗(yàn)，可以進(jìn)一步知道屬性之間的相合情況，包括方向和程度； Logistic模型可以更進(jìn)一步擬合屬性變量之間的函數(shù)關(guān)系，以描述變量之間的相互影響。列聯(lián)表中的數(shù)據(jù)是以概率的形式把屬性變量聯(lián)系起來的，而概率p的取值在0與1之間，因此，要把概率與之間直接建立起函數(shù)關(guān)系是不合適的。即,Logistic回歸模型,實(shí)踐中，通常隨著連續(xù)增長(zhǎng)或連續(xù)下降，其直觀的曲線形態(tài)是S型。,一般有這種形狀的數(shù)學(xué)函數(shù) 有以下形式：稱作logistic回歸函數(shù)。把以上函數(shù)線性

2、化可以得到：,Logistic回歸模型,因此，人們通常把p的某個(gè)函數(shù)f(p)假設(shè)為變量的函數(shù)形式，取稱之為logit函數(shù)，也叫邏輯斯蒂變換。因此，邏輯斯蒂變換是取列聯(lián)表中優(yōu)勢(shì)的對(duì)數(shù)。當(dāng)概率在0-1取值時(shí)，Logit可以取任意實(shí)數(shù)，避免了線性概率模型的結(jié)構(gòu)缺陷。類似的處理還有probit變換和雙對(duì)數(shù)變換。其中probit變換是將概率變換為標(biāo)準(zhǔn)正態(tài)分布的值，形式為：,Logistic回歸模型,雙對(duì)數(shù)變換的形式為：以上變換中以logit變換應(yīng)最為廣泛。假設(shè)響應(yīng)變量Y是二分變量，令 ,影響Y的因素有k個(gè) ，則稱：為二分?jǐn)?shù)據(jù)的邏輯斯蒂回歸模型，簡(jiǎn)稱邏輯斯蒂回歸模型。其中的k個(gè)因素稱為邏輯

3、斯蒂回歸模型的協(xié)變量。,Logistic回歸模型,最重要的邏輯斯蒂回歸模型是logistic線性回歸模型，多元logit模型的形式為：其中，是待估參數(shù)。根據(jù)上式可以得到優(yōu)勢(shì)的值：可以看出，參數(shù) 是控制其它時(shí) 每增加一個(gè)單位對(duì)優(yōu)勢(shì)產(chǎn)生的乘積效應(yīng)。概率p的值：,Logistic回歸模型,最簡(jiǎn)單的logit線性模型為：則優(yōu)勢(shì)為：以上指數(shù)關(guān)系說明：每增加1個(gè)單位，優(yōu)勢(shì)變?yōu)樵瓉淼?倍；此時(shí)的概率應(yīng)為：,Logistic回歸模型,多元logistic模型參數(shù)的估計(jì) 采用極大似然估計(jì)方法假設(shè)n次觀測(cè)中，對(duì)應(yīng) 的觀測(cè)有個(gè)，其中觀測(cè)值為1的有個(gè)，觀測(cè)值為0的有個(gè)，則參數(shù) 的似然函數(shù)：

4、可以使用迭代法求出參數(shù)的ML估計(jì) 由于計(jì)算的復(fù)雜性，可以利用統(tǒng)計(jì)軟件得到。,Logistic回歸模型,【例6.1】一般認(rèn)為，體質(zhì)指數(shù)越大(BMI25)，表示某人越肥胖。根據(jù)3983人的體檢結(jié)果有388人肥胖，肥胖組中患心血管病的數(shù)據(jù)見表6.1，試建立體質(zhì)指數(shù)與患心血管病概率的logistic回歸模型。【解】根據(jù)題目知道是一元邏輯斯蒂回歸問題。運(yùn)用統(tǒng)計(jì)軟件可以對(duì)參數(shù)進(jìn)行估計(jì)得到：于是logit模型為：,Logistic回歸模型,由得到的模型可知，患病概率為：當(dāng)體質(zhì)指數(shù)BMI變化1單位時(shí)，對(duì)數(shù)優(yōu)勢(shì)比將增加0.2570，優(yōu)勢(shì)比將增加即：,含有名義數(shù)據(jù)的logit,前例中的協(xié)變量為定量數(shù)據(jù)，

5、logistic回歸模型的協(xié)變量可以是定性名義數(shù)據(jù)。這就需要對(duì)名義數(shù)據(jù)進(jìn)行賦值。通常某個(gè)名義數(shù)據(jù)有k個(gè)狀態(tài)，則定義個(gè)變量代表前面的k-1狀態(tài)，最后令k-1變量均為0或-1來代表第k個(gè)狀態(tài)。如婚姻狀況有四種狀態(tài)：未婚、有配偶、喪偶和離婚，則可以定義三個(gè)指示變量M1、M2、M3，用(1,0,0)、 (0,1,0) 、(0,0,1) 、(0,0,0)或(-1,-1,-1)來對(duì)以上四種狀態(tài)賦值。,含有名義數(shù)據(jù)的logit,例：某地25歲及以上人中各類婚姻狀況居民的死亡情況見表6.2，試建立死亡率關(guān)于年齡和婚姻狀況的logit模型。其中，A表示年齡，M1、M2、M3表示婚姻狀況于是，估計(jì)的lo

6、git方程為：,含有有序數(shù)據(jù)的logit,Logit模型的協(xié)變量也可以是有序數(shù)據(jù) 對(duì)有序數(shù)據(jù)的賦值可以按順序用數(shù)0,1,2,3,4分別表示【例5.8】某地某年各類文化程度的死亡人數(shù)見表5.33，試建立logit模型。建立死亡率關(guān)于年齡和文化程度的logit模型其中A為年齡，E為文化程度,含有有序數(shù)據(jù)的logit,于是，估計(jì)的logit方程為：其中，年齡的系數(shù)0.124，說明年齡越大死亡率會(huì)越高；文化程度的系數(shù)-0.164，說明文化程度與死亡率呈負(fù)相關(guān)，文化程度越高，死亡率越低。,Logistic回歸的推斷,效應(yīng)的置信區(qū)間指的是參數(shù)的置信區(qū)間估計(jì) 一般可以采用的區(qū)間形式通過上述區(qū)

7、間端點(diǎn)的指數(shù)變換得到的區(qū)間，它是每增加1個(gè)單位對(duì)優(yōu)勢(shì)的乘積效應(yīng) 當(dāng)n很小或擬合概率趨近0或1時(shí)，可以采用似然比檢驗(yàn)來構(gòu)造區(qū)間，該區(qū)間包含所有使原假設(shè)成立的可能值通?？梢越柚浖玫竭@種區(qū)間,Logistic回歸的推斷,參數(shù)顯著性檢驗(yàn) 指的是參數(shù)的顯著性檢驗(yàn) 原假設(shè)為：檢驗(yàn)統(tǒng)計(jì)量為：同樣可以采用似然比檢驗(yàn)，甚至功效更好。該檢驗(yàn)統(tǒng)計(jì)量比較了在時(shí)對(duì)數(shù)似然函數(shù)的極大值和不限定時(shí)對(duì)數(shù)似然函數(shù)的極大值。該檢驗(yàn)統(tǒng)計(jì)量為： ,在原假設(shè)下服從df=1的大樣本卡方分布。可以借助軟件得到該統(tǒng)計(jì)量的值。,Logistic回歸的推斷,概率的置信區(qū)間在確定的值下，P(Y=1)的logistic回

8、歸估計(jì)為軟件會(huì)在給出上述估計(jì)的同時(shí)，給出真實(shí)概率的置信區(qū)間。模型估計(jì)概率的優(yōu)點(diǎn) 可以利用樣本數(shù)據(jù)進(jìn)行概率的估計(jì) 但模型估計(jì)的概率比樣本比例好得多，估計(jì)精度更高，因?yàn)樗昧怂袛?shù)據(jù)，不僅是x確定值處的數(shù)據(jù)。,Logistic回歸的推斷,模型的檢驗(yàn) 比較特定模型與更復(fù)雜模型更復(fù)雜模型可以包括非線性效應(yīng)，比如二次項(xiàng)；有多個(gè)預(yù)測(cè)變量時(shí)可以考慮交互作用。如果更復(fù)雜模型并不擬合得更好，說明所選模型是充分的。擬合優(yōu)度檢驗(yàn) 運(yùn)用觀測(cè)值和擬合值來構(gòu)造偏差統(tǒng)計(jì)量，形式為：卡方的df應(yīng)等于觀測(cè)的組數(shù)與模型參數(shù)的差，較小的統(tǒng)計(jì)量的值和較大的P-值說明模型擬合不錯(cuò)。當(dāng)至多只有幾個(gè)解釋變量且這些解釋變量為屬

9、性變量，并且所有的單元頻數(shù)不少于5時(shí)，以上統(tǒng)計(jì)量近似服從卡方分布。,Logistic回歸的推斷,殘差分析當(dāng)預(yù)測(cè)變量為屬性變量，可以利用殘差來比較觀測(cè)頻數(shù)和擬合頻數(shù)，這需要在分組數(shù)據(jù)下進(jìn)行。則比較觀測(cè)值與擬合值的皮爾遜殘差為：在皮爾遜殘差基礎(chǔ)上，還有標(biāo)準(zhǔn)化殘差，形式為：，它的絕對(duì)值比皮爾遜殘差的絕對(duì)值更大，近似服從標(biāo)準(zhǔn)正態(tài)分布，故常用。標(biāo)準(zhǔn)化殘差的絕對(duì)值大于2或3，說明擬合不好；,多項(xiàng)logit模型,前面討論的logit模型為二分?jǐn)?shù)據(jù)的情況，有時(shí)候響應(yīng)變量有可能取三個(gè)或更多值，即多類別的屬性變量。根據(jù)響應(yīng)變量類型的不同，分兩種情況：響應(yīng)變量為定性名義變量；響應(yīng)變量為定性有序變量；

10、當(dāng)名義響應(yīng)變量有多個(gè)類別時(shí)，多項(xiàng)logit模型應(yīng)采取把每個(gè)類別與一個(gè)基線類別配成對(duì)，通常取最后一類為參照，稱為基線-類別logit.,多項(xiàng)logit模型,預(yù)測(cè)變量為x的基線-類別logit模型為：模型共有J-1個(gè)方程，每個(gè)方程有不同的參數(shù)，這些效應(yīng)依據(jù)與基線配對(duì)的類別而變化；軟件可以同時(shí)擬合模型中的所有方程；不管哪個(gè)類別作為基線，對(duì)于同一對(duì)類別都會(huì)有相同的參數(shù)估計(jì)；即基線類別的選擇是任意的；,多項(xiàng)logit模型,【例6.4】研究三個(gè)學(xué)校、兩個(gè)課程計(jì)劃對(duì)學(xué)生偏好何種學(xué)習(xí)方式的影響。調(diào)查數(shù)據(jù)見表6.9: 其中，三個(gè)學(xué)校對(duì)應(yīng)兩個(gè)啞變量x1和x2，兩個(gè)課程計(jì)劃為常規(guī)(x3=1)和附加(x3=0)

11、，學(xué)習(xí)方式分為：自修(y=1)、小組(y=2)、上課(y=3) 從題目可以看出，響應(yīng)變量是學(xué)習(xí)方式有三類，屬于多項(xiàng)邏輯斯蒂回歸問題。于是，建模為：,多項(xiàng)logit模型,應(yīng)用統(tǒng)計(jì)軟件可以得到模型的參數(shù)估計(jì)和回歸方程：然后，將x1和x3的取值代入上式，可以進(jìn)一步對(duì)三個(gè)屬性之間的關(guān)系加以分析。學(xué)校2與學(xué)校3的學(xué)生在自修與上課兩種學(xué)習(xí)方式上偏好相同；學(xué)校1比學(xué)校2和3更偏好上課(1.7270.593); 課程計(jì)劃中，常規(guī)課程與附加課程相比，常規(guī)課程學(xué)生更偏好自修；小組與上課相比，三個(gè)學(xué)校沒有差別；常規(guī)課程學(xué)生更偏好小組學(xué)習(xí)。,多項(xiàng)logit模型,當(dāng)響應(yīng)變量為定性有序變量時(shí)，多項(xiàng)logit模型的

12、處理會(huì)與名義變量有所不同。有序響應(yīng)變量的累積logit模型當(dāng)變量為有序變量時(shí)，logit可以利用這一點(diǎn)，得到比基線-類別有更簡(jiǎn)單解釋的模型； Y的累積概率是指Y落在一個(gè)特定點(diǎn)的概率，對(duì)結(jié)果為類別j時(shí)，其累積概率為：累積概率滿足：累積概率的模型并不利用最后一個(gè)概率，因?yàn)樗厝坏扔?,多項(xiàng)logit模型,累積概率的logit為: 稱為累積logit 每個(gè)累積logit均利用了所有的響應(yīng)類別【例6.5】研究性別和兩種治療方法(傳統(tǒng)療法與新療法)對(duì)某種疾病療效的影響，84個(gè)病人的數(shù)據(jù)見表6.10 由題知，療效是一個(gè)有序變量，包括顯著、較有效和無效三個(gè)值，需要建立累積logit模型。,多項(xiàng)logit模型,令p1,p2,p3分別表示療效的三種情況出現(xiàn)的概率，在對(duì)性別和療法賦值后，則累積logit模型為：其中，與基線-類別logit不同的是，參數(shù) 描述了變量對(duì)響應(yīng)變量落在類j或小于j的對(duì)數(shù)優(yōu)勢(shì)的效應(yīng)，且對(duì)所有(J-1)個(gè)累積logit都是相等的；的情況類似。以上性質(zhì)決定了在其他變量不變的情況下，每增加一個(gè)單位，響應(yīng)變量在任意給定類別下的優(yōu)勢(shì)比將為。這一相同的比例()適用于每個(gè)累積概率,稱為比例優(yōu)勢(shì)假設(shè).,多項(xiàng)logit模型,應(yīng)用統(tǒng)計(jì)軟件，可以得到以上模型的參數(shù)估計(jì)和回歸方程：統(tǒng)計(jì)分析結(jié)論如下

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第6章邏輯斯蒂回歸模型.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第6章邏輯斯蒂回歸模型.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔