




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第六章 邏輯斯蒂回歸,Logistic回歸模型,對(duì)列聯(lián)表的分析,獨(dú)立性檢驗(yàn)可以初步了解屬性之間是否相互獨(dú)立,或是否相關(guān);通過列聯(lián)表的相合性檢驗(yàn),可以進(jìn)一步知道屬性之間的相合情況,包括方向和程度; Logistic模型可以更進(jìn)一步擬合屬性變量之間的函數(shù)關(guān)系,以描述變量之間的相互影響。 列聯(lián)表中的數(shù)據(jù)是以概率的形式把屬性變量聯(lián)系起來的,而概率p的取值在0與1之間,因此,要把 概率 與 之間直接建立起函數(shù)關(guān)系是不合適的。即,Logistic回歸模型,實(shí)踐中, 通常隨著 連續(xù)增長(zhǎng)或連續(xù)下降,其直觀的曲線形態(tài)是S型。,一般有這種形狀的數(shù)學(xué)函數(shù) 有以下形式: 稱作logistic回歸函數(shù)。 把以上函數(shù)線性
2、化可以得到:,Logistic回歸模型,因此,人們通常把p的某個(gè)函數(shù)f(p)假設(shè)為變量的函數(shù)形式,取 稱之為logit函數(shù),也叫邏輯斯蒂變換。 因此,邏輯斯蒂變換是取列聯(lián)表中優(yōu)勢(shì)的對(duì)數(shù)。當(dāng)概率在0-1取值時(shí),Logit可以取任意實(shí)數(shù),避免了線性概率模型的結(jié)構(gòu)缺陷。 類似的處理還有probit變換和雙對(duì)數(shù)變換。 其中probit變換是將概率變換為標(biāo)準(zhǔn)正態(tài)分布的 值,形式為:,Logistic回歸模型,雙對(duì)數(shù)變換的形式為: 以上變換中以logit變換應(yīng)最為廣泛。 假設(shè)響應(yīng)變量Y是二分變量,令 ,影響Y的因素有k個(gè) ,則稱: 為二分?jǐn)?shù)據(jù)的邏輯斯蒂回歸模型,簡(jiǎn)稱邏輯斯蒂回歸模型。其中的k個(gè)因素稱為邏輯
3、斯蒂回歸模型的協(xié)變量。,Logistic回歸模型,最重要的邏輯斯蒂回歸模型是logistic線性回歸模型,多元logit模型的形式為: 其中, 是待估參數(shù)。根據(jù)上式可以得到優(yōu)勢(shì)的值: 可以看出,參數(shù) 是控制其它 時(shí) 每增加一個(gè)單位對(duì)優(yōu)勢(shì)產(chǎn)生的乘積效應(yīng)。 概率p的值:,Logistic回歸模型,最簡(jiǎn)單的logit線性模型為: 則優(yōu)勢(shì)為: 以上指數(shù)關(guān)系說明: 每增加1個(gè)單位,優(yōu)勢(shì)變?yōu)樵瓉淼?倍; 此時(shí)的概率應(yīng)為:,Logistic回歸模型,多元logistic模型參數(shù)的估計(jì) 采用極大似然估計(jì)方法 假設(shè)n次觀測(cè)中,對(duì)應(yīng) 的觀測(cè)有 個(gè),其中觀測(cè)值為1的有 個(gè),觀測(cè)值為0的有 個(gè),則參數(shù) 的似然函數(shù):
4、可以使用迭代法求出參數(shù)的ML估計(jì) 由于計(jì)算的復(fù)雜性,可以利用統(tǒng)計(jì)軟件得到。,Logistic回歸模型,【例6.1】一般認(rèn)為,體質(zhì)指數(shù)越大(BMI25),表示某人越肥胖。根據(jù)3983人的體檢結(jié)果有388人肥胖,肥胖組中患心血管病的數(shù)據(jù)見表6.1,試建立體質(zhì)指數(shù)與患心血管病概率的logistic回歸模型。 【解】根據(jù)題目知道是一元邏輯斯蒂回歸問題。運(yùn)用統(tǒng)計(jì)軟件可以對(duì)參數(shù)進(jìn)行估計(jì)得到: 于是logit模型為:,Logistic回歸模型,由得到的模型可知, 患病概率為: 當(dāng)體質(zhì)指數(shù)BMI變化1單位時(shí),對(duì)數(shù)優(yōu)勢(shì)比將增加0.2570,優(yōu)勢(shì)比將增加 即:,含有名義數(shù)據(jù)的logit,前例中的協(xié)變量為定量數(shù)據(jù),
5、logistic回歸模型的協(xié)變量可以是定性名義數(shù)據(jù)。這就需要對(duì)名義數(shù)據(jù)進(jìn)行賦值。 通常某個(gè)名義數(shù)據(jù)有k個(gè)狀態(tài),則定義個(gè)變量 代表前面的k-1狀態(tài),最后令k-1變量均為0或-1來代表第k個(gè)狀態(tài)。 如婚姻狀況有四種狀態(tài):未婚、有配偶、喪偶和離婚,則可以定義三個(gè)指示變量M1、M2、M3,用(1,0,0)、 (0,1,0) 、(0,0,1) 、(0,0,0)或(-1,-1,-1)來對(duì)以上四種狀態(tài)賦值。,含有名義數(shù)據(jù)的logit,例:某地25歲及以上人中各類婚姻狀況居民的死亡情況見表6.2,試建立死亡率關(guān)于年齡和婚姻狀況的logit模型。 其中,A表示年齡,M1、M2、M3表示婚姻狀況 于是,估計(jì)的lo
6、git方程為:,含有有序數(shù)據(jù)的logit,Logit模型的協(xié)變量也可以是有序數(shù)據(jù) 對(duì)有序數(shù)據(jù)的賦值可以按順序用數(shù)0,1,2,3,4分別表示 【例5.8】某地某年各類文化程度的死亡人數(shù)見表5.33,試建立logit模型。 建立死亡率關(guān)于年齡和文化程度的logit模型 其中A為年齡,E為文化程度,含有有序數(shù)據(jù)的logit,于是,估計(jì)的logit方程為: 其中,年齡的系數(shù)0.124,說明年齡越大死亡率會(huì)越高; 文化程度的系數(shù)-0.164,說明文化程度與死亡率呈負(fù)相關(guān),文化程度越高,死亡率越低。,Logistic回歸的推斷,效應(yīng)的置信區(qū)間 指的是參數(shù)的置信區(qū)間估計(jì) 一般可以采用 的區(qū)間形式 通過上述區(qū)
7、間端點(diǎn)的指數(shù)變換得到 的區(qū)間,它是 每增加1個(gè)單位對(duì)優(yōu)勢(shì)的乘積效應(yīng) 當(dāng)n很小或擬合概率趨近0或1時(shí),可以采用似然比檢驗(yàn)來構(gòu)造區(qū)間,該區(qū)間包含所有使原假設(shè)成立的可能值 通??梢越柚浖玫竭@種區(qū)間,Logistic回歸的推斷,參數(shù)顯著性檢驗(yàn) 指的是參數(shù)的顯著性檢驗(yàn) 原假設(shè)為: 檢驗(yàn)統(tǒng)計(jì)量為: 同樣可以采用似然比檢驗(yàn),甚至功效更好。該檢驗(yàn)統(tǒng)計(jì)量比較了在 時(shí)對(duì)數(shù)似然函數(shù)的極大值 和不限定 時(shí)對(duì)數(shù)似然函數(shù)的極大值 。 該檢驗(yàn)統(tǒng)計(jì)量為: ,在原假設(shè)下服從df=1的大樣本卡方分布。 可以借助軟件得到該統(tǒng)計(jì)量的值。,Logistic回歸的推斷,概率的置信區(qū)間 在確定的 值下,P(Y=1)的logistic回
8、歸估計(jì)為 軟件會(huì)在給出上述估計(jì)的同時(shí),給出真實(shí)概率的置信區(qū)間。 模型估計(jì)概率的優(yōu)點(diǎn) 可以利用樣本數(shù)據(jù)進(jìn)行概率的估計(jì) 但模型估計(jì)的概率比樣本比例好得多,估計(jì)精度更高,因?yàn)樗昧怂袛?shù)據(jù),不僅是x確定值處的數(shù)據(jù)。,Logistic回歸的推斷,模型的檢驗(yàn) 比較特定模型與更復(fù)雜模型 更復(fù)雜模型可以包括非線性效應(yīng),比如二次項(xiàng);有多個(gè)預(yù)測(cè)變量時(shí)可以考慮交互作用。如果更復(fù)雜模型并不擬合得更好,說明所選模型是充分的。 擬合優(yōu)度檢驗(yàn) 運(yùn)用觀測(cè)值和擬合值來構(gòu)造偏差統(tǒng)計(jì)量,形式為: 卡方的df應(yīng)等于觀測(cè)的組數(shù)與模型參數(shù)的差,較小的統(tǒng)計(jì)量的值和較大的P-值說明模型擬合不錯(cuò)。 當(dāng)至多只有幾個(gè)解釋變量且這些解釋變量為屬
9、性變量,并且所有的單元頻數(shù)不少于5時(shí),以上統(tǒng)計(jì)量近似服從卡方分布。,Logistic回歸的推斷,殘差分析 當(dāng)預(yù)測(cè)變量為屬性變量,可以利用殘差來比較觀測(cè)頻數(shù)和擬合頻數(shù),這需要在分組數(shù)據(jù)下進(jìn)行。則比較觀測(cè)值與擬合值的皮爾遜殘差為: 在皮爾遜殘差基礎(chǔ)上,還有標(biāo)準(zhǔn)化殘差,形式為: ,它的絕對(duì)值比皮爾遜殘差的絕對(duì)值更大,近似服從標(biāo)準(zhǔn)正態(tài)分布,故常用。 標(biāo)準(zhǔn)化殘差的絕對(duì)值大于2或3,說明擬合不好;,多項(xiàng)logit模型,前面討論的logit模型為二分?jǐn)?shù)據(jù)的情況,有時(shí)候響應(yīng)變量有可能取三個(gè)或更多值,即多類別的屬性變量。 根據(jù)響應(yīng)變量類型的不同,分兩種情況: 響應(yīng)變量為定性名義變量; 響應(yīng)變量為定性有序變量;
10、當(dāng)名義響應(yīng)變量有多個(gè)類別時(shí),多項(xiàng)logit模型應(yīng)采取把每個(gè)類別與一個(gè)基線類別配成對(duì),通常取最后一類為參照,稱為基線-類別logit.,多項(xiàng)logit模型,預(yù)測(cè)變量為x的基線-類別logit模型為: 模型共有J-1個(gè)方程,每個(gè)方程有不同的參數(shù),這些效應(yīng)依據(jù)與基線配對(duì)的類別而變化; 軟件可以同時(shí)擬合模型中的所有方程; 不管哪個(gè)類別作為基線,對(duì)于同一對(duì)類別都會(huì)有相同的參數(shù)估計(jì);即基線類別的選擇是任意的;,多項(xiàng)logit模型,【例6.4】研究三個(gè)學(xué)校、兩個(gè)課程計(jì)劃對(duì)學(xué)生偏好何種學(xué)習(xí)方式的影響。調(diào)查數(shù)據(jù)見表6.9: 其中,三個(gè)學(xué)校對(duì)應(yīng)兩個(gè)啞變量x1和x2,兩個(gè)課程計(jì)劃為常規(guī)(x3=1)和附加(x3=0)
11、,學(xué)習(xí)方式分為:自修(y=1)、小組(y=2)、上課(y=3) 從題目可以看出,響應(yīng)變量是學(xué)習(xí)方式有三類,屬于多項(xiàng)邏輯斯蒂回歸問題。于是,建模為:,多項(xiàng)logit模型,應(yīng)用統(tǒng)計(jì)軟件可以得到模型的參數(shù)估計(jì)和回歸方程: 然后,將x1和x3的取值代入上式,可以進(jìn)一步對(duì)三個(gè)屬性之間的關(guān)系加以分析。 學(xué)校2與學(xué)校3的學(xué)生在自修與上課兩種學(xué)習(xí)方式上偏好相同; 學(xué)校1比學(xué)校2和3更偏好上課(1.7270.593); 課程計(jì)劃中,常規(guī)課程與附加課程相比,常規(guī)課程學(xué)生更偏好自修; 小組與上課相比,三個(gè)學(xué)校沒有差別;常規(guī)課程學(xué)生更偏好小組學(xué)習(xí)。,多項(xiàng)logit模型,當(dāng)響應(yīng)變量為定性有序變量時(shí),多項(xiàng)logit模型的
12、處理會(huì)與名義變量有所不同。 有序響應(yīng)變量的累積logit模型 當(dāng)變量為有序變量時(shí),logit可以利用這一點(diǎn),得到比基線-類別有更簡(jiǎn)單解釋的模型; Y的累積概率是指Y落在一個(gè)特定點(diǎn)的概率,對(duì)結(jié)果為類別j時(shí),其累積概率為: 累積概率滿足: 累積概率的模型并不利用最后一個(gè)概率,因?yàn)樗厝坏扔?,多項(xiàng)logit模型,累積概率的logit為: 稱為累積logit 每個(gè)累積logit均利用了所有的響應(yīng)類別 【例6.5】研究性別和兩種治療方法(傳統(tǒng)療法與新療法)對(duì)某種疾病療效的影響,84個(gè)病人的數(shù)據(jù)見表6.10 由題知,療效是一個(gè)有序變量,包括顯著、較有效和無效三個(gè)值,需要建立累積logit模型。,多項(xiàng)logit模型,令p1,p2,p3分別表示療效的三種情況出現(xiàn)的概率,在對(duì)性別和療法賦值后,則累積logit模型為: 其中,與基線-類別logit不同的是,參數(shù) 描述了變量 對(duì)響應(yīng)變量落在類j或小于j的對(duì)數(shù)優(yōu)勢(shì)的效應(yīng),且對(duì)所有(J-1)個(gè)累積logit都是相等的; 的情況類似。 以上性質(zhì)決定了在其他變量不變的情況下, 每增加一個(gè)單位,響應(yīng)變量在任意給定類別下的優(yōu)勢(shì)比將為 。 這一相同的比例()適用于每個(gè)累積概率,稱為比例優(yōu)勢(shì)假設(shè).,多項(xiàng)logit模型,應(yīng)用統(tǒng)計(jì)軟件,可以得到以上模型的參數(shù)估計(jì)和回歸方程: 統(tǒng)計(jì)分析結(jié)論如下
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 淮陰師范學(xué)院《數(shù)據(jù)統(tǒng)計(jì)分析與spss應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 商丘學(xué)院《司法社會(huì)調(diào)查理論與方法》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南第一師范學(xué)院《世界近代史專題》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江育英職業(yè)技術(shù)學(xué)院《特殊兒童心理學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 做賬實(shí)操-駕校教練人工成本的核算
- 2024-2025學(xué)年河南省名校大聯(lián)考高二上學(xué)期階段性測(cè)試(二)歷史試卷
- 大連工業(yè)大學(xué)《產(chǎn)品色彩設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 電子科技大學(xué)中山學(xué)院《建筑裝飾材料》2023-2024學(xué)年第二學(xué)期期末試卷
- 洛陽理工學(xué)院《工商管理類專業(yè)導(dǎo)論》2023-2024學(xué)年第二學(xué)期期末試卷
- 渭南職業(yè)技術(shù)學(xué)院《醫(yī)學(xué)網(wǎng)站開發(fā)》2023-2024學(xué)年第二學(xué)期期末試卷
- 第二十一章會(huì)陰部美容手術(shù)講解
- 2024年金華金開招商招才服務(wù)集團(tuán)有限公司招聘筆試真題
- 2025年度iPhone手機(jī)租賃與虛擬現(xiàn)實(shí)體驗(yàn)合同3篇
- 2025年度消防工程安全防護(hù)措施設(shè)計(jì)固定總價(jià)合同范本3篇
- 蘇北四市(徐州、宿遷、淮安、連云港)2025屆高三第一次調(diào)研考試(一模)語文試卷(含答案)
- 食品企業(yè)危機(jī)管理應(yīng)對(duì)方案
- 2024年濟(jì)南廣播電視臺(tái)招聘工作人員筆試真題
- 2025年臨床醫(yī)師定期考核必考復(fù)習(xí)題庫(kù)及答案(1060題)
- 市場(chǎng)消防安全課件
- 名師工作室建設(shè)課件
- 腹膜透析管理標(biāo)準(zhǔn)操作規(guī)程
評(píng)論
0/150
提交評(píng)論