版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第十講定類或定序因變量回歸分析第1頁,共28頁,2023年,2月20日,星期二當(dāng)因變量是一個定類變量而不是定距變量時,線性回歸模型受到挑戰(zhàn)。如政治學(xué)中研究是否選舉某候選人,經(jīng)濟(jì)學(xué)研究中涉及的是否銷售或購買某種商品,社會學(xué)和人口學(xué)研究中所涉及的如犯罪、遷移、婚姻、生育、患病等等都可以按照二分類變量或多分類來測量。
一、問題的提出第2頁,共28頁,2023年,2月20日,星期二在研究態(tài)度與偏好等心理現(xiàn)象時也經(jīng)常按類型進(jìn)行測量的,如“強(qiáng)烈反對”、“反對”、“中立”、“支持”、和“強(qiáng)烈支持”。連續(xù)變量轉(zhuǎn)換成類型變量的情形,如在分析升學(xué)考試的影響因素時,將考生分為錄取線以上和錄取線以下。第3頁,共28頁,2023年,2月20日,星期二
從統(tǒng)計理論上看,最小二乘法關(guān)注正態(tài)分布,然而社會經(jīng)濟(jì)現(xiàn)象往往有不同于正態(tài)分布的其他分布,例如:(1)二項分布(binomialdistribution)(2)泊松分布(Poisson)第4頁,共28頁,2023年,2月20日,星期二
二、線性概率模型1、模型建立以最小二乘法為基礎(chǔ)的線性回歸方程是估測因變量的平均值,而二分變量的均值有一個特定的意義,即概率。用普通線性回歸方程估測概率,就是所謂的線性概率回歸。用公式表示為:P=a+∑βiXi+ε
對二項分布線性概率模型的結(jié)果解釋:在其他變量不變的情形下,x每增加一個單位,事件發(fā)生概率的期望將變動β個單位。
第5頁,共28頁,2023年,2月20日,星期二例如,林楠和謝文(1988)曾用線性概率模型估測入黨(政治資本)的概率,模型為:P=-0.39+0.01A+0.04E+0.03U
其中:P—黨員概率,A—年齡,E—受教育年限,U—單位身份第6頁,共28頁,2023年,2月20日,星期二1)無意義的解釋從解釋力上看,由于概率的值是有邊界的,在0與1之間。但林楠方程很有可能要超過該限制,因變量的估計值可能是負(fù)數(shù),也可能大于1,因此模型的結(jié)果是無意義的。例如,運用林楠方程,我們發(fā)現(xiàn)如果年齡為100歲,受教育程度超過10年,則入黨的概率約等于1。2)非線性關(guān)系2、線性概率模型存在的問題第7頁,共28頁,2023年,2月20日,星期二
三、簡單對數(shù)比率回歸
1、模型建立既然用線性概率回歸存在局限性,能否用比率做因變量呢?比如用男女比率作因變量,用成功與不成功之比做因變量。用比率做因變量存在的問題是,比率是非對稱的.第8頁,共28頁,2023年,2月20日,星期二表1概率、比率和對數(shù)比率概率0.010.100.200.300.400.500.600.700.800.900.99比率0.010.110.250.430.671.001.502.334.009.0099對數(shù)比率-4.60-2.20-1.39-0.85-0.410.000.410.851.392.204.60第9頁,共28頁,2023年,2月20日,星期二
一個簡單的解決辦法就是取對數(shù),結(jié)果就是所謂對數(shù)比率(logit)。若用P代表某事件的概率,則對數(shù)比率函數(shù)的定義為g(P)=log(P/1-P)以對數(shù)比率為因變量對自變量X1,X2,X3……做回歸稱為對數(shù)比率回歸(logisticregression),其方程式為:
第10頁,共28頁,2023年,2月20日,星期二
該模型即為logit回歸模型。logit回歸模型是普通多元線性回歸模型的推廣,但它的誤差項服從二項分布,因此需要采用極大似然估計方法進(jìn)行參數(shù)估計,參數(shù)稱為logit回歸系數(shù),表示當(dāng)其他自變量取值保持不變時,該自變量取值增加一個單位引起的發(fā)生比自然對數(shù)值的變化量。第11頁,共28頁,2023年,2月20日,星期二2、發(fā)生比
發(fā)生比是事件的發(fā)生頻數(shù)與不發(fā)生頻數(shù)之間的比,即:Odds=(事件發(fā)生頻數(shù))/(事件不發(fā)生頻數(shù))
當(dāng)比值大于1時,表明事件更有可能發(fā)生。比如一個事件發(fā)生的概率為0.6,事件不發(fā)生的概率為0.4,發(fā)生比等于0.6/0.4=1.5。事件發(fā)生的可能性是不發(fā)生的1.5倍。第12頁,共28頁,2023年,2月20日,星期二四、logistic回歸模型的檢驗與評價1、Logistic回歸模型估計的假設(shè)前提第一、數(shù)據(jù)來自于隨機(jī)樣本。第二、因變量Yi被假設(shè)為K個自變量Xk(k=1,2,…,K)的函數(shù)。第三、正如OLS回歸,logistic回歸也對多重共線性有所限制,自變量之間存在多重共線性會導(dǎo)致標(biāo)準(zhǔn)誤的膨脹。
Logistic回歸模型還有一些與OLS回歸不同的假設(shè)前提:第一,因變量是二分變量;第二,因變量和各自變量之間的關(guān)系是非線性的。第13頁,共28頁,2023年,2月20日,星期二2、擬合優(yōu)度檢驗
如果模型的預(yù)測值能夠與對應(yīng)的觀測值有較高的一致性,就認(rèn)為這一模型能夠擬合數(shù)據(jù)。否則需要對模型重新設(shè)置。因此,模型的擬合優(yōu)度是指預(yù)測值與觀測值的匹配程度。檢驗擬合優(yōu)度的指標(biāo)有皮爾遜卡方檢驗、對數(shù)似然比卡方檢驗等。第14頁,共28頁,2023年,2月20日,星期二1)皮爾遜卡方檢驗皮爾遜卡方檢驗主要用于檢驗殘差項的大小。計算公式:其中yi是觀察值(0或1),pi是估算值的概率,i=1,2…n,分母是估算值的標(biāo)準(zhǔn)差,自由度為n-J-1,其中J為自變量數(shù)目。第15頁,共28頁,2023年,2月20日,星期二2)Hosmer-Lemeshow擬合優(yōu)度檢驗該方法通常適用于自變量很多,或自變量為連續(xù)變量的情形。HL方法根據(jù)預(yù)測概率的大小將所有觀察單位十等分,然后根據(jù)每一組中因變量的實際值與理論值計算Peason卡方,其統(tǒng)計量為:其中G代表分組數(shù),且G10;ng為第g組中的觀測值數(shù);yg第g組事件的觀測數(shù)量;pg為第g組的預(yù)測事件概率;ngpg為事件的預(yù)測值,實際上它等于第g組的觀測概率和。第16頁,共28頁,2023年,2月20日,星期二3)對數(shù)似然比卡方檢驗對數(shù)似然比是用較復(fù)雜模型與基本模型進(jìn)行比較。通常將似然取對數(shù)并乘以-2,即-2logL,簡稱對數(shù)似然。基本模型以獨立模型表示:
用L0表示獨立模型的似然,L1表示非獨立模型的似然,那么對數(shù)似然比定義為:遵循卡方分布,其自由度為非獨立模型的自變量數(shù)目,可用于檢驗復(fù)雜模型中自變量對似然率的增加是否顯著,越大越好。第17頁,共28頁,2023年,2月20日,星期二3、logit模型回歸系數(shù)的假設(shè)檢驗設(shè)原假設(shè)H0為:βk=0,表示自變量對事件發(fā)生的可能性無影響;如果原假設(shè)被拒絕,說明自變量對事件發(fā)生的可能性有影響。Wald檢驗在logit模型中,對回歸系數(shù)進(jìn)行顯著性檢驗,通常使用Wald檢驗,其計算公式為:
Wald統(tǒng)計量實際上就是正態(tài)分布Z統(tǒng)計量的平方。在零假設(shè)條件下,每一個回歸系數(shù)都等于0。Wald統(tǒng)計量服從卡方分布,其自由度為n-k-1。第18頁,共28頁,2023年,2月20日,星期二五、模型解釋
由于logit模型是非線性的,因此不能以傳統(tǒng)回歸模型中自變量與因變量之間的關(guān)系解釋之。通常以發(fā)生比率來解釋logit回歸系數(shù)。
第19頁,共28頁,2023年,2月20日,星期二六、多項對數(shù)比率回歸
我們研究的現(xiàn)象常是多分類的,如職業(yè)的選擇等,這時需要用多項對數(shù)比率回歸處理。多項對數(shù)比率回歸是簡單對數(shù)比率回歸的擴(kuò)展,由一組對數(shù)比率方程組成。常用的做法是基準(zhǔn)類比法,即先選出基準(zhǔn)類,然后將它的概率與其它各類的概率進(jìn)行對比。假如要研究一個或一組自變量X如何影響人們對J類職業(yè)選擇,用P1,P2……Pj表示各類職業(yè)的概率,那么多項對數(shù)比率回歸就可表示為:第20頁,共28頁,2023年,2月20日,星期二
需要注意的是:1)就系數(shù)解釋和檢驗而言,多項對數(shù)比率回歸和簡單對數(shù)比率回歸相同。2)方程組在統(tǒng)計上不獨立,必須同時估算,不可一一求解。第21頁,共28頁,2023年,2月20日,星期二SPSS上的應(yīng)用:1)Analyze—Regression—MultinomialLogistic2)Dependent——用于選入無序多分類的因變量3)Factor——用于選入分類自變量,可以是有序或無序多分類,系統(tǒng)會自動生成虛擬變量。4)Covariates——用于選入連續(xù)型的自變量。選擇系統(tǒng)默認(rèn)值,點擊OK鈕,運行所選命令5)結(jié)果解釋數(shù)據(jù)匯總與模型的似然比檢驗。擬合優(yōu)度檢驗(Pearson,Deviance檢驗)。參數(shù)估計結(jié)果。第22頁,共28頁,2023年,2月20日,星期二七、定序變量對數(shù)比率
當(dāng)因變量是定序變量,變量值之間具有高低之分時,在設(shè)計logit模型時,就應(yīng)考慮到其中所包含的信息。通常有三種處理方法:鄰類比、升級比和累進(jìn)比。1、鄰類比鄰類比是將所有相鄰兩類的概率兩兩相比,如果變量含有J個有序類別,就可得到J-1個不重復(fù)對數(shù)比率方程。假如用P1,P2……Pj表示一個定序變量由低到高各級類別的概率,設(shè)X是一個或一組自變量,那么對數(shù)鄰類比回歸就是:
第23頁,共28頁,2023年,2月20日,星期二
對于定序變量,常常假設(shè)升級的作用是一樣的,即在方程組中,各個方程的斜率項是相同的,β1=β2=……=βj-1,上式可表示為:第24頁,共28頁,2023年,2月20日,星期二2、升級比
用P1,P2,……Pj表示一定序變量由低到高各級類別的概率,那么對數(shù)升級比回歸就是:第25頁,共28頁,2023年,2月20日,星期二
例如升學(xué)率的研究。將學(xué)校依等級高低分為小學(xué)、初中、高中和大學(xué)四類。初中升高中的比率不僅是初中畢業(yè)生和高中畢業(yè)生的比率,還應(yīng)包括大學(xué)畢業(yè)生,因為他們也完成了初中到高中的升級過程。升級比在統(tǒng)計上是各自獨立的,因而可以對照簡單對數(shù)比率回歸一一估算。加總各獨立升級比率回歸的對數(shù)似然比和自由度,即總模型的對數(shù)似然比和自由度。第26頁,共28頁,2023年,2月20日,星期二對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年婚禮目的地協(xié)議
- 2025版教育機(jī)構(gòu)場地租賃及課程合作合同4篇
- 2025年銷售團(tuán)隊業(yè)績擔(dān)保合同范本3篇
- 2025年度文化中心租賃承包合同3篇
- 二零二五年車隊加油與車輛智能交通系統(tǒng)合作協(xié)議3篇
- 二零二五年度商務(wù)門面出租正規(guī)合同范本
- 2025年度礦泉水品牌形象代言人合作協(xié)議
- 2025年度環(huán)保型煤場租賃及技術(shù)服務(wù)合同
- 2025年度酒店整體租賃知識產(chǎn)權(quán)保護(hù)合同
- 2025年度企業(yè)設(shè)備購置貸款抵押合同書樣本3篇
- 無人化農(nóng)場項目可行性研究報告
- 《如何存款最合算》課件
- 社區(qū)團(tuán)支部工作計劃
- 拖欠工程款上訪信范文
- 《wifi協(xié)議文庫》課件
- 中華人民共和國職業(yè)分類大典是(專業(yè)職業(yè)分類明細(xì))
- 2025年新高考語文復(fù)習(xí) 文言文速讀技巧 考情分析及備考策略
- 2024年??谑羞x調(diào)生考試(行政職業(yè)能力測驗)綜合能力測試題及答案1套
- 一年級下冊數(shù)學(xué)口算題卡打印
- 2024年中科院心理咨詢師新教材各單元考試題庫大全-下(多選題部分)
- 真人cs基于信號發(fā)射的激光武器設(shè)計
評論
0/150
提交評論