版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
關(guān)于線性回歸計算方法及公式第1頁,共35頁,2023年,2月20日,星期五多元線性回歸多元線性回歸是簡單線性回歸的直接推廣,其包含一個因變量和二個或二個以上的自變量。簡單線性回歸是研究一個因變量(Y)和一個自變量(X)之間數(shù)量上相互依存的線性關(guān)系。而多元線性回歸是研究一個因變量(Y)和多個自變量(Xi)之間數(shù)量上相互依存的線性關(guān)系。簡單線性回歸的大部分內(nèi)容可用于多元回歸,因其基本概念是一樣的。第2頁,共35頁,2023年,2月20日,星期五內(nèi)容安排多元線性回歸模型與參數(shù)估計回歸方程和偏回歸系數(shù)的假設(shè)檢驗標準化偏回歸系數(shù)和確定系數(shù)多元回歸分析中的若干問題回歸分析中自變量的選擇多元線性回歸分析的作用第3頁,共35頁,2023年,2月20日,星期五多元線性回歸模型與參數(shù)估計
設(shè)有自變量x1,x2,…,xp和因變量Y以及一份由n個個體構(gòu)成的隨機樣本(x1i,x2i,…,xpi,,,Yi),且有如下關(guān)系:
y=B0+B1x1+B2x2+…+Bpxp+
(模型)
B0、B1、B2和Bp為待估參數(shù),為殘差。由一組樣本數(shù)據(jù),可求出等估參數(shù)的估計值b0、b1、b2和bp,,得到如下回歸方程:
?i=b0+b1x1+b2x2+…+bpxp
由此可見,建立回歸方程的過程就是對回歸模型中的參數(shù)(常數(shù)項和偏回歸系數(shù))進行估計的過程。第4頁,共35頁,2023年,2月20日,星期五參數(shù)的最小二乘估計與簡單回歸類似,我們尋求參數(shù)B0、B1、B2和Bp的適宜估計數(shù)值b0、b1、b2和bp,,使實際觀察值和回歸方程估計值之間殘差平方和最小,即Q=
(yi
-?i)2
=(yi
-b0-b1x1i-b2x2i-…-bpxpi)2
對b0、b1…、bp分別求偏導(dǎo)數(shù),今偏導(dǎo)數(shù)為零可獲得P+1個正規(guī)方程,求解正規(guī)方程可得待估參數(shù)值。第5頁,共35頁,2023年,2月20日,星期五回歸方程和偏回歸系數(shù)的假設(shè)檢驗回歸方程的假設(shè)檢驗:
建立回歸方程后,須分析應(yīng)變量Y與這p個自變量之間是否確有線性回歸關(guān)系,可用F分析。
H0:B1=B2=….=Bp=0H1:H0不正確=0.05F=MS回歸
/MS誤差
MS回歸
=SS回歸/pSS回歸=bjLjy(j=1,2….,P)MS誤差=SS誤差/(n-p-1)SS誤差為殘差平方和第6頁,共35頁,2023年,2月20日,星期五偏回歸系數(shù)的假設(shè)檢驗
回歸方程的假設(shè)檢驗若拒絕H0,則可分別對每一個偏回歸系數(shù)bj作統(tǒng)計檢驗,實質(zhì)是考察在固定其它變量后,該變量對應(yīng)變量Y的影響有無顯著性。
H0:Bj=0H1:Bj不為零=0.05F=(Xj的偏回歸平方和/1)
/MS誤差
Xj的偏回歸平方和:去Xj后回歸平方和的減少量若H0成立,可把Xj從回歸方程中剔除,余下變量重新構(gòu)建新的方程。第7頁,共35頁,2023年,2月20日,星期五標準化偏回歸系數(shù)和確定系數(shù)標準化偏回歸系數(shù):在比較各自變量對應(yīng)變量相對貢獻大小時,由于各自變量的單位不同,不能直接用偏回歸系數(shù)的大小作比較,須用標準化偏回歸系數(shù)。
bj′=bj(sj/sy)
第8頁,共35頁,2023年,2月20日,星期五確定系數(shù):
簡記為R2,即回歸平方和SS回歸與總離均差平方和SS總的比例。
R2=SS回歸/SS總
可用來定量評價在Y的總變異中,由P個X變量建立的線性回歸方程所能解釋的比例。第9頁,共35頁,2023年,2月20日,星期五回歸分析中的若干問題
資料要求:總體服從多元正態(tài)分布。但實際工作中分類變量也做分析。n足夠大,至少應(yīng)是自變量個數(shù)的5倍分類變量在回歸分析中的處理方法有序分類:治療效果:x=0(無效)x=1(有效)x=2(控制)
無序分類:有k類,則用k-1變量(偽變量)第10頁,共35頁,2023年,2月20日,星期五如職業(yè),分四類可用三個偽變量:
y1y2y3
工人100
農(nóng)民010
干部001
學(xué)生000第11頁,共35頁,2023年,2月20日,星期五多元線性回歸方程的評價
評價回歸方程的優(yōu)劣、好壞可用確定系數(shù)R2和剩余標準差Sy,x1,2..p。
Sy,x1,2.p=SQRT(SS誤差/n-p-1)如用于預(yù)測,重要的是組外回代結(jié)果。第12頁,共35頁,2023年,2月20日,星期五回歸方程中自變量的選擇多元線性回歸方程中并非自變量越多越好,原因是自變量越多剩余標準差可能變大;同時也增加收集資料的難度。故需尋求“最佳”回歸方程,逐步回歸分析是尋求“較佳”回歸方程的一種方法。第13頁,共35頁,2023年,2月20日,星期五選擇變量的統(tǒng)計學(xué)標準R2最大
R2=SS回歸/SS總adjR2最大:
adjR2=1-MS誤差/MS總Cp值最小
Cp=(n-p-1)(MS誤差.p/MS誤差.全部-1)+(p+1)第14頁,共35頁,2023年,2月20日,星期五選擇變量的方法最優(yōu)子集回歸分析法:
p個變量有2p-1個方程逐步回歸分析向前引入法(forwardselection)向后剔除法(backwardselection)逐步引入-剔除法(stepwiseselection)H0:K個自變量為好H1:K+1個自變量為好第15頁,共35頁,2023年,2月20日,星期五向前引入法(forwardselection)
自變量由少到多一個一個引入回歸方程。將corr(y,xj)最大而又能拒絕H0者,最先引入方程,余此類推。至不能再拒絕H0為止。第16頁,共35頁,2023年,2月20日,星期五向后剔除法(backwardselection)
自變量先全部選入方程,每次剔除一個使上述檢驗最不能拒絕H0者,直到不能剔除為止。第17頁,共35頁,2023年,2月20日,星期五逐步引入-剔除法(stepwiseselection)
先規(guī)定兩個閥值F引入和F剔除,當(dāng)候選變量中最大F值>=F引入時,引入相應(yīng)變量;已進入方程的變量最小F<=F剔除時,剔除相應(yīng)變量。如此交替進行直到無引入和無剔除為止。(計算復(fù)雜)第18頁,共35頁,2023年,2月20日,星期五多元線性回歸方程的作用因素分析調(diào)整混雜因素的作用統(tǒng)計預(yù)測第19頁,共35頁,2023年,2月20日,星期五例:測量16名四歲男孩心臟縱徑X1(CM)、心臟橫徑X2(CM)和心象面積Y(CM2)三項指標,得如下數(shù)據(jù)。試作象面積Y對心臟縱徑X1、心臟橫徑X2多元線性回歸分析。例:某科研協(xié)作組調(diào)查山西某煤礦2期高血壓病患者40例,資料如下表,試進行影響煤礦工人2期高血壓病病人收縮壓的多元線性回歸分析。第20頁,共35頁,2023年,2月20日,星期五Logistic回歸
第21頁,共35頁,2023年,2月20日,星期五
多元回歸分析可用來分析多個自變量與一個因變量的關(guān)系,模型中因變量Y是邊連續(xù)性隨機變量,并要求呈正態(tài)分布。但在醫(yī)學(xué)研究中,常碰到因變量的取值僅有兩個,如藥物實驗中,動物出現(xiàn)死亡或生存,死亡概率與藥物劑量有關(guān)。設(shè)P表示死亡概率,X表示藥物劑量,P和X的關(guān)系顯然不能用一般線性回歸模型P=B0+B1X來表示。這時可用Logistic回歸分析。第22頁,共35頁,2023年,2月20日,星期五內(nèi)容安排Logistic回歸模型模型參數(shù)的意義Logistic回歸模型的參數(shù)估計Logistic回歸方程的假設(shè)檢驗Logistic回歸模型中自變量的篩選Logistic回歸的應(yīng)用
第23頁,共35頁,2023年,2月20日,星期五Logistic回歸模型先引入Logistic分布函數(shù),表達式為:
F(x)=ex/(1+ex)
X的取值在正負無窮大之間;F(x)則在0-1之間取值,并呈單調(diào)上升S型曲線。人們正是利用Logistic分布函數(shù)這一特征,將其應(yīng)用到臨床醫(yī)學(xué)和流行病學(xué)中來描述事件發(fā)生的概率。第24頁,共35頁,2023年,2月20日,星期五
以因變量D=1表示死亡,D=0表示生存,以P(D=1/X)表示暴露于藥物劑量X的動物死亡的概率,設(shè)
P(D=1/X)=eBo+BX/(1+eBo+BX)記Logit(P)=ln[p/(1-p)],則上式可表示為:
Logit(P)=Bo+BX
這里X的取值仍是任意的,Logit(P)的值亦在正負無窮大之間,概率P的數(shù)值則必然在0-1之間。p/(1-p)為事件的優(yōu)勢,Logit(P)為對數(shù)優(yōu)勢,故logistic回歸又稱對數(shù)優(yōu)勢線性回歸第25頁,共35頁,2023年,2月20日,星期五
一般地,設(shè)某事件D發(fā)生(D=1)的概率P依賴于多個自變量(x1,x2,…,xp),且
P(D=1)=eBo+B1X1+…+BpXp/(1+eBo+B1X1+…+BpXp)
或
Logit(P)=Bo+B1X1+…+BpXp則稱該事件發(fā)生的概率與變量間關(guān)系符合多元Logistic回歸或?qū)?shù)優(yōu)勢線性回歸。第26頁,共35頁,2023年,2月20日,星期五
logistic回歸模型參數(shù)的意義
優(yōu)勢比(oddsratio,OR):暴露人群發(fā)病優(yōu)勢與非暴露人群發(fā)病優(yōu)勢之比。
P(1)/[1-p(1)]OR=———————P(0)/[1-p(0)]Ln(oR)=logit[p(1)]-logit[p(0)]=(B0+B×1)-(B0+B×0)=B
可見B是暴露劑量增加一個單位所引起的對數(shù)優(yōu)勢的增量,或單位暴露劑量與零劑量死亡優(yōu)勢比的對數(shù)。eB就是兩劑量死亡優(yōu)勢比。常數(shù)項B0是所有變量X等于零時事件發(fā)生優(yōu)勢的對數(shù)。第27頁,共35頁,2023年,2月20日,星期五Logistic回歸的參數(shù)估計Logistic回歸模型的參數(shù)估計常用最大似然法,最大似然法的基本思想是先建立似然函數(shù)或?qū)?shù)似然函數(shù),似然函數(shù)或?qū)?shù)似然函數(shù)達到極大時參數(shù)的取值,即為參數(shù)的最大似然估計值。其步驟為對對數(shù)似然函數(shù)中的待估參數(shù)分別求一階偏導(dǎo)數(shù),令其為0得一方程組,然后求解。由于似然函數(shù)的偏導(dǎo)數(shù)為非線性函數(shù),參數(shù)估計需用非線性方程組的數(shù)值法求解。常用的數(shù)值法為Newton-Raphson法。不同研究的設(shè)計方案不同,其似然函數(shù)的構(gòu)造略有差別,故Logistic回歸有非條件Logistic回歸與條件Logistic回歸兩種。第28頁,共35頁,2023年,2月20日,星期五Logistic回歸的假設(shè)檢驗1、擬合優(yōu)度檢驗:目的是檢驗?zāi)P凸烙嬛蹬c實際觀察值的符合程度。SAS程序提供了下列統(tǒng)計量。A、AIC和SC:對同一份資料,在模型比較中,這兩個越小,表明模型越合適。B、-2LogL:用于檢驗全部自變量(協(xié)變量)的聯(lián)合作用。如顯著,表明全部協(xié)變量的聯(lián)合作用顯著;如不顯著,表明全部協(xié)變量的聯(lián)合作用不大,可予忽視。C、Score:用于檢驗全部協(xié)變量聯(lián)合作用的顯著性,但不包截距項。第29頁,共35頁,2023年,2月20日,星期五2、偏回歸系數(shù)的顯著性檢驗:目的是檢驗回歸模型中自變量的系數(shù)是否為零,等價于總體優(yōu)勢比OR是否為零。
H0:B等于零H1:B不等于零A、wald檢驗:B、Scoretest:C、likelihoodratiotest(waldchi-squaretest):第30頁,共35頁,2023年,2月20日,星期五回歸模型中自變量的篩選
和多元線性回歸分析一樣,在Logistic回歸分析中也須對自變量進行篩選。方法和多元線性回歸中采用的方法一樣,有向后剔除法、向前引入法及逐步篩選法三種。篩選自變量的方法有wald檢驗、Scoretest、likelihoodratiotest(waldchi-squaretest)三種。第31頁,共35頁,2023年,2月20日,星期五Logistic回歸的應(yīng)用篩選危險因素校正混雜因素預(yù)測與判別第32頁,共35頁,2023年,2月20日,星期五例1:在飲酒與食道癌的成組病例對照研究中,共有200例食道癌患者和774例非食道癌對照,年齡是混雜因素,按年齡分層后資料如下:
age對象(1=病例0=對照)飲酒不飲酒合計OR25—3411010910611535---4414595.0502616419045----5412521465.6702913816755---64142
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專業(yè)人才2024年薪金聘用協(xié)議書版
- 二零二五版冷鏈物流車輛貨物運輸安全協(xié)議2篇
- 二零二五年藝術(shù)品搬運運輸服務(wù)合同3篇
- 二零二五版數(shù)字經(jīng)濟產(chǎn)業(yè)發(fā)展合同范本2篇
- 2024施工合同匯集
- 二零二五年度鋼板租賃與節(jié)能減排服務(wù)協(xié)議3篇
- 個性化旅游顧問服務(wù)協(xié)議2024版版A版
- 2024版產(chǎn)品銷售協(xié)議6篇
- 二零二五年度高科技產(chǎn)業(yè)合伙人分家協(xié)議書3篇
- 二零二五年度智能工廠安全生產(chǎn)服務(wù)外包合同2篇
- 《用銳角三角函數(shù)解決問題(3)》參考課件
- 房地產(chǎn)營銷策劃 -佛山龍灣壹號學(xué)區(qū)房項目推廣策略提案方案
- 產(chǎn)品共同研發(fā)合作協(xié)議范本5篇
- 風(fēng)水學(xué)的基礎(chǔ)知識培訓(xùn)
- 吸入療法在呼吸康復(fù)應(yīng)用中的中國專家共識2022版
- 1-35kV電纜技術(shù)參數(shù)表
- 信息科技課程標準測(2022版)考試題庫及答案
- 施工組織設(shè)計方案針對性、完整性
- 2002版干部履歷表(貴州省)
- DL∕T 1909-2018 -48V電力通信直流電源系統(tǒng)技術(shù)規(guī)范
評論
0/150
提交評論