版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、關(guān)于線性回歸計(jì)算方法及公式第一張,PPT共三十五頁,創(chuàng)作于2022年6月多元線性回歸多元線性回歸是簡單線性回歸的直接推廣,其包含一個(gè)因變量和二個(gè)或二個(gè)以上的自變量。簡單線性回歸是研究一個(gè)因變量(Y)和一個(gè)自變量(X)之間數(shù)量上相互依存的線性關(guān)系。而多元線性回歸是研究一個(gè)因變量(Y)和多個(gè)自變量(Xi)之間數(shù)量上相互依存的線性關(guān)系。簡單線性回歸的大部分內(nèi)容可用于多元回歸,因其基本概念是一樣的。第二張,PPT共三十五頁,創(chuàng)作于2022年6月內(nèi)容安排多元線性回歸模型與參數(shù)估計(jì)回歸方程和偏回歸系數(shù)的假設(shè)檢驗(yàn)標(biāo)準(zhǔn)化偏回歸系數(shù)和確定系數(shù)多元回歸分析中的若干問題回歸分析中自變量的選擇多元線性回歸分析的作用第
2、三張,PPT共三十五頁,創(chuàng)作于2022年6月多元線性回歸模型與參數(shù)估計(jì)設(shè)有自變量x1,x2,xp和因變量Y以及一份由n個(gè)個(gè)體構(gòu)成的隨機(jī)樣本(x1i,x2i,xpi,,Yi),且有如下關(guān)系: y =B0+B1x1+B2x2+Bp xp+ (模型) B0、B1、B2和Bp為待估參數(shù), 為殘差。由一組樣本數(shù)據(jù),可求出等估參數(shù)的估計(jì)值b0、b1、b2和bp,,得到如下回歸方程: i =b0+b1x1+b2x2+bp xp 由此可見,建立回歸方程的過程就是對回歸模型中的參數(shù)(常數(shù)項(xiàng)和偏回歸系數(shù))進(jìn)行估計(jì)的過程。第四張,PPT共三十五頁,創(chuàng)作于2022年6月參數(shù)的最小二乘估計(jì)與簡單回歸類似,我們尋求參數(shù)B
3、0、B1、B2和Bp的適宜估計(jì)數(shù)值b0、b1、b2和bp,,使實(shí)際觀察值和回歸方程估計(jì)值之間殘差平方和最小, 即 Q (yi i) 2 = (yi b0b1x1ib2x2ibp xp i) 2 對b0、b1、bp分別求偏導(dǎo)數(shù),今偏導(dǎo)數(shù)為零可獲得P1個(gè)正規(guī)方程,求解正規(guī)方程可得待估參數(shù)值。第五張,PPT共三十五頁,創(chuàng)作于2022年6月回歸方程和偏回歸系數(shù)的假設(shè)檢驗(yàn)回歸方程的假設(shè)檢驗(yàn): 建立回歸方程后,須分析應(yīng)變量Y與這p個(gè)自變量之間是否確有線性回歸關(guān)系,可用F分析。 H0: B1B2.=Bp=0 H1: H0不正確 0.05 F MS回歸 / MS誤差 MS回歸 SS回歸p SS回歸 = bjL
4、jy ( j =1,2.,P)MS誤差 SS誤差(n-p-1) SS誤差為殘差平方和 第六張,PPT共三十五頁,創(chuàng)作于2022年6月偏回歸系數(shù)的假設(shè)檢驗(yàn) 回歸方程的假設(shè)檢驗(yàn)若拒絕H0,則可分別對每一個(gè)偏回歸系數(shù)bj作統(tǒng)計(jì)檢驗(yàn),實(shí)質(zhì)是考察在固定其它變量后,該變量對應(yīng)變量 Y 的影響有無顯著性。 H0: Bj=0 H1: Bj不為零 0.05 F (Xj 的偏回歸平方和1) / MS誤差 Xj 的偏回歸平方和:去Xj后回歸平方和的減少量 若H0成立,可把Xj從回歸方程中剔除,余下變量重新構(gòu)建新的方程。第七張,PPT共三十五頁,創(chuàng)作于2022年6月標(biāo)準(zhǔn)化偏回歸系數(shù)和確定系數(shù)標(biāo)準(zhǔn)化偏回歸系數(shù): 在比較
5、各自變量對應(yīng)變量相對貢獻(xiàn)大小時(shí),由于各自變量的單位不同,不能直接用偏回歸系數(shù)的大小作比較,須用標(biāo)準(zhǔn)化偏回歸系數(shù)。 bj = bj (sj / sy) 第八張,PPT共三十五頁,創(chuàng)作于2022年6月確定系數(shù): 簡記為R2,即回歸平方和SS回歸與總離均差平方和SS總的比例。 R2 SS回歸 SS總 可用來定量評價(jià)在Y的總變異中,由P個(gè)X變量建立的線性回歸方程所能解釋的比例。第九張,PPT共三十五頁,創(chuàng)作于2022年6月回歸分析中的若干問題資料要求:總體服從多元正態(tài)分布。但實(shí)際工作中分類變量也做分析。n足夠大,至少應(yīng)是自變量個(gè)數(shù)的5倍分類變量在回歸分析中的處理方法 有序分類:治療效果:x=0(無效
6、) x=1(有效) x=2(控制) 無序分類: 有k類,則用k1變量(偽變量)第十張,PPT共三十五頁,創(chuàng)作于2022年6月如職業(yè),分四類可用三個(gè)偽變量: y1 y2 y3 工人 1 0 0 農(nóng)民 0 1 0 干部 0 0 1 學(xué)生 0 0 0第十一張,PPT共三十五頁,創(chuàng)作于2022年6月多元線性回歸方程的評價(jià) 評價(jià)回歸方程的優(yōu)劣、好壞可用確定系數(shù)R2和剩余標(biāo)準(zhǔn)差Sy,x1,2.p 。 Sy,x1,2. p SQRT(SS誤差n-p-1) 如用于預(yù)測,重要的是組外回代結(jié)果。第十二張,PPT共三十五頁,創(chuàng)作于2022年6月回歸方程中自變量的選擇多元線性回歸方程中并非自變量越多越好,原因是自變量
7、越多剩余標(biāo)準(zhǔn)差可能變大;同時(shí)也增加收集資料的難度。故需尋求“最佳”回歸方程,逐步回歸分析是尋求“較佳”回歸方程的一種方法。第十三張,PPT共三十五頁,創(chuàng)作于2022年6月選擇變量的統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)R2最大 R2 SS回歸 SS總adjR2最大: adjR21MS誤差/ MS總Cp值最小 Cp(n-p-1)(MS誤差.p/MS誤差.全部1)(p+1)第十四張,PPT共三十五頁,創(chuàng)作于2022年6月選擇變量的方法最優(yōu)子集回歸分析法: p個(gè)變量有2p1個(gè)方程逐步回歸分析向前引入法(forward selection)向后剔除法(backward selection)逐步引入剔除法(stepwise sel
8、ection)H0:K個(gè)自變 量為好 H1:K1個(gè)自變量為好第十五張,PPT共三十五頁,創(chuàng)作于2022年6月向前引入法(forward selection) 自變量由少到多一個(gè)一個(gè)引入回歸方程。將 corr(y , xj)最大而又能拒絕H0者,最先引入方程,余此類推。至不能再拒絕H0為止。第十六張,PPT共三十五頁,創(chuàng)作于2022年6月向后剔除法(backward selection) 自變量先全部選入方程,每次剔除一個(gè)使上述檢驗(yàn)最不能拒絕H0者,直到不能剔除為止。第十七張,PPT共三十五頁,創(chuàng)作于2022年6月逐步引入剔除法(stepwise selection) 先規(guī)定兩個(gè)閥值F引入和F剔
9、除,當(dāng)候選變量中最大F值F引入時(shí),引入相應(yīng)變量;已進(jìn)入方程的變量最小FF剔除時(shí),剔除相應(yīng)變量。如此交替進(jìn)行直到無引入和無剔除為止。(計(jì)算復(fù)雜)第十八張,PPT共三十五頁,創(chuàng)作于2022年6月多元線性回歸方程的作用因素分析 調(diào)整混雜因素的作用統(tǒng)計(jì)預(yù)測第十九張,PPT共三十五頁,創(chuàng)作于2022年6月例:測量16名四歲男孩心臟縱徑X1(CM)、心臟橫徑X2(CM)和心象面積Y(CM2)三項(xiàng)指標(biāo),得如下數(shù)據(jù)。試作象面積Y對心臟縱徑X1、心臟橫徑X2多元線性回歸分析。例:某科研協(xié)作組調(diào)查山西某煤礦2期高血壓病患者40例,資料如下表,試進(jìn)行影響煤礦工人2期高血壓病病人收縮壓的多元線性回歸分析。第二十張,P
10、PT共三十五頁,創(chuàng)作于2022年6月Logistic回歸第二十一張,PPT共三十五頁,創(chuàng)作于2022年6月 多元回歸分析可用來分析多個(gè)自變量與一個(gè)因變量的關(guān)系,模型中因變量Y是邊連續(xù)性隨機(jī)變量,并要求呈正態(tài)分布。但在醫(yī)學(xué)研究中,常碰到因變量的取值僅有兩個(gè),如藥物實(shí)驗(yàn)中,動(dòng)物出現(xiàn)死亡或生存,死亡概率與藥物劑量有關(guān)。設(shè)P表示死亡概率,X表示藥物劑量,P和X的關(guān)系顯然不能用一般線性回歸模型PB0B1X來表示。這時(shí)可用Logistic回歸分析。第二十二張,PPT共三十五頁,創(chuàng)作于2022年6月內(nèi)容安排Logistic回歸模型模型參數(shù)的意義Logistic回歸模型的參數(shù)估計(jì)Logistic回歸方程的假設(shè)
11、檢驗(yàn)Logistic回歸模型中自變量的篩選Logistic回歸的應(yīng)用 第二十三張,PPT共三十五頁,創(chuàng)作于2022年6月Logistic回歸模型先引入Logistic分布函數(shù),表達(dá)式為: F(x) = ex / ( 1+ex ) X的取值在正負(fù)無窮大之間;F(x)則在01之間取值,并呈單調(diào)上升S型曲線。人們正是利用Logistic分布函數(shù)這一特征,將其應(yīng)用到臨床醫(yī)學(xué)和流行病學(xué)中來描述事件發(fā)生的概率。第二十四張,PPT共三十五頁,創(chuàng)作于2022年6月 以因變量D1表示死亡,D0表示生存,以P(D1X)表示暴露于藥物劑量X的動(dòng)物死亡的概率,設(shè) P(D1X)e Bo+BX /(1+e Bo+BX )
12、記Logit(P)=lnp/(1-p),則上式可表示為: Logit(P) Bo+BX 這里X的取值仍是任意的, Logit(P)的值亦在正負(fù)無窮大之間,概率P的數(shù)值則必然在01之間。 p/(1-p)為事件的優(yōu)勢, Logit(P)為對數(shù)優(yōu)勢,故logistic回歸又稱對數(shù)優(yōu)勢線性回歸第二十五張,PPT共三十五頁,創(chuàng)作于2022年6月 一般地,設(shè)某事件D發(fā)生(D1)的概率P依賴于多個(gè)自變量(x1,x2, ,xp),且 P(D1)e Bo+B1X1+BpXp /(1+e Bo+B1X1+BpXp ) 或 Logit(P) Bo+B1X1+Bp X p則稱該事件發(fā)生的概率與變量間關(guān)系符合多元Log
13、istic回歸或?qū)?shù)優(yōu)勢線性回歸。第二十六張,PPT共三十五頁,創(chuàng)作于2022年6月 logistic回歸模型參數(shù)的意義 優(yōu)勢比(odds ratio, OR):暴露人群發(fā)病優(yōu)勢與非暴露人群發(fā)病優(yōu)勢之比。 P(1) / 1-p(1) OR= P(0) / 1-p(0) Ln(oR)=logitp(1)-logitp(0)=(B0+B1) (B0+B0)=B 可見B是暴露劑量增加一個(gè)單位所引起的對數(shù)優(yōu)勢的增量,或單位暴露劑量與零劑量死亡優(yōu)勢比的對數(shù)。eB就是兩劑量死亡優(yōu)勢比。常數(shù)項(xiàng)B0是所有變量X等于零時(shí)事件發(fā)生優(yōu)勢的對數(shù)。第二十七張,PPT共三十五頁,創(chuàng)作于2022年6月Logistic回歸的
14、參數(shù)估計(jì)Logistic回歸模型的參數(shù)估計(jì)常用最大似然法,最大似然法的基本思想是先建立似然函數(shù)或?qū)?shù)似然函數(shù),似然函數(shù)或?qū)?shù)似然函數(shù)達(dá)到極大時(shí)參數(shù)的取值,即為參數(shù)的最大似然估計(jì)值。其步驟為對對數(shù)似然函數(shù)中的待估參數(shù)分別求一階偏導(dǎo)數(shù),令其為0得一方程組,然后求解。由于似然函數(shù)的偏導(dǎo)數(shù)為非線性函數(shù),參數(shù)估計(jì)需用非線性方程組的數(shù)值法求解。常用的數(shù)值法為Newton-Raphson法。不同研究的設(shè)計(jì)方案不同,其似然函數(shù)的構(gòu)造略有差別,故Logistic回歸有非條件Logistic回歸與條件Logistic回歸兩種。第二十八張,PPT共三十五頁,創(chuàng)作于2022年6月Logistic回歸的假設(shè)檢驗(yàn)1、擬合
15、優(yōu)度檢驗(yàn):目的是檢驗(yàn)?zāi)P凸烙?jì)值與實(shí)際觀察值的符合程度。SAS程序提供了下列統(tǒng)計(jì)量。A、AIC和SC:對同一份資料,在模型比較中,這兩個(gè)越小,表明模型越合適。B、2LogL:用于檢驗(yàn)全部自變量(協(xié)變量)的聯(lián)合作用。如顯著,表明全部協(xié)變量的聯(lián)合作用顯著;如不顯著,表明全部協(xié)變量的聯(lián)合作用不大,可予忽視。C、Score:用于檢驗(yàn)全部協(xié)變量聯(lián)合作用的顯著性,但不包截距項(xiàng)。第二十九張,PPT共三十五頁,創(chuàng)作于2022年6月2、偏回歸系數(shù)的顯著性檢驗(yàn):目的是檢驗(yàn)回歸模型中自變量的系數(shù)是否為零,等價(jià)于總體優(yōu)勢比OR是否為零。 H0:B等于零 H1:B不等于零A、wald檢驗(yàn):B、Score test:C、l
16、ikelihood ratio test(wald chi-square test):第三十張,PPT共三十五頁,創(chuàng)作于2022年6月回歸模型中自變量的篩選 和多元線性回歸分析一樣,在Logistic回歸分析中也須對自變量進(jìn)行篩選。方法和多元線性回歸中采用的方法一樣,有向后剔除法、向前引入法及逐步篩選法三種。篩選自變量的方法有wald檢驗(yàn)、Score test、likelihood ratio test(wald chi-square test)三種。第三十一張,PPT共三十五頁,創(chuàng)作于2022年6月Logistic 回歸的應(yīng)用篩選危險(xiǎn)因素校正混雜因素預(yù)測與判別第三十二張,PPT共三十五頁,創(chuàng)作于2022年6月例1:在飲酒與食道癌的成組病例對照研究中,共有200例食道癌患者和774例非食道癌對照,年齡是混雜因素,按年齡分層后資料如下: age 對象(1=病例 0=對照) 飲酒 不飲酒 合計(jì) OR 2534 1 1 0 1 0 9 106 115 35-44 1 4 5 9 5.05 0 26 164 19045-54 1 25 21 46 5.67 0 29 138 16755-64 1 42 34 76 6.36 0 27 138 16565-74 1 19 36 55 2.58 0 18 88 10675- 1 5 8
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度木結(jié)構(gòu)建筑設(shè)計(jì)與施工總承包合同8篇
- 國際貿(mào)易課件:WTO的反傾銷制度
- 2025年度數(shù)據(jù)中心承建與信息安全防護(hù)合同4篇
- 二零二五年度LED顯示屏產(chǎn)品安全認(rèn)證合同3篇
- 2025版環(huán)保設(shè)施運(yùn)營維護(hù)管理承包合同范本4篇
- 2025年度木材市場風(fēng)險(xiǎn)管理與價(jià)格波動(dòng)合同4篇
- 二零二五年度養(yǎng)老產(chǎn)業(yè)項(xiàng)目合伙人分紅及服務(wù)質(zhì)量保障合同
- 二零二五年度池塘水域漁業(yè)養(yǎng)殖技術(shù)培訓(xùn)與推廣協(xié)議
- 2025年度企業(yè)銷售團(tuán)隊(duì)績效目標(biāo)協(xié)議書
- 二零二五年度順豐快遞員勞動(dòng)合同爭議解決機(jī)制
- 2024生態(tài)環(huán)境相關(guān)法律法規(guī)考試試題
- 有砟軌道施工工藝課件
- 兩辦意見八硬措施煤礦安全生產(chǎn)條例宣貫學(xué)習(xí)課件
- 40篇短文搞定高中英語3500單詞
- 人教版高中數(shù)學(xué)必修二《第九章 統(tǒng)計(jì)》同步練習(xí)及答案解析
- 兒科護(hù)理安全警示教育課件
- 三年級下冊口算天天100題
- 國家中英文名稱及代碼縮寫(三位)
- 人員密集場所消防安全培訓(xùn)
- 液晶高壓芯片去保護(hù)方法
- 拜太歲科儀文檔
評論
0/150
提交評論