統(tǒng)計(jì)學(xué)教案習(xí)題11多元線性回歸與logistic回歸_第1頁
統(tǒng)計(jì)學(xué)教案習(xí)題11多元線性回歸與logistic回歸_第2頁
統(tǒng)計(jì)學(xué)教案習(xí)題11多元線性回歸與logistic回歸_第3頁
統(tǒng)計(jì)學(xué)教案習(xí)題11多元線性回歸與logistic回歸_第4頁
統(tǒng)計(jì)學(xué)教案習(xí)題11多元線性回歸與logistic回歸_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第十一章多元線性回歸與logistic回歸、教學(xué)大綱要求(一)掌握內(nèi)容1 .多元線性回歸分析的概念:多元線性回歸、偏回歸系數(shù)、殘差。2 .多元線性回歸的分析步驟:多元線性回歸中偏回歸系數(shù)及常數(shù)項(xiàng)的求法、多元線性回歸的應(yīng)用。3 .多元線性回歸分析中的假設(shè)檢驗(yàn):建立假設(shè)、計(jì)算檢驗(yàn)統(tǒng)計(jì)量、確定P值下結(jié)論。4 .logistic回歸模型結(jié)構(gòu):模型結(jié)構(gòu)、發(fā)病概率比數(shù)、比數(shù)比。5 .logistic回歸參數(shù)估計(jì)方法。6 .logistic回歸篩選自變量:似然比檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式;篩選自變量的方法。(二)熟悉內(nèi)容常用統(tǒng)計(jì)軟件(SPSS及SAS)多元線性回歸分析方法:數(shù)據(jù)準(zhǔn)備、操作步驟與結(jié)果輸出。(三)了解

2、內(nèi)容標(biāo)準(zhǔn)化偏回歸系數(shù)的解釋意義。、教學(xué)內(nèi)容精要(一)多元線性回歸分析的概念將直線回歸分析方法加以推廣,用回歸方程定量地刻畫一個(gè)應(yīng)變量Y與多個(gè)自變量X間的線形依存關(guān)系,稱為多元線形回歸(multiplelinearregression),簡稱多元回歸(multipleregression)基本形式:Y?b04X1b2X2RXk式中Y?為各自變量取某定值條件下應(yīng)變量均數(shù)的估計(jì)值,X1,X2,,Xk為自變量,k為自變量個(gè)數(shù),b0為回歸方程常數(shù)項(xiàng),也稱為截距,其意義同直線回歸,b1,b2,,bk稱為偏回歸系數(shù)(partialregressioncoefficient),bj表示在除Xj以外的自變量固定

3、條件下,Xj每改變一個(gè)單位后Y的平均改變量。(二)多元線性回歸的分析步驟Y?是與一組自變量X1,X2,,Xk相對應(yīng)的變量Y的平均估計(jì)值。多元回歸方程中的回歸系數(shù)b1,b2,,bk可用最小二乘法求得,也就是求出能使估計(jì)值Y?和實(shí)際觀察值Y的殘2差平方和e2(YY)為最小值的一組回歸系數(shù)b1,b2,,bk值。根據(jù)以上要求,用數(shù)學(xué)方法可以得出求回歸系數(shù)b1,b2,,bk的下列正規(guī)方程組(normalequation):式中l(wèi)b1l11b/21b1lk1(Xi Xi)(Xj Xb2l12b?l22b21k 2XiX(Xi Xi)(Y Y)XiYbk l1kbkl 2k1y2ykyXi)( XXi)(

4、Y)常數(shù)項(xiàng)b0可用下式求出:Yb1X1b2X2bkXk(三)多元線性回歸分析中的假設(shè)檢驗(yàn)在算得各回歸系數(shù)并建立回歸方程后,還應(yīng)對此多元回歸方程作假設(shè)檢驗(yàn),判斷自變量X1,X2,,Xk是否與Y真有線性依存關(guān)系,也就是檢驗(yàn)無效假設(shè)H0(123Lk0),備選假設(shè)H1為各j值不全等于0或全不等于0。檢驗(yàn)時(shí)常用統(tǒng)計(jì)量F式中n為個(gè)體數(shù), 式中k為自變量的個(gè)數(shù)。l回歸 l誤差My1總b212yl回歸一2Y lyy(四)logistic回歸模型結(jié)構(gòu)設(shè) Xi,X2,Xk為一組自變量,用P表示發(fā)生陽性反應(yīng)的概率;用Logistic回歸模型為:同時(shí)可以寫成:MS回歸MSibklkyl回歸/ kl誤差(n k 1)Y

5、為應(yīng)變量。當(dāng)Y是陽性反應(yīng)時(shí),記為 Y=1;當(dāng)Y是陰性反應(yīng)時(shí),記為 Y=0。Q表示發(fā)生陰性反應(yīng)的概率,顯然P + Q=1。八 01X12X2kX ke- 01X12X2kXke1式中°是常數(shù)項(xiàng);j(j 1,2,L1X12X2kXk,k)是與研究因素Xj有關(guān)的參數(shù),稱為偏回歸系數(shù)。之間變化時(shí),P或Q在(0, 1)之間變化。事件發(fā)生的概率P與x之間呈曲線關(guān)系,當(dāng)x在,若有n例觀察對象,第i名觀察對象在自變量Xi1,Xi2,Xik作用下的應(yīng)變量為Yi,陽性反應(yīng)記為Yi=1,否則Yi=0。相應(yīng)地用Pi表示其發(fā)生陽性反應(yīng)的概率;用Qi表示其發(fā)生陰性反應(yīng)的概率,仍然有Pi+Qi=1oPi和Qi的計(jì)

6、算如下:-01Xi12Xi2LkXike1e01Xi12Xi2LkXikQi這樣,第i個(gè)觀察對象的發(fā)病概率比數(shù) 察對象的發(fā)病概率比數(shù)之比值便稱為比數(shù)比110 1 Xi 1 2 Xi 2 Lk Xike(odds)為P,Qi ,第l個(gè)觀察對象的發(fā)病概率比數(shù)為PjQl ,而這兩個(gè)觀OR(odds ratio)。對比數(shù)比取自然對數(shù)得到關(guān)系式:ln匕P Qi1K1X11)2 (Xi2X12)k(Xik Xlk)k ik lk等式左邊是比數(shù)比的自然對數(shù),等式右邊的XijXljj 1,2, k是同一因素Xi的不同暴露水平 Xij與Xj之差。j的流行病學(xué)意義是在其它自變量固定不變的情況下,自變量Xj的暴露水

7、平每改變一個(gè)測量單位時(shí)所引起的比數(shù)比的自然對數(shù)改變量?;蛘哒f,在其他自變量固定不變的情況下,當(dāng)自變量Xj的水平每增加一個(gè)測量單位時(shí)所引起的比數(shù)比為增加前的ej倍。同多元線性回歸一樣,在比較暴露因素對反應(yīng)變量相對貢獻(xiàn)的大小時(shí),由于各自變量的取值單位不同,也不能用偏回歸系數(shù)的大小作比較,而須用標(biāo)準(zhǔn)化偏回歸系數(shù)來做比較。標(biāo)準(zhǔn)化偏回歸系數(shù)值的大小,直接反映了其相應(yīng)的暴露因素對應(yīng)變量的相對貢獻(xiàn)的大小。標(biāo)準(zhǔn)化偏回歸系數(shù)的計(jì)算,可利用有關(guān)統(tǒng)計(jì)軟件在計(jì)算機(jī)上解決。(五)logistic回歸參數(shù)估計(jì)由于logistic回歸是一種概率模型,通常用最大似然估計(jì)法(maximumlikelihoodestimate)

8、求解模型中參數(shù)j的估計(jì)值包什1,2,L,k)oY為在Xi,X2,Xk作用下的陽性事件(或疾病)發(fā)生的指示變量。其賦值為:1,第i個(gè)觀察對象出現(xiàn)陽性反應(yīng)0,第i個(gè)觀察對象出現(xiàn)陰性反應(yīng)第i個(gè)觀察對象對似然函數(shù)的貢獻(xiàn)量為:lPYiQ1Yi1 ii3|當(dāng)各事件是獨(dú)立發(fā)生時(shí),則n個(gè)觀察對象所構(gòu)成的似然函數(shù)L是每個(gè)觀察對象的似然函數(shù)貢獻(xiàn)量的乘積,即nnLliPYiQlYi1i1式中為i從1到n的連乘積。依最大似然估計(jì)法的原理,使得L達(dá)到最大時(shí)的參數(shù)值即為所求的參數(shù)估計(jì)值,計(jì)算時(shí)通常是將該似然函數(shù)取自然對數(shù)(稱為對數(shù)似然函數(shù))后,用NewtonRaphson迭代算法求解參數(shù)估計(jì)值b(j1,2,k)。(六)l

9、ogistic回歸篩選自變量在logistic回歸中,篩選自變量的方法有似然比檢驗(yàn)(likelihoodratiotest)、計(jì)分檢驗(yàn)(scoretest)、Wald檢驗(yàn)(Waldtest)三種。其中似然比檢驗(yàn)較為常用,用A表示似然比檢驗(yàn)統(tǒng)計(jì)量,計(jì)算公式為:2lnL'L2(lnL'lnL)式中l(wèi)n為自然對數(shù)的符號,L為萬程中包含m(mk)個(gè)自變量的似然函數(shù)值,L為在方程中包含原m個(gè)自變量的基礎(chǔ)上再加入1個(gè)新自變量Xj后的似然函數(shù)值。在無效假設(shè)Ho條件下,統(tǒng)計(jì)量A服從自由度為1的2分布。當(dāng)2(i時(shí),則在水平上拒絕無效假設(shè),即認(rèn)為Xj對回歸方程的貢獻(xiàn)具有統(tǒng)計(jì)學(xué)意義,應(yīng)將Xj引入到回

10、歸方程中;否則,不應(yīng)加入。逆向進(jìn)行即可剔除自變量。三、典型試題分析(一)單項(xiàng)選擇題1 .多元線性回歸分析中,反映回歸平方和在應(yīng)變量丫的總離均差平方和中所占比重的統(tǒng)計(jì)量是()。A.復(fù)相關(guān)系數(shù)8 .偏相關(guān)系數(shù)C.偏回歸系數(shù)D.確定系數(shù)答案:D評析本題考點(diǎn):多元線性回歸中的幾個(gè)概念的理解。多元線性回歸中的偏回歸系數(shù)(multiplelinearregression)表示在其它自變量固定不變的情況下,自變量Xj每改變一個(gè)單位時(shí),單才引起應(yīng)變量丫的平均改變量。確定系數(shù)(coefficientofdetermination)表示回歸平方和S%歸占總離均差平方和SS總的比例,簡記為R2。即R2S起歸/SS、

11、。確定系數(shù)的平方根即R稱為復(fù)相關(guān)系數(shù)(multiplecorrelationcoefficient),它表示p個(gè)自變量共同對應(yīng)變量線性相關(guān)的密切程度,它不取負(fù)值,即0wRw1。2.Logistic回歸分析適用于應(yīng)變量為()。A.分類值的資料B.連續(xù)型的計(jì)量資料C.正態(tài)分布資料D.一般資料答案:A評析本題考點(diǎn):logistic回歸的概念。logistic回歸屬于概率型回歸,可用來分析某類事件發(fā)生的概率與自變量之間的關(guān)系。適用于應(yīng)變量為分類值的資料,特別適用于應(yīng)變量為二項(xiàng)分類的情形。模型中的自變量可以是定性離散值,也可以是計(jì)量觀測值。(二)計(jì)算題根據(jù)表11-2數(shù)據(jù),分別用SPSS統(tǒng)計(jì)軟件、SAS統(tǒng)

12、計(jì)軟件寫出多元線性回歸的統(tǒng)計(jì)分析步驟及其簡要結(jié)果。表11-1某學(xué)校20名一年級女大學(xué)生肺活量及有關(guān)變量測量結(jié)果編號體重X1/kg 胸圍X2/cm肩寬X3/cm 肺活量Y/L150.873.236.32.96249.084.134.53.13342.878.331.01.91455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.883.833.93.101252.688.438.03.281342.77

13、8.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.02.511951.378.236.43.152045.875.032.51.94答案:SPSS:數(shù)據(jù)文件:“EXAP112.sav"。數(shù)據(jù)格式:4列20行。過程:StatisticRegressionLinear.Dependent:YIndependent(s):X1,X2,X3Method:Enter結(jié)果:VariablesEntered/RemovedModelVariablesEnte

14、redVariablesRemovedMethod1X3(肩寬),X2(胸圍),X1(體重).EnteraAllrequestedvariablesentered.bDependentVariable:Y(肺活量)ModelSummaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.846.715.662.2893aPredictors:(Constant),X3,X2,X1ANOVAModelSumofSquaresdfMeanSquareFSig.1Regression3.36731.12213.413.000Residual1.3

15、39168.368E-02Total4.70619aPredictors:(Constant),X3,X2,X1bDependentVariable:丫CoefficientsModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)-4.6761.321-3.541.003X36.036E-02.021.4742.899.0103.508E-02.015.3332.272.037X25.010E-02.029.3071.735.102X1aDependentVariable:YSA

16、S:過程步PROC REG ;MODEL y=x1 x2 x3 ;RUN ;數(shù)據(jù)步DATAEXAP112;INPUTx1x2x3y;CARDS;50.873.236.32.9645.875.032.51.94;結(jié)果:AnalysisofVarianceParameterStandardVariableDFEstimateErrort ValuePr > |t|Intercept1-4.675531.32051-3.540.0027X110.060360.020822.900.0105X210.035080.015442.270.0372X310.050100.028881.730.102

17、0評析本題考點(diǎn):統(tǒng)計(jì)軟件關(guān)于多元線性回歸的分析方法及主要輸出結(jié)果。 根據(jù)SPSS或SAS的輸出結(jié)果,可進(jìn)行以下分析:1.檢驗(yàn)H0:1230的方差分析表。F=13.413,P=0.0001,拒絕H。,肺活量至Parameter Estimates個(gè)自變量存在線SumofMeanSourceDFSquaresSquareFValuePr>FModel33.367321.1224413.410.0001Error161.338930.08368CorrectedTotal194.70626性關(guān)系。2 .估計(jì)偏回歸系數(shù)bi,b2,b3,給出多元線性回歸方程Y4.680.06Xi0.04X20.0

18、5X3,R2=0.715,Ra2=0.662。3 .偏回歸系數(shù)檢驗(yàn),見表11-2。表11-2偏回歸系數(shù)估計(jì)值及其檢驗(yàn)偏回歸系數(shù)傳計(jì)值SEtPb0-4.6751.321-3.540.00b10.0600.0212.900.01b20.0350.0152.270.04b30.0500.0291.730.10四、習(xí)題(一)單項(xiàng)選擇題1. 可用來進(jìn)行多元線性回歸方程的配合適度檢驗(yàn)是:A.2檢驗(yàn)B.F檢驗(yàn)C.U檢驗(yàn)D.Ridit檢驗(yàn)2. 在多元回歸中,若對某個(gè)自變量的值都增加一個(gè)常數(shù),則相應(yīng)的偏回歸系數(shù):A.不變B.增加相同的常數(shù)C.減少相同的常數(shù)D.增加但數(shù)值不定3. 在多元回歸中,若對某個(gè)自變量白值

19、都乘以一個(gè)相同的常數(shù)k,則:A.該偏回歸系數(shù)不變B.該偏回歸系數(shù)變?yōu)樵瓉淼?/k倍C.所有偏回歸系數(shù)均發(fā)生改變D.該偏回歸系數(shù)改變,但數(shù)值不定4. 作多元回歸分析時(shí),若降低進(jìn)入的F界值,則進(jìn)入方程的變量一般會:A.增多B,減少C.不變D,可增多也可減少(二)名詞解釋1 .多元線性回歸2.偏回歸系數(shù)3.復(fù)相關(guān)系數(shù)4.確定系數(shù)5.比數(shù)6.比數(shù)比(三)簡答題logistic回歸模型中,偏回歸系數(shù)i的解釋意義是什么?(四)計(jì)算題某學(xué)者研究在某種營養(yǎng)缺乏狀態(tài)下兒童的體重(Y,kg)與身高(X1,cm)、年齡(X2,歲)的關(guān)系獲得了12名觀察對象的觀測資料,計(jì)算得到如下基本數(shù)據(jù):2_2_2X11611,X

20、12219631,X2106,X;976,Y341,Y29883,X1X214454,X1Y46439,X2Y3079。(1)請寫出求解Y?b0b1X1b2X2二元線性回歸方程的正規(guī)方程組。(2)設(shè)方程組的解為b02.114,b10.135,b20.923,請寫出回歸方程。(3)完成下列方差分析表。表11-312名兒童體重與身高、年齡回歸分析方差分析表vSSMSF回歸殘差總和五、習(xí)題答案要點(diǎn)(一)單項(xiàng)選擇題1 .B2.A3.B4,A(二)名詞解釋用回歸方程定量地刻畫一個(gè)應(yīng)變量Y與多個(gè)自變量X間的線性依存關(guān)系,稱為多元線性回歸(multiplelinearregression),簡稱多元回歸(multipleregression)。2 .多元線性回歸的基本形式為:Y?bobiXiMX?bkXk",b2,,bk稱為偏回歸系數(shù)(partialregressioncoefficient),bj表示在除Xj以外的自變量固定條件下,Xj每改變一個(gè)單位后Y的平均改變量。3 .復(fù)相關(guān)系數(shù)R(coefficientofmultiplecorrelation),R的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論